Las empresas del sector financiero y otros sectores altamente regulados enfrentan desafíos significativos en la gestión de seguridad y cumplimiento normativo. Una de las herramientas más cruciales en la protección de la infraestructura tecnológica crítica es el sistema de Gestión de Accesos Privilegiados (PAM, por sus siglas en inglés). Estos sistemas no solo aseguran, sino que también gestionan y monitorean el uso de accesos privilegiados por parte de los administradores de sistemas, lo cual es esencial para cumplir con las exigencias de auditoría impuestas por las regulaciones de seguridad.
Dentro de las funcionalidades de los sistemas PAM, el registro de pulsaciones de teclas y las grabaciones de vídeo de las sesiones de consola de los servidores se destacan como herramientas imprescindibles para cumplir con las normativas. Sin embargo, la captura de pulsaciones resulta inviable en ocasiones, especialmente en sistemas operativos como Windows que operan principalmente a través de interfaces gráficas. Esta limitación obliga a los equipos de seguridad a revisar las actividades solo a través de las grabaciones de vídeo, un proceso que se vuelve inmanejable considerando que una organización financiera típica puede generar más de 100,000 horas de grabaciones al mes.
De esta cifra, si solo el 30% corresponde a servidores Windows, se requerirían aproximadamente 1,000 empleados trabajando a jornada completa únicamente para revisar estas grabaciones. Este escenario representa un obstáculo importante para la detección de anomalías de seguridad o actividades maliciosas, llevándolos a realizar controles aleatorios y comprometiendo su capacidad para identificar infracciones de seguridad en tiempo real.
La llegada de los servicios de inteligencia artificial (IA) ha transformado este panorama, revolucionando cómo se procesan, analizan y extraen insights de los contenidos de vídeo. Las técnicas avanzadas de aprendizaje automático y visión por computadora pueden facilitar funciones como la detección de objetos, el reconocimiento de actividades, y el reconocimiento de texto y audio. En este contexto, el uso de modelos de lenguaje de gran tamaño, como Claude 3 de Anthropic, ha permitido a los equipos de seguridad convertir las grabaciones en transcripciones que pueden ser analizadas para detectar anomalías.
La solución propuesta implica un flujo de trabajo en dos etapas: la transcripción de los vídeos y el análisis de seguridad de esas transcripciones. En la primera etapa, se extraen imágenes estáticas de cada segundo de grabación, ya que los modelos actuales encuentran dificultades para procesar datos visuales secuenciales de manera eficiente. Luego, las transcripciones se utilizan en la segunda etapa para llevar a cabo análisis de seguridad, como verificar el cumplimiento de las solicitudes de cambio y detectar posibles riesgos de acceso a datos sensibles o elevación de privilegios.
La implementación de este enfoque, empleando tecnologías como Amazon Bedrock y Claude 3, no solo optimiza la gestión de las grabaciones, sino que también permite a los equipos de seguridad mejorar su postura general frente a las amenazas. Con un sistema que permite el análisis eficiente de grandes volúmenes de datos visuales, las organizaciones pueden responder más ágilmente ante incidentes de seguridad y asegurar el cumplimiento normativo de sus operaciones.
Este innovador enfoque puede ser adoptado por otros sectores que busquen estrategias similares, permitiéndoles adaptar la tecnología a sus necesidades específicas y optimizar sus procesos de seguridad.