El modelo o3 de OpenAI encuentra una vulnerabilidad 0-day en el kernel de Linux: así cambia el futuro de la investigación de seguridad

Con solo un prompt y sin herramientas externas, el modelo o3 detectó CVE-2025-37899, un fallo crítico en el módulo SMB de Linux. ¿Estamos ante una nueva era en la auditoría de código automatizada?

En un hallazgo que marca un hito en el uso de modelos de lenguaje en ciberseguridad, el investigador Sean Heelan ha revelado cómo el modelo o3 de OpenAI detectó de forma autónoma una vulnerabilidad 0-day en el kernel de Linux. El fallo, identificado como CVE-2025-37899, afecta al módulo ksmbd, que implementa el protocolo SMB3 dentro del kernel y es responsable de compartir archivos en red.

Lo más destacable no fue solo la naturaleza del bug —un use-after-free con consecuencias potenciales de ejecución remota de código en contexto kernel— sino que fue descubierto sin herramientas auxiliares, sin análisis simbólico ni motores de fuzzing, únicamente con llamadas a la API del modelo o3.

Un modelo capaz de razonar como un auditor humano

Heelan utilizó o3 para auditar el código del manejador SMB ‘logoff’, introduciendo el código relevante en el prompt con hasta 12 000 líneas, estructurado en profundidad y con una descripción del contexto de amenaza. El modelo no solo encontró un bug desconocido, sino que generó un informe técnico con una explicación clara, estructurada y comprensible, señalando el riesgo, la ruta afectada y posibles condiciones de explotación. Algo que normalmente se esperaría de un analista de seguridad humano experimentado.

“Con o3, los LLM han dado un salto real en su capacidad para razonar sobre código. No te reemplazan como investigador, pero sí pueden hacerte mucho más eficiente”, afirma Heelan en su blog.

Más que suerte: también superó a modelos competidores

En pruebas de benchmarking usando otra vulnerabilidad conocida en ksmbd (CVE-2025-37778), o3 logró detectar el fallo en 8 de 100 ejecuciones, mientras que Claude Sonnet 3.7 lo encontró solo 3 veces y Claude 3.5 ninguna. Aunque la tasa de falsos negativos sigue siendo alta, o3 demostró una mejora del 200 %–300 % respecto a modelos anteriores, consolidándose como la mejor opción actual entre LLMs para este tipo de tareas.

¿Qué tipo de vulnerabilidad encontró?

La vulnerabilidad CVE-2025-37899 consiste en una condición de carrera entre dos hilos del servidor SMB: uno ejecutando una operación de escritura, y otro que, al procesar un comando de desconexión (logoff), libera un puntero (sess->user) sin asegurarse de que no está siendo usado aún por el otro hilo. Esta falta de sincronización puede derivar en corrupción de memoria, denegación de servicio, o incluso ejecución de código malicioso en espacio de kernel.

Lo más llamativo es que ni siquiera el parche propuesto inicialmente por el propio Heelan para una vulnerabilidad anterior era suficiente. Fue el modelo o3 quien, en algunos de sus informes, sugirió que poner a NULL el puntero no bastaba si no se controlaba adecuadamente la concurrencia, evidenciando un nivel de razonamiento que va más allá de simples patrones sintácticos.

Ventajas y límites de o3 en seguridad ofensiva y defensiva

Ventajas:

  • ✅ Capacidad para detectar bugs reales, no triviales, con razonamiento de contexto.
  • Informe estructurado y claro, similar al de un analista humano.
  • ✅ Sin necesidad de configurar entornos de ejecución, compilación o testeo.
  • ✅ Puede actuar como asistente experto en revisión de código y validación de parches.

Limitaciones:

  • ⚠️ Alta tasa de falsos negativos y falsos positivos (~1 acierto por cada 50 respuestas).
  • ⚠️ Dependencia de una preparación manual del prompt y del código relevante.
  • ⚠️ No sustituye el juicio humano, especialmente para evaluar la severidad o el impacto real.
  • ⚠️ No tiene una comprensión profunda del entorno de ejecución real del sistema operativo (como lo tendría un análisis dinámico o fuzzing instrumentalizado).

¿Qué significa esto para el futuro de la seguridad?

Este caso marca un antes y un después. Por primera vez, un modelo de lenguaje ha demostrado ser capaz de:

  • Identificar fallos de seguridad inéditos en software crítico (kernel de Linux).
  • Razonar sobre concurrencia, manejo de memoria y contexto multihilo.
  • Superar a modelos previos en benchmarks específicos de seguridad.

Sin embargo, no estamos ante una herramienta autónoma infalible. Su valor está en asistir, no reemplazar. Como señala Heelan, el reto ahora está en construir herramientas que integren o3 de forma eficaz, filtrando el ruido y guiando al investigador hacia las rutas más prometedoras.


Conclusión:
Con la llegada de modelos como o3, la frontera entre análisis humano y automatizado se estrecha. No reemplazan la experiencia de un auditor experto, pero sí se están convirtiendo en potentes aliados para acelerar, enriquecer y reforzar el proceso de investigación de vulnerabilidades. Ignorarlos, en este punto, sería como ignorar los primeros compiladores: una desventaja estratégica.

CVE-2025-37899 ya cuenta con parche oficial. Se recomienda a todos los usuarios de distribuciones Linux con soporte para ksmbd aplicar las actualizaciones de seguridad de inmediato.

Fuente: blog sean.heelan.io

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio
×