Estabilidad operativa en sistemas de aprendizaje automático críticos para la misión

Las operaciones de tecnología de la información (TI) en las empresas han alcanzado un nivel notable de madurez organizativa. En un entorno donde las aplicaciones empresariales distribuidas y el middleware intensivo en datos operan bajo estrictas regulaciones, los desafíos en la estabilidad operacional persisten. Estos problemas se deben principalmente a la incapacidad de transformar la telemetría de alto volumen en resultados operativos fiables, sin depender exclusivamente de la falta de datos.

La inteligencia artificial aplicada ha provocado lo que los expertos denominan una crisis de explicabilidad. Aunque los modelos de máquina detectan anomalías y correlaciones a gran escala, a menudo no comprenden ni explican por qué se debe ejecutar una operación. La automatización opaca resulta inaceptable, especialmente en entornos estructurados, lo que lleva a las industrias a enfrentarse continuamente al dilema entre la opacidad algorítmica y las limitaciones cognitivas humanas.

Históricamente, los modelos de TI se basaban en la automatización heurística, fundamentada en reglas derivadas de ocurrencias anteriores. Aunque efectiva en sistemas predecibles, es ineficaz en operaciones dinámicas con modos de falla emergentes. Esto ha llevado al aumento del tiempo medio de resolución (MTTR) y al agotamiento por alertas, ahora vistos como problemas sistémicos.

La transformación actual implica un cambio hacia operaciones autónomas impulsadas por inteligencia artificial, un riesgo si se aplica sin la disciplina arquitectónica adecuada. Es crucial implementar un modelo de madurez gobernado que maneje la autonomía como un producto de ingeniería, no solo como una característica experimental.

Un caso destacable se dio en una organización global que adoptó iniciativas de automatización a gran escala. Sin embargo, las aplicaciones de monitoreo fragmentadas y las cargas de trabajo en la nube en etapas iniciales presentaron incidentes críticos, exponiendo riesgos regulatorios. Frente a la inestabilidad operativa y la falta de confianza en la automatización, comprendieron que la baja transparencia y las limitaciones presupuestarias afectaban negativamente sus esfuerzos.

La solución adoptada fue la implementación de un modelo de referencia para AIOps, mejorando la resolución autónoma y controlando las restricciones. Los resultados fueron significativos: más de 130,000 tickets de TI gestionados automáticamente, una reducción del 79% en el MTTR en servicios críticos, y una disminución de incidentes empresariales críticos a solo dos por mes.

En otro ejemplo, una empresa global con infraestructura heredada enfrentó desafíos debido a la fragmentación del monitoreo y cargas de trabajo manuales. Adoptaron un plan de madurez en tres etapas, desde operaciones proactivas a dinámicas, demostrando que la automatización gradual y la inteligencia pueden mejorar la disponibilidad y reducir incidentes.

En conclusión, la transformación hacia plataformas autónomas presenta un desafío en ingeniería de sistemas y gobernanza. Los modelos que integran inteligencia de máquina con supervisión humana son fundamentales para la AI de grado de producción. La experiencia sugiere que la autonomía en operaciones se logra gradualmente, fusionando AI con operación asistida por humanos, asegurando estabilidad y fortaleciendo la resiliencia en la era digital.

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio
×