En el ámbito de la inteligencia artificial, el entrenamiento de modelos avanzados como el Llama 3, que posee 70 mil millones de parámetros, representa un reto considerable para la infraestructura de computación moderna. Este proceso, altamente demandante de recursos, requiere la integración de cientos o incluso miles de instancias aceleradas trabajando conjuntamente durante semanas o meses para completar una tarea. Por ejemplo, el preentrenamiento del modelo Llama 3 implicó el uso de 15 billones de tokens de entrenamiento, lo que demandó 6.5 millones de horas de GPU H100. En un sistema con 256 instancias de Amazon EC2 P5, cada una equipada con 8 GPUs NVIDIA H100, el tiempo necesario se aproximaría a 132 días.
Los entrenamientos distribuidos se observan de manera sincrónica, significando que cada paso del entrenamiento debe esperar a que todas las instancias participantes finalicen sus cálculos antes de proceder. Este método implica que cualquier fallo en una sola instancia puede detener todo el proceso. Al aumentar el tamaño del clúster, incrementa también la probabilidad de fallos debido a la mayor cantidad de componentes de hardware involucrados. Cada interrupción no solo conlleva a la pérdida de horas de GPU, sino que también requiere valiosos recursos de ingeniería para identificar y solucionar el problema, lo que eventualmente retrasa el progreso del proyecto.
La fiabilidad del sistema se mide comúnmente a través de métricas como el tiempo medio entre fallos (MTBF), que estima el tiempo promedio de operación antes de un fallo de hardware. Durante el entrenamiento de modelos a gran escala, como el OPT-175B en 992 GPUs A100 por parte de Meta AI, se registraron 35 reinicios manuales y más de 70 automáticos en dos meses, indicando una tasa de fallo de 0.0588% por hora. Similares métricas se observaron en otros proyectos, como el entrenamiento de Llama 3.1 en 16,000 GPUs H100, alcanzando 417 fallos no programados en 54 días y una tasa de fallo de aproximadamente 0.0161% por hora.
Un notable desafío surge con el incremento del tamaño del clúster: la entropía del sistema aumenta y el MTBF disminuye. Con una tasa de fallo de 0.04% por hora, un sistema compuesto por 512 instancias espera enfrentar un fallo aproximadamente cada 5 horas. La resolución de dichos fallos demanda un análisis profundo de las causas, seguido por la reparación o reemplazo del hardware y la restauración del sistema, haciendo esencial una detección rápida y tiempos de recuperación más breves.
En este contexto, Amazon SageMaker HyperPod se presenta como una robusta solución que minimiza las interrupciones y reduce los costos de entrenamiento en estos complejos entornos. La plataforma automatiza la detección y reemplazo de instancias defectuosas, permitiendo retomar el entrenamiento desde el último punto guardado, una ventaja significativa para la eficiencia operativa. Las evaluaciones sugieren que SageMaker HyperPod podría reducir el tiempo total de entrenamiento en un 32% en un clúster de 256 instancias con una tasa de fallo del 0.05%, generando ahorros cercanos a los 25 millones de dólares para proyectos que requieren 10 millones de horas de GPU.
Este enfoque permite a las empresas enfocarse más en la innovación y menos en la gestión de la infraestructura, ofreciendo a los equipos de inteligencia artificial la confianza de que cualquier fallo de hardware será gestionado automáticamente, minimizando así las interrupciones y optimizando las cargas de trabajo de aprendizaje automático.