En un esfuerzo por mejorar la eficiencia en el entrenamiento de modelos de inteligencia artificial, Amazon ha presentado un innovador sistema sin puntos de control en su plataforma SageMaker HyperPod. Esta solución busca resolver las dificultades que los métodos tradicionales de recuperación, basados en puntos de control, han presentado, especialmente con modelos de gran escala que superan los billones de parámetros.
El método tradicional, que guarda estados de manera periódica y reinicia desde el último punto guardado en caso de fallos, puede ser ineficiente, dado que cada fallo puede llevar a largos periodos de inactividad. En cambio, el nuevo enfoque de Amazon permite una rápida recuperación de estado a través de pares sanos, lo cual elimina la necesidad de reinicios completos o de operaciones de almacenamiento extensas.
Estudios en entornos de producción han demostrado que el nuevo sistema puede reducir el tiempo de recuperación hasta en un 93%, llevándolo de intervalos de 15 a 30 minutos a menos de 2 minutos. Esto no solo mejora el tiempo de actividad, sino que también permite lograr un 95% de producción efectiva en clústeres con miles de aceleradores de inteligencia artificial.
El concepto de «goodput» —que mide el trabajo útil realizado frente a la capacidad teórica máxima— es clave en esta innovación. Tradicionalmente, las interrupciones y los tiempos de recuperación han afectado negativamente este parámetro, provocando pérdidas económicas significativas. Con el nuevo sistema de Amazon, se logra mejorar el «goodput», incluso en clústeres de gran escala, lo que se traduce en una mayor eficiencia y menores costos.
Las pruebas realizadas en diversas configuraciones de clúster han validado el éxito de este enfoque, demostrando mejoras considerables en los tiempos de recuperación y reducciones sustanciales en los tiempos de inactividad. Estas ventajas fortalecen la posición de Amazon en la industria de la inteligencia artificial, promoviendo procesos de entrenamiento más eficientes y menos afectados por interrupciones imprevistas.
A medida que la inteligencia artificial sigue desarrollándose, innovaciones como esta son cruciales para optimizar la producción y reducir costos, permitiendo una expansión más robusta y efectiva en el ámbito tecnológico.