Amazon SageMaker HyperPod ha revolucionado la manera en que se crean clústeres de entrenamiento e inferencia al presentar una nueva interfaz que permite configurar estos sistemas complejos con solo un clic. Este innovador enfoque elimina la posibilidad de errores comunes de configuración, ofreciendo una experiencia fluida y eficiente para los usuarios.
La nueva plataforma de Amazon incorpora un sistema de orquestación a través de Slurm o Amazon Elastic Kubernetes Service (EKS), garantizando una red segura mediante Amazon Virtual Private Cloud (VPC) y un almacenamiento de alto rendimiento. Esta solución permite a los usuarios escalar fácilmente tareas como el entrenamiento de inteligencia artificial generativa y la afinación de modelos, manejando clústeres con cientos o incluso miles de aceleradores de IA.
Anteriormente, la configuración manual de diversos recursos de AWS, como VPC y roles de IAM, representaba un desafío para los clientes, creando posibles puntos de fallo. Ahora, la nueva herramienta simplifica el proceso al unificar la creación de los recursos necesarios en un único paso, utilizando valores predeterminados recomendados.
La plataforma ofrece dos opciones de despliegue en la consola de Amazon SageMaker AI: una configuración rápida y una personalizada. La configuración rápida emplea valores predeterminados para grupos de instancias, redes y permisos, mientras que la opción personalizada da a los usuarios un control total sobre los parámetros.
En la configuración automática, se posibilita la creación de un nuevo VPC, subredes y un clúster EKS actualizado, junto con la gestión de scripts de ciclo de vida en un nuevo bucket de S3. La opción personalizada, por su parte, permite la creación de VPC o grupos de seguridad existentes, así como la instalación de operadores específicos dentro del clúster de EKS.
Ambos modos de configuración permiten agregar grupos de instancias adicionales, desde grupos estándar hasta restringidos, ofreciendo flexibilidad entre capacidad bajo demanda y planes de entrenamiento ajustados. Además, SageMaker HyperPod integra herramientas avanzadas para verificar el estado de salud del sistema y personalizar scripts, convirtiéndose en una oferta robusta para el entrenamiento de modelos de machine learning a gran escala.
Esta nueva experiencia de creación de clústeres está pensada para simplificar la infraestructura, optimizando la implementación e integración en flujos de trabajo de entrega continua. Con esta actualización, Amazon pretende facilitar la adopción de entornos personalizados de entrenamiento, adaptándose a las diversas necesidades de la comunidad de inteligencia artificial y machine learning.