La creciente complejidad en los flujos de trabajo de inteligencia artificial y aprendizaje automático ha planteado serios desafíos para los proyectos que buscan avanzar de la fase piloto a la producción. Estos obstáculos no suelen surgir por la calidad de los modelos, sino por infraestructuras y procesos fragmentados que complican la gestión. Como resultado, el código inicial de los proyectos se vuelve más pesado, lo que dificulta que científicos de datos e ingenieros lleven sus modelos de un entorno de desarrollo local a la producción y puedan reproducir resultados obtenidos previamente.
Con el objetivo de enfrentar estos desafíos, surge el Flyte Python SDK, una herramienta desarrollada para orquestar y escalar flujos de trabajo de AI/ML. La última versión de este sistema, proporcionada por Union.ai, puede ser implementada en Amazon Elastic Kubernetes Service (Amazon EKS), permitiendo además una integración sin problemas con otros servicios de AWS como Amazon S3, Amazon Aurora, AWS Identity and Access Management (IAM) y Amazon CloudWatch. Un ejemplo de esto se observa en un flujo de trabajo de AI utilizando el nuevo servicio Amazon S3 Vectors.
La ejecución de flujos de trabajo de AI/ML en Kubernetes presenta retos significativos, como la complejidad en la infraestructura, las diferencias entre experimentación y producción, la necesidad de reproducibilidad, gestión de costos y fiabilidad. Una solución como Union.ai 2.0 es fundamental para resolver estos problemas y facilitar el desarrollo e implementación de modelos de AI en entornos complejos.
Union.ai 2.0 transforma la orquestación de cargas de trabajo en Amazon EKS, permitiendo que los flujos de trabajo en Python se escalen desde computadoras personales hasta clústeres con una ejecución dinámica. Se destaca por reducir un 66% el código necesario en comparación con otros orquestadores, tomar decisiones en tiempo real y ofrecer recuperación rápida ante fallos sin intervención manual.
La arquitectura híbrida de Union.ai 2.0 combina simplicidad gestionada con control total de los datos, eliminando la complejidad de manejar infraestructuras de Kubernetes. Esto permite a los equipos centrarse en la construcción de modelos y aplicaciones de AI, integrando componentes claves como el plano de control y el plano de datos, garantizando una gestión eficiente y segura de los flujos de trabajo desde la ejecución hasta el almacenamiento y la supervisión.
Un caso destacado es el de Woven by Toyota, que tras migrar a Union.ai experimentó mejoras significativas en velocidad de ciclos de iteración de ML, ahorros en costos y un aumento en la escala de procesamiento de datos. La integración de Amazon S3 Vectors simplifica la gestión de datos vectoriales a gran escala, permitiendo a las organizaciones aprovechar modelos de AI avanzados y escalables sin las complicaciones de gestionar infraestructuras dispares.
En resumen, herramientas como Union.ai y Flyte establecen las bases para una orquestación confiable y escalable de AI en producción, facilitando el desarrollo de sistemas autónomos y la formación de modelos de aprendizaje automático a gran escala.







