En un avance significativo en el ámbito de la inteligencia artificial, Amazon ha desarrollado un asistente de compras impulsado por inteligencia artificial generativa, denominado Rufus, que ya está disponible para millones de usuarios. Sin embargo, su implementación a gran escala presenta numerosos desafíos que requieren atención cuidadosa. Rufus se basa en un modelo de lenguaje grande (LLM) diseñado a medida, lo que demanda un enfoque innovador para mantener interacciones de alta calidad a la vez que se garantiza eficiencia en costos y baja latencia.
El equipo de Amazon ha centrado sus esfuerzos en crear una solución de inferencia multinodo utilizando Amazon Trainium y vLLM, una biblioteca de código abierto que permite una atención eficiente y de alto rendimiento en la entrega de LLMs. A medida que el modelo de Rufus se expandía, también lo hacía la necesidad de múltiples instancias de aceleradores, dado que un único chip no puede albergar el modelo completo. Esto obligó a los ingenieros a innovar en la fragmentación y distribución del modelo a través de varios nodos, utilizando técnicas como el paralelismo tensorial.
Las estrategias adoptadas para mejorar el rendimiento del modelo incluyen la maximización del uso de recursos de computación y memoria en múltiples nodos, sin comprometer la latencia. Además, se ha diseñado una infraestructura de inferencia multinodo que facilita la comunicación rápida entre nodos, garantizando una integración sólida entre componentes distribuidos.
La solución implementada consiste en una arquitectura de inferencia multinodo que utiliza un modelo de líder/seguidor. El nodo líder se encarga de la programación de solicitudes y la orquestación, mientras que los nodos seguidores se dedican a ejecutar los cálculos del modelo de forma distribuida. A través de esta configuración, cada nodo presenta un camino de ejecución coherente, lo que contribuye a la eficiencia del sistema en su conjunto.
Esta estrategia de despliegue ha permitido manejar solicitudes a gran escala de manera eficiente, gracias a un diseño que favorece la colocación de nodos según la topología de red, minimizando así la latencia. Con esta infraestructura, Amazon ha podido lanzar un modelo más grande que opera en decenas de miles de chips Trainium, logrando una capacidad ampliada que ofrece una experiencia de compra innovadora y una notable mejora en la interacción de los usuarios.
Con estos desarrollos, Amazon continúa fortaleciendo su posición en la inteligencia artificial, haciendo posible que Rufus ofrezca un servicio de preguntas y respuestas en tiempo real, siempre disponible para los clientes.