La adopción de modelos de lenguaje a gran escala ha revolucionado la interacción entre las personas y la tecnología, aunque su implementación masiva enfrenta desafíos significativos, especialmente en eventos de alta demanda como el Amazon Prime Day. En este contexto, Rufus, el asistente de compras de Amazon, se convierte en una pieza clave para gestionar el tráfico masivo y garantizar un rendimiento óptimo.
Rufus se ha diseñado para ayudar a los consumidores a tomar decisiones de compra informadas, ofreciendo respuestas a consultas sobre productos y facilitando la experiencia de compra. Su eficiencia es esencial, ya que necesita manejar millones de consultas por minuto. Ante el inminente Prime Day de 2024, Rufus debía superar obstáculos relacionados con la latencia y el rendimiento, mientras mantenía un compromiso de latencia de 300 ms.
Para afrontar este desafío, se implementó la decodificación paralela, una técnica que permite la generación simultánea de múltiples tokens, eliminando ineficiencias del método secuencial tradicional. Esto, junto con el uso de chips de inteligencia artificial de AWS, resultó en una duplicación de la velocidad de generación de texto y una reducción del 50% en los costos de inferencia.
Los resultados fueron sobresalientes: Rufus mejoró significativamente su capacidad de respuesta, elevando la experiencia del cliente durante el evento. La combinación de decodificación paralela y las soluciones de AWS permitió manejar el tráfico máximo sin comprometer la calidad de las respuestas.
La optimización de Rufus demuestra el potencial de la inteligencia artificial para crear experiencias de compra más fluidas y eficientes. La integración del marco Neuronx-Distributed Inference y los chips de AWS supone un avance hacia la escalabilidad y viabilidad económica de los modelos de lenguaje a gran escala, abriendo puertas a futuras aplicaciones en inteligencia artificial.