Hoy se ha presentado con gran entusiasmo la nueva versión 15 del contenedor de Amazon SageMaker Large Model Inference (LMI), que promete revolucionar el manejo de modelos de lenguaje de gran tamaño (LLMs) gracias a la incorporación de la versión 0.8.4 de vLLM y el soporte para el nuevo motor vLLM V1. Esta actualización no solo extiende su compatibilidad para albergar los modelos más recientes de código abierto, como el Llama 4 de Meta y el Gemma 3 de Google, sino que también introduce mejoras significativas en el rendimiento y la capacidad de integración.
Las innovaciones destacan por su optimización en la eficiencia de procesamiento. Una de las características más notables es el nuevo modo asíncrono, que integra el motor AsyncLLMEngine de vLLM, diseñado para gestionar de manera más ágil las solicitudes de los usuarios. A través de un bucle continuo y un procesamiento más eficiente, el sistema puede manejar múltiples peticiones simultáneas y proporcionar respuestas en tiempo real con un rendimiento considerablemente mejorado respecto a la versión anterior.
Este avance tecnológico también proporciona una mejora del 111% en el rendimiento para modelos de menor tamaño bajo escenarios de alta concurrencia, gracias a mejoras en la ejecución y un uso más eficaz de los recursos de CPU. Aunque el motor V1 es ahora la opción predeterminada, Amazon SageMaker LMI v15 mantiene el soporte para el motor previo V0, permitiendo a los usuarios optar por este según sus necesidades específicas de configuración.
La ampliación de soporte a diferentes esquemas de API facilita la integración en aplicaciones preexistentes, y las optimizaciones para modelos de visión y lenguaje ofrecen un sistema de almacenamiento en caché multiplataforma, mejorando así la interoperabilidad y el desempeño del modelo en diferentes contextos.
Los modelos compatibles en la nueva versión, como Llama 4 y Scout, están disponibles para su implementación a través de Amazon SageMaker, proporcionando mejoras en el rendimiento de entre un 24% y un 111%. Estos avances permiten a los desarrolladores y organizaciones desplegar LLMs de última generación con una solidez y flexibilidad inigualables, fortaleciendo así las capacidades de inferencia en inteligencia artificial generativa.
Esta evolución representa un hito para la tecnología de IA, abriendo nuevas posibilidades para quienes buscan implementar soluciones avanzadas de procesamiento de lenguaje natural y modelos multimodales. La invitación está abierta a todos los interesados en explorar y aprovechar este lanzamiento para potenciar sus aplicaciones de inteligencia artificial.