Las implementaciones modernas de modelos de lenguaje grande (LLM) están enfrentando desafíos crecientes en términos de costos y rendimiento. Estos retos son impulsados por el incremento en el conteo de tokens, una medida relacionada con la cantidad de palabras, el tamaño de las imágenes y otros factores de entrada. Los contextos más largos implican mayores gastos y requisitos computacionales por solicitud de inferencia. Actualmente, los modelos avanzados han ampliado su capacidad, soportando hasta 10 millones de tokens, para atender las crecientes demandas de sistemas de generación aumentada de recuperación y agentes de codificación.
Sin embargo, investigaciones recientes revelan que gran parte del conteo de tokens en las cargas de trabajo de inferencia es repetitiva, con los mismos documentos y fragmentos de texto apareciendo en numerosos prompts. Al identificar y almacenar en caché este contenido reutilizado, las organizaciones pueden reducir costos y optimizar el rendimiento de inferencia en contextos largos.
En respuesta a estos desafíos, Amazon Web Services (AWS) ha lanzado actualizaciones significativas para su contenedor de Inferencia de Modelos Grandes (LMI). Estas mejoras incluyen soporte para más modelos y capacidades de implementación simplificadas, facilitando a los clientes que hospedan LLM en AWS.
Entre las nuevas capacidades introducidas, destaca el soporte integral de LMCache, una solución de almacenamiento en caché de clave-valor (KV) de código abierto. LMCache transforma el manejo de las cargas de trabajo de inferencia de largo contexto al extraer y almacenar cachés generados por motores LLM, permitiendo compartir estos entre motores y consultas. A diferencia de sistemas tradicionales que solo basan el almacenamiento en prefijos, LMCache reutiliza cachés de texto repetido, operando a nivel de fragmento. Este enfoque emplea un sistema de almacenamiento de múltiples niveles, desde la memoria GPU hasta el almacenamiento en disco.
Las pruebas han demostrado que LMCache mejora el rendimiento significativamente, particularmente en cargas de trabajo con contextos repetidos. El tiempo hasta el primer token se reduce al procesar contextos de varios millones de tokens. Las organizaciones pueden configurar evacuaciones a la CPU o utilizar NVMe para una capacidad de caché extendida.
La efectividad de estas mejoras varía según el tamaño del modelo, ya que los modelos más grandes requieren más memoria por token, agotando más rápido la capacidad de caché de la GPU. No obstante, LMCache demuestra ser valioso incluso en contextos más cortos para modelos grandes.
Además, el soporte para técnicas de decodificación especulativa EAGLE y capacidades multimodales permite mejorar la eficiencia y reducir la complejidad operativa. Estas actualizaciones facilitan a las organizaciones implementar y escalar modelos de última generación con mayor eficacia.







