Amazon ha lanzado una nueva función de «prompt caching» en su plataforma Amazon Bedrock, prometiendo mejorar significativamente la eficiencia en la generación de respuestas por parte de modelos avanzados de inteligencia artificial como Claude 3.5 Haiku y Claude 3.7 Sonnet. Esta innovadora herramienta ha demostrado reducir la latencia en las respuestas hasta un 85% y disminuir los costos operativos en un 90%, gracias al almacenamiento en caché de «prompts» utilizados con frecuencia a lo largo de múltiples solicitudes a la API.
El concepto de «prompt caching» permite a los usuarios designar y almacenar fragmentos específicos de sus solicitudes, denominados «prompt prefixes». Cuando una solicitud incorpora un «prompt prefix» previamente almacenado, el modelo puede acceder a la memoria caché y omitir ciertos pasos computacionales, proporcionando así respuestas más rápidas y eficientes. Este método no solo acelera el tiempo de respuesta sino que también optimiza el uso del hardware, traduciéndose en ahorros significativos para los usuarios.
La implementación de esta función dentro de Amazon Bedrock optimiza particularmente la fase de procesamiento de tokens de entrada, una etapa crucial en el funcionamiento de modelos de lenguaje a gran escala. Los desarrolladores pueden utilizar puntos de control de caché para estructurar sus «prompts» de manera más organizada y efectiva, lo cual aumenta las coincidencias en la memoria caché y mejora el rendimiento general del sistema.
Esta funcionalidad es ideal para cargas de trabajo que requieren «prompts» de contexto largo y repetitivo, como aplicaciones de asistencia mediante chat o asistentes de programación. Se recomienda estructurar los «prompts» colocando información estática, como instrucciones y ejemplos, al inicio, y reservando los datos dinámicos, como la información específica del usuario, para el final de la solicitud.
Amazon también ofrece métricas de rendimiento sobre el uso de la caché, con datos disponibles a través de la respuesta de la API. Estas métricas son vitales para optimizar la eficiencia y monitorear los ahorros de costos generados por esta herramienta. Sin embargo, la efectividad del «prompt caching» podría verse limitada en casos de «prompts» extremadamente largos y dinámicos; por lo tanto, los desarrolladores deben evaluar cuidadosamente la estructura de sus «prompts» para maximizar el rendimiento.
Por último, la función de «prompt caching» se puede combinar con la inferencia interregional de Amazon Bedrock. Esto asegura que las solicitudes seleccionen la región de AWS más adecuada, optimizando la disponibilidad de recursos y modelos, especialmente durante los períodos de alta demanda. Esta integración fortalece aún más la oferta de Amazon en el competitivo campo del aprendizaje automático y los modelos de lenguaje de gran escala.