Amazon Web Services (AWS) ha revelado innovadoras estrategias para extraer información de datos multimodales, abarcando texto, imágenes y gráficos. En un esfuerzo por maximizar el aprovechamiento de estos datos, AWS ha presentado dos enfoques distintos en su serie de artículos.
El primero, denominado «embed primero, inferir después», recurre al modelo Amazon Titan Multimodal Embeddings. Esta técnica convierte las diapositivas de presentaciones en embeddings vectoriales que se almacenan en una base de datos especializada. A continuación, el modelo Large Language-and-Vision Assistant (LLaVA 1.5-7b) utiliza estas diapositivas para generar respuestas textuales a las consultas de los usuarios. El proceso gira en torno a identificar y usar las diapositivas que más se asemejan a la pregunta planteada, aumentando así la relevancia y precisión de las respuestas.
El segundo enfoque, «inferir primero, embed después», emplea el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock. Aquí, se crean descripciones textuales de cada diapositiva antes de transformarlas en embeddings textuales que también se guardan en una base de datos vectorial. Las respuestas a las preguntas de los usuarios se generan a partir de las descripciones textuales más relevantes.
Ambos métodos han sido evaluados utilizando SlideVQA, un dataset abierto para preguntas y respuestas visuales sobre documentos. Los resultados indicaron que las respuestas generadas tuvieron una precisión del 50% o menos frente al conjunto de datos de referencia.
En términos económicos, el enfoque de «embed primero, inferir después» tiene un costo aproximado de $0.00224 por pregunta, mientras que «inferir primero, embed después» presenta un costo mayor de $0.02108. Estos números reflejan los cargos por procesamiento y generación de tokens en la infraestructura de AWS.
La diferencia en costos y precisión pone de manifiesto la necesidad de ajustar la elección de la estrategia en función de las particularidades del dataset y del tipo de contenido a analizar. AWS sugiere la integración de búsquedas híbridas y el uso de filtros de búsqueda para afinar la recuperación de información.
Además, AWS ha liberado el código fuente de estos enfoques en un repositorio de GitHub, animando a los usuarios a experimentar y determinar cuál se adapta mejor a sus requerimientos específicos. A medida que la inteligencia artificial generativa sigue evolucionando, AWS se compromete a continuar mejorando las técnicas de extracción de información de datos multimodales, impulsando la innovación en este campo.