General
11/12/2024

Cómo Mejorar Tu Presentación Utilizando Modelos de Fundación Multimodal en Amazon Bedrock – Parte 3

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Amazon Web Services (AWS) ha revelado innovadoras estrategias para extraer información de datos multimodales, abarcando texto, imágenes y gráficos. En un esfuerzo por maximizar el aprovechamiento de estos datos, AWS ha presentado dos enfoques distintos en su serie de artículos.

El primero, denominado «embed primero, inferir después», recurre al modelo Amazon Titan Multimodal Embeddings. Esta técnica convierte las diapositivas de presentaciones en embeddings vectoriales que se almacenan en una base de datos especializada. A continuación, el modelo Large Language-and-Vision Assistant (LLaVA 1.5-7b) utiliza estas diapositivas para generar respuestas textuales a las consultas de los usuarios. El proceso gira en torno a identificar y usar las diapositivas que más se asemejan a la pregunta planteada, aumentando así la relevancia y precisión de las respuestas.

El segundo enfoque, «inferir primero, embed después», emplea el modelo Claude 3 Sonnet de Anthropic en Amazon Bedrock. Aquí, se crean descripciones textuales de cada diapositiva antes de transformarlas en embeddings textuales que también se guardan en una base de datos vectorial. Las respuestas a las preguntas de los usuarios se generan a partir de las descripciones textuales más relevantes.

Ambos métodos han sido evaluados utilizando SlideVQA, un dataset abierto para preguntas y respuestas visuales sobre documentos. Los resultados indicaron que las respuestas generadas tuvieron una precisión del 50% o menos frente al conjunto de datos de referencia.

En términos económicos, el enfoque de «embed primero, inferir después» tiene un costo aproximado de $0.00224 por pregunta, mientras que «inferir primero, embed después» presenta un costo mayor de $0.02108. Estos números reflejan los cargos por procesamiento y generación de tokens en la infraestructura de AWS.

La diferencia en costos y precisión pone de manifiesto la necesidad de ajustar la elección de la estrategia en función de las particularidades del dataset y del tipo de contenido a analizar. AWS sugiere la integración de búsquedas híbridas y el uso de filtros de búsqueda para afinar la recuperación de información.

Además, AWS ha liberado el código fuente de estos enfoques en un repositorio de GitHub, animando a los usuarios a experimentar y determinar cuál se adapta mejor a sus requerimientos específicos. A medida que la inteligencia artificial generativa sigue evolucionando, AWS se compromete a continuar mejorando las técnicas de extracción de información de datos multimodales, impulsando la innovación en este campo.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!

– patrocinadores –

Cómo Mejorar Tu Presentación Utilizando Modelos de Fundación Multimodal en Amazon Bedrock – Parte 3

Suscríbete al boletín SysAdmin

¡Apúntate a nuestro newsletter!

Noticias destacadas

Vista Previa de Windows 11 Insider Build 26120.3671: Últimas Novedades del Canal Beta

Omron y AWS: Una Alianza para Modelar el Futuro con Tecnologías de Datos

Microsoft Edge Anuncia la Descontinuación de window.external.getHostEnvironmentValue()

AWS Sales Emplea IA Generativa para Mejorar la Planificación de Cuentas

Fondos de Pantalla de Windows que Merecen Ser Celebrados

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Noticias relacionadas

Vista Previa de Windows 11 Insider Build 26120.3671: Últimas Novedades del Canal Beta

Vista Previa De Windows 11 Insider Build 26200.5518: Innovaciones Del Canal Dev

Omron y AWS: Una Alianza para Modelar el Futuro con Tecnologías de Datos

Microsoft Edge Anuncia la Descontinuación de window.external.getHostEnvironmentValue()

AWS Sales Emplea IA Generativa para Mejorar la Planificación de Cuentas

Fondos de Pantalla de Windows que Merecen Ser Celebrados

La Revolución Digital: Cómo la IA y los Drones Están Redefiniendo las Inspecciones de Infraestructura

Karbon-X Corp. Celebra su Graduación al Mercado OTCQX

Cómo Mejorar Tu Presentación Utilizando Modelos de Fundación Multimodal en Amazon Bedrock – Parte 3

Suscríbete al boletín SysAdmin

¡Apúntate a nuestro newsletter!

Noticias destacadas

¡SUSCRÍBETE AL BOLETÍNDE LOS SYSADMINS!

Noticias relacionadas

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!