Búsqueda Crossmodal con Amazon Nova y embeddings multimodales

Elena Digital López

Amazon ha revelado una revolucionaria innovación denominada Amazon Nova Multimodal Embeddings, diseñada para procesar múltiples modalidades de entrada como texto, documentos, imágenes, videos y audio mediante una arquitectura de modelo unificada. Disponible a través de Amazon Bedrock, esta tecnología logra transformar diversos tipos de contenido en incrustaciones numéricas dentro de un espacio vectorial único. La unificación persigue eliminar la necesidad de mantener múltiples modelos de incrustación, lo cual complica los sistemas y limita los usos a un solo enfoque.

En el comercio electrónico, esta solución enfrenta el desafío de la búsqueda cruzada de modalidades. Mientras que las búsquedas tradicionales se basan en palabras clave o incrustaciones textuales, suelen fallar al manejar consultas visuales, causando una brecha entre la intención del usuario y las capacidades de recuperación. Las arquitecturas convencionales procesan el contenido visual y textual por separado, debilitando el contexto y la experiencia del usuario. Las incrustaciones cruzadas permiten mapear texto, imágenes, audio y video en un espacio compartido, agrupando contenidos semánticamente similares.

Un ejemplo práctico muestra cómo un cliente que busca una camiseta vista en televisión puede beneficiarse de esta tecnología. Al subir una foto del artículo o describirlo en texto, el sistema utiliza ambas entradas para buscar en catálogos que contienen imágenes y descripciones, gestionando diferentes tipos de consultas con el mismo modelo y ofreciendo nuevas capacidades de búsqueda.

La tecnología emplea un modelo único que genera incrustaciones de manera consistente y simplificada, optimizando el rendimiento y reduciendo la complejidad del sistema. Con características de aprendizaje de representación de Matryoshka, el modelo prioriza la información importante en las primeras dimensiones, manteniendo precisión y mejorando el uso del espacio de almacenamiento.

Amazon Nova Multimodal Embeddings resuelve el problema fundamental de la búsqueda cruzada de modalidades mediante un sistema integral que opera eficientemente, sin importar si se suben imágenes o descripciones textuales. Este avance representa un salto importante en la búsqueda de comercio electrónico, el descubrimiento de contenido y aplicaciones que interactúan con múltiples tipos de contenido.

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio
×