General
24/02/2026

Escalando la Anotación de Datos con Modelos de Visión-Lenguaje para Impulsar sistemas de IA Física

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

La escasez de recursos laborales está afectando significativamente a sectores como la manufactura, logística, construcción y agricultura en los Estados Unidos, con la construcción como el sector más afectado. Cerca de 500,000 puestos de trabajo permanecen vacantes y se anticipa que el 40% de la fuerza laboral se jubilará en la próxima década. Esta situación ha provocado retrasos en proyectos, aumento de costos y la postergación de planes de desarrollo. Para mitigar estos desafíos, las organizaciones están implementando sistemas autónomos capaces de realizar tareas que cubran vacíos de capacidad, expandan las operaciones y ofrezcan productividad continua.

El desarrollo de estos sistemas autónomos requiere grandes conjuntos de datos anotados para entrenar modelos de inteligencia artificial, con el alto costo de preparación de datos convirtiéndose en un obstáculo. La fase crítica de etiquetado de datos de video es esencial para garantizar la utilidad de los datos en el entrenamiento de modelos. Sin embargo, este proceso puede retrasar la implementación de modelos y la entrega de productos y servicios de IA. Para empresas de construcción que manejan millones de horas de video, la anotación manual de datos es inviable. Los modelos de lenguaje-visual (VLMs) ofrecen una solución al interpretar imágenes y videos, responder a consultas en lenguaje natural y generar descripciones de manera eficiente y rentable.

Un ejemplo de solución a este problema es Bedrock Robotics, que se ha aliado con el AWS Generative AI Innovation Center para aplicar los VLMs en el análisis de metraje de video de construcción. Desde 2024, Bedrock Robotics ha estado desarrollando sistemas autónomos para equipos de construcción. Su producto, Bedrock Operator, combina hardware con modelos de IA para permitir que excavadoras y maquinaria funcionen con mínima intervención humana, realizando tareas con precisión.

El entrenamiento de estos modelos necesita una gran cantidad de metraje que capture las operaciones, siendo los VLMs clave para analizar estos datos y crear descripciones textuales necesarias para la anotación. Bedrock Robotics ha utilizado esta tecnología para mejorar la preparación de datos para modelos de IA, aumentando la identificación de herramientas de 34% a 70% y transformando un proceso manual en un flujo de trabajo automatizado y escalable.

Esta metodología ofrece un marco replicable para organizaciones enfrentando desafíos similares, demostrando que una inversión estratégica en modelos de base puede resultar en mejoras operativas y ventajas competitivas. Los VLMs, entrenados con grandes volúmenes de datos mediante aprendizaje auto-supervisado, permiten el análisis y generación de contenido visual y textual.

A futuro, se espera que la automatización ayude a abordar la falta de mano de obra, permitiendo a las empresas acelerar la implementación de sistemas autónomos, reducir costos y explorar nuevas áreas de crecimiento. El enfoque en la optimización de la preparación de datos, como el realizado por Bedrock Robotics, convierte desafíos laborales en oportunidades de innovación.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!

– patrocinadores –

Escalando la Anotación de Datos con Modelos de Visión-Lenguaje para Impulsar sistemas de IA Física

Suscríbete al boletín SysAdmin

¡Apúntate a nuestro newsletter!

Noticias destacadas