Desarrollo de Plataforma de Procesamiento de Documentos con IA Usando NER de Código Abierto y LLM en Amazon SageMaker

Elena Digital López

Un avance tecnológico significativo ha sido emprendido por un laboratorio nacional en Estados Unidos, que ha desarrollado una plataforma innovadora para el procesamiento de documentos, impulsada por inteligencia artificial. Esta iniciativa busca resolver los retos de accesibilidad y localización de documentos dentro de sus extensos archivos históricos, donde gran cantidad de información ha permanecido oculta debido a la falta de metadatos adecuados y al etiquetado inconsistente. El método tradicional de búsqueda basado en palabras clave ha demostrado ser ineficiente, demandando arduas revisiones manuales para encontrar datos valiosos.

La solución aplicada integra reconocimiento de entidades nombradas (NER, por sus siglas en inglés) y modelos de lenguaje de gran escala sobre la plataforma Amazon SageMaker. Dicha tecnología moderniza el acceso a registros archivados mediante la automatización del enriquecimiento de metadatos, la clasificación de documentos y la creación de resúmenes. El uso del modelo Mixtral-8x7B para la generación de resúmenes y títulos, junto con un modelo NER basado en BERT para extraer metadatos estructurados, optimiza la organización y facilita la recuperación de documentos escaneados.

Esta plataforma ha sido diseñada con una arquitectura sin servidor y optimizada en costo, habilitando endpoints dinámicos en SageMaker que aseguran una eficiencia máxima de recursos y mantienen la escalabilidad necesaria. La implementación de tecnologías modernas de procesamiento de lenguaje natural (NLP) y modelos de lenguaje de gran escala (LLM) mejora la precisión de los metadatos, permitiendo búsquedas más precisas y una gestión documental más efectiva. De esta manera, la solución no solo apoya la transformación digital, sino que también impulsa el uso eficaz de datos archivados para la investigación, el desarrollo de políticas, y la conservación del conocimiento institucional.

Bajo el título de NER & LLM Gen AI Application, la plataforma combina las capacidades del NER y los LLM para automatizar el análisis de documentos a gran escala mediante un enfoque modular. Cada componente gestiona diferentes aspectos del procesamiento, desde resúmenes extractivos hasta la extracción de autores. El sistema se activa al detectar nuevos documentos en el bucket de extracciones, evitando operaciones innecesarias mediante la creación automatizada de endpoints de modelo y procesamiento de documentos en lotes para maximizar la eficiencia.

Destacándose por su rendimiento, esta solución es capaz de procesar hasta 100,000 documentos en apenas 12 horas, lo que subraya su efectividad en términos de costo y eficiencia operativa. El implemento de resúmenes extractivos como paso inicial reduce la carga de trabajo en un 75-90%, permitiendo un procesamiento ágil y costo operativo reducido. Esta plataforma se presenta como una respuesta robusta ante la creciente demanda de un procesamiento documental eficiente en los campos de la investigación y gestión del conocimiento.

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio