Optimización Rápida del Ajuste de LLM con Datos no Estructurados usando SageMaker Unified Studio y S3

Elena Digital López

AWS ha introducido una innovadora integración entre Amazon SageMaker Unified Studio y los buckets de propósito general de Amazon S3, lo que promete transformar la manera en que las organizaciones gestionan y analizan grandes volúmenes de datos no estructurados. Este avance facilita el uso de información compleja para tareas de aprendizaje automático, destacando una mejora significativa en el proceso de ajuste fino de modelos.

Recientemente, se realizó un ejercicio para demostrar la integración de estos buckets con el catálogo de Amazon SageMaker, centrado en ajustar el modelo Llama 3.2 11B Vision Instruct para responder preguntas visuales. Al aplicar imágenes y consultas al modelo, fue posible realizar tareas complejas, como identificar fechas en recibos detallados.

El modelo base Llama 3.2 obtuvo un promedio de Similaridad de Levenshtein Normalizada (ANLS) del 85,3% en el conjunto de datos DocVQA, compuesto por miles de ejemplos de preguntas visuales. A pesar de este buen rendimiento, el ensayo reveló la necesidad de una mayor precisión en algunas tareas, lo que llevó a desarrollar un protocolo de ajuste fino. Este protocolo emplea distintos tamaños de conjuntos de datos (1,000, 5,000 y 10,000 imágenes) para evaluar cómo el tamaño del conjunto afecta al rendimiento del modelo.

El proceso incluye diversos pasos, desde la ingesta y preparación de datos hasta la evaluación de métricas, todo gestionado mediante el entorno de Amazon SageMaker Unified Studio. Las organizaciones que deseen implementar esta solución deben cumplir ciertos requisitos previos, como crear un dominio en SageMaker Unified Studio y configurar conexiones adecuadas con los buckets de S3.

Además, se subraya la importancia de una arquitectura bien diseñada que permita la colaboración eficaz entre los equipos de datos. Esto incluye la utilización de roles de acceso para simplificar la gestión de permisos y evitar complicaciones. Con MLflow, se realiza un seguimiento exhaustivo de los experimentos, permitiendo observar mejoras en la precisión del modelo ajustado.

Los resultados preliminares mostraron que el mejor modelo ajustado alcanzó un ANLS de 90,2%, evidenciando una mejora del 4,9% respecto al modelo base. Este incremento no solo valida la metodología utilizada, sino que también destaca el potencial de Amazon SageMaker Unified Studio para optimizar modelos de aprendizaje automático, avanzando con mayor claridad desde datos no estructurados hasta la implementación de modelos en producción.

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio
×