Integración de dependencias personalizadas en los flujos de trabajo de Amazon SageMaker Canvas

Elena Digital López

Las organizaciones que implementan flujos de trabajo de aprendizaje automático (ML) utilizando Amazon SageMaker Canvas se enfrentan a la necesidad de integrar dependencias externas para abordar casos de uso específicos. Aunque SageMaker Canvas permite una experimentación rápida a través de opciones sin código y con bajo código, algunos proyectos requieren bibliotecas especiales que no están incluidas por defecto en la plataforma. Este nuevo enfoque muestra cómo incorporar código que depende de estas bibliotecas externas en los flujos de trabajo de SageMaker Canvas de manera eficaz.

Amazon SageMaker Canvas es una plataforma de ML de bajo código que guía a los usuarios mediante cada etapa del proceso de ML, desde la preparación de datos hasta el despliegue del modelo final. Sin necesidad de programar, los usuarios pueden explorar y transformar datos, construir modelos y generar predicciones utilizando las capacidades avanzadas de manipulación de datos de la plataforma, que incluyen más de 300 pasos de transformación incorporados, ingeniería de características, y opciones para la normalización y limpieza de datos.

Un ejemplo práctico ilustra la integración de scripts personalizados y sus dependencias desde Amazon Simple Storage Service (Amazon S3) dentro de un flujo de trabajo de SageMaker Data Wrangler. Esta integración es crucial para ejecutar scripts personalizados que requieren módulos no soportados por defecto en SageMaker Canvas. El proceso sigue tres pasos clave: subir los scripts y sus dependencias a Amazon S3, utilizar SageMaker Data Wrangler para transformar datos con el código cargado, y finalmente, entrenar y exportar el modelo.

Un caso de uso específico implica la manipulación de dos conjuntos de datos complementarios sobre envíos de pantallas de computadora. Al combinarlos, se crea un conjunto de datos integral que pueda alimentar un modelo predictivo con el objetivo de determinar si futuros envíos llegarán a tiempo, basándose en patrones históricos. Para comenzar, los usuarios necesitan acceso a Amazon S3 y Amazon SageMaker AI, y deben crear un flujo de datos dentro de SageMaker Canvas, seleccionando los conjuntos de datos pertinentes.

La clave para implementar una función que dependa de un módulo no soportado está en empaquetar el script y sus dependencias en un archivo .zip, subirlo a Amazon S3, y posteriormente acceder y ejecutar el script dentro de SageMaker Canvas. Esta estrategia permite integrar funcionalidades personalizadas directamente en los flujos de trabajo.

El flujo culmina con el entrenamiento del modelo predictivo, alcanzando en pruebas una precisión del 94.5%. Una vez finalizado, el modelo puede implementarse directamente, añadirse al registro de modelos de SageMaker o exportarse a un notebook de Jupyter. Se recomienda a los usuarios cerrar sesión o configurar un apagado automático del entorno para optimizar el uso de recursos y controlar costos.

Este enfoque innovador facilita a los científicos de datos y analistas extender las funcionalidades de SageMaker Canvas mediante herramientas personalizadas, lo que puede ser esencial para el éxito de sus proyectos de aprendizaje automático.

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio