Importación de Datos desde Google Cloud Platform BigQuery para Aprendizaje Automático sin Código con Amazon SageMaker Canvas

Elena Digital López

En el creciente panorama empresarial centrado en la nube, las organizaciones se enfrentan al desafío de manejar datos dispersos a través de múltiples sistemas y plataformas. Esta dispersión obliga a las empresas a buscar soluciones efectivas para consolidar y analizar estos datos, especialmente en el contexto del aprendizaje automático (ML). Una nueva estrategia arquitectónica surge como respuesta innovadora para abordar esta problemática, permitiendo la extracción de datos alojados en diferentes nubes, como Google Cloud Platform (GCP) BigQuery, sin trasladarlos físicamente.

Este enfoque se basa en la utilización de Amazon Athena Federated Query, el cual se encarga de extraer información desde GCP BigQuery. Combinado con la herramienta Amazon SageMaker Data Wrangler, se facilita la preparación de los datos para después utilizarlos en la construcción de modelos de aprendizaje automático mediante Amazon SageMaker Canvas. SageMaker Canvas se presenta como una interfaz de ML sin necesidad de codificación, que permite a los analistas empresariales importar datos desde más de 50 fuentes, realizar transformaciones utilizando lenguaje natural y más de 300 funciones integradas, construir modelos precisos, generar predicciones y desplegarlos sin requerir conocimientos técnicos avanzados.

La implementación de esta estrategia incluye dos pasos principales: el primero es configurar Amazon Athena para que realice consultas federadas a GCP BigQuery, permitiendo consultas en vivo desde Athena; el segundo es importar los datos a SageMaker Canvas desde BigQuery, utilizando Athena como intermediario.

Una vez dentro de SageMaker Canvas, los usuarios pueden crear modelos de ML y producir predicciones a partir de los datos sin escribir código alguno. SageMaker Canvas facilita el establecimiento de rutinas de preparación de datos y predicciones precisas, a la vez que ofrece flexibilidad para aquellos que necesiten avanzar a un entorno más técnico. La integración con SageMaker Studio permite pasar de un entorno sin código a uno con código, lo que resulta útil para implementaciones más complejas o personalizadas.

Este sistema arquitectónico demuestra la aplicación de servicios de AWS para acceder y manejar datos del almacén de BigQuery de GCP, integrándolos para la construcción y despliegue de modelos ML en SageMaker Canvas. El proceso incluye desde la formulación de consultas SQL hasta la gestión segura de credenciales mediante Amazon Secrets Manager, asegurando así una integración fluida, segura y escalable, capaz de manejar grandes volúmenes de datos mediante funciones Lambda sin servidor.

La solución ofrece notables ventajas, como la eliminación de la necesidad de transferencias adicionales de datos, acceso seguro a credenciales y escalabilidad en el manejo de conjuntos de datos a gran escala. Además, democratiza el acceso al ML dentro de las organizaciones al permitir que los usuarios aprovechen el análisis avanzado y el aprendizaje automático para fomentar la innovación empresarial sin necesidad de habilidades técnicas especializadas.

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio