La transformación digital liderada por la inteligencia artificial (IA) está avanzando a pasos agigantados, y uno de los sectores que más está aprovechando esta revolución es el de las telecomunicaciones. Un claro ejemplo de ello es Fastweb, uno de los principales operadores de telecomunicaciones en Italia, que ha sido pionero en la adopción de tecnologías de IA desde 2019. Esta entidad ha enfocado sus esfuerzos en la creación de un modelo de lenguaje extenso (LLM) diseñado específicamente para operar con datos en italiano, ofreciendo así capacidades avanzadas de IA a terceros.
Entrenar un LLM es un proceso que consume muchos recursos computacionales y presenta una gran complejidad. Fastweb optó por utilizar los servicios avanzados de Amazon Web Services (AWS), como Amazon SageMaker HyperPod, que ofrece un entorno optimizado para IA generativa y aprendizaje automático. SageMaker HyperPod brinda la infraestructura necesaria para establecer y mantener clusters computacionales a gran escala, usando cientos de aceleradores como AWS Trainium y GPUs NVIDIA. Esto se logra con la flexibilidad de desplegar clusters más pequeños que maximizan el uso eficiente de los recursos y gestionan los costos de operación.
Uno de los principales obstáculos que enfrentó Fastweb durante este proyecto fue la falta de conjuntos de datos de alta calidad en italiano. Para superar esta barrera, la compañía elaboró un extenso conjunto de datos a partir de fuentes públicas y adquirió información licenciada de editoriales y medios de comunicación. En su primera incursión en el entrenamiento de LLM, Fastweb fine-tuned el modelo Mistral 7B, un referente en el mercado, adaptándolo para tareas como resumen de información, respuestas a preguntas y escritura creativa en italiano, conservando un entendimiento cultural profundo en sus resultados.
El ajuste fino del modelo se llevó a cabo en el entorno de AWS, destacando la eficiencia en la preparación de datos y la obtención de resultados tempranos que sirven como base para el desarrollo de modelos en idioma italiano. A través de la traducción de datasets del inglés al italiano y la generación de datos sintéticos mediante modelos de IA, Fastweb logró mejorar su conjunto de datos en términos de calidad y diversidad, sorteando así la limitada disponibilidad de recursos.
El proceso de entrenamiento de modelos como el Mistral 7B requiere un uso intenso de recursos computacionales; en este caso, más de 156 GB de memoria hardware fueron necesarios, sin contar con la memoria adicional para cargar los datos de entrenamiento. Fastweb implementó técnicas de entrenamiento distribuido que permitieron el uso óptimo de múltiples GPUs, facilitando el procesamiento en paralelo y reduciendo significativamente los tiempos de entrenamiento.
Una vez completado el proceso de ajuste, el modelo de lenguaje de Fastweb presentó mejoras notables, elevando en un 20% la precisión en tareas relacionadas con el italiano y mostrando un dominio considerable en áreas como respuesta a preguntas y razonamiento básico. Con la vista puesta en el futuro, Fastweb planea utilizar Amazon Bedrock para el despliegue de modelos futuros, lo que les permitirá desarrollar y escalar nuevas soluciones de IA generativa de forma ágil y efectiva.
Al adoptar las capacidades de Amazon Bedrock, Fastweb no solo busca mejorar su oferta de servicios, sino también liderar la transformación digital en múltiples industrias. Este paso firme hacia la innovación refuerza su compromiso con la eficiencia tecnológica y el impulso de oportunidades en un entorno global cada vez más digitalizado.