Nuevas Capacidades de Amazon SageMaker Inference con Soporte para Instancias G6e

Elena Digital López

En el creciente universo de la inteligencia artificial, la búsqueda de herramientas que ofrezcan mayor flexibilidad y rentabilidad es una constante. En este contexto, Amazon ha dado un paso significativo con el anuncio de las instancias G6e, ahora disponibles en su plataforma SageMaker. Equipadas con las potentes GPUs NVIDIA L40S Tensor Core, estas nuevas opciones ofrecen a las organizaciones la posibilidad de seleccionar nodos con 1, 4 y hasta 8 instancias, cada una con un impresionante total de 48 GB de memoria de alta capacidad de datos. Este desarrollo no solo promete reducir costos, sino también optimizar el rendimiento en la realización de tareas de inferencia.

Una de las características destacadas de las instancias G6e es su capacidad de memoria, que duplica a la de sus predecesoras G5 y G6. Esto se traduce en la posibilidad de implementar modelos de lenguaje de grandes dimensiones en FP16. Por ejemplo, un modelo de 14 mil millones de parámetros puede ser desplegado en un solo nodo de GPU, uno de 72 mil millones en un nodo de 4 GPUs, y hasta 90 mil millones de parámetros en un nodo de 8 GPUs. Además, estas instancias ofrecen hasta 400 Gbps de rendimiento de red y hasta 384 GB de memoria GPU, estableciendo un estándar nuevo en capacidad y velocidad.

Concebidas especialmente para el ajuste fino y la implementación de modelos de lenguaje grandes y abiertos, las G6e han demostrado, en pruebas de rendimiento, superar a las instancias previas G5 en efectividad de costos y adecuación para aplicaciones de baja latencia y en tiempo real, tales como chatbots y modelos de inteligencia artificial conversacional. Más específicamente, los benchmarks indican que las instancias G6e.2xlarge presentan hasta un 37% mejor latencia y 60% mejor rendimiento en comparación a las G5.2xlarge cuando procesan un modelo Llama 3.1 8B. Asimismo, al desplegar el modelo LLama 3.2 11B Vision, las instancias G5.2xlarge evidenciaron problemas de memoria que fueron resueltos con éxito por las G6e.2xlarge.

El análisis de costos por cada 1000 tokens al desplegar un modelo Llama 3.1 70b destaca aún más las ventajas económicas de optar por las instancias G6e. Con su tecnología de vanguardia, este lanzamiento no solo facilita el manejo de modelos más complejos y longitudes de contexto extendidas, sino que también sostiene altos niveles de procesamiento, convirtiéndose en una herramienta esencial para el desarrollo de aplicaciones modernas de inteligencia artificial. Las instancias G6e se perfilan, por tanto, como un recurso valioso para aquellas organizaciones que buscan expandir y mejorar sus capacidades en el ámbito de la inteligencia artificial.

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio