General
13/05/2026

RoCE convierte Ethernet en la nueva red crítica de la inteligencia artificial

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Durante décadas, Ethernet ha sido la tecnología tranquila sobre la que se ha construido buena parte de Internet y de los centros de datos. Ha movido paquetes, ha conectado servidores, ha soportado aplicaciones empresariales, almacenamiento, virtualización, telefonía IP y cloud. Su filosofía básica era conocida por cualquier ingeniero de redes: transportar tráfico de forma eficiente, aceptar que algún paquete podía perderse y dejar que protocolos como TCP se encargaran de la recuperación.

La inteligencia artificial a gran escala está cambiando esa relación. Los clusters con miles o decenas de miles de GPUs no solo necesitan ancho de banda. Necesitan mover datos entre aceleradores con latencias muy bajas, sincronización precisa y el menor impacto posible del sistema operativo y la CPU. En ese escenario aparece RoCE, RDMA over Converged Ethernet, una tecnología que permite acceso directo a memoria remota sobre Ethernet. Dicho de forma sencilla: no se trata solo de enviar paquetes, sino de permitir que los nodos de un cluster intercambien datos casi como si la memoria estuviera más cerca de lo que realmente está.

Este cambio está obligando a Ethernet a comportarse de una forma mucho más exigente. La red tradicional era “best effort”. RoCE, en cambio, necesita una fabric prácticamente sin pérdidas, con congestión controlada, buffers bien dimensionados, telemetría precisa y una configuración afinada extremo a extremo. Es la misma familia de switches, cables y comandos que muchos equipos ya conocen, pero el modelo mental es otro.

De red “best effort” a fabric lossless

La razón técnica es clara. RDMA reduce la participación de la CPU y del kernel en las transferencias de datos. Eso ayuda a mejorar latencia, throughput y eficiencia, algo crítico en entrenamiento distribuido, inferencia de gran escala y HPC. Google Cloud lo explica al comparar el flujo de red tradicional, en el que el sistema operativo procesa los datos y la NIC los envía, con RoCEv2, que expande capacidades RDMA sobre Ethernet para cargas de IA y computación científica. En sus máquinas A3 Ultra y A4, Google usa RoCEv2 para comunicación entre nodos y conexión GPU a GPU, con hasta 3,2 Tbps de tráfico inter-nodo GPU-to-GPU en A3 Ultra.

El problema es que RDMA no tolera bien una red descuidada. En tráfico convencional, una pérdida puntual puede corregirse con retransmisiones. En tráfico RDMA a gran escala, la pérdida, la congestión o el desorden pueden afectar a miles de operaciones coordinadas entre GPUs. Por eso se habla de Ethernet lossless o casi lossless: no porque la física haya desaparecido, sino porque la fabric se diseña para evitar descartes en las clases de tráfico críticas.

Ahí entran dos tecnologías que muchos ingenieros de redes ya conocen, pero que ahora adquieren otra importancia. PFC, Priority Flow Control, pausa de forma selectiva una clase de tráfico cuando una cola se llena, evitando que se pierdan tramas de esa prioridad. ECN, Explicit Congestion Notification, marca paquetes antes de que haya descarte para que el emisor reduzca el ritmo. Cisco resume bien la relación: PFC y ECN se complementan para gestionar congestión y deben activarse extremo a extremo, tanto en hosts como en nodos de red, para habilitar tráfico lossless.

El matiz es importante. PFC no es magia. Si se configura mal puede generar bloqueo de cabecera, propagación de congestión o incluso problemas difíciles de diagnosticar. ECN exige umbrales adecuados, participación de los endpoints y una lectura fina de los patrones de tráfico. En un cluster de IA, un pequeño error de tuning puede traducirse en colas persistentes, latencia de cola, degradación del entrenamiento o fallos intermitentes que parecen aleatorios.

Meta, Google y NVIDIA muestran que Ethernet ya está en producción

La validación de RoCE no viene solo de fabricantes. Meta publicó en SIGCOMM un trabajo técnico sobre RDMA over Ethernet para entrenamiento distribuido a gran escala. En él explica que sus clusters RoCE soportan miles de GPUs y cargas de producción de ranking, recomendación, comprensión de contenido, procesamiento de lenguaje natural e IA generativa. La compañía afirma que, con un diseño cuidadoso de topología, routing, transporte y operación, RoCE puede soportar entrenamiento de IA a escala.

Además, Meta detalló dos clusters de 24.576 GPUs NVIDIA H100 cada uno para entrenamiento de Llama 3. Uno de ellos utiliza una fabric RoCE basada en Arista 7800 con switches OCP Wedge400 y Minipack2; el otro usa InfiniBand NVIDIA Quantum-2. Ambos interconectan endpoints a 400 Gbps. Esa comparación es relevante porque muestra que RoCE ya no es una opción experimental para laboratorios pequeños, sino una arquitectura que las grandes plataformas usan en producción para cargas de IA de primera línea.

NVIDIA también ha respondido a esta tendencia con Spectrum-X, su plataforma Ethernet para IA. La compañía presenta Spectrum-X como una red Ethernet de alto rendimiento para comunicación GPU a GPU, con SuperNICs que proporcionan conectividad RoCE entre servidores GPU, control de congestión, telemetría y aislamiento de rendimiento. Incluso NVIDIA, históricamente muy fuerte en InfiniBand tras la adquisición de Mellanox, está empujando Ethernet como una pieza central de sus fabrics para IA.

Broadcom, por su parte, está reforzando su cartera de Ethernet para IA con switches, óptica, retimers, DSPs y soluciones pensadas para clusters de escala gigavatio. En sus resultados del primer trimestre fiscal de 2026, la compañía informó de 8.400 millones de dólares de ingresos de IA, un 106 % más interanual, impulsados por aceleradores personalizados y networking de IA. En marzo también presentó en OFC 2026 una cartera orientada a clusters de IA de escala gigavatio y a la transición hacia la era de los 200T.

Hay análisis sectoriales que sitúan a Ethernet/RoCE ganando terreno frente a InfiniBand en nuevos despliegues de IA. La cifra del 70 % aparece en publicaciones de mercado, aunque conviene tratarla con prudencia cuando no procede de un desglose oficial auditado. Lo que sí parece claro es la dirección: los hiperescalares quieren rendimiento, pero también apertura, diversidad de proveedores, costes controlados y menos dependencia de un stack cerrado.

El nuevo trabajo del ingeniero de redes

El cambio de fondo es cultural. El ingeniero que hace diez años diseñaba VLANs, QoS para voz, agregaciones LACP y redes leaf-spine para virtualización ahora se enfrenta a fabrics donde cada microsegundo cuenta. La configuración sigue pareciendo familiar, pero el objetivo ha cambiado. Ya no se trata solo de que la red esté “up” y tenga capacidad. Se trata de que una operación colectiva de entrenamiento no se degrade porque un flujo incast llene un buffer, porque ECN marque tarde o porque PFC pause demasiado tráfico.

En estos entornos, las métricas tradicionales son insuficientes. Hace falta observar colas, marcas ECN, eventos PFC, drops por prioridad, utilización por rail, entropía de hashes, microbursts, latencia de cola y comportamiento de NCCL. También hay que coordinar host, NIC, switch, driver, firmware, sistema operativo, scheduler y topología física. RoCE es una tecnología de red, pero su rendimiento real depende de toda la pila.

La llegada de Ultra Ethernet añade otra pieza al tablero. La especificación UE 1.0 busca definir un Ethernet de alto rendimiento para IA y HPC, compatible con el ecosistema Ethernet existente. Sus autores señalan que RoCEv2 permitió llevar semánticas de InfiniBand a Ethernet, pero también arrastra limitaciones: dependencia de PFC, entrega estrictamente en orden, riesgos de bloqueo y menor flexibilidad de balanceo. Ultra Ethernet intenta modernizar ese transporte con nuevas ideas de multipath, entrega fuera de orden y mecanismos más escalables para sistemas extremos.

Esto no significa que RoCE vaya a desaparecer. Al contrario, está siendo la tecnología puente que está llevando Ethernet al corazón de los clusters de IA. Pero sí indica que la industria entiende sus límites y trabaja en una evolución más adaptada a cientos de miles o incluso millones de aceleradores.

InfiniBand no muere, pero Ethernet cambia la economía

InfiniBand sigue siendo una tecnología excelente para HPC e IA. Tiene una larga tradición en clusters de alto rendimiento, baja latencia, semánticas RDMA maduras y un ecosistema muy integrado. Para muchos despliegues, especialmente cuando se busca rendimiento extremo con un stack cerrado y validado, seguirá teniendo sentido.

La ventaja de Ethernet es otra: escala industrial, base instalada, diversidad de proveedores, herramientas operativas conocidas y un mercado enorme. Broadcom lo expresó de forma directa al presentar Tomahawk 6: sus chips usan Ethernet, un estándar con décadas de historia, y la compañía defiende que las grandes redes de IA pueden construirse sobre esta tecnología sin recurrir a soluciones más “exóticas”. Reuters recogió que Tomahawk 6 está pensado para data centers de IA con más de 100.000 GPUs y que Broadcom espera escenarios futuros con hasta un millón de GPUs en un edificio físico.

La decisión real no será InfiniBand o Ethernet en abstracto. Dependerá de escala, coste, proveedor, software, disponibilidad, experiencia del equipo, objetivos de latencia, modelo operativo y tolerancia al lock-in. Pero RoCE ha cambiado la conversación: Ethernet ya no es solo la red generalista del data center; es candidata seria para la red crítica de entrenamiento e inferencia.

Para los equipos de infraestructura, la conclusión es directa. El conocimiento profundo de lossless Ethernet, PFC, ECN, buffers, congestión, telemetría y operación de fabrics RDMA se va a convertir en una habilidad cada vez más valiosa. No se aprende leyendo una ficha técnica ni copiando una configuración de referencia. Se aprende en laboratorio, rompiendo cosas, midiendo colas, ajustando umbrales y entendiendo cómo se comportan las cargas reales.

La IA ha devuelto la red al centro del diseño de infraestructura. Durante años, mucha atención se concentró en CPU, GPU, almacenamiento y virtualización. Ahora el rendimiento de un cluster depende tanto de cómo se comunican sus aceleradores como de cuánta potencia de cálculo tienen. Ethernet ha sido la autopista de la informática moderna. Con RoCE, le estamos pidiendo que se comporte como una pista de competición.

Preguntas frecuentes

¿Qué es RoCE?
RoCE significa RDMA over Converged Ethernet. Permite acceso directo a memoria remota sobre Ethernet, reduciendo la intervención de CPU y sistema operativo en transferencias entre servidores.

¿Por qué RoCE necesita una red lossless?
Porque las cargas RDMA, especialmente en entrenamiento distribuido de IA, son muy sensibles a pérdidas, congestión y latencia. La red debe evitar descartes en el tráfico crítico mediante mecanismos como PFC y ECN.

¿Qué papel tienen PFC y ECN?
PFC pausa clases de tráfico concretas cuando hay congestión en una cola. ECN marca paquetes antes de que se produzcan descartes para que el emisor reduzca el ritmo. Juntas ayudan a construir fabrics Ethernet aptas para RDMA.

¿Ethernet sustituirá completamente a InfiniBand?
No necesariamente. InfiniBand seguirá siendo relevante en muchos entornos de alto rendimiento. Pero Ethernet con RoCE y futuras tecnologías como Ultra Ethernet está ganando peso por apertura, escala y variedad de proveedores.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!

– patrocinadores –