Ceph rompe barreras: un despliegue con AMD EPYC alcanza 1 TiB/s, el mayor rendimiento publicado hasta la fecha

Un equipo de ingenieros ha conseguido un hito histórico en almacenamiento distribuido: un clúster Ceph capaz de sostener 1 TiB/s de lectura secuencial, superando todos los registros previos conocidos. El logro es el resultado de una combinación de hardware de última generación, una red de alto rendimiento y una optimización exhaustiva para superar cuellos de botella críticos.


Arquitectura diseñada para el máximo rendimiento

El proyecto arrancó en 2023 con la migración de un clúster Ceph basado en HDD a una infraestructura 100 % NVMe de 10 PB de capacidad. La configuración final, en colaboración con Clyso, incluyó 68 nodos Dell PowerEdge R6615 con procesadores AMD EPYC 9454P (48 núcleos / 96 hilos), 192 GiB de RAM DDR5, dos interfaces Mellanox ConnectX-6 de 100 GbE por nodo y 10 NVMe Enterprise de 15,36 TB cada uno.

En total, el despliegue abarcó 630 OSDs distribuidos en 17 racks, con Ceph Quincy v17.2.7 sobre Ubuntu 20.04.6. La red existente, ya optimizada para cargas críticas, fue clave para alcanzar estas cifras.


Tres barreras técnicas y cómo se resolvieron

Durante las primeras pruebas, el rendimiento estuvo muy por debajo de lo esperado. Tras un análisis profundo, se identificaron tres problemas principales:

  1. Latencia por c-states en CPU
    La gestión de ahorro de energía en los procesadores provocaba retrasos. Desactivar los c-states en BIOS aportó mejoras inmediatas del 10–20 %.
  2. Contención en IOMMU
    El kernel invertía mucho tiempo en gestionar mapeos DMA para NVMe. La solución: desactivar IOMMU, lo que liberó de forma notable el rendimiento.
  3. Compilación de RocksDB sin optimización
    Las versiones de Ceph en Debian/Ubuntu no incluían las banderas de optimización adecuadas para RocksDB. Recompilar con los flags correctos triplicó la velocidad de compactación y duplicó el rendimiento de escritura aleatoria 4K.

Resultados récord

Con la configuración afinada, el clúster logró:

  • 1,025 TiB/s en lectura secuencial 4 MB con 3 réplicas.
  • 270 GiB/s en escritura secuencial con 3 réplicas.
  • 25,5 millones de IOPS en lectura aleatoria 4K.
  • Con codificación de borrado 6+2, más de 500 GiB/s en lectura y 387 GiB/s en escritura.

La clave estuvo en escalar clientes y OSDs de forma proporcional y en optimizar el número de PGs, hilos y shards por OSD para evitar estados laggy.


El futuro de Ceph a gran escala

Este caso demuestra que Ceph no solo es válido para entornos convencionales, sino que puede competir con sistemas propietarios de alto coste en rendimiento extremo. El reto ahora es mejorar la eficiencia en escrituras masivas y superar el techo actual de IOPS por nodo, algo que requerirá repensar parte de la arquitectura interna de OSD.


La visión desde Stackscale

David Carrero, cofundador de Stackscale (Grupo Aire), destaca que el verdadero valor de Ceph está en su flexibilidad y escalabilidad para entornos de producción reales.

“En Stackscale ofrecemos a nuestros clientes la posibilidad de desplegar Ceph sobre infraestructura dedicada, ya sea integrado en entornos con Proxmox o como parte de arquitecturas personalizadas de alto rendimiento. Además, contamos con soluciones de almacenamiento en red basadas en tecnología NetApp, incluyendo una solución de replicación síncrona entre dos centros de datos en Madrid que garantiza RTO=0 y RPO=0. Esto nos permite ofrecer a cada cliente la combinación ideal entre rendimiento, resiliencia y disponibilidad, adaptada a sus necesidades.”

Carrero subraya que Ceph, bien implementado, es una herramienta estratégica para organizaciones que buscan independencia tecnológica, control sobre sus datos y optimización de costes.


Cifras clave del proyecto

Métrica3× ReplicaciónEC 6+2
Lectura secuencial 4 MB1,025 TiB/s547 GiB/s
Escritura secuencial 4 MB270 GiB/s387 GiB/s
Lectura aleatoria 4K25,5 M IOPS3,4 M IOPS
Escritura aleatoria 4K4,9 M IOPS936 K IOPS

Preguntas frecuentes (FAQ)

1. ¿Qué es Ceph y qué ventajas ofrece frente a otras soluciones?
Es un sistema de almacenamiento distribuido open source que ofrece bloques, objetos y archivos, con gran flexibilidad y escalabilidad horizontal.

2. ¿Qué papel jugaron los procesadores AMD EPYC?
Su alta densidad de núcleos, ancho de banda DDR5 y eficiencia energética fueron claves para manejar cientos de OSDs por nodo.

3. ¿Qué es la replicación síncrona RTO=0 y RPO=0 de Stackscale?
Es una tecnología basada en NetApp que replica datos en tiempo real entre dos CPDs, garantizando cero pérdida de datos y recuperación instantánea ante fallos.

4. ¿Puedo combinar Ceph con otras soluciones de almacenamiento?
Sí. Stackscale permite integrar Ceph con sistemas de almacenamiento en red como NetApp, diseñando soluciones híbridas que combinan flexibilidad y máxima disponibilidad.

vía: Ceph superá 1Tbp/s

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio
×