La demanda de cloud privado con Proxmox VE no deja de crecer, pero muchas compañías ya no preguntan solo por rendimiento: exigen continuidad de negocio con cero pérdida de datos y cero tiempo de inactividad ante incidencias de host o de centro de datos. Para responder a ese listón, Stackscale ha llevado el enfoque hiperconvergente un paso más allá: separa el cómputo del almacenamiento y sustituye el clásico patrón con Ceph por un plano de almacenamiento en red síncrono, en activo-activo, entre dos centros de datos propios en Madrid con latencia inferior a 1 ms, conectados de forma redundante y respaldados por decenas de conexiones Internet Tier-1 y acuerdos de peering independientes.
El resultado es una plataforma Proxmox centrada en cómputo y alta disponibilidad, apoyada en cabinas NetApp que garantizan RTO=0 y RPO=0, red agnóstica al hipervisor con VLAN reales, y backup verificado con Proxmox Backup Server (PBS). Una arquitectura pensada para servicios críticos, VDI exigente, datastores de máquinas virtuales y bases de datos OLTP donde “perder minutos” o “perder transacciones” no es aceptable.
Nodos de cómputo: memoria, latencia y margen de red
La capa de cómputo prioriza homogeneidad y memoria para maximizar densidad de VM y tiempos de respuesta:
- CPU: AMD EPYC Genoa 9124P (16 cores / 32 hilos, 3,0 GHz).
- RAM: 384 GiB a 4.800 MHz por nodo.
- Almacenamiento local: 2× NVMe de 3,8 TB (SO Proxmox, swap y scratch).
- Red: 2× 40 Gb/s por nodo, usadas para tráfico público y privado mediante VLAN, y también para ventanas de backup con PBS.
- Opcionales: GPU y NVMe adicionales para cargas específicas (IA, render, VDI con perfiles gráficos).
El objetivo es claro: que el host compute sea predecible (memoria suficiente, NVMe local para cachés y operaciones temporales) y que el almacenamiento persistente viaje por la SAN síncrona sin cargar el nodo con tareas propias de SDS.
Almacenamiento en red síncrono: activo-activo con RTO=0 / RPO=0
El corazón del diseño es el almacenamiento en red con replicación síncrona entre los dos CPD de Stackscale en Madrid. La latencia sub-milisegundo entre sedes permite operar en activo-activo: cada escritura se confirma en ambas cabinas antes de devolverse al host. Esto garantiza:
- RTO=0 (Recovery Time Objective): continuidad sin interrupción apreciable ante fallos.
- RPO=0 (Recovery Point Objective): ninguna pérdida de datos; no hay “ventanas” pendientes de replicar.
- Tiers de rendimiento adaptables:
- Flash Premium — latencia ultra-baja e IOPS muy altos (DB críticas, analítica en tiempo real).
- Flash Plus — equilibrio entre latencia y throughput (datastores de VM, middleware, cargas mixtas).
- Flash Standard — rendimiento estable con coste optimizado (VM y servicios generales).
- Archive — capacidad orientada a copias y retención prolongada.
- Snapshots frecuentes y réplica multi-DC incluida, con playbooks de failover/failback ensayados.
- Protocolos: iSCSI para bloque (datastores de VM) y NFS para archivos (compartidos de aplicaciones).
Al desacoplar el almacenamiento de los hosts y delegar la sincronía en cabina, se gana simplicidad operativa, se reduce la “superficie de configuración” en los nodos y se obtiene un comportamiento constante ante picos de carga y eventos de mantenimiento.
Red agnóstica al hipervisor: VLAN reales y enrutamiento sin fricción
Donde muchas soluciones se complican con SDN propio del hipervisor, Stackscale entrega una red con VLAN reales:
- El mismo segmento de red puede extenderse entre clusters Proxmox, clusters VMware y servidores bare-metal sin reingeniería del plano.
- Los dos CPD mantienen conectividad redundada y baja latencia; hacia Internet, múltiples Tier-1 y peering independiente aseguran ancho de banda y rutas de calidad.
- En el host, los 2× 40 Gb/s se segmentan por VLAN para pública, privada (este-oeste, live migration) y PBS, con capacidad de sobra y posibilidad de priorización por colas si el proyecto lo requiere.
Este enfoque simplifica despliegues híbridos y migraciones entre stacks, y evita “atascos” derivados de encapsulados o túneles en la capa de virtualización.
Proxmox VE: HA ágil, live migration y operación “día 2”
Sobre esa base física, Proxmox VE aporta la orquestación:
- Clusters con Corosync y doble segmento IP para soportar incidentes de subred sin perder quórum.
- Alta disponibilidad y migraciones en caliente de VMs con downtime mínimo; fencing y recuperación automáticas.
- Proxmox Backup Server (PBS) con deduplicación y verificación de copias; la misma red 2× 40 Gb/s maneja las ventanas de backup sin impactar producción.
- Suscripción enterprise para repos estables y actualizaciones controladas.
La combinación iSCSI/NFS contra cabina y 80 Gb/s efectivos por host da aire a las operaciones del día 2: parches en rolling, ampliación de datastores, incorporación de nuevos proyectos y mantenimiento sin cortes.
Observabilidad y automatización: métricas por segundo, playbooks reales
La resiliencia no es solo arquitectura: requiere ver y actuar a tiempo.
- LibreNMS o similar vigila disponibilidad (SNMP, salud de interfaces, stacking de switches).
- InfluxDB + Grafana proveen métricas por segundo de cómputo, red y almacenamiento (p95/p99 de latencia, E/S por LUN o volumen, saturación de enlaces, colas de CPU).
- Airflow orquesta snapshots por proyecto y SLA, aplica retención y limpieza, y encadena restauraciones de prueba con PBS.
- Registros centralizados y paneles de “golden signals” permiten alertas proactivas antes de que el usuario final perciba degradación.
Por qué no Ceph en este caso (y por qué sí almacenamiento en red síncrono)
La elección no es ideológica: es arquitectónica. En un entorno con dos centros de datos próximos (latencia < 1 ms), la replicación síncrona realizada por las propias cabinas de almacenamiento garantiza RTO=0 / RPO=0 sin añadir complejidad al host. Así, Proxmox VE se concentra en cómputo y HA, mientras que el almacenamiento se desacopla y se extiende entre sedes con herramientas nativas del fabricante (snapshots, clones, thin provisioning), independientemente de la infraestructura de virtualización que consuma ese almacenamiento.
Además, la red con VLAN reales simplifica los tráficos públicos y privados y permite coexistir con otros stacks (por ejemplo, VMware o bare-metal) sin reingeniería del plano de red. En la práctica, el plano de datos de las cabinas se encarga de la sincronía y la consistencia entre sedes, mientras la capa de virtualización mantiene la alta disponibilidad y las migraciones a nivel de host.
Rutas de datos y elección de protocolo: iSCSI para bloque, NFS para archivos
- Datastores de VM:
- iSCSI → LUN por cluster o por proyecto, con Thin LVM/ZFS en Proxmox según preferencia y tuning de colas para E/S aleatoria.
- NFS → alternativa válida cuando prima operación sencilla o se comparten plantillas/medios entre hosts.
- Compartidos de aplicación (subidas, artefactos, repos de datos): NFS centralizado.
- Bases de datos OLTP: iSCSI con LUN dedicado en Flash Premium/Plus, filesystem XFS/EXT4 y ajustes de commit/barriers acordes al motor.
No hay “blancos y negros”: se elige por perfil de E/S, latencias y facilidad de operación.
Alta disponibilidad de verdad: activo-activo y game-days
Más allá del papel, la plataforma se prueba:
- Fallo de cabina o de enlace entre sedes: la replicación síncrona y la redundancia de caminos sostienen operación.
- Caída de host: Proxmox reubica VMs; los datastores permanecen online.
- Game-days regulares simulan conmutación y retorno sin impacto para validar tiempos, cargas y checklists.
Para contingencias extremas (incendios, blackouts largos), los playbooks definen failover asistido a la otra sede y failback planificado con verificación de datos.
Seguridad: capas sin complicaciones
- Segmentación por VLAN y firewalling perimetral.
- CHAP (mutuo) en iSCSI y NFSv4 + Kerberos cuando se requiere autenticación fuerte.
- MTU 9.000 únicamente si todos los saltos lo soportan; de lo contrario, mantener 1.500 para evitar fragmentación.
- Backups inmutables (WORM / S3 Object Lock) opcionales para ransomware, con verificación periódica de restaurabilidad.
Operación “día 2”: crecer sin parar
- Parches con repos enterprise, rolling por host.
- Ampliaciones: se añade capacidad en cabina, se exponen nuevos LUN/exports y se presentan al clúster sin cortes.
- Pruebas de continuidad trimestrales: enlace, nodo, conmutación y retorno.
- Revisión de métricas (p95/p99 de latencia, colas de E/S, saturación de uplinks, tasa de errores) y ajuste de umbrales.
La meta es que la infraestructura sea predecible, “invisible” y auditable.
Conclusiones
En entornos donde la continuidad es irrenunciable y la pérdida de datos no es una opción, Proxmox VE brilla sobre un plano de almacenamiento en red síncrono en activo-activo entre dos CPD cercanos: se separa cómputo y almacenamiento, se garantiza RTO=0 / RPO=0, y se apoya en una red con VLAN reales que no ata el diseño a un hipervisor concreto. La capa de backup (PBS), la observabilidad por segundo y los playbooks practicados completan un cloud privado preparado para crecer, migrar cargas y resistir fallos sin sobresaltos.
No se trata de “Ceph vs cabina”, sino de elegir la herramienta adecuada para el entorno adecuado: con < 1 ms entre sedes y conectividad redundante de alta capacidad, la sincronía tiene todo el sentido. Te ayudamos con tus necesidades, dejanos un mensaje:
Preguntas frecuentes (FAQ)
¿Por qué optar por almacenamiento síncrono (RTO=0 / RPO=0) en lugar de HCI con Ceph?
Porque con dos CPD próximos y latencia < 1 ms, la replicación síncrona en cabina asegura ninguna pérdida de datos y ningún tiempo de inactividad sin añadir complejidad al host. Proxmox se centra en cómputo y HA; el almacenamiento se gestiona como servicio de red activo-activo.
¿Qué protocolo conviene para los datastores: NFS o iSCSI?
Depende del perfil de E/S. iSCSI (bloque) suele ofrecer latencia menor y más IOPS en E/S aleatoria (VMs, DB); NFS simplifica operación y es excelente para compartidos. En Stackscale se combinan ambos según tier (Flash Premium/Plus/Standard) y caso de uso.
¿Los 2× 40 Gb/s del host bastan para pública, privada y PBS?
Sí. Con VLAN separadas y colas correctas, 80 Gb/s agregados proporcionan margen para tráfico norte-sur, este-oeste, live migration y backup sin contención. El plano inter-CPD mantiene baja latencia y rutas redundadas.
¿Cómo se valida el failover sin impactar producción?
Con game-days planificados: se simulan caídas de enlace, nodo y cabina; se ejecutan playbooks de conmutación y retorno; se verifican integridad y rendimiento. Además, PBS permite restauraciones puntuales sin tocar entornos productivos.