En entornos de producción, la disponibilidad continua es un requisito esencial. Cualquier interrupción inesperada —ya sea en la base de datos, el servidor web o un servicio de cacheo— puede traducirse en pérdida de usuarios, ingresos y reputación. Para reducir este riesgo, RunCloud integra de forma nativa la funcionalidad Auto Healing, un sistema de detección y recuperación automática que actúa como primera línea de defensa frente a caídas de servicios.
Servicios cubiertos por Auto Healing
El agente de RunCloud realiza comprobaciones periódicas (health checks) y puede reiniciar automáticamente servicios clave cuando se detecta una interrupción no planificada:
- Bases de datos: MariaDB / MySQL
- Servidores web: Apache, NGINX, OpenLiteSpeed (OLS)
- Cache & in-memory stores: Redis, Memcached
- Runtimes de aplicaciones: PHP-FPM
- Contenedores: Docker
- Colas de trabajo: Beanstalkd
- Gestión de procesos: Supervisor
- Seguridad: Fail2Ban, cortafuegos (UFW / Firewalld)
Flujo de trabajo del Auto Healing
- Detección de la incidencia
- El sistema ejecuta comprobaciones continuas sobre cada servicio.
- Si detecta que uno se ha detenido de forma inesperada, inicia el proceso de recuperación.
- Si la parada fue intencional (por ejemplo, desde el dashboard o CLI), Auto Healing respeta la acción y no interviene.
- Notificación inicial
- Antes de iniciar cualquier reinicio, envía un aviso al administrador indicando el servicio afectado y que la recuperación automática ha comenzado.
- Ciclo de reinicio automatizado
- Auto Healing intenta reiniciar el servicio hasta 5 veces.
- Entre intentos se espera un intervalo breve para permitir que el servicio inicialice correctamente.
- Cada intento queda registrado en los logs.
- Recuperación exitosa y reseteo de contador
- Si el servicio se estabiliza en cualquiera de los intentos, el contador se reinicia a cero para ese servicio.
- La monitorización normal se reanuda sin afectar a otros servicios.
- Fallo persistente y escalado a intervención manual
- Si tras 5 intentos el servicio no se recupera, el sistema detiene la automatización.
- Se envía una notificación final solicitando intervención manual, evitando ocultar problemas críticos como corrupción de datos, configuraciones erróneas o falta de recursos.
Control y configuración
- Habilitado por defecto: Auto Healing está activo en todos los servidores nuevos y existentes gestionados por RunCloud.
- Gestión: se puede activar o desactivar desde Server → Settings → Auto Healing Services Settings en el dashboard.
- Granularidad: es posible habilitar o deshabilitar la recuperación automática por servicio.
Ventajas operativas para administradores y DevOps
- Reducción del tiempo medio de recuperación (MTTR) ante fallos de software.
- Prevención de paradas prolongadas sin supervisión humana.
- Minimiza la necesidad de intervención fuera de horario, útil para entornos 24/7.
- Integración directa con el resto de la gestión de servidores desde RunCloud.
💡 Comparativa con otras soluciones de auto-healing
Mientras que plataformas como AWS EC2 Auto Recovery o Kubernetes Liveness Probes se centran en instancias o contenedores, RunCloud Auto Healing ofrece un enfoque multiservicio a nivel de servidor, lo que lo hace especialmente útil en infraestructura monolítica o híbrida donde coexisten múltiples stacks.