Clockwork.io ha lanzado TorchPass Workload Fault Tolerance, una solución innovadora diseñada para transformar la gestión de fallos en la infraestructura de inteligencia artificial (IA). Esta tecnología ofrece una respuesta efectiva a los costosos problemas de reinicios catastróficos debido a fallos de hardware en el entrenamiento de IA a gran escala.
Con inversiones multimillonarias en chips de IA, las fallas en los sistemas distribuidos siguen elevando costos. Hasta ahora, estos problemas se han aceptado como inevitables. Sin embargo, según Suresh Vasudevan, CEO de Clockwork.io, TorchPass permite que las cargas de trabajo de IA continúen a pesar de las interrupciones, ya sean fallos de GPU, de red u otros problemas técnicos, sin necesidad de reinicios.
TorchPass, integrado en la plataforma FleetIQ de Clockwork.io, utiliza la migración en vivo de GPU para que el entrenamiento de IA no se detenga por problemas de infraestructura. Este método elimina interrupciones y mejora la eficiencia de los clústeres de GPU, con potenciales ahorros significativos. En configuraciones típicas de 2.048 GPU, se podrían recuperar más de 6 millones de dólares anualmente en capacidad de cómputo.
Dylan Patel, CEO de SemiAnalysis, destaca que TorchPass ofrece conmutación por error que aumenta la eficiencia y rentabilidad del uso de GPU. Esto es clave, dado que el entrenamiento distribuido de IA es propenso a fallos a medida que crecen los clústeres. En un clúster de 1.024 GPU, el tiempo medio hasta el fallo es de solo 7,9 horas, lo que demuestra su fragilidad. Cada fallo implica retroceder al último punto guardado, perdiendo tiempo y recursos valiosos.
TorchPass, en este contexto, es esencial para empresas que requieren fiabilidad en cargas de trabajo de IA. José Power, CTO de Nscale, subraya la importancia de gestionar fallos sin detener el entrenamiento, para una infraestructura fiable y económica.
Con este lanzamiento, Clockwork.io no solo mejora la eficiencia operativa, sino que también impulsa la próxima generación de infraestructura de IA. TorchPass redefine la fiabilidad por software, permitiendo sistemas más avanzados sin temores a interrupciones mayores por fallos menores.
El equipo de Clockwork.io presentará más detalles del lanzamiento en el evento NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205.







