Docker Model Runner ya es GA: servir LLMs en local con el “modo Docker” de siempre

Docker ha oficializado la disponibilidad general (GA) de Docker Model Runner (DMR), su propuesta para gestionar, ejecutar y distribuir modelos de IA en local —con los mismos comandos, flujos y políticas que los equipos ya usan con Docker. La meta es clara: hacer pull, run y serve de modelos empaquetados como artefactos OCI, exponerlos por APIs compatibles con OpenAI y enlazar todo ello con Docker Desktop, Docker Engine, Compose y Testcontainers sin añadir nuevas herramientas ni excepciones de seguridad.

¿Qué es DMR y qué problema resuelve?

Docker Model Runner convierte los modelos en artefactos de primera clase dentro del ecosistema Docker. Permite:

  • Tirar de modelos desde Docker Hub (como OCI artifacts) o desde Hugging Face si están en GGUF (en cuyo caso el backend de HF los empaqueta “al vuelo” como OCI).
  • Servir modelos mediante una API estilo OpenAI, lo que facilita integrar aplicaciones existentes sin reescribir clientes.
  • Trabajar desde CLI y/o UI: ya sea con Docker Desktop (experiencia guiada y gestión automática de recursos) o con Docker CE en Linux para automatización y CI/CD.

La propuesta reduce fricción en el inner loop del desarrollo (probar prompts, tools, agents en el portátil/GPU local), acelera pruebas en pipelines y permite decidir con calma cuándo pasar a despliegues híbridos (local + nube).

Once capacidades que han calado en la comunidad

  1. Motor sobre llama.cpp: base sólida hoy, con flexibilidad para añadir motores en el futuro (p. ej., MLX o vLLM).
  2. Aceleración GPU multiplataforma: Apple Silicon en macOS, NVIDIA en Windows y aceleración ARM/Qualcomm gestionadas por Docker Desktop.
  3. Soporte nativo en Linux: ejecución con Docker CE, ideal para automatización, CI/CD y entornos de producción.
  4. Experiencia dual CLI/UI: desde la CLI o la pestaña de modelos en Docker Desktop, con onboarding guiado y ajuste automático de RAM/GPU.
  5. Distribución flexible: pull/push de modelos en OCI desde Docker Hub o pull directo de Hugging Face (GGUF).
  6. Abierto y gratuito: open source y sin coste, lo que rebaja la barrera de entrada.
  7. Aislamiento y control: ejecución en entorno sandbox; opciones de seguridad (activar/desactivar, host-side TCP, CORS) para encaje corporativo.
  8. Inferencia configurable: longitud de contexto y flags de llama.cpp, con más ajustes en camino.
  9. Depuración integrada: tracing de peticiones/respuestas, inspección de tokens y visibilidad de librerías para optimizar apps.
  10. Integración con el ecosistema Docker: funciona con Docker Compose, Testcontainers y Docker Offload (descarga en la nube).
  11. Catálogo de modelos: selección curada en Docker Hub, lista para desarrollo, pipelines, staging o incluso producción.

Por qué encaja en empresa

DMR no exige nuevas excepciones de seguridad o compliance: reutiliza registries privados, controles de acceso por políticas (p. ej., Registry Access Management en Docker Hub), auditoría y trazabilidad ya adoptadas por los equipos de plataforma. Además, empaquetar modelos como OCI artifacts facilita versionado determinista, promoción entre entornos y air-gaps cuando es necesario.

Para equipos que ya estandarizaron Compose y Testcontainers, DMR añade el eslabón de inferencia sin romper el “modo Docker”: lo que se prueba en local se codifica como infraestructura y se explota igual en CI/CD.

Casos de uso donde brilla

  • Inner loop con GPU local: probar prompts y tool calling con aceleración en el portátil (Apple Silicon/NVIDIA), sin pelear dependencias de Python.
  • CI/CD reproducible: tratar modelos como artefactos OCI, fijando versiones y hashes; ejecutar pruebas deterministas con Testcontainers.
  • Privacidad y datos sensibles: inferir dentro del perímetro, sin compartir cargas con terceros en fases de diseño/prueba; decidir descarga a nube cuando compense.
  • Apps agénticas: construir agentes que usen DMR como backend de modelo y desplegarlos con Compose, integrando fácilmente otras piezas del stack Docker.

Lo que llega en la hoja de ruta

  • Experiencia de uso más fluida: interfaz “tipo chat” más rica en Docker Desktop/CLI, multimodal en UI (ya disponible por API), debug mejorado y más opciones de configuración.
  • Más motores de inferencia: soporte para bibliotecas/engines populares (p. ej., MLX, vLLM) y config avanzada por motor y modelo.
  • Despliegue independiente: capacidad para ejecutar Model Runner sin Docker Engine en casos de grado productivo.
  • Onboarding sin fricciones: guías paso a paso y apps de ejemplo con casos reales y buenas prácticas.
  • Catálogo al día: llegada rápida de nuevos modelos a Docker Hub, ejecutables en DMR en cuanto se publiquen.

Limitaciones y trade-offs a tener en cuenta

  • Compatibilidad OpenAI API: ya cubre la mayoría de casos; la cobertura seguirá ampliándose iterativamente.
  • Aceleración y drivers: revisar requisitos por plataforma (drivers NVIDIA en Windows, Apple Silicon en macOS, configuración en Linux) antes de estandarizar.
  • Ergonomía vs. aislamiento: el uso de GPU locales y bindings del host puede requerir ajustes de seguridad que Docker planea endurecer con sandboxing más profundo.

Cómo empezar (sin reinventar tu stack)

  1. Actualiza e instala Docker Desktop (o usa Docker CE en Linux).
  2. Activa DMR desde la configuración o la CLI.
  3. Haz pull de un modelo (Docker Hub/OCI o Hugging Face/GGUF) y sírvelo por la API compatible con OpenAI.
  4. Decláralo en Compose y llévalo a CI/CD con Testcontainers para reproducibilidad.

Preguntas frecuentes

¿DMR es compatible con la API de OpenAI?
Sí. Expone endpoints compatibles, lo que permite conectar aplicaciones existentes sin cambiar clientes o SDKs.

¿Qué formatos y registries admite para distribuir modelos?
Soporta artefactos OCI (en Docker Hub o cualquier registro OCI-compatible) y GGUF desde Hugging Face, empaquetados como OCI de forma transparente.

¿En qué plataformas y GPUs funciona?
macOS (Apple Silicon), Windows (GPU NVIDIA) y Linux (CPU/GPU con Docker CE). Conviene verificar drivers y compatibilidades por sistema.

¿Qué trae la hoja de ruta tras la GA?
Mejoras de UX (incluida multimodal en la UI), depuración más completa, más motores (MLX, vLLM), config avanzada y despliegue independiente de Docker Engine.


Fuentes

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!


– patrocinadores –

Noticias destacadas

– patrocinadores –

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!

Scroll al inicio
×