Antirez acerca la IA local de frontera al Mac, pero no rompe todas las reglas

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Salvatore Sanfilippo, más conocido como antirez y creador de Redis, ha vuelto a tocar una tecla sensible en la comunidad técnica. Su nuevo proyecto, ds4.c, no es otro runtime genérico para modelos de lenguaje ni una capa más sobre herramientas existentes. Es un motor de inferencia nativo, escrito con un objetivo muy concreto: ejecutar DeepSeek V4 Flash en Apple Silicon mediante Metal, con una apuesta agresiva por cuantización, contexto largo y uso del SSD como parte activa de la caché.

La reacción ha sido inmediata porque el mensaje conecta con una obsesión creciente entre desarrolladores, investigadores y empresas: ejecutar modelos cada vez más capaces en máquinas locales, sin depender siempre de APIs cerradas, clusters remotos o costes variables de inferencia. La promesa no es menor. DeepSeek V4 Flash tiene una ventana de contexto de 1 millón de tokens y, según Reuters, forma parte de la nueva familia V4 de DeepSeek, presentada como una serie adaptada también al ecosistema de chips Huawei Ascend en el contexto de la carrera china por reducir dependencia tecnológica exterior.

Un motor estrecho, no un runtime universal

La primera clave para entender ds4.c es que no intenta competir con llama.cpp en amplitud. Antirez lo define como un motor pequeño y específico para DeepSeek V4 Flash. No es un cargador GGUF genérico, no pretende ejecutar cualquier modelo y no se presenta como framework. Su ruta principal es un ejecutor de grafo Metal hecho a medida, con carga de modelo, renderizado de prompts, estado KV y una API de servidor diseñados alrededor de DS4.

Esa decisión es importante. Buena parte del ecosistema de inferencia local ha avanzado buscando compatibilidad con muchos modelos. Antirez toma el camino contrario: elegir un modelo y pulir la experiencia de extremo a extremo hasta que sea útil para agentes de programación. En su propia documentación lo resume como una combinación de motor de inferencia con API HTTP, GGUF preparado para ese motor y pruebas con implementaciones reales de agentes. La idea no es que “arranque”, sino que pueda usarse en flujos de trabajo serios.

El proyecto reconoce de forma explícita su deuda con llama.cpp y GGML. No enlaza contra GGML, pero toma como referencia su ecosistema, formatos de cuantización, kernels, pruebas y conocimiento acumulado. También conserva o adapta algunas piezas bajo licencia MIT, como layouts de cuantización GGUF, lógica CPU de quant/dot y determinados kernels Metal.

La parte más llamativa está en la cuantización. ds4.c solo funciona con los GGUF publicados para este proyecto y no con archivos arbitrarios. Para máquinas con 128 GB de RAM se ofrece una ruta q2; para equipos con 256 GB o más, una ruta q4. La cuantización de 2 bits no se aplica de forma uniforme: los expertos MoE enrutados son los comprimidos, mientras otros componentes críticos quedan con más precisión para intentar preservar calidad.

El SSD entra en la conversación de la caché KV

La otra idea fuerte es tratar la KV cache como algo que no tiene por qué vivir siempre en RAM. En modelos de contexto largo, la memoria consumida por la caché de claves y valores se convierte en uno de los límites prácticos. ds4.c plantea que, con cachés comprimidas como las de DeepSeek V4 y SSD rápidos en Mac modernos, tiene sentido persistir parte de ese estado en disco.

Esto no es una simple optimización menor. Los agentes de código suelen reenviar historiales largos, prompts de sistema, instrucciones, herramientas y contexto del proyecto. Si cada petición obliga a reprocesar desde cero decenas de miles de tokens, la inferencia local se vuelve lenta e incómoda. El servidor de ds4.c compara los tokens de entrada con prefijos cacheados y puede reutilizar el estado ya calculado, tanto en memoria como desde disco, para continuar sesiones o recuperarlas tras reinicios.

La documentación advierte, eso sí, que hay límites prácticos. Aunque el modelo soporte 1 millón de tokens, en una máquina con 128 GB de RAM y cuantización de 2 bits no siempre tiene sentido configurar el contexto máximo. Antirez recomienda ventanas de 100.000 a 300.000 tokens en ese tipo de equipo, porque el modelo ya ocupa una parte enorme de la memoria y una configuración de 1 millón de tokens puede añadir decenas de gigabytes extra.

En rendimiento, los números publicados son interesantes, pero no milagrosos. En un MacBook Pro M3 Max con 128 GB, la cuantización q2 alcanza 58,52 tokens por segundo en prefill con prompt corto y 26,68 tokens por segundo en generación. Con un prompt de 11.709 tokens, el prefill sube a 250,11 tokens por segundo y la generación baja a 21,47 tokens por segundo. En un Mac Studio M3 Ultra con 512 GB, los valores mejoran, con 36,86 tokens por segundo en generación q2 con prompt corto y 35,50 tokens por segundo en q4.

Son cifras utilizables para trabajo local, sobre todo en modo agente, pero no convierten un portátil en un cluster de GPUs. El avance está en que un modelo grande y especializado pueda moverse de forma razonable en hardware personal de gama alta. Eso ya es mucho, pero conviene no confundirlo con inferencia de frontera a velocidad de centro de datos.

Lo que cambia para agentes de código

La integración con agentes es una de las partes más interesantes del proyecto. ds4-server expone endpoints compatibles con OpenAI y Anthropic, incluidos /v1/chat/completions, /v1/completions y /v1/messages. Esto permite conectarlo a clientes de programación que ya hablan esos protocolos, como flujos estilo Claude Code, OpenCode o Pi. También soporta streaming SSE, herramientas y llamadas de función, con conversión hacia el formato DSML de DeepSeek.

Ahí es donde ds4.c se vuelve relevante más allá de la curiosidad técnica. La IA local no se juega solo en responder preguntas desde una terminal. Se juega en si puede leer un repositorio, mantener contexto, usar herramientas, editar código, ejecutar pruebas, pedir información adicional y no perderse en sesiones largas. Antirez afirma que las cuantizaciones de 2 bits “funcionan bien” bajo agentes de código y llaman herramientas de forma fiable, aunque esa afirmación procede del propio autor del proyecto y necesita validación independiente con benchmarks y casos reales de terceros.

También hay salvedades importantes. El servidor es Metal-only. No hay soporte CUDA todavía. La inferencia se serializa en un único trabajador Metal, de modo que no hay batching de múltiples peticiones independientes; en la práctica, las solicitudes concurrentes esperan su turno. Además, la ruta CPU no es un objetivo de producción y el propio README advierte de un problema con versiones actuales de macOS que puede provocar cuelgues del kernel al ejecutarla.

La cuantización de 2 bits es otra fuente de cautela. El planteamiento es inteligente, porque no comprime por igual todas las partes del modelo. Pero sigue siendo una cuantización muy agresiva. Habrá que medir cuánta calidad se pierde frente al modelo completo, especialmente en tareas largas, razonamiento, tool calling, código y recuperación de información. La comunidad ya ha aprendido que “funciona” y “mantiene el comportamiento del modelo original” no siempre significan lo mismo.

Lo relevante, aun con esas reservas, es el cambio de dirección. La inferencia local está dejando de ser un experimento de aficionados para convertirse en una alternativa práctica en escenarios concretos: privacidad, pruebas con agentes, desarrollo offline, control de costes, investigación y uso intensivo de contexto. No sustituye al cloud en entrenamiento, despliegues multiusuario, alta disponibilidad ni cargas empresariales, pero sí empieza a erosionar la idea de que todo modelo capaz debe vivir necesariamente detrás de una API remota.

ds4.c no rompe la IA local por sí solo. Es código alpha, estrecho, dependiente de un modelo concreto y pensado sobre todo para Apple Silicon. Pero sí muestra algo importante: cuando un modelo abierto con contexto largo se combina con ingeniería específica, cuantización cuidadosa y hardware personal de alta memoria, el resultado puede acercarse mucho más a una experiencia de “frontier AI en local” de lo que parecía razonable hace poco.

El movimiento también tiene una lectura cultural. Mientras los grandes laboratorios compiten con inversiones masivas en centros de datos, chips y acuerdos cloud, una parte del progreso sigue viniendo de hackers capaces de mirar un problema con otra escala mental. Antirez no ha creado un sustituto universal de la nube. Ha demostrado que, para algunos modelos y algunos usos, el borde local todavía tiene mucho que decir.

Preguntas frecuentes

¿Qué es ds4.c?
Es un motor de inferencia local creado por antirez para ejecutar DeepSeek V4 Flash en Apple Silicon mediante Metal. No es un runtime genérico ni un cargador GGUF universal.

¿Puede ejecutar DeepSeek V4 Flash en un MacBook?
Según la documentación del proyecto, la cuantización q2 está pensada para máquinas con 128 GB de RAM, como ciertos MacBook Pro de gama alta. La ruta q4 requiere 256 GB o más.

¿ds4.c usa CUDA o funciona en GPU NVIDIA?
No por ahora. El proyecto es Metal-only y está orientado a Apple Silicon. El soporte CUDA no está disponible en esta versión.

¿La cuantización de 2 bits mantiene la calidad del modelo original?
No puede darse por hecho. La cuantización está diseñada para preservar componentes críticos, pero sigue siendo una compresión muy agresiva y puede implicar pérdida de calidad frente al modelo completo.

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!

– patrocinadores –