MiniMax ha presentado M3, un nuevo modelo de inteligencia artificial orientado a programación, agentes y tareas de contexto largo que llega con una promesa muy directa: acercar capacidades de frontera a un modelo de pesos abiertos. La compañía lo sitúa como una alternativa capaz de competir en benchmarks de desarrollo software, uso de herramientas y trabajo multimodal, con una ventana de contexto de hasta 1 millón de tokens y tarifas de API muy por debajo de las habituales en modelos cerrados de gama alta.
El anuncio encaja en una tendencia cada vez más clara dentro del mercado de IA: la frontera ya no se mide solo por quién responde mejor a una pregunta aislada, sino por qué modelo puede trabajar durante horas sobre un repositorio, ejecutar pasos, leer documentación extensa, interpretar imágenes o vídeo y mantener coherencia en tareas largas. En ese terreno, MiniMax M3 quiere competir contra modelos como Claude Opus, GPT, Gemini y otras familias propietarias que dominan los flujos de programación asistida y agentes.
La compañía asegura que publicará el informe técnico y los pesos del modelo en torno a los 10 días posteriores al anuncio. Hasta entonces, conviene tratar sus resultados con prudencia. Las cifras son llamativas, pero siguen dependiendo de evaluaciones propias, de metodologías concretas y de una comparación que deberá ser replicada por terceros.
Un modelo diseñado para programar y usar herramientas
MiniMax M3 se presenta como un modelo especializado en tareas de código y comportamiento agentic. Esto significa que no está pensado solo para generar fragmentos de programación, sino para actuar como un asistente capaz de descomponer tareas, invocar herramientas, ejecutar pasos, revisar errores y sostener sesiones largas de trabajo.
Según MiniMax, M3 obtiene un 59,0 % en SWE-Bench Pro, un 66,0 % en Terminal Bench 2.1, un 28,8 % en KernelBench Hard, un 74,2 % en MCP Atlas y un 70,0 % en OSWorld-verified. En BrowseComp, la compañía afirma que alcanza 83,5 puntos, por encima de Claude Opus 4.7 en la comparativa difundida por la propia empresa.
Estos benchmarks importan porque miden capacidades más cercanas a los usos reales de los desarrolladores: corregir repositorios, manejar terminales, navegar por documentación, trabajar con herramientas externas o resolver problemas sobre bases de código amplias. Es una evolución frente a las pruebas clásicas de respuesta corta, que muchas veces no reflejan cómo se comporta un modelo en una tarea de ingeniería de software con varios pasos.
La apuesta se completa con MiniMax Code, el agente oficial de la compañía para tareas de programación. La idea comercial es clara: no vender solo un modelo, sino una experiencia de trabajo similar a la que ya ofrecen herramientas como Claude Code, Cursor, Cline u otros entornos de desarrollo asistido por IA.
| Benchmark destacado | Resultado atribuido a MiniMax M3 |
|---|---|
| SWE-Bench Pro | 59,0 % |
| Terminal Bench 2.1 | 66,0 % |
| BrowseComp | 83,5 |
| GDPval rubrics | 74,7 |
| BankerToolBench | 76,1 |
| MCP Atlas | 74,2 |
| OSWorld-verified | 70,0 |
| KernelBench Hard | 28,8 |
La lectura técnica es interesante: MiniMax no intenta competir solo con razonamiento general, sino con flujos de trabajo productivos. Si M3 mantiene estos resultados en pruebas externas, podría convertirse en una opción atractiva para equipos que buscan agentes de código con buena relación entre rendimiento, coste y contexto largo.
1 millón de tokens y atención escasa para tareas largas
La segunda gran promesa de M3 es su ventana de contexto. El modelo soporta hasta 1.000.000 de tokens, con un mínimo garantizado de 512K en su API. MiniMax lo apoya en una arquitectura llamada MiniMax Sparse Attention, o MSA, que reemplaza parte de la atención completa por selección de bloques relevantes del caché KV. El objetivo es reducir el coste de trabajar con contextos enormes sin perder demasiada calidad.
La compañía afirma que, a 1 millón de tokens, M3 reduce el cómputo por token a una vigésima parte respecto a la generación anterior, con más de 9 veces de mejora en prefill y más de 15 veces en decodificación. Si esos datos se confirman en uso real, el avance sería relevante para tareas donde el cuello de botella no está solo en la inteligencia del modelo, sino en la capacidad de leer y mantener grandes cantidades de información.
En programación, una ventana de contexto tan amplia permite cargar repositorios extensos, documentación, logs, historial de cambios y especificaciones sin fragmentarlo todo en múltiples llamadas. En empresas, puede servir para revisar contratos largos, expedientes, manuales técnicos, tickets, documentación interna o sesiones multimodales con imágenes y vídeo.
Pero un contexto largo no garantiza por sí solo buen razonamiento. Los modelos pueden aceptar cientos de miles de tokens y aun así perder detalles importantes, ignorar información situada en partes alejadas del prompt o mezclar instrucciones contradictorias. La pregunta clave no será cuántos tokens admite M3, sino cuántos utiliza bien.
La multimodalidad también forma parte del mensaje. MiniMax describe M3 como un modelo multimodal nativo desde el inicio del entrenamiento, con soporte para texto, imagen y vídeo como entrada y salida textual. Esto lo acerca a la nueva generación de asistentes capaces de interpretar interfaces, capturas de pantalla, diagramas, documentos técnicos, gráficos o fragmentos de vídeo. Para agentes de código, esa capacidad puede ayudar a depurar interfaces, analizar errores visuales o trabajar sobre documentación técnica no puramente textual.
La guerra de precios se endurece
MiniMax también quiere competir por precio. La API de M3 se anuncia con tarifas de 0,60 dólares por millón de tokens de entrada y 2,40 dólares por millón de tokens de salida para contextos de hasta 512K. La lectura de caché baja a 0,12 dólares por millón. Para llamadas entre 512K y 1M tokens, el precio sube a 1,20 dólares de entrada, 4,80 dólares de salida y 0,24 dólares en caché.
Durante los primeros siete días, la compañía aplica un descuento del 50 % al uso estándar de M3 hasta 512K, lo que deja el precio promocional en 0,30 dólares por millón de tokens de entrada y 1,20 dólares por millón de tokens de salida en plataformas como OpenRouter.
| Modalidad API | Entrada | Salida | Lectura de caché |
|---|---|---|---|
| M3 hasta 512K | 0,60 $/M tokens | 2,40 $/M tokens | 0,12 $/M tokens |
| M3 entre 512K y 1M | 1,20 $/M tokens | 4,80 $/M tokens | 0,24 $/M tokens |
| Promoción inicial hasta 512K | 0,30 $/M tokens | 1,20 $/M tokens | según plataforma |
La compañía también comercializa planes de suscripción para desarrolladores. El plan Plus cuesta 20 dólares al mes e incluye unos 1.700 millones de tokens de uso M3. El plan Max cuesta 50 dólares y sube hasta unos 5.100 millones. El plan Ultra, por 120 dólares mensuales, ofrece hasta unos 12.500 millones de tokens, además de mayor concurrencia de agentes y cuotas de generación multimedia según el nivel.
Estos volúmenes son agresivos si se comparan con el coste habitual de trabajar con modelos de gama alta en tareas largas. Para programación asistida, donde una sesión puede consumir decenas o cientos de miles de tokens entre lectura de archivos, generación, pruebas y correcciones, el precio puede ser tan importante como el benchmark. Un modelo algo menos preciso, pero mucho más barato y con más contexto, puede resultar más útil en el día a día que un modelo superior pero prohibitivo para sesiones largas.
China acelera en modelos abiertos y agentes
MiniMax M3 refuerza una tendencia que ya se había visto con DeepSeek, Qwen, Kimi o Zhipu: los laboratorios chinos están usando modelos de pesos abiertos, precios bajos y grandes ventanas de contexto para disputar espacio a los proveedores estadounidenses. La competencia ya no se limita a quién tiene el mejor modelo cerrado, sino a quién ofrece una alternativa lo bastante buena, barata e integrable.
Para empresas europeas y desarrolladores independientes, esto abre oportunidades. Disponer de modelos más baratos, con APIs compatibles con OpenAI y potencial publicación de pesos, puede reducir dependencia de un pequeño grupo de proveedores. También permite experimentar con despliegues más flexibles, herramientas propias y agentes especializados.
La cautela sigue siendo necesaria. “Pesos abiertos” no equivale automáticamente a “open source” en sentido estricto. Habrá que revisar licencia, condiciones de uso, restricciones comerciales, requisitos de despliegue, rendimiento en hardware propio, consumo de memoria, seguridad, privacidad y cumplimiento normativo. También será importante comprobar si el modelo funciona igual de bien fuera de las demos y de los benchmarks publicados por la propia compañía.
La batalla de fondo es clara: la siguiente generación de IA para desarrolladores no se decidirá solo por chatbots más listos, sino por agentes capaces de trabajar sobre proyectos completos, con contexto largo, multimodalidad, herramientas, baja latencia y costes sostenibles. MiniMax M3 llega justo a ese punto del mercado. Si sus pesos y su informe técnico cumplen lo prometido, puede convertirse en una de las propuestas más interesantes para equipos que quieren rendimiento de frontera sin aceptar todos los costes y dependencias de los modelos cerrados.
Preguntas frecuentes
¿Qué es MiniMax M3?
MiniMax M3 es un modelo de inteligencia artificial orientado a programación, agentes, contexto largo y multimodalidad. La compañía lo presenta como un modelo de pesos abiertos con ventana de hasta 1 millón de tokens.
¿Ya están disponibles los pesos del modelo?
MiniMax afirma que publicará el informe técnico y los pesos del modelo en torno a los 10 días posteriores al anuncio. Hasta que estén disponibles, la comunidad no podrá auditar por completo licencia, arquitectura y rendimiento real.
¿Por qué importa su contexto de 1 millón de tokens?
Porque permite trabajar con repositorios grandes, documentación extensa, logs, contratos, vídeos o sesiones largas sin dividir tanto la información. Aun así, la calidad dependerá de cómo use el modelo ese contexto.
¿Es una alternativa real a GPT, Claude o Gemini?
Puede serlo en algunas tareas de código y agentes si los resultados se confirman de forma independiente. Por ahora, sus cifras son prometedoras, pero conviene validarlas en casos reales antes de compararlo de forma definitiva con modelos cerrados.






