Administración de Sistemas. Inicio | llms modelos lenguaje ai

Ejecutar LLMs gigantes en GPUs pequeñas: cuando el cuello de botella pasa de la VRAM al NVMe

Durante años, la regla parecía clara: si querías ejecutar modelos de lenguaje grandes en local, necesitabas mucha VRAM. No había demasiada discusión. Una GPU de consumo podía servir para modelos pequeños o medianos, especialmente si se usaba cuantización, pero en cuanto se hablaba de modelos de decenas de miles de millones de parámetros, el salto natural era una GPU profesional,

¡SUSCRÍBETE AL BOLETÍN
DE LOS SYSADMINS!​

Scroll al inicio
×