Ejecutar LLMs gigantes en GPUs pequeñas: cuando el cuello de botella pasa de la VRAM al NVMe
Durante años, la regla parecía clara: si querías ejecutar modelos de lenguaje grandes en local, necesitabas mucha VRAM. No había demasiada discusión. Una GPU de consumo podía servir para modelos pequeños o medianos, especialmente si se usaba cuantización, pero en cuanto se hablaba de modelos de decenas de miles de millones de parámetros, el salto natural era una GPU profesional,



