Aceleración de la Inferencia de LLM con AWQ y GPTQ en Amazon SageMaker AI
En los últimos años, los modelos de fundación y los modelos de lenguaje de gran tamaño han experimentado un notable crecimiento, incrementando frecuentemente su número de parámetros. Este aumento ha conducido a avances significativos en la comprensión del lenguaje y en capacidades generativas. Sin embargo, este progreso también trae consigo costos elevados, ya que la inferencia de estos modelos requiere