
Decodificación especulativa en vLLM: Avances en la inferencia de P-EAGLE
Investigadores han introducido una técnica de decodificación innovadora llamada P-EAGLE, destinada a optimizar el rendimiento de los modelos de lenguaje de gran tamaño (LLM). Este enfoque supera las limitaciones del método EAGLE, reconocido por su rapidez, pero limitado por un cuello de botella en la redacción automática. Mientras que EAGLE requiere varios pasos secuenciales para cada token, P-EAGLE genera todos



