Los modelos de razonamiento DeepSeek-R1 han sido recientemente introducidos en el Amazon Bedrock Marketplace y Amazon SageMaker JumpStart, marcando un hito en el ámbito de la inteligencia artificial debido a su habilidad para realizar procesos de razonamiento complejos y extensos. Desde su lanzamiento, han mostrado un rendimiento notable en una serie de pruebas matemáticas exigentes, como la competencia AIME-2024 y el conjunto de problemas MATH-500. Además, han demostrado ser competidores formidables frente a otros modelos avanzados como Claude Sonnet 3.5 de Anthropic, GPT-4 y OpenAI O1.
Una de las características más diferenciadoras de DeepSeek-R1 es su capacidad de aprendizaje. Durante el proceso de entrenamiento, los investigadores observaron que el modelo mejora su capacidad para resolver problemas al tener más tiempo para reflexionar. Sin embargo, este proceso conlleva un reto significativo: el manejo eficiente de los «tokens de pensamiento» necesarios durante la inferencia y el costo que ello implica antes de ofrecer una respuesta.
La optimización de prompts en Amazon Bedrock se ha presentado como una solución efectiva para mejorar el rendimiento de estos modelos. Por ejemplo, durante la resolución de problemas de complejidad matemática moderada, se ha observado que, a veces, los modelos no logran finalizar su proceso de razonamiento dentro del límite de tokens disponible. Al incrementar el límite de tokens de salida de 2,048 a 4,096, se ha conseguido que el modelo disponga de un mayor tiempo de reflexión, lo que mejora su capacidad para llegar a conclusiones precisas.
Por otro lado, la aplicación de optimización de prompts ha demostrado ser eficaz en el contexto del «Último Examen de la Humanidad» (HLE), un conjunto de preguntas diseñado para desafiar el conocimiento profundo y la habilidad de razonamiento de los modelos. Mediante esta técnica, se ha conseguido reducir el número de tokens de pensamiento en un 35% en ciertas tareas, sin perder precisión en las respuestas. En un conjunto de 400 preguntas del HLE, esta técnica permitió aumentar la precisión general de las respuestas del 8.75% al 11%, disminuyendo simultáneamente el tiempo y los costos de procesamiento.
La implementación de la optimización de prompts no solo mejora la eficiencia de los modelos, sino que también sugiere un camino prometedor para futuras aplicaciones de inteligencia artificial en entornos donde la precisión y la economía de recursos computacionales son cruciales. A medida que la inteligencia artificial sigue su evolución, herramientas como esta optimización serán esenciales para garantizar aplicaciones prácticas más efectivas y eficientes.