Amazon ha introducido nuevas funcionalidades en su plataforma Amazon Bedrock, concebidas para que las organizaciones evalúen de manera más eficaz modelos fundamentales y sistemas de Generación Aumentada por Recuperación. A partir de ahora, es posible llevar a cabo evaluaciones de modelos alojados en Amazon Bedrock y en otras plataformas, gracias a las funcionalidades avanzadas de Evaluaciones de Amazon Bedrock.
Una herramienta sobresaliente de esta nueva oferta es la técnica «LLM-as-a-judge», que permite realizar evaluaciones automatizadas con una calidad comparable a la humana. Este método innovador evalúa distintos aspectos de la inteligencia artificial responsable, como la exactitud y la exhaustividad, eliminando la necesidad de intervención humana directa. Además, las organizaciones tienen la posibilidad de utilizar métricas personalizadas que se ajusten a sus necesidades empresariales específicas, lo que facilita una evaluación más significativa y útil de las aplicaciones de inteligencia artificial generativa.
El sistema ofrece plantillas predefinidas y métricas construidas bajo criterios generales, pero también proporciona la flexibilidad para que los usuarios diseñen sus propias métricas a medida, acorde a sus requerimientos. Entre las características disponibles, se encuentra la capacidad de integrar contenido dinámico en las evaluaciones y opciones avanzadas para definir formatos de salida personalizados.
Este desarrollo está diseñado para ayudar a las empresas a mantener la calidad y mejorar continuamente sus sistemas de inteligencia artificial, alineándolos con sus objetivos estratégicos. La posibilidad de incorporar métricas personalizadas no solo amplía las capacidades de evaluación, sino que también promueve un análisis más robusto y contextualizado de los resultados obtenidos; esto genera un impacto más significativo en el rendimiento del negocio.