Amazon y AWS continúan avanzando en la creación de tecnología inclusiva. Con los asistentes de voz, como Amazon Alexa, se facilita a los usuarios hacer preguntas y obtener respuestas al instante sin necesidad de teclear. Este sistema es especialmente útil para personas con discapacidades motoras, aquellos que están realizando múltiples tareas o quienes se encuentran lejos de su ordenador. Ahora, con los asistentes de voz modernos, es posible interactuar conversacionalmente y recibir respuestas verbales de inmediato.
Hoy, profundizamos en las aplicaciones guiadas por voz, específicamente en los chatbots. Estos ya no son una tecnología de nicho y se han vuelto omnipresentes en los sitios web de servicio al cliente, proporcionando asistencia automatizada las 24 horas. Los recientes adelantos en modelos de lenguaje grande (LLM), como la IA generativa, han permitido que las conversaciones sean más naturales. Los chatbots están demostrando su utilidad en diversas industrias, abordando tanto preguntas generales como específicas de la industria. Los asistentes basados en voz, como Alexa, muestran que estamos ingresando en una era de interfaces conversacionales. Para muchos, escribir preguntas ya resulta tedioso en comparación con la simplicidad y facilidad de hablarle a sus dispositivos.
Exploramos cómo construir un chatbot contextual basado en voz completamente sin servidor, adaptado a quienes lo necesitan. También proporcionamos una aplicación de muestra, disponible en el repositorio de GitHub asociado. Creamos un asistente conversacional inteligente que puede entender y responder a entradas vocales de manera contextual. Esta asistente de IA está propulsada por Amazon Bedrock y está diseñada para ayudar a los usuarios con diversas tareas, brindar información y ofrecer soporte personalizado según sus necesidades. Para nuestro LLM, utilizamos Anthropic Claude en Amazon Bedrock.
Demostramos el proceso de integración de las capacidades avanzadas de procesamiento del lenguaje natural de Anthropic Claude con la arquitectura sin servidor de Amazon Bedrock, permitiendo el despliegue de una solución altamente escalable y rentable. Además, discutimos técnicas para mejorar la accesibilidad y usabilidad del chatbot para personas con discapacidades motoras. El objetivo de este proyecto es ofrecer una comprensión integral de cómo construir un chatbot contextual basado en voz que utilice los últimos avances en IA y computación sin servidor.
Esperamos que esta solución pueda ayudar a personas con ciertas discapacidades de movilidad. Aún se requiere un nivel limitado de interacción, y se debe identificar específicamente cuándo comenzar y detener las operaciones de conversación. En nuestra aplicación de muestra, abordamos esto con un botón dedicado de «Hablar» que realiza el proceso de transcripción mientras está presionado.
Para personas con discapacidades motoras significativas, la misma operación puede implementarse con un botón físico dedicado que puede ser presionado con un solo dedo u otra parte del cuerpo. Alternativamente, se puede pronunciar una palabra clave especial para indicar el inicio del comando, similar a como se interactúa con Alexa, comenzando siempre la conversación con “Alexa”.
La arquitectura de la solución, como se ilustra en el diagrama, requiere computación gestionada que pueda alojar la aplicación web, mecanismos de autenticación y permisos relevantes. Todos los servicios utilizados son sin servidor y gestionados por AWS, consumiéndose a través de sus API.
La aplicación es una sencilla aplicación React creada usando la herramienta de construcción Vite. Utilizamos el AWS SDK para JavaScript para llamar a los servicios, entre los cuales se encuentran Amazon Polly, que convierte texto en habla, Amazon Transcribe, que convierte habla a texto, y Amazon Bedrock, que ofrece modelos fundacionales de alto desempeño para construir aplicaciones de IA generativa.
Este desarrollo beneficia a muchas personas, aportando soluciones a las dificultades cotidianas y aligerando el manejo de múltiples tareas mediante la interacción vocal en vez de escrita. Además, mejora la accesibilidad para aquellos con discapacidades físicas, proporcionando nuevas formas de interactuar con la tecnología de una manera eficiente y humanizada.