Anthropic ha dado a conocer una nueva capacidad innovadora llamada «uso de computadoras», diseñada para que sus avanzados modelos Claude puedan interpretar visualmente interfaces digitales. Esta funcionalidad permite a los modelos identificar el contenido de una pantalla, entender el contexto de los elementos de la interfaz de usuario y reconocer las acciones necesarias, como hacer clic en botones o navegar entre aplicaciones. Sin embargo, es importante destacar que estos modelos no ejecutan las acciones por sí mismos; necesitan de una capa de orquestación que garantice la implementación segura de las mismas.
Este avance tecnológico se ha integrado con éxito en Amazon Bedrock Agents, donde se implementan los modelos Claude 3.5 Sonnet V2 y Claude Sonnet 3.7. La colaboración entre las capacidades visuales de Anthropic y la gestión de Amazon Bedrock proporciona una herramienta eficaz, segura y trazable para la automatización de flujos de trabajo en el entorno digital.
Las organizaciones en distintos sectores se enfrentan a desafíos relacionados con la automatización de tareas repetitivas que involucran múltiples aplicaciones y sistemas. Tareas rutinarias como el procesamiento de facturas o la actualización de registros de clientes son comunes, y a menudo requieren transferencias de información manuales que consumen tiempo y pueden dar lugar a errores. Tradicionalmente, la automatización requiere integraciones de API personalizadas, un proceso que representa una significativa carga de desarrollo. Aquí es donde las capacidades de uso de computadoras marcan la diferencia, al permitir que las máquinas perciban y actúen sobre las interfaces existentes de manera similar a como lo haría un humano.
Un aspecto esencial de esta nueva capacidad es la capa de orquestación, la cual permite que la percepción de la interfaz se traduzca en automatización activa. Sin esta capa, los modelos solo podrían identificar posibles acciones sin ejecutarlas. El demo de agente de uso de computadora exhibe un entorno seguro para la ejecución, con un registro detallado de cada acción y simplificación en las pruebas y experimentaciones.
Mediante la integración del uso de computadoras, Amazon Bedrock Agents tiene la capacidad de automatizar tareas a través de acciones básicas de GUI y comandos de Linux integrados, lo que incluye la creación y edición de archivos de texto, y la ejecución de comandos de Linux. Esto mejora significativamente la interacción con interfaces de usuario, la edición de texto y la ejecución de comandos Bash.
El flujo de trabajo de uso de computadora implica pasos como la creación de un agente, la descripción de sus interacciones, la incorporación de grupos de acciones soportados y la invocación del agente con una consulta que requiere herramientas de uso de computadoras. El agente evalúa las herramientas disponibles y determina qué acción realizar, lo que se ejecuta de manera segura.
En resumen, la integración de esta funcionalidad con Amazon Bedrock Agents representa un cambio revolucionario para los desafíos de automatización de flujos de trabajo complejos que enfrentan las organizaciones. Al eliminar la necesidad de desarrollar APIs personalizadas para cada aplicación, facilita la implementación rápida de soluciones de automatización, llevando las operaciones empresariales a un nuevo nivel de eficiencia e innovación. Las posibilidades son prometedoras y vastas, allanando el camino hacia una mayor efectividad y transformación en el entorno empresarial.