Microsoft ha dado un nuevo paso en su misión de mejorar la accesibilidad tecnológica al presentar una nueva funcionalidad multimodal para su modelo de lenguaje pequeño, Phi Silica. Este desarrollo está diseñado para potenciar los dispositivos Copilot+ que utilizan procesadores Snapdragon, así como aquellos de futuras generaciones de Intel y AMD. La innovación principal de Phi Silica es su capacidad para comprender no solo texto, sino también imágenes, habilitando la generación de descripciones visuales que pueden utilizarse en tecnología de asistencia, como los lectores de pantalla.
El enfoque que adopta Microsoft con Phi Silica es notablemente eficiente, ya que prescinde de la necesidad de un modelo de visión dedicado. En lugar de eso, la integración se realiza mediante componentes ya existentes, con la adición únicamente de un modelo proyector de solo 80 millones de parámetros. Esta estrategia permite el uso efectivo de los recursos disponibles, como el espacio en disco y la memoria, asegurando que el rendimiento de otros modelos no se vea afectado.
La capacidad multimodal de Phi Silica permite la generación de descripciones de imágenes a varios niveles de detalle, lo cual es especialmente beneficioso para personas con discapacidades visuales. Un aspecto destacable de este avance es que no depende únicamente de modelos basados en la nube, sino que explota capacidades locales para proporcionar descripciones más rápidas y accesibles. Pruebas realizadas han demostrado que un modelo optimizado de Phi Silica puede generar una descripción breve en aproximadamente cuatro segundos, mientras que descripciones más detalladas pueden lograrse en alrededor de siete segundos.
Microsoft ha evaluado la calidad de las descripciones generadas mediante metodologías que comparan su eficacia con modelos de referencia como Florence. Los resultados han mostrado que las descripciones proporcionadas por Phi Silica son más precisas y completas, aumentando así su relevancia para los usuarios que dependen de estas herramientas.
A medida que esta funcionalidad se despliega, Microsoft planea incorporar más idiomas para seguir mejorando la accesibilidad. Esto subraya el compromiso de la empresa de hacer la tecnología más inclusiva y accesible, especialmente para aquellos que enfrentan desafíos al interactuar con las tecnologías digitales.