La automatización de interfaces gráficas de usuario (GUI) requiere agentes con capacidad para comprender las pantallas de usuario e interactuar con ellas. Sin embargo, el uso de modelos LLM de propósito general como agentes GUI se enfrenta a varios retos:
- identificar de forma fiable los iconos interactuables dentro de la interfaz de usuario
- comprender la semántica de varios elementos en una captura de pantalla y asociar con precisión la acción prevista con la región correspondiente en la pantalla.
OmniParser cierra esta brecha «tokenizando» las capturas de pantalla de la interfaz de usuario a partir de espacios de píxeles en elementos estructurados en la captura de pantalla que son interpretables por los LLM. De este modo, los LLM pueden realizar una predicción de la siguiente acción basada en la recuperación, a partir de un conjunto de elementos interactivos analizados.
OmniParser V2 lleva esta capacidad al siguiente nivel. En comparación con su predecesor, consigue una mayor precisión en la detección de elementos interactivos más pequeños y una inferencia más rápida, lo que lo convierte en una herramienta útil para la automatización de interfaces gráficas de usuario.
En concreto, OmniParser V2 se entrena con un conjunto más amplio de datos de detección de elementos interactivos y datos de leyendas funcionales de iconos. Al disminuir el tamaño de la imagen del modelo de leyenda de iconos, OmniParser V2 reduce la latencia en un 60% en comparación con la versión anterior.
En particular, Omniparser+GPT-4o alcanza una precisión media de 39,6 puntos en una prueba de referencia recientemente publicada, ScreenSpot Pro, que presenta una pantalla de alta resolución e iconos de destino diminutos. Se trata de una mejora sustancial respecto a la puntuación original de GPT-4o, que era de 0,8.

Para permitir una experimentación más rápida con diferentes configuraciones de agentes, Microsoft crea OmniTool, un sistema Windows dockerizado que incorpora un conjunto de herramientas esenciales para agentes.
OmniParser se puede utilizar con diversos LLM de última generación: OpenAI (4o/o1/o3-mini), DeepSeek (R1), Qwen (2.5VL) y Anthropic (Sonnet) combinando los pasos de comprensión de pantalla, fundamentación, planificación de acciones y ejecución.
Riesgos y mitigación
Para alinearse con los Principios de la IA de Microsoft y las Prácticas de IA responsable, Microsoft mitiga los riesgos entrenando el modelo de leyenda de iconos con datos de IA responsable, lo que ayuda al modelo a evitar en la medida de lo posible inferir atributos sensibles (por ejemplo, raza, religión, etc.) de las personas que aparecen en las imágenes de los iconos. Al mismo tiempo, animan a los usuarios a aplicar OmniParser únicamente a las capturas de pantalla que no contengan contenidos nocivos. Para OmniTool, realiza el análisis del modelo de amenazas utilizando la descripción general de Microsoft Threat Modeling Tool – Azure | Microsoft Learn. Proporciona un contenedor docker sandbox, orientación sobre seguridad y ejemplos en el repositorio de GitHub. Y aconsejan que un humano permanezca en el bucle para minimizar el riesgo.