KAIKAI

Los investigadores crearon un nuevo sistema robótico inspirado en los globos oculares humanos, que puede girar y hacer zoom para adquirir imágenes más claras de objetos sin necesidad de sensores adicionales o cámaras más caras. Sería vital para el desarrollo de los dispositivos de IA incorporada o encarnada, que necesitan interactuar directamente con el entorno.

Los sistemas de Inteligencia Artificial (IA) incorporada o encarnada se integran en objetos físicos como robots o cualquier otra estructura y pueden relacionarse directamente con el mundo real, a diferencia de la IA tradicional, que solo trabaja en entornos digitales abstractos. Ahora, un nuevo estudio publicado en arXiv describe un importante avance en el campo de la visión aplicada a estos sistemas, que es crucial para su desarrollo y podría agilizar su utilización en múltiples campos de la vida cotidiana.

Un equipo de investigadores de la Universidad Jiao Tong de Shanghái, la Academia China de Ciencias y la Universidad Tecnológica de Dalian ha diseñado EyeVLA, un sistema inspirado en el ojo humano que puede rotar y hacer zoom para registrar tanto una visión panorámica como los detalles más precisos, sin requerir de accesorios externos.

Integrando visión panorámica y detalles

Los científicos explican en el estudio que los modelos de visión existentes y los sistemas fijos de cámaras RGB-D no pueden integrar la cobertura de áreas amplias con la adquisición de detalles, limitando su eficacia en aplicaciones robóticas para el mundo real. De esta manera, EyeVLA podría marcar un punto de inflexión en el desarrollo de la IA encarnada.

La idea central es tan sencilla como eficiente: en lugar de conformarse con imágenes estáticas tomadas por cámaras fijas, el sistema actúa de forma proactiva para mejorar la calidad de la observación. EyeVLA selecciona los comportamientos de movimiento (rotación, inclinación y zoom) y los integra con modelos de visión y lenguaje (VLMs), para producir una única secuencia que combina imágenes, instrucciones y acciones.

Además, para mejorar la selección de puntos de vista, el equipo de científicos aplicó aprendizaje por refuerzo, transfiriendo la comprensión abierta del mundo de los VLMs a una propuesta que integra visión, lenguaje y acción, solamente obteniendo datos mínimos del mundo real. Esto permitiría ampliar la capacidad práctica de los dispositivos de IA integrada o encarnada.

Amplias aplicaciones en el mundo real

En los experimentos, realizados en entornos interiores controlados, EyeVLA demostró una mejora notable en la adquisición de información visual: al recibir instrucciones, el dispositivo reorienta y acerca su lente hacia la zona de interés y obtiene observaciones más nítidas y útiles para tareas posteriores de percepción.

Referencia

Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception. Jiashu Yang et al. arXiv (2025). DOI:https://doi.org/10.48550/arXiv.2511.15279

Según explica Tech Xplore, los ensayos muestran que el sistema consigue observaciones más informativas y claras sin recurrir a hardware costoso, otro aspecto clave para un mayor desarrollo de este tipo de IA. Las aplicaciones incluyen la inspección de infraestructuras, el control y monitoreo de almacenes industriales, la vigilancia ambiental y múltiples tareas domésticas realizadas por robots.

Por último, los investigadores destacan que si EyeVLA supera las pruebas en entornos reales, podríamos estar ante un inminente y significativo salto hacia agentes robóticos con visión más humana: no solo serían más precisos, sino también más adaptables a diferentes situaciones y más comunicativos.

Un nuevo globo ocular robótico podría mejorar la visión de la IA encarnada

Integrando visión panorámica y detalles

Amplias aplicaciones en el mundo real