Revista de Divulgación Científico-Tecnológica del Gobierno del Estado de Morelos

La atención visual en la robótica

Robotica

En gran medida, la interacción con el ambiente que nos rodea está regida por el procesamiento visual que realizamos de cada parte de éste, sin embargo, ¿cómo es que no nos sentimos agobiados por la gran cantidad de estímulos visuales que se nos ofrece? ¿Es nuestro cerebro una máquina de procesamiento sin límites?
          El ambiente circundante es rico en variedad y cantidad de estímulos.  Aunque el cerebro es una compleja maquinaria con capacidades increíbles, no tiene capacidad ilimitada. Es por esto que nuestros sentidos deben estar dirigidos por nuestras necesidades, permitiendo atender sólo lo que se considera necesario.  Imaginemos que nos encontramos en un parque de diversiones y tenemos que localizar a un amigo, en este escenario es probable que muchas cosas nos llamen la atención (estímulos relevantes), por ejemplo, el niño que llora y los globos de colores,  entre otros. Si se quisiera analizar a detalle cada situación que sucede y que emerge en cada instante, estaríamos completamente distraídos de nuestra búsqueda y pasaríamos la tarde abstraídos en las diversas situaciones presentes. Es por ello, que tenemos la necesidad de seleccionar solamente aquellos estímulos que nos sirven para cumplir con ciertas metas. A esa selección de estímulos, basada en nuestras metas y objetivos, se le conoce como proceso de atención.
         La atención, como lo describió William James en 1890, es "el proceso por el que la mente toma posesión, de forma vivida y clara, de uno de los diversos objetos o trenes de pensamiento que aparecen simultáneamente. Focalización y concentración de la conciencia son su esencia. Implica la retirada del pensamiento de varias cosas para tratar efectivamente otras".

Estamos rodeados de estímulos

La atención visual en particular se refiere al mecanismo de atención, pero únicamente en lo relativo a la selección de información,  disparada por cualquiera de las modalidades sensoriales con que contamos. Para todos nosotros, este proceso de selección visual es algo totalmente natural y transparente, tanto, que es obviado en nuestra diaria interacción con el mundo.  En este punto surgen dos preguntas fundamentales: ¿es posible dotar a un agente artificial con un mecanismo de atención visual que permita el estudio de este fenómeno en los seres humanos?, ¿pueden estos mecanismos dotar de mayor autonomía a los agentes artificiales?
          Desde hace algunos años, se están haciendo esfuerzos por crear un sistema robótico dotado de un esquema básico de atención visual. Uno de los puntos a modelar en este sistema es el de los movimientos oculares, pues es usando éstos que un humano dirige la mirada hacia algún objeto de interés. Los movimientos oculares, tienen como fin proyectar la imagen del objeto de interés en una pequeña parte de la zona receptora del ojo llamada, fóvea. Esta zona es una parte de la retina que tiene una elevada concentración de células receptoras, lo que se traduce en una  mayor calidad visual, hablando en términos de cámaras digitales, esta región tendría una resolución mayor. Por esta razón es que aquello que requiere o llama nuestra atención, es llevado a esta área.
En robótica, se hace uso de cámaras digitales montadas en plataformas que cuentan con movimiento en dos ejes. Conocidas como unidades pan-tilt o PTU, éstas son una cruda imitación de las capacidades del sistema biológico humano. Por otro lado, para emular el proceso atencional es necesario también un criterio de selección de las zonas relevantes sobre la imagen captada por la cámara. Un proceso bastante conocido y explotado es el de la creación de mapas de relevancia.
          Este proceso, toma una imagen como entrada y la descompone en canales de acuerdo a distintas características, tales como el color, la forma, el tamaño, entre otras.  Para cada uno de los canales se encuentran los cambios más abruptos de acuerdo a distintos operadores, esto entrega como resultado final una imagen que marca los puntos más relevantes de la escena.
Por ahora, tenemos un panorama general del mecanismo de atención visual, cómo es que se modela en la robótica; sin embargo, vale la pena mencionar que los científicos están desarrollando sistemas para emular otras partes de éste, por mencionar algunos:

  • •El mecanismo que marque cuales zonas deben atenderse primero y que inhiba las zonas ya atendidas (proceso conocido como inhibición del regreso)
  • •Un modelo que consiga dar prioridad en la exploración a zonas donde hay movimiento (novedad temporal)
  • •Un sistema que aprenda sobre la experiencia a discriminar lo más importante y que se adapte y habitúe a nuevos entornos.

En términos de emular el par ocular de los humanos,  surgen entre otras, estas preguntas:

  • •¿Cómo lograr unir de manera eficiente lo percibido por un par de cámaras (sistema estéreo) emulando el sistema visual humano?
  • •¿Cómo lograr la coordinación del sistema estéreo en una búsqueda visual?
  • •¿Cómo emular la noción de distancia a los objetos circundantes que las personas construimos?

Estos son algunos de los retos a los que se enfrenta la robótica en el contexto de atención visual y que, entre otros, se intentan atacar en nuestro laboratorio. Conforme se consigan avances en la implementación de estas ideas, se potenciará la capacidad de los agentes robóticos autónomos.

Robotica

Lic. Esaú Eliezer Escobar Juárez / Esta dirección de correo electrónico está protegida contra spambots. Usted necesita tener Javascript activado para poder verla.
Facultad de Ciencias de la Universidad Autónoma del Estado de Morelos
Dr. Bruno Lara Guzmán / Esta dirección de correo electrónico está protegida contra spambots. Usted necesita tener Javascript activado para poder verla.
Facultad de Ciencias de la Universidad Autónoma del Estado de Morelos
Archivo: Robótica