Enlaces accesibilidad

La tecnología de Google para "entender" las imágenes

  • Los ordenadores aprenden a ver qué hay en las imágenes y dónde
  • Google publica los detalles de su sistema para "acelerar su desarrollo"
  • Estas tecnología mejoran la visión artificial para robots y coches autónomos

Por
Ejemplo de análisis y clasificación de una imagen por la tecnología de Google
Ejemplo de análisis y clasificación de una imagen por la tecnología de Google.

El desafío académico relacionado con la visión artificial, la Imagenet Large Scale Visual Recognition Challenge 2014 (ILSVRC 2014) fomenta el desarrollo de tecnologías capaces de "entender" las imágenes; entender en el sentido de conseguir que los ordenadores mediante algoritmos identifiquen qué objetos aparecen en una fotografía, y dónde.

Google ha participado este año con el equipo GoogLeNet y ha detallado su sistema de reconocimiento de imágenes que ha sido el primer clasificado por su capacidad para detectar y clasificar los objetos que aparecen fotografiados con una velocidad y precisión que duplican el logro del vencedor de la pasada edición de este desafío.

Para que el sistema sea capaz de funcionar primero debe aprender a partir de imágenes etiquetadas de forma manual, con miles de imágenes procedentes de Flickr cuyos contenidos está identificados según los objetos o figuras que aparecen en ellas.

A partir de ahí los sistemas deben de ser capaces de clasificar las imágenes conforme a las etiquetas con las que se corresponden como un primer paso para evaluar la capacidad del algoritmo utilizado.

Reconocer 'qué' aparece en una imagen y 'dónde' se sitúa

Más complejo y sofisticado es la clasificación con localización, que consiste en que el algoritmo debe determinar, además de las etiquetas correspondientes a cada imagen, dónde se localizan los objetos o etiquetas dentro de la imagen, distinguiendo si confluyen diferentes formas a la vez.

El desafío de detección utiliza imágenes en las que los objetos etiquetados de forma difícilmente distinguibles, bien porque aparecen en un tamaño pequeño o porque sólo se muestran parcialmente o en condiciones de luz complicadas.

La participación de Google es “abierta”, lo que significa que el método utilizado y los detalles de funcionamiento se hacen públicos de tal modo que otros investigadores “pueden colaborar en su desarrollo y acelerar los progresos”.

El análisis de imágenes tienen numerosas aplicaciones e influye directamente en el progreso de la visión artificial para robots, buscadores y coches autónomos; y en general, "en cualquier sistema en el que resulte útil entender ‘qué’ aparece en una imagen y ‘dónde’ aparece", explica Google.