Apuntes científicos desde el MIT

Apuntes científicos desde el MIT

Este Blog empezó gracias a una beca para periodistas científicos en el Instituto Tecnológico de Massachusetts (MIT) en Boston, donde pasé un año aprendiendo ciencia con el objetivo de contarla después. Ahora continúa desde Nueva York buscando reflexiones científicas en otras instituciones, laboratorios, conferencias, y conversando con cualquier investigador que se preste a compartir su conocimiento.

Inteligencia Artificial

Por: | 07 de julio de 2011

Dentro de un tiempo, cuando estés de vacaciones en la selva y fotografíes un pájaro escondido entre los árboles, los programas de visión artificial y reconocimiento de imágenes que está desarrollando Antonio Torralba en el prestigioso Laboratorio de Inteligencia Artificial y Ciencia Computacional (CSAIL) del MIT, te dirán inmediatamente de qué especie se trata.

Conocí a Antonio hace 3 años en Boston tras descubrir una obra suya expuesta en el Museo del MIT. Ya entonces me dijo: “pronto cuando pongas ‘gato’ en google images no buscará fotografías por tags sino por identificación de figuras de gatos en la imagen”. Desde entonces me ha ido ilustrando e insistiendo en que no tenemos que tener el cerebro como referencia, sino buscar maneras mejores de crear inteligencias diferentes.

Yo partía del planteamiento básico que motivó a los primeros impulsores de la inteligencia artificial en los años 60: Si nuestro cerebro funciona como una máquina; si se trata “sólo” de un conjunto de piezas comunicándose entre sí pudiendo interpretar lo que perciben nuestros sentidos, recordando o generando inteligencia… no parece imposible construir una máquina que también piense de manera inteligente. Sí se convirtió en una tarea difícil y llena de fracasos. Pero Antonio defiende que “el optimismo ha regresado al campo de la inteligencia artificial”. Hoy por fin Antonio Torralba traslada sus ideas en este blog, e incluso nos propone participar en su proyecto Labelme. Gracias Antonio

VISIÓN ARTIFICIAL, por Antonio Torralba

Usar la visión para percibir el mundo que nos rodea es algo que hacemos desde que nos despertamos y sin ningún esfuerzo aparente. Por eso, uno podría pensar que construir un sistema de visión artificial debería ser una tarea relativamente sencilla. Esa impresión la tuvieron también los primeros investigadores que trabajaron en este área de la Inteligencia Artificial. Un ejemplo del optimismo inicial fue protagonizado en 1966 por Symour Papert, profesor del MIT Media Lab, que encargó a varios de sus estudiantes el implementar un sistema visual como proyecto de verano. No tardaron mucho en darse cuenta de que no iba a resultar tan sencillo resolver muchos de los problemas que plantea el mundo visual.

Pero, ¿por qué resulta tan difícil construir un sistema de visión artificial? Uno de los problemas que existen es que nuestra intuición sobre lo fácil que es “ver” es incorrecta. Nuestro sistema visual nos esconde los detalles de las operaciones que tiene que realizar para analizar el mundo visual. Pero podemos desenmascarar parte del proceso estudiando ilusiones visuales. Veamos un ejemplo.

Interpretar la escena o capturar imágenes

El sistema visual humano es mucho más que una cámara fotográfica. Para que quede realmente clara la diferencia entre los dos, podemos estudiar esta figura creada por el profesor del MIT Edward Adelson.

Si medimos con un fotómetro la cantidad de luz que sale de los cuadrados marcados con las letras A, B, C y D nos dirá que los niveles de gris de los 4 cuadrados son idénticos. ¡Pero, un momento! ¡Si A y B parecen muy distintos¡ Si no te crees que son iguales imprime el artículo y recorta los 4 cuadrados. Verás que al aislarlos, los cuadrados A y B se transforman y aparecen idénticos. De hecho, el cuadrado C lo he generado usando la herramienta de copiar y pegar para duplicar el cuadrado A y el cuadrado D lo he generado duplicando el B. ¿Qué ha pasado? El sistema visual está “interpretando” la iluminación de la escena mientras que el fotómetro sólo mide intensidad luminosa, sin interpretar. Nuestro sistema visual se da cuenta de que la razón por la que B aparece más oscuro en la imagen es debido a la sombra, y no al verdadero tono del cuadrado en el tablero. El sistema visual elimina el efecto de la sombra y percibimos el cuadrado B como más claro que el cuadrado A aunque realmente en la imagen sean idénticos. Como vemos en este ejemplo, el sistema visual “ve” esta imagen de forma muy distinta a como lo hace un fotómetro. Y lo que también resulta interesante es que no podemos inhibir los mecanismos que usa el cerebro para interpretar la información visual, por mucho que nos empeñemos, ni aún sabiendo que los cuadrados A y B son idénticos podemos verlos como tales. Esto resulta en medidas subjetivas que contradicen lo que ve un fotómetro incluso cuando se le pide a un observador que intente actuar como tal. Simplemente, no podemos ser fotómetros ni aunque lo intentemos. La interpretación automática de imágenes como la anterior suponen un gran desafío para la visión artificial y para la visión humana y no siempre la interpretación es correcta. Como resultado, algunas veces nos inventamos lo que vemos. Y más a menudo de lo que pensamos, fallamos. Fijémonos en el siguiente video:

Como el video tiene muy baja resolución, nuestro sistema visual se inventa parte de lo que vemos de forma automática haciéndonos creer que reconocemos todos los objetos que vemos. Al mirar el video en la resolución original podemos comprobar que muchos de los objetos que veíamos no eran lo que pensábamos.

El reconocimiento de objetos

Entre los diferentes aspectos que tiene que resolver la visión, el reconocimiento de objetos es unos de los temas centrales de investigación actual. Uno de los ejemplos más populares es la detección de caras que podemos encontrar como opción en muchas cámaras digitales. La aparente simplicidad de la detección de caras esconde la complejidad de la investigación que fue necesaria para conseguir una aplicación fiable y rápida. De hecho, el reconocimiento de objetos más generales como mesas, sillas, vasos, etc., aun está por resolver.

La dificultad reside en que objetos como sillas tienen una gran variabilidad en su apariencia, forma, color, y es difícil construir sistemas capaces de tener en cuenta todas esas variaciones. Parte de la investigación que llevamos a cabo en mi grupo en el MIT consiste en construir sistemas de visión capaces de reconocer muchos tipos de objetos.

Una de las dificultades en este tipo de investigación, y con la que podéis ayudarnos, es el conseguir suficientes datos para entrenar los sistemas de reconocimiento. Os explicaré a continuación cómo intentamos resolver este problema y cómo podéis ayudarnos.

Aprendiendo a ver: de los robots a Internet

Aunque es probable que ciertos aspectos de la visión humana sean innatos, la mayor parte de nuestras habilidades visuales las adquirimos durante la infancia mientras interaccionamos con el mundo. Un niño puede aprender la relación entre lo que ve y la forma de los objetos tocándolos, manipulándolos, golpeándolos, dejándolos caer y viendo lo que pasa, etc. También la presencia de un maestro es importante para asociar conceptos con información visual (no todos los objetos del mundo se dejan manipular como lo hace un jarrón… por ejemplo, un elefante).

Tradicionalmente se pensó que la forma de entrenar un sistema de visión artificial sería integrándolo con un robot. Sin embargo, construir un robot que se desplace y manipule objetos con la versatilidad y fiabilidad con la que lo hace una persona resultó ser mucho más complejo de lo que parecía inicialmente. Por esa razón la investigación en visión buscó formas alternativas para obtener datos de aprendizaje. El auge de Internet proporcionó una nueva plataforma de trabajo. Un ejemplo de utilización de Internet para entrenar sistemas de visión es LabelMe desarrollado en nuestro equipo del MIT. Si visitáis la página Web del proyecto podréis ver cómo funciona y ayudar a anotar más imágenes. Las anotaciones introducidas en LabelMe se usan hoy en día por multitud de investigadores en todo el mundo.

Otro proyecto que ilustra el poder de Internet para recoger grandes cantidades de datos es nuestro Diccionario Visual.

Esta aplicación es un mapa del lenguaje inglés ilustrándolo con imágenes. El Diccionario Visual muestra, en una sola página, más de 50.000 conceptos y ha sido creado usando Google y millones de imágenes disponibles en Internet. Como las búsquedas en Google no siempre proporcionan las imágenes apropiadas, el usuario tiene la posibilidad de indicar que imágenes ilustran correcta o incorrectamente cada término. Esta información la utilizamos para entrenar un sistema de reconocimiento que aprenderá a diferenciar automáticamente que imágenes corresponden a cada concepto y mejorar así las imágenes presentadas al siguiente usuario. Es sencillo, cuanto más se use, mejor será la calidad de los resultados presentados.

Del optimismo inocente de los 60, al optimismo realista actual.

Al optimismo inocente de los 60 le siguió un periodo de pesimismo en los años 90, cuando nada funcionaba. Desde el año 2000 hemos entrado en un nuevo periodo de renovado optimismo ya que se han encontrado soluciones eficaces para problemas complejos, y ahora el campo de la visión artificial vive un periodo excitante. La visión artificial ha estado presente en ciertos ámbitos como el médico, el militar o el entorno industrial durante mucho tiempo. Pero ahora se abre camino para llegar al usuario típico como tú o yo. Algunos ejemplos actuales son aplicaciones relativamente sencillas como la creación automática de imágenes panorámicas a partir de varias fotos, hasta sistemas más complejos como la detección y reconocimiento de caras, sistemas de visión para videojuegos como el Kinect de Microsoft, sistemas de detección de peatones y vehículos para la conducción asistida, o para búsqueda de información a partir de fotos como Google Goggles, que permite reconocer monumentos, o encontrar información sobre libros simplemente haciendo una foto de la portada con la cámara de un teléfono. En los próximos años veremos como cada vez más y más sistemas de visión artificial se incorporarán a productos de consumo, desde nuestras aspiradoras hasta nuestros coches. Surgirán cámaras capaces de resolver tareas complejas como decirnos la especie exacta del pájaro que estamos fotografiando o si una seta es comestible o no, existirán gafas que podrían ayudar a gente con problemas de visión a leer cualquier texto y signos o indicando si se puede cruzar la calle, hasta lavavajillas capaces de ordenar por si solos la vajilla en los armarios rompiendo muy pocas cosas...



- Antonio Torralba

********

Contacto: [email protected] / Twitter: @Perestupinya

Facebook group: Apuntes Científicos desde el MIT Web: www.elladrondecerebros.com

Hay 8 Comentarios

Son el mismo gris, pero en la imagen, en cierto modo "los dados están cargados para potenciar el efecto".... el resto de cuadros en el área de sombra habn sido coherentemente oscurecidos respecto a los del resto del tablero, incluso no en su totalidad, acordes a la sombra del cilindro... en especial los que son claros fuera de la penumbra... siguen siendo claros pero oscurecidos justo al nivel de B... gran parte del efecto visual proviene de esta licencia, el cerebro no quita ninguna sombra, esta no existe para ese cuadrado concreto, lo que hace inevitable la interpretación exageradamente clara. Como ejemplo es descriptivo, pero no es totalmente objetivo. Simplemente con comprobar el color de todos los cuadros.

Saludos

Una pequeña aportación e interpretación sobre esta ilusión. Vide: http://ahombrosdepequesgigans.blogspot.com/2011/08/el-espejismo-de-la-ilusion-optica-del.html

Imposible, no lo veo! Si B fuera igual que A, al estar en sombra no debería estar más oscuro, cuando precisamente es al contrario. Por eso pienso, estoy casi convencida "visualmente hablando, a través del uso de la percepción" que no son el mismo gris. En espera de la medición en spot.

Si ladeas tu cabeza hacia la izquierda y guiñas el ojo derecho, compruebas que son el mismo tono de gris (A y B), pero con una sombra brillante que aclara los de alrededor. http://ahombrosdepequesgigans.blogspot.com/ Saludos!!!

El fotómetro mide el índice de reflexión, que igual coincide en ese caso. Todo fotómetro está calibrado para un índice de medición de gris neutro con el 18%de reflexión. Aunque, si lo hace a partir de una medición modo spot e incidente puntual, ambos cuadrados A y B nunca medirán lo mismo, no serán grises iguales. Salvo que se compensen, que: A,gris oscuro e iluminado y B)gris claro en sombra arrojada, en ese caso ambas mediciones son iguales. En el supuesto A y B son iguales por la iluminación, pero no por que el gris sea el mismo.D es otro, no obstante si A. Torralba dice que es el mismo gris me lo creo.[;)]

Buen artículo. En relación al ejemplo de la figura del tablero de ajedrez y el clindro, el fotómetro nos dice que los niveles de gris son idénticos, mientras que nuestra mente nos dice que son distintos. Pero ¿Cuál de las dos versiones es la real? Me explico, la imagen contiene información sobre varias cosas, un cilindro, los cuadrados, la sombra, la perspectiva, las notaciones A,B,C y D... siendo el nivel de gris de los cuadrados solo una parte de esa información. Si empleamos el fotómetro obtenemos una medida del nivel de fotones emitido por cada uno de los cuadrados grises de forma aislada, sin tener en cuenta el resto de la información presente en la imagen, por lo tanto se trata de una medición parcial de la imagen. La verdadera imagen surge de la percepción, integración e interpretación de todos y cada uno de los elementos informativos presentes en ella. Para ello es necesaria la participación de un sujeto cogniscente que realice esa interpretación. Sin este sujeto, ni cuadrados grises, ni cilindro, ni sombra, ni perspectiva. Cuando leemos el fotómetro también debemos interpretar qué significa el dato que nos proporciona. ¿Cuál de los dos interpretaciones es la real? ¿Porqué? Saludos cordiales y enhorabuena por el blog.

La inligencia artificial existe, y también existe el atificio.EL ARTE A VECES ES UN INGENIO CREATIVO, A VECES ES SÓLO UNA TÉCNICA, Y A VECES ES UN PRODIGIO.Ni siquiera el mismo artista es capaz de comprender cómo ha sido capaz de crear aquella obra, ni es consciente de su valor.A veces el arte es un puro artificio, un invento. En el caso del artista americano Cy Twomly,muerto hace un par de días, su expresión artística era una emanación directa del incosciente, sin apenas el control de la mente lógica razonable. El solamente lo dejaba fluir. Conocí a Twomly en Roma, en el año 1979, en su casa estudio de vía Monserrato.Precisamente me enseñó un cuadro blanco, en el estaba trabajando desde hacía meses, una enorme tela blanca casi vacía, con alguna mancha aislada de color blanco, y algunas rayas de lápiz gris, y garabatos de pastel rojo. No sabía cómo terminarlo, y así pasaron meses. Finalmente, unos 7 meses más tarde, ví que li había añadido algun ligero sombreado, que parecían casuales suciedades, y algún extraño número en lápiz amarillo, y ocre, como una suma, tachada después, o medio borrada, confusa. Esto puede considerarse inteligencia creativa, y talento intrínseco brotando espontáneo, desde la punta de los dedos del artista. Lo que no es nada inteligente es lo que hizo algún funcionario del PP,con la mentira que nos contaron , sobre el precio pagado por el cuadro que se expuso en el Museo Nacional Reina Sofía.Esto es un puro artificio, de mal gusto, y nada inteligente.Una mentira demasiado notable, porque en aquellos tiempos, la cotización máxima de Twomly en el mercado estaba en 700.000 dolares por una obra de gran formato, mientras que el Reina Sofía compró una obra de pequeñas dimensiones, de apenas 80x 120 cm. creo.Para esta medida la cotizción estaba más o menos en unos cuatrocientos millones de liras , como máximo, esto es lo que cobraba el marquese Franquetti, su a migo y protector.En Roma todos saben que Twomly ne negaba muy frecuentemente a vender, con excepción de algunos amigos coleccionistas o del museo de arte moderna de Zúrich, o de Lambert, y los precios eran muy superiores a los del mercado italiano, a excepción de Burri.Pero las cotizaciones eran todas inferiores al miliardo de liras, es decir mucho menos del millón de dólares. Declarar que se pagaron 4 millones de dólares por el cuadro del Reina Sofía fué una mentira de grandes dimensiones. En España, por fortuna , eran un poco ignorantes en todo eso, porque también en el caso de los Fontana hubo alguna pequeña mentirita.Me lo contó Teresita Fontana, en Corso Monforte. Pero Cy Twomly fué un hombre por encima de todas las vulgaridades del mercado, y de los mercaderes.Su arte no era artficial.Era una arte de artista. Ciao Cy.Ti ricordiamo con afetto, caro amico.

Esta muy buena entrada me hizo recordar este cómic visto en Amazings.es :-) http://amazings.es/2011/07/07/imaginad-donde-estaremos-dentro-de-42-anos/

Los comentarios de esta entrada están cerrados.

TrackBack

URL del Trackback para esta entrada:
https://www.typepad.com/services/trackback/6a00d8341bfb1653ef0168e4ec774e970c

Listed below are links to weblogs that reference Inteligencia Artificial:

Sobre el autor

Pere Estupinya

. Soy químico, bioquímico, y un omnívoro de la ciencia, que ya lleva cierto tiempo contándola como excusa para poder aprenderla.
Sígueme en Facebook o a través de mi web pereestupinya.com.

Libros

S=EX2 S=EX2
En esta nueva aventura científica que recorre desde laboratorios y congresos de medicina sexual hasta clubs de sadomasoquismo o de swingers, Pere Estupinyà nos ofrece la obra más original y completa que ningún autor hispanohablante haya escrito nunca sobre la ciencia de la sexualidad humana.

El ladrón de cerebros La ciencia es la aventura más apasionante que puedas emprender.
En El Ladrón de Cerebros, Pere Estupinyà se infiltra en los principales laboratorios y centros de investigación del mundo con el objetivo de robar el conocimiento de los verdaderos héroes del siglo XXI —los científicos— y compartirlo con sus lectores. El Ladrón de Cerebros

Facebook

El País

EDICIONES EL PAIS, S.L. - Miguel Yuste 40 – 28037 – Madrid [España] | Aviso Legal