El Año de Turing

El Año de Turing

La informática a la que recurrimos para tuitear o hacernos una resonancia magnética es en esencia Alan Turing, uno de los científicos más importantes de la Historia. Fue un hombre generoso que afrontó con genialidad lógica horrores como el Nazismo pero al que el mundo devolvió sólo injusticia. Acercamos su obra a los lectores para que comprueben lo importante que fueron sus aportaciones. Creó la Informática tal y como la conocemos.

La sabiduría de la Web

Por: | 22 de noviembre de 2012

RICARDO BAEZA YATES

Tim Berners-Lee. Autor: Enrique DansLa Web, concebida en 1989 y realizada en 1990 por un equipo liderado por Tim Berners-Lee, es una plataforma de comunicación distribuida y colaborativa que ha permitido la masificación de Internet. Por su interactividad y las personas que la usan, es el medio de comunicación más potente que existe hoy en día. Es también el repositorio público de datos más grande que la humanidad ha creado, almacenando petabytes de datos (un petabyte es mil billones de caracteres o mil terabytes). Cada día, cientos de terabytes son agregados en los más de 200 millones de ordenadores que conforman hoy la Web. Estos ordenadores utilizan un software especial, llamado servidor Web, que permite atender las peticiones de las más de dos mil millones de personas que tienen hoy acceso a Internet. Estos servidores a su vez atienden más de 600 millones de sitios Web. Es decir, los distintos nombres con que identificamos unidades de información lógicas en la Web, como elpais.com. ¿Cuántos de estos nombres conoces tú? ¿Cuántos de estos nombres conoce tu ordenador? Sin duda menos del 0.01% de ellos. Por esta razón, los buscadores Web como Bing, Google y Yahoo!, permiten acceder a este océano inmenso de datos que de otro modo no podríamos ver.

¿Cuánto contenido hay en la Web? Bing (logo) Bueno, eso depende de qué entendemos por contenido. Si contenido son sólo los ficheros almacenados en estos servidores Web, entonces ya hemos dicho que es del orden de petabytes, distribuidos en más de 100 mil millones de páginas. Google (logo)Sin embargo, si contamos también páginas dinámicas, es decir, las que se crean cuando interactuamos con la Web, el total de páginas es potencialmente infinito (por ejemplo, podemos generar todos Yahoo (logo) los meses del futuro en un sitio de calendarios, aunque para eso también necesitamos de tiempo ilimitado). Por lo tanto, el problema principal de los buscadores no es intentar recolectar todas las páginas posibles, sino las mejores páginas.

La principal contribución actual al contenido de la Web proviene de las mismas personas que la usan; la llamada Web 2.0. Por supuesto, la calidad de la información es más alta en sitios con contenido editorial como periódicos o sitios gubernamentales. Por otro lado, aunque el contenido de la Web 2.0 tiene una calidad menor en promedio, para la misma calidad del contenido editorial seguro que hay más contenido aportado por la gente, debido a la cantidad  de personas que usan Internet. Por esta razón es importante explotar el conocimiento implícito que está codificado en las acciones que realizan las personas en la Web. Entonces, si muchas personas escogen elpais.com cuando buscan [Periódico España] o cuando buscan [El País], podemos deducir que El País es un periódico español. Este tipo de análisis es lo que en inglés se llama “Wisdom of Crowds” o la sabiduría de la gente aplicada a la Web.

La sabiduría de la gente impacta en la Web en muchos aspectos.  A nivel de desempeño, gracias a que mucha gente quiere ver las mismas páginas o quiere saber la respuesta a las mismas consultas, basta con almacenar estas páginas/resultados en la memoria de nuestro ordenador o en servidores especiales para reutilizarlas y así permitir que el acceso a ellas sea mucho más rápido (esto se llama "caching" en inglés). Esto permite disminuir drásticamente el tráfico en la red o la carga de los buscadores u otros servicios disponibles en la Web.

La sabiduría de la Web 2.0  también se refleja en la calidad del trabajo colaborativo detrás de sitios como Wikipedia, Yahoo! Respuestas o el Open Directory Project.  De hecho, hay estudios que muestran que la calidad de Wikipedia es comparable a una enciclopedia. Este trabajo colaborativo se denomina hoy en día crowdsourcing y en los ejemplos anteriores este trabajo ha sido realizado voluntariamente y por ende de forma gratuita. Sin embargo, también hay servicios que permiten realizar pequeños trabajos por poco dinero, siendo Amazon Mechanical Turk (AMT) el más conocido.  Esto ha permitido realizar estudios de usuarios o etiquetar datos a gran escala a un costo mucho menor. Las personas que trabajan para AMT están principalmente en Estados Unidos, pero recientemente se ha popularizado en la India, lo que permite trabajos no sólo en inglés y castellano, sino también en otros idiomas. Estudios de AMT han demostrado que la calidad de los resultados en algunas tareas es similar a la de expertos y que la calidad no aumenta significativamente si se paga más. Este fenómeno se llama “computación humana” ya que todavía las personas son más efectivas para ciertas tareas que los ordenadores, como el reconocimiento de imágenes o de texto escrito a mano.

Otro ejemplo de uso de la sabiduría de la Web es la jerarquización de páginas (ranking). Ésta se realiza principalmente utilizando las palabras que contienen las páginas (la sabiduría de los que escriben), los enlaces entre páginas (las sabiduría de los administradores de sitios web), los textos asociados a los distintos objetos de una página (etiquetas, comentarios, … es decir la sabiduría de la Web 2.0), y las selecciones de los resultados escogidos por las personas cuando navegan (la sabiduría de todos los que usan la Web). La combinación de todas estas sabidurías nos permite encontrar buenas páginas para la mayoría de las consultas que las personas hacen. Pero como veremos más adelante, no es trivial saber si estas páginas son las mejores posibles.

Flickr (logo)El análisis de datos de la Web puede ser mucho más complejo y específico. Por ejemplo, tomemos las fotos geo-localizadas de Flickr. Estas fotos son aquellas hechas con una cámara con GPS que indican la ubicación geográfica y la hora en que fue tomada. Si ahora tomamos todas las fotos de este tipo hechas en Barcelona, aproximadamente un millón a la fecha, y las clasificamos por lugares de interés en la ciudad, utilizando la localización y las etiquetas de cada foto, podemos generar el camino que realizó cada fotógrafo, cuánto tiempo tardó entre dos lugares y  cuántas fotos tomó en cada lugar. Si ahora un futuro turista pregunta "¿Qué debo visitar en Barcelona si tengo sólo 6 horas?", podemos calcular el camino óptimo para maximizar el número de lugares más visitados, sugiriéndole cuántas fotos debe tomar y cuánto tiempo debe quedarse en cada uno de ellos y cuánto tardará en promedio en ir de un lugar a otro.

El análisis anterior funciona para ciudades populares. Por otro lado, tal como en otros medios de comunicación, lo más visto no es necesariamente lo de mejor calidad (la televisión es unos de los mejores de ejemplos de este hecho). Cola-alargada-cortoSin embargo, analizando cosas menos populares, podemos encontrar, si volvemos al ejemplo de las fotos, una gran cantidad de temas y lugares distintos y, en particular, las mejores fotos. Todo esto se encuentra en lo que se llama la cola alargada de la distribución de objetos, ya sean palabras, páginas, fotos, etc. Esta cola alargada es un subproducto de la distribución de Zipf que aparece recurrentemente en la Web. Es decir, que hay pocos objetos populares y hay muchos más objetos menos populares. Esta cola es tan alargada que el volumen de objetos en la cola es apreciable y ésta es una de las razones del éxito del comercio electrónico, ya que se pueden vender muchos objetos digitales distintos, como canciones y videos, a muchas personas distintas. Esto significa que una parte importante de los ingresos de un sitio de comercio electrónico (lo correcto sería decir digital), tales como Amazon o Netflix, provienen de la cola alargada.

Una posible explicación de la cola alargada es que hay dos tipos de personas. Las normales, que hacen siempre lo mismo, y las raras, que hacen cosas distintas. La unión de todas ellas genera esta distribución con cola alargada. Sin embargo esta explicación no es la correcta, pues en 2009 un grupo de investigadores de Yahoo! Labs analizó cinco conjuntos distintos de datos (consultas, blogs, películas, etc.) mostrando que las personas ordinarias también tienen gustos extraordinarios. Éste es un resultado muy importante, porque no sólo reafirma que el comercio electrónico debe aprovechar la cola alargada, sino que además debe preocuparse de ella pues todos contribuimos a esa distribución. Es decir, un servicio que no se preocupe de las peticiones poco comunes o extraordinarias de sus usuarios, los dejará descontentos una fracción de su tiempo. Esto es muy importante pues en la Web basta una mala experiencia para que el usuario no vuelva.

Otra consecuencia de la cola alargada, es que para la mayoría de las personas no tenemos suficientes datos para personalizar su experiencia cuando usan algún servicio Web. Esto se debe a que la interacción de las personas con la Web es otra cola alargada. Pocas personas interactúan mucho, muchas personas interactúan poco. Sin embargo, si tomamos a todas las personas que están tratando de hacer lo mismo, incluso en la cola alargada, tendremos suficientes datos para contextualizar su experiencia. De este modo es posible mejorar la experiencia de más personas, evitando al mismo tiempo cualquier invasión de privacidad.

Facebook (logo)Espero que estas breves líneas hayan dejado en claro la importancia de la sabiduría de la Web y la distribución de esa sabiduría, la que tiene una cola alargada. Esta distribución permite que la Twitter (logo) Web funcione mejor, por ejemplo mediante caching, y que a su vez sea diversa y especial. Por otro lado, la Web 2.0, en particular las redes sociales como Facebook y los microblogs como Twitter, han contribuido a democratizar la Web, no solamente en el sentido político, como en la primavera árabe, sino también en que más gente posee contenido propio en la  Herbert SimonWeb. En otras palabras, la cola alargada del contenido se hace más alargada. Por otro lado, el tiempo disponible para acceder a ese contenido sigue siendo el mismo, lo que significa que podemos estar en cada sitio Web menos tiempo si queremos explorar más cosas. O en las palabras del premio Nobel de economía, Herbert Simon, hace ya más de 40 años, “la riqueza de información genera pobreza de atención”. Sin embargo, si podemos explotar mejor la sabiduría de la Web, es decir, la sabiduría de todos los que la usamos, crearemos experiencias que integrarán datos para generar información de alta calidad que pueden producir riqueza de atención. Cuando eso ocurra, la Web 3.0 habrá nacido.

 

Ricardo Baeza Yates es Vicepresidente de Investigación de Yahoo! para Europa, Medio Oriente y América Latina y catedrático con dedicación parcial de la Universitat Pompeu Fabra.

Hay 5 Comentarios

hoy en día puedes encontrar más contenido en internet que en cualquier biblioteca del mundo, porque antiguamente solo escribían los que sabían escribir, que eran una minoría. Ahora, cualquiera puede dejar su impronta en la cultura universal, aunque a veces parezca que solo digan banalidades, cuanto nos gustaría conocer las banalidades de los romanos, los egipcios, los mongoles o los mayas....creo que merece una reflexión...saludos...

Una última observación. Que Berners-Lee haya inventado el web es un mito que ya sería hora de abandonar.

Berners-Lee ha creado, cuando trabajaba en el CERN, el protocolo http y el lenguaje html (que, en realidad, era una simplificación de un lenguaje que ya existía llamado STML).

Esta no es la web. Es una pieza importante de ella, pero no es la web. El primer navegador gráfico, por ejemplo, llamado Mosaic, fue creado por Marc Andersen en la Unviersity of Illinois. Fue el primero que permitió poner imágenes en las páginas web usando, por esto, el protocolo uucp que existía desde los años '70.

Antes de Mosaic, incluso antes de Berners-Le, existía Gopher, un directorio de internet no-gráfico.

El web es una creación de mucha gente, incluso Berners-Lee que creó una pieza importante pero no única.

la ventaja de Berners-Lee es que, además que un buen técnico, es un buen político: sabe como recoger el mérito, el suyo y el de los demás.

La web, como todo, tiene dosa caras, una mucho más oscura que la otra.

Es cierto, la "wisdom of crowds" puede ser útil, siempre cuando no se transforme en una apología del conformismo. En un mundo en que la verdad se establece por mayoría, ¿como podrán generarse las ideas nuevas e impopulares? No olvidemos que en el siglo XVI la wisdom of crowd era que la tierra estaba en el centro del universo.

¿En la wikipedia, hoy, podría prosperar una entrada que sostenga que la tierra está en el centro del universo? Si no, hay que preocuparse, porque de la misma manera hace 500 años no habría podido prosperar la idea correcta, y quizás cuantas ideas impopulares pero incorrectas vamos a perder a causa del conformismo impuesto por estos medios.

Otra es la cuestión del Amazon Mechanical Turk. Cierto, se trata de un servicio barato y cómodo. Pero no olvidemos que se basa en pagar casi nada a gente de países en via de desarrollo. Así podemos tener a esta gente trabajando por nosotros ganando casi nada sin tener que llevarlos aquí y ofrecerles esta cosas tan feas como asistencia médica o educación.

No hay que olvidar que la web de hoy es un far west sin ley controlado por grandes empresas que están distorsionando la ley para establecer en internet los principios éticos y legales que más les convienen.

Y si alguien no se lo cree, sólo tiene que echar un vistazo a las leyes de propiedad intelectual o a acuerdos como ACTA y SOPA.

Habría también que mencionar el papel fundamental de la web en ofrecer una nueva visión de la sociedad, generada a través del comportamiento (a veces implícito) de millones de personas cuando actúan online.
Un ejemplo es el "autocompletamiento" de los buscadores que - basándose en preguntas precedentes hechas por millones de usuarios - intentan adivinar nuestras preguntas mientras las escribimos. Manipulando este mecanismo (el tema fue tratado ayer en un artículo en la portada del New York Times http://t.co/XMxapM65 ) obtendremos una imagen complementaria de nuestra sociedad moderna. Podemos, por ejemplo, estudiar estereotipos y lugares comunes (aquí una aplicación práctica del concepto: http://t.co/RRDeZ5uV )

Los comentarios de esta entrada están cerrados.

Sobre los autores

Este blog es una obra colectiva en la que participarán científicos y expertos españoles y extranjeros cuya obra haya bebido de las aportaciones de Alan Turing. Aunque principalmente recogerá los avances científicos en la Informática, abarcará otras opiniones sobre la importancia de la misma en otros ámbitos: la Medicina, la Física, la Política, la Economía. El blog está coordinado por Pedro Meseguer y Juan José Moreno Navarro.

Archivo

julio 2013

Lun. Mar. Mie. Jue. Vie. Sáb. Dom.
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31        

El País

EDICIONES EL PAIS, S.L. - Miguel Yuste 40 – 28037 – Madrid [España] | Aviso Legal