Saltar al contenido

Éste es otro post rescatado de los borradores que tengo acumulados. Es una referencia a un artículo de Dale Dougherty: deconstructing databases, deconstruyendo las bases de datos.

La idea que expone es que en ciertas aplicaciones no es necesario modelar los datos utilizando una base de datos, sino que plantea cómo alternativa almacenar los datos en forma parcialmente desestructurada (algunos campos en la base de datos más textos en bruto) y utilizar herramientas de búsqueda de información para recuperar la información. Parte de  un ejemplo concreto, la herramienta de seguimiento de problemas de  google code. Pero hay que tener en cuenta que google debe tener las herramientas más potentes de búsqueda de información en textos. Otra herramienta que va en esta línea es google squared, que partiendo de la información desestructurada de la web, trata de devolver información estructurada.

De otra forma diferente, pero creo que con la misma idea subyacente, lei hace poco una reflexión de Ignacio de Miguel sobre el abuso de las bases de datos. Aunque la reflexión de Ignacio está más relacionada con el abuso de recursos, parte de un base similar, el uso del modelo de base de datos para todo. Almacenar textos en forma desestructurada y utilizar herramientas de búsqueda de información en textos para recupar esa información de forma ordenada, podría se una forma de romper ese abuso.

Por otra parte, de cara al usuario, las aplicaciones convencionales que almacenan y presentan la información en forma esructurada, son normalmente muy rígidas (formularios con multitud de campos desglosados). La alternativa es permitir que el usuario escriba texto libremente del que se pueda extraer información ordenada por medio de algoritmos de comprensión de textos. Para el común de los desarrolladores, creo que todavía no hay herramientas suficientemente avanzadas, aunque seguramente los desarrolladores de google tengan ventaja.

1

El hardware necesario lo hace inviable cómo invento separado, pero alguien debería ponerse a desarrollar algo parecido a esta propuesta de petit invention:

twitter-tv

¿Nadie ha pensado antes en poner twitter en la tv? A mi siempre me ha parecido buena idea al ver un partido de fútbol en casa, porder comentar las jugadas con tus amigos, aunque no estén en la misma habitación. Pensaba en una pantalla en paralelo y hacerlo a través de messenger o algo parecido, pero la idea de hacerlo a través de twitter e integrado en la tv es genial, aunque en cualquier caso comercialmente inviable. Sólo si se extiende el uso de los htpc, entonces sería posible usar un pc para éste tipo de aplicaciones.

En petitinvention me he encontrado con una forma de visualización de la popularidad de una página: mostrando la representación de personas están viendo la misma página.

crowd_browse2

El primer punto complicado es medir la popularidad de una página, aunque actualmente hay varios sitios que quizá podrían usarse como medida de la popularidad: digg, meneame, enlaces en google, tráfico en alexa.

Lo segundo es cómo representar la cantidad de gente apropiada. Un página que apenas la visita gente estará vacía, pero una página con 1 millón de visitas será indistinguible de una con 100 millones. Por eso elegiría una representación logarítimica de la cantidad de gente, creo que permitiría distinguir entre mucha gente tanto con millones como cientos de miles de visitas.

Lo último sería utilizar un algoritmo de composición de gente. Existen algoritmos para simular el movimiento de grupos de seres vivos, así que supongo que se podrá implementar un algoritmo similar para representar gente observando un artículo de manera aleatoria.

Con unos cuantos elementos sencillos tendríamos una visualización interesante de la popularida de una página ¿sería interesante una representación de este tipo?

Hoy he leido un artículo interesante en baquia sobre la economía informativa en internet. He escrito un comentario, que finalmente he decidido convertir aquí en artículo, ya que es un tema que me parece muy interesante. Los que hayan leído el comentario, les sonará muy parecido ;-).

El planteamiento del artículo presenta el problem del exceso de información y la cultura del copiar y pegar a la que se han adherido muchos blogs. Mi visión de este problema es que en realidad tenemos dos problemas diferentes, que creo que el autor original no distingue.

Por un lado tenemos los "blogs malos" que se dedican a copiar información sin aportar valor. El objetivo de estos blogs es recoger tráfico en google y monetizarlo con publicidad contextual. Estos blogs tienen una actitud parasitaria, se aprovechan del trabajo ajeno y sobretodo se aprovechan de la situación tecnológica actual (intentan aparecer antes en las búsquedas en google y sacar partido de la publicidad contextual).

Pero por otro lado tenemos el problema del acceso a la información, que ya nos planteaba  Andrew Shapiro en su libro de 1999 <a href="http://www.amazon.com/Control-Revolution-Internet-Individuals-Changing/dp/1891620193">"The control revolution"</a>.

Internet es una fuente de información casi infinita, por lo que el problema está en seleccionar la información. El valor no lo aporta sólo la entidad que publica una noticia en primicia, también  lo aporta la entidad que selecciona las noticias y/o contenidos.

Tengo un amigo que se mueve en el mundo del arte y se está dando el mismo cambio: no es tan importante la obra de un artista en concreto, sino que se valora tanto o más la labor del comisario de exposición que selecciona las obras. A largo plazo se recordará a los artistas buenos y no a los comisarios, pero en un momento con tantos artistas y tal variedad de estilos, obras, etc. un buen comisario da la confianza de lograr una buena exposición.

Entonces qué es más importante: ¿dar la noticia en primer lugar o seleccionar las noticias y/o contenidos importantes? La respuesta es que necesitamos algoritmos de selección personalizados para cada usuario, para que cada uno tenga el poder de elegir. Esa labor antes la realizaban los medios de comunicación (prensa, radio, televisión) y las discográficas en la música.

Actualmente, gracias a internet los usuarios también participan en esa selección, pero es imposible que todo el mundo lea toda la información disponible en internet. Mientras no llegan los algoritmos perfectos, algunos blogs seleccionan noticias, las comentan, las amplían y hacen esa labor para sus lectores. También la realizan sitios colaborativos cómo digg o menéame, que hacen la función de filtro social de noticias. Y en última instancia los buscadores cómo google, yahoo, microsoft, etc que en parte también utilizan la información de sus usuarios: no se nos puede olvidar que la magia del page rank viene de las palabras asociadas a los vínculos. Esas palabras las han introducido los propios usuarios al incluir enlaces en sus sitios web, blogs, etc, por lo que también participamos en esa selección.

La separación entre las dos actitudes puede ser muy delgada y muchas veces se superpone pero los casos extremos son fáciles de distinguir. Lo que es seguro es que con el tiempo, los algoritmos se perfeccionarán y las actitudes parasitarias (cómo el spam) tenderán a minimizarse.