Poniendo un poco de orden a la WWW
"Criterios que todo el mundo aparentemente da por buenos, como el sacrosanto PageRank de Google, la cuenta de vínculos entrantes a una página web que lleva a cabo Technorati o los rankings de popularidad de Alexa son medidas completamente burdas, groseras, carentes de inteligencia, que responden únicamente al deseo de intentar reducir la incertidumbre, pero que lo hacen, en general, bastante mal".
Estas son las palabras de ayer en el artículo que semanalmente publica Enrique Dans
en 'Libertad Digital'. Enrique no
está nada satisfecho con los métodos existentes para obtener valores medibles de los datos de la WWW, aunque asegura que
es mejor que nada.
Cuando a finales de los 90 Larry Page y Sergey Brin (fundadores de Google) publicaron su estudio
'The PageRank Citation Ranking: Bringing Order to the Web'
su intención era medir la importancia de los documentos web en función de un valor extraíble de éstos: el
número de enlaces que hay entre ellos. La idea se le ocurrió a Page porque estaba obsesionado con el mundo de
los 'papers' universitarios, en los que sus autores se sienten realmente alagados cuando en otro 'paper' se menciona
obras suyas.
Sin embargo, ni siquiera este método de clasificación en función de los enlaces funciona con total eficacia.
Hay que recordar hechos como el 'Googlejacking' (en el
que cualquier podía hacerse con tus enlaces entrantes), o como que Google no interprete que una página web
es la misma, aunque tenga dos URLs diferentes (Enrique lo explica muy bien en
este post).
Pero es que, además, el algoritmo inicial de "importancia=numero-de-links-recibidos" era un concepto de finales
de los 90, en los que la práctica totalidad de las páginas web se desarrollaban manualmente, y era un ser humano
el que citaba -a través de su documento web- a otro con un enlace. En estos momentos existen multitud de sistemas
para crear miles páginas web con un solo script, y tecnologías 'webservices' para obtener información que insertar
en tu sitio (como las APIs de Google, Technorati, Flickr, del.icio.us o Yahoo!). Esto hace que en media hora seamos
capaces haber generado 100.000 páginas web con un millón de links, en los que no hayamos visitado ni una sola
de las páginas que enlazamos.
Todo esto, unido al tema del webspam, y a todo el mundo de compraventa e intercambio de enlaces entre webmasters, hace que se desvirtúe el algoritmo que planearon hace casi diez años Brin y Page, y obligue a los ingenieros de Google
a tener que estar afinándolo diariamente para que el buscador devuelva resultados de calidad. Ahora la pregunta es:
¿existe otra tecnología para determinar la importancia de una página web en función de los términos buscados? Seguro
que sí, y en ello están trabajando diversas compañías como
IBM y la propia Google.
Llegará un momento (¿dentro de 10-20 años?) en el que busquemos "vuelos baratos a Londres" y realmente nos devuelva las
páginas web de las agencias/compañías con los vuelos más baratos a Londres, después de que un sistema experto haya
analizado todos los datos de la WWW, y no las páginas que más enlaces hayan recibido con las palabras "vuelos baratos
a Londres" o que mejor hayan optimizado el diseño. Mientras tanto, nos tendremos que pelear con las técnicas
de posicionamiento, realizar
redirecciones 301,
evitar penalizaciones u
obsesionarnos con el PageRank.
Por cierto, Enrique Dans sigue hoy en su blog
hablando sobre este interesante tema y contestando a JJ Merelo,
el cual hacía una serie de reflexiones sobre el artículo en 'Libertad Digital'. Algunas de ellas eran imprecisas, como
por ejemplo "si un sitio tiene más enlaces entrantes, tiene más pagerank", ya que el algoritmo de PageRank establece
que su valor, además de ser proporcional al número de enlaces, lo es también al peso de la página que enlaza:
PR(A) = (1-d) + d * [ PR(T1)/C(T1) + ... + PR(Tn)/C(Tn) ]
Pero también había otras interesantes: "La red no es un sistema caótico. Es un sistema complejo (...) Los sistemas complejos, a diferencia de los caóticos, tiene mecanismos tanto de retroalimentación positiva como negativa, que hace que, a corto plazo, sean predecibles (lo que no ocurre con los sistemas caóticos)".
ACTUALIZACIÓN: Más reflexiones en los comentarios del post.
|