Jornadas sobre spam en buscadores
Los buscadores son el servicio más utilizado en la WWW, y también
son una poderosísima herramienta para atraer visitantes y clientes a las páginas web. Su funcionamiento
se basa en una serie de algoritmos automatizados con unos parámetros que, aunque no son públicos, sí que
se pueden estimar. Esto ha hecho que muchos sitios web
abusen de estos parámetros
e intenten posicionar
sus páginas dentro de los resultados de búsqueda, en detrimento de la calidad de los buscadores.
Por ello, y en el marco de la
'14 Conferencia Internacional de la WWW' que tiene lugar esta semana en
Japón, se celebrará mañana unas jornadas-taller sobre el spam
en buscadores. A ella asistirán responsables de los principales buscadores (Google, Yahoo!, MSN
Search, Ask.com), muy interesados en luchar contra estas prácticas, y contará con las intervenciones
de varios científicos e investigadores que presentarán varios estudios que han
realizado en este campo.
Os presentamos aquí los enlaces a los documentos-resumen de las investigaciones (formato PDF), que contienen datos
muy interesantes:
:: Taxonomía del Web Spam. Esta
investigación la presentan dos de los científicos de la Universidad de Stanford que el año pasado desarrollaron
TrustRank, un nuevo algoritmo que pretende combatir el spam
mediante 'sitios de confianza', y que probablemente será implementado de alguna manera por Google. El documento
expone varia técnicas de spam (que no son ningún secreto a día de hoy), junto a estadísticas que dan
fé de la magnitud del problema. Los dos autores también tienen disponible
este interesante texto
('Link Spam Alliances'), que analiza las cada día más populares redes de spammers que se enlazan unos con
otros para intentar mejorar su posicionamiento en buscadores.
:: Análisis de los factores utilizados
por los buscadores para ordenar los resultados. Mediante el análisis de diversas peticiones de búsqueda en
Google (mediante su
API), varios científicos (entre ellos, uno de la Universidad Politécnica de Cataluña y otro de la Universidad
de Chile) han intentado asignar un peso específico a cada uno de los factores que utiliza el buscador para
determinar la relevancia de una página web.
:: Web Spam, propaganda y confianza.
En este estudio se intenta analizar la relación que existe entre los métodos de 'web spam' y las técnicas
propagandísticas que se utilizan cotidianamente en la sociedad para difundir mensajes e ideas. Además, se presenta
una técnica para detectar estas prácticas, denominada "propagación inversa de la desconfianza". Se basa en el
propio funcionamiento de las relaciones sociales: "si, confiando en ti, me has recomendado [enlazado] algo que no
es de confianza, perderé la confianza en ti".
:: Incremento del PageRank bajo
diferentes topologías de enlaces pactados. Este documento ha sido desarrollado por tres profesores de la
Universidad Pompeu Fabra de Barcelona, y analiza cómo varía el valor del
PageRank de una página web en función de cómo se realizan
los enlaces que previamente han sido planificados y pactados entre diversos sitios. Se han
estudiado las configuraciones 'clique' (grupos
cerrados pero con muchos enlaces), 'estrella' (todos las páginas enlazan a una sola), y 'anillo' (cada
página enlaza y es enlazada una sola vez). Se llega a la conclusión de que una página web puede conseguir
fuerte incremento de su PageRank y un aumento considerable de su posicionamiento cuando se crean 'cliques' incluso
con un PageRank inicial de sus nodos no muy elevado.
:: Cloaking y redirecciones: un estudio
preliminar. Se hace una investigación sobre el
cloaking y los
redireccionamientos, utilizados por muchos
sitios web para intentar engañar a los buscadores. Los autores del documento se descargaron dos conjuntos de
miles de páginas web, haciéndose pasar por el robot de un buscador (cambiando el 'user agent', no la
dirección IP), y descubrieron que un importante porcentaje de éstas
intentaban de alguna manera manipular los resultados de búsqueda.
:: Los 'Link Bombs' óptimos son
los descoordinados. Se analiza el fenómeno de los
'Google Bombing', y se llega a la conclusión de que
la mejor táctica es que cada uno de los 'atacantes' enlace directamente a la página web de la víctima. También
se plantean otras topologías para los 'atacantes' que no deseen que sus enlaces sean directos.
:: Bloqueando el spam en los blogs
mediante técnicas de análisis del modelo de lenguaje. Interesante investigación que plantea cómo detectar
el spam en los comentarios de los blogs, mediante el análisis del lenguaje utilizado en el
contenido del post, los comentarios, y en las páginas web que se enlazan desde los comentarios. Se descargaron
50 posts de diversos blogs, y se asegura que los
resultados obtenidos son bastante esperanzadadores, y que incluso se pueden llegar a extrapolar a otros ámbitos,
como el spam en los wikis.
:: SpamRank: detección automática
del Link Spam. En este estudio se introduce el concepto de 'SpamRank', que trata de cuantificar, para
cada página web y de manera automatizada sin intervecnión humana,
qué parte del PageRank que posee realmente no es merecido.
|