¿Cómo funciona el robot de Google que rastrea feeds de blogs?
ACTUALIZADO: Feedfetcher NO es el robot de 'Google Blog Search'.
Como os comentábamos en el anterior
post, Google está obteniendo la información para su buscador de blogs a través de los feeds de los blogs que
rastrea. Ahora, en esta página, nos informa sobre cuál es
el funcionamiento del bautizado como 'Google Feedfetcher', el robot rastreador de feeds:
:: Accede a la mayoría de los feeds como máximo una vez cada hora, aunque los blogs que se
actualizan con mucha frecuencia pueden verse rastreados en más ocasiones.
:: Rastrea feeds que siguen los estándares RSS o Atom, y lo solo almacena lo que estos ficheros contienen. Sería necesario que otro robot (o el mismo, modificado) accedería a la página HTML del post para indexar la totalidad de los contenidos. Como dice Rogelio, muchos usuarios así lo desearían.
:: Feedfetcher no sigue las reglas de cualquier fichero
'robots.txt' que tengamos en nuestro
web (al contrario que el robot clásico de Google). La razón para ello es que Feedfetcher "ha sido diseñado
para que rastree feeds a petición del usuario" (una pista más para sospechar de que Google esté diseñando
una herramienta al estilo de Bloglines). Si queremos que no se rastree un feed concreto, deberemos
escribir a esta dirección de correo.
:: El 'user-agent' del robot es "Feedfetcher-Google", por lo que podremos identificarlo
en los logs de nuestro servidor web.
:: La información que rastrea Feedfetcher solo es utilizada para 'Google Blog Search', y no
para el buscador web clásico.
ACTUALIZADO: Como nos comenta JM, existe una discrepancia entre los mensajes que proporciona Google. En este afirma que el robot Feedfetcher IGNORA los ficheros 'robots.txt', y en este otro que 'Google Blog Search' RESPETA este tipo de archivos.
|