Sitemap: informa a Google de cuáles son tus páginas
Google acaba de lanzar una utilidad para que los creadores de contenidos le
informemos de cuáles son las páginas de nuestros sitios web que queremos que sean indexadas por
el buscador. Se trata de 'Sitemap', y no es más
que la creación en nuestro servidor de un fichero
estandarizado que
Google lee y cuya información le sirve para saber cuáles son las páginas que posteriormente va a
rastrear, además de las actualizaciones que se realicen en la información.
Este estándar (el protocolo 'Sitemap') lo ha creado el propio Google bajo la licencia
'Attribution-ShareAlike Creative Commons License',
para que otros buscadores puedan copiar, modificar y hacer un uso comercial del mismo.
Para generar el fichero, Google ha creado un pequeño script en Python que debe ser ejecutado en
nuestro servidor. El código del script te lo puedes descargar desde
esta página de SourceForge, y además
debes tener un pequeño fichero de configuración, en el cual se indica cuál es el método para generar
todo el listado de URLs de nuestro servidor. Hay tres posibilidades: dejando que el script rastree todos
los directorios de tu servidor web, dándole un fichero
TXT con una lista de URLs, o dejando que lea el fichero de logs de visitas.
Nosotros nos hemos decidido por este último y
este es nuestro fichero 'sitemap.xml.gz'. Para 'correr'
el script hemos accedido vía 'SSH' a nuestro servidor (muchos de los servicios de hosting ofrecen esta posibilidad)
y hemos ejecutado:
python sitemap_gen.py --config=config.xml
indicando en 'config.xml' la ruta hacia el fichero de logs.
Posteriormente, hemos accedido a nuestro espacio personal en 'Sitemap' (con la cuenta de 'Google Accounts')
y hemos informado a Google de que hemos creado un fichero (ver
imagen). Sin embargo, en el momento de generar
el fichero 'sitemap.xml' el propio script ha informado a Google, e incluso -tal y como se informa
en las FAQ-, se puede hacer una
especie de 'ping' a los servidores del buscador.
De todas maneras, con este método no se garantiza por parte de Google que nuestras páginas web sean indexadas
por el buscador, y tampoco se modifica la relevancia que se les ofrezca en las páginas de resultados. También
se afirma que 'Sitemap' no reemplaza de ninguna manera al
robot de Google, que rastrea continuamente toda la WWW a
través de los hiperenlaces. Se trata simplemente de que ayudemos al buscador a indexar más información y
a tenerla más actualizada de lo que actualmente es capaz. Como casi siempre, siempre hemos de pedir que
desde los buscadores se desarrolle una tecnología más avanzada para realizar estas tareas, y que no tengamos
que ser los creadores de contenidos los que tengamos que hacerlo. Aunque, en los momentos que corren, siempre
es bueno tenerles bien informados de toda la información que generamos.
Más información:
:: Blog oficial
:: Entrevista en SearchEngineWatch
|