Primer post oficial de Google sobre el contenido duplicado
Después de mucho tiempo conociendo la penalización
por contenido duplicado (a Google no le interesa que en su índice exista más de una página web ofreciendo
la misma información), la compañía ha escrito por primera vez un
post oficial
hablando sobre el tema y ofreciendo algunos consejos.
En dicho post, Adam Lasnik (nombrado 'evangelista
de búsquedas' hace unos meses) nos define en primer lugar lo que es el contenido duplicado: "Se trata generalmente
de bloques independientes de información dentro del mismo dominio, o en varios dominios, que coinciden completamente
con otros contenidos o son muy similares. La mayoría de las veces que lo detectamos, se trata de 'despistes' o, al
menos, sin mala intención a priori, como foros que generan las páginas web normales junto a otras especiales para
dispositivos móviles, artículos de tiendas online mostrados (y, lo peor, enlazados) con diferentes URLs, ... En algunos
casos, el contenido se duplica en varios dominios con la intención de manipular el algoritmo del buscador y recoger
así mayor tráfico con búsquedas populares o no".
Lasnik asegura que, cuando descubren técnicas ilegales para intentar manipular el buscador con contenido duplicado,
los sitios que lo utilizan son penalizados o incluso expulsados ("realizamos los ajustes apropiados en el índice y en
el ránking"). Sin embargo, subraya, prefieren ajustar sus parámetros para quedarse con la copia original (por ejemplo,
la página web 'regular' frente a la versión para imprimir).
Para evitar que un sitio web disponga de páginas duplicadas (mismo contenido con diferentes URLs), Lasnik nos recuerda
una serie de consejos, algunos de los cuales os hemos mencionado
en alguna ocasión:
:: Bloquea el acceso al robot de Google a los documentos que no quieres que aparezcan en el buscador
(por ejemplo, las páginas diseñadas para ser imprimidas), utilizando el archivo
'robots.txt'.
:: Utiliza redirecciones 301
desde las páginas duplicadas hacia las originales.
:: Sé consistente en la sintaxis de enlaces, e intenta enlazar siempre de la misma manera (por ejemplo,
siembre a '/blog/' en lugar de a '/blog/index.html'.
:: Intenta utilizar, para las páginas web de un país (por ejemplo, España), la nomenclatura 'dominio.es', en lugar
de 'es.dominio.com' o 'dominio.com/es'
:: Si tus contenidos se sindican en otros sitios web, intenta que se incluya un enlace a tus páginas. Esto
es muy común en los blogs, cuyos contenidos se copian automáticamente (gracias a los feeds RSS) en otros sitios. Trata
de que éstos inserten un link a tus páginas.
:: Indica, mediante el uso de 'Google Sitemaps',
cuál es el 'dominio canónico' de tu sitio web (con o sin 'www'). Más información en
este enlace.
:: Intenta no repetir el mismo contenido en las página web. Lasnik pone como ejemplo, el texto del
copyright: en lugar de mencionarlo completamente en cada una de las páginas, inserta un enlace hacia 'copyright.html'.
:: Evita páginas en blanco generadas automáticamente. Por ejemplo, si tienes un sitio web que pretende
mostrar ofertas de empleo por ciudades, y las páginas las generas con los datos de la tabla 'ciudades', intenta
no mostrar (o, al menos, bloquear al robot) las que no contengan ninguna oferta.
:: Intenta familiriazarte con el software que gestiona los contenidos de tu sitio web (WordPress, phpBB,
etc.), puesto que algunas veces suele crear el mismo contenido con varias URLs distintas. Por ejemplo, en septiembre
os comentábamos el caso de un
plugin para WordPress.
Puedes dejar un comentario sobre la noticia del post rellenando y enviando el siguiente formulario. Los campos marcados con asterisco (*) son obligatorios.
|