Cómo evitar contenidos duplicados debidos a la copia de información en otros sitios web
le no quiere que los usuarios del buscador web estén accediendo continuamente a páginas que,
con diferente URL, ofrecen el mismo contenido. Estima que es un poco frustrante para la persona que está intentando
acceder a una determinada información, y por eso intenta penalizar a aquellas páginas que muestran los mismos
contenidos que otras.
En diciembre os contábamos algunos consejos para
evitar el contenido duplicado dentro
de un mismo sitio web, una situación que suele suceder frecuentemente, y que se soluciona planificando oportunamente
la estructura del sitio y de las URLs, eligiendo cuáles de ellas van a ser las 'definitivas', las cuales aparecerán
en los resultados de Google y recibirán además los enlaces (tanto externos como internos). Para ejecutarlo, se ha
de utilizar fundamentalmente:
:: redirecciones 301 para
conducir a usuarios y a robot de Google hacia una URL única.
:: 'robots.txt'
y las etiquetas 'NOINDEX' para
indicar aquello que no queremos que se indexe, y que nos puede perjudicar. El uso de
'rel=nofollow' no evita que otros sitios
web estén enlazando a las páginas que no quieres que sean indexadas.
:: 'Google Sitemaps' para indicar a Google
qué URLs son las que quieres que aparezcan.
Ahora, en este post
oficial de Google (Lino lo traduce
al español en su blog) nos cuentan
un par de cosas sobre el contenido duplicado. La primera es que aseguran que su
existencia "no implica una penalización" y que, en realidad, lo que ocurre es que el PageRank
se dispersa en lugar de concentrarse en una sola página, lo que provoca una pérdida de posicionamiento.
El segundo asunto es bastante interesante, y está relacionado con el contenido duplicado de una página web con respecto
a otra, alojada en otro sitio web. En muchas ocasiones, algunas páginas copian los contenidos literalmente de otras
(sin mala intención, como cuando se utilizan como agregadores de contenidos vía feeds; con mala intención, para
posteriormente obtener ingresos con los contenidos ajenos). Y en un notable porcentaje de los casos, si buscamos
determinados términos en Google, encontraremos al 'copiador' por delante del 'original' dentro de la página de
resultados.
Esta situación provoca, además del enfado de aquellos que escriben la información original, un escenario que no favorece
en absoluto a aquellos que apuestan por escribir contenidos originales y enriquecer la WWW, y sí a los que se aprovechan
del trabajo de los demás, y además se ven recompensados en muchas ocasiones a través de
Google AdSense.
Por ello, hace unas semanas Lino Uruñuela escribió a Matt Cutts (responsable del buscador web de Google) para
sugerirle un método bastante sensato que
nos describe en su blog personal. El sistema consistiría simplemente en que Google cree un servidor que soporte un protocolo
similar al del los 'pings' en los blogs para que el responsable de un
determinado sitio web pueda advertirle de que un determinado contenido ha sido creado, gracias a que se envía la URL
de la página web recién creada.
De hecho, como
os contábamos en octubre, Google ya
dispone de un sistema muy parecido en este formulario para comunicar
la actualización de un determinado blog. Simplemente se necesitaría que Google rastrease en ese momento la información
para dar fé de que esa URL es la primera en generar el contenido.
Pero, como se asegura en el post oficial de Google, ¿y si al responsable del webmaster se le olvida 'registrar' estos
contenidos, o simplemente no sabe de la existencia de este servicio? Entonces, como se cuenta en el citado post, se
podrían utilizar otros factores que en estos momentos se están teniendo en cuenta, como la 'autoridad' de cada sitio
web o el número de enlaces hacia cada una de las páginas con el mismo contenido.
Además, se nos recomienda que, en caso de que nuestros contenidos estén sindicados (por ejemplo, a través de un feed),
pidamos a aquellos webmasters que los utilizan para generar páginas web, que éstas estén incluidas dentro de un
directorio que el fichero 'robots.txt' excluya de ser indexado. Por supuesto, esta solución no es válida para los casos
en que los contenidos son simplemente 'robados' por otros sitios web sin consentimiento.
Puedes dejar un comentario sobre la noticia del post rellenando y enviando el siguiente formulario. Los campos marcados con asterisco (*) son obligatorios.
|