Google indexa con tecnología OCR contenidos de documentos PDF de textos escaneados
La mayoría de los documentos con textos en formato PDF que hay en la WWW son generados a partir editores de texto, con lo que cualquiera (un usuario con un programa como 'Adobe Reader' o Evince, o el propio robot de Google) puede extraer de manera muy fácil los contenidos.
Pero un porcentaje de estos ficheros PDF son imágenes escaneadas de otros documentos, con lo que ya no podemos extraer el texto con nuestro lector PDF. Pero el robot de Google, gracias a su tecnología OCR propia, ya es capaz de convertir estas imágenes en textos, e indexarlos para incorporarlos al buscador web.
Así por ejemplo, el primer resultado de esta búsqueda es un enlace a esta imagen escaneada en formato PDF, la cual está en formato texto en este link del caché de Google.
Tenéis más información en este post oficial.
Puedes dejar un comentario sobre la noticia del post rellenando y enviando el siguiente formulario. Los campos marcados con asterisco (*) son obligatorios.
|