Google relanza un software OCR con licencia Open Source
Ayer os contábamos las
críticas que estaba recibiendo
la calidad de los documentos PDF de 'Google Books',
los cuales no permiten acceder a los textos, y solamente podemos ver las páginas de los libros en forma de imágenes.
Estas imágenes proceden del escaneo de las obras a través de una
tecnología propia, con la cual Google accede a los libros de diversas
bibliotecas (en las cuales están las obras que ya no disponen de copyright) y, mediante un software OCR (Reconocimento
Óptico de Caracteres), extrae los textos para que los usuarios podamos localizar cualquier término a través de las
búsquedas en 'Google Books'.
Ahora, según se anuncia en este
post, Google ha liberado, con licencia 'Open Source', parte de la tecnología OCR que utilizan dentro de la
compañía. Se trata de 'Tesserat OCR', y son unas librerías
C/C++ de desarrollo, creadas originalmente por HP entre 1985 y 1995, y que fueron abandonadas hasta que Google y
la Universidad de Nevada Las Vegas han retomado el proyecto.
'Tesserat OCR' es utilizado por diversos organismos, y por ejemplo la Universidad japonesa de Tohoku ofrece
esta página con la cual podemos enviar cualquier imagen
escaneada y obtener los textos a través de este software. Nosotros lo hemos probado con
con
esta página obtenida de un libro de Shakespeare de 'Google Books' y nos ha devuelto
este texto con algunos fallos de reconocimiento.
Puedes dejar un comentario sobre la noticia del post rellenando y enviando el siguiente formulario. Los campos marcados con asterisco (*) son obligatorios.
|