Google relanza un software OCR con licencia Open Source
os contábamos las
críticas que estaba recibiendo
la calidad de los documentos PDF de 'Google Books',
los cuales no permiten acceder a los textos, y solamente podemos ver las páginas de los libros en forma de imágenes.
Estas imágenes proceden del escaneo de las obras a través de una
tecnología propia, con la cual Google accede a los libros de diversas
bibliotecas (en las cuales están las obras que ya no disponen de copyright) y, mediante un software OCR (Reconocimento
Óptico de Caracteres), extrae los textos para que los usuarios podamos localizar cualquier término a través de las
búsquedas en 'Google Books'.
Ahora, según se anuncia en este
post, Google ha liberado, con licencia 'Open Source', parte de la tecnología OCR que utilizan dentro de la
compañía. Se trata de 'Tesserat OCR', y son unas librerías
C/C++ de desarrollo, creadas originalmente por HP entre 1985 y 1995, y que fueron abandonadas hasta que Google y
la Universidad de Nevada Las Vegas han retomado el proyecto.
'Tesserat OCR' es utilizado por diversos organismos, y por ejemplo la Universidad japonesa de Tohoku ofrece
esta página con la cual podemos enviar cualquier imagen
escaneada y obtener los textos a través de este software. Nosotros lo hemos probado con
con
esta página obtenida de un libro de Shakespeare de 'Google Books' y nos ha devuelto
este texto con algunos fallos de reconocimiento.
 Marco, el 03 de de 2008 a las 8:39h ( CET), dijo:
Muy bueno
 M.Muñoz, el 03 de de 2008 a las 21:42h ( CET), dijo:
La noticia es fabulosa, donde consigo el software para probarlos
 Hector Castro, el 18 de marzo de 2009 a las 15:20h ( CET), dijo:
Es excelente noticia, ya que proyectos como este no pueden ser abandonados
 Andres, el 29 de abril de 2009 a las 24:21h ( CET), dijo:
M.Muñoz, no leiste la noticia? Dice claramente donde probar el soft. ¬¬
Darío, el 26 de julio de 2009 a las 04:17h ( CET), dijo:
Tesseract no es muy bueno, hay otro soft GNU de EXELENTE calidad, se llamaba Cuneiorm, ahora se llama OpenOCR y a mi parecer, supera al software de ABBYY, la url es http://en.openocr.org/
Puedes dejar un comentario sobre la noticia del post rellenando y enviando el siguiente formulario. Los campos marcados con asterisco (*) son obligatorios.
|