Google muestra documentos sobre su investigación en el procesamiento de documentos de audio
de los objetivos de los responsables de Google ha sido el de extraer la información, y
ordenarla, no solamente de las páginas web (tal y como hace su herramienta más popular, el
buscador web), sino también de otros múltiples soportes. De
hecho, en mayo de 2005 el Director General de la compañía aseguraba
que existían en el mundo 5 millones de Terabytes almacenados en libros, cintas de vídeos y de audio, revistas, etc.,
de los cuales se habían obtenido solamente el 0.005%.
Extraer la información de las páginas HTML es sencillo, puesto que los datos ya se encuentran en formato digital
y en modo texto. Hacerlo de libros lo es cada vez más, gracias a
tecnologías OCR como la que presentó Google
el pasado mes de agosto. Pero con el audio y la voz humana el asunto es algo más complicado.
Hace unas semanas, os
contábamos que ya existía una herramienta pública
(Podzinger.com) que
localiza contenidos en lo dicho por voces humanas dentro de los vídeos de YouTube, y que Google también tiene
bastante tecnología desarrollada.
Por ejemplo, Pedro J. Moreno, uno de los actuales investigadores de Google, fue responsable durante algunos años del proyecto
de HP llamado 'SpeechBot', un prototipo de
buscador lanzado en 1999 que indexaba contenidos de audio y que hacía búsquedas dentro de música y vídeos. Esta
herramienta llegó a almacenar más de 17.000 horas de contenidos multimedia.
Ahora, en este post
oficial, varios ingenieros de Google (entre los que se encuentra Moreno) nos muestran varios 'papers' con parte
de las conclusiones obtenidas tras varios años de investigación en el campo del reconocimiento de sonidos, en el cual se
han utilizado varios enfoques para conseguir herramientas con utilidad.
Entra las utilidades que se comentan, además del reconocimiento de la voz humana para poder extraer información
y ser indexada por un buscador, destaca la de la identificación de melodías. Con una tecnología eficiente, Google
podría crear un buscador de canciones a partir, por ejemplo, del tarareo de parte de su música.
Hace unos años, la compañía lanzó, dentro de su laboratorio,
el servicio 'Google Voice Search' que realizaba búsquedas a partir del
reconocimiento de voz del usuario que realizaba una llamada telefónica.
Si quieres 'cacharrear' un poco con una tecnología 'Open Source' desarrollada para el reconocimiento de la voz
humana por parte de varios equipos de investigadores (entre los que se encuentra Pedro Moreno), puedes echar un
vistazo a 'Sphinx-4', un software creado completamente en
Java.
Publicado el 15 de febrero de 2007 | Categoría: tecnologia
Puedes dejar un comentario sobre la noticia del post rellenando y enviando el siguiente formulario. Los campos marcados con asterisco (*) son obligatorios.
|