Google distribuirá 6 DVDs con un billón de palabras rastreadas de la WWW
hemos comentado varias veces, Google dispone de una selección de los mejores científicos
del mundo en el campo del Procesamiento del Lenguaje Natural, gracias a los cuales pretende desarrollar mejores
herramientas para organizar y acceder a la información mundial, como la recientemente presentada
tecnología de traducción automática.
La mayoría de estos desarrollos se basan en el análisis de los textos que Google va rastreando de diversas fuentes
de información, desde los millones de páginas web de la WWW hasta la contenida en los libros impresos.
Ahora, según aseguran en este
post dos componentes del equipo de I+D de la compañía, Google pretende compartir con todo el mundo los textos
rastreados de la WWW, para que la comunidad científica pueda seguir desarrollando nuevos proyectos con esta
valiosa información.
Afirman que será en forma de seis DVDs, que contendrán 1.011.582.453.213 palabras (más de un billón), dentro de ellas
hay más de mil millones de secuencias de cinco vocablos que se repiten más de 40 veces (de gran utilidad
para los analistas del lenguaje humano), y existen más de 13 millones de palabras únicas.
Publicado el 08 de agosto de 2006 | Categoría: tecnologia
Puedes dejar un comentario sobre la noticia del post rellenando y enviando el siguiente formulario. Los campos marcados con asterisco (*) son obligatorios.
|