Cómo funciona el buscador web de Google: la compañía aporta un poco más de información
El buscador web de Google es la joya de la corona de la compañía. Es lo que le proporciona el mayor porcentaje de sus multimillonarios ingresos y, sobre todo, su credibilidad como marca. Por ello, en muy raras ocasiones se hacen comentarios sobre su funcionamiento y, de hecho, solamente unos pocos de los 17.000 empleados de Google están autorizados a hablar públicamente sobre qué parámetros se siguen a la hora de valorar la relevancia de una página web dentro de los resultados, qué prácticas se penalizan, o cómo funcionan los servidores que realizan los cálculos.
Uno de estas personas autorizadas es Udi Manber, uno de los pioneros de los métodos de búsquedas en la WWW y responsable de calidad del buscador web de Google, que con este post oficial inicia una serie de artículos oficiales en los que pretende ofrecer un poco más de transparencia sobre su funcionamiento. El objetivo: seguir contando con el respeto de los webmasters que crean sitios web para posicionarse en Google y, sobre todo, de los millones de usuarios que diariamente lo utilizan para buscar información.
Algunas de las cosas más interesantes del citado post son:
:: Hay más de 1.000 programadores y científicos destinados exclusivamente a tareas relacionadas con el buscador web de Google.
:: Uno de los problemas más importantes a la hora de rastrar la información de la WWW es que no las páginas web están en cientos de idiomas diferentes, y que además los webmasters no suelen seguir los estándares a la hora de crear documentos web.
:: Otro problema es entender las consultas de los usuarios, los cuales suelen utilizar menos de tres palabras por cada búsqueda, lo que complica la tarea. Hace unos meses se publicaron estos datos al respecto: solamente el 26% de los usuarios utilizan cuatro o más términos por búsqueda. Además, hay que recordar que el propio Manber reconocía hace tiempo que una de cuatro búsquedas en Google es inédita, lo que complica aún más la labor de devolver resultados con información útil.
:: El algoritmo de PageRank se sigue utilizando a día de hoy, pero se ha diluido dentro de un sistema mucho más grande de evaluación de la relevancia de los documentos web. Ahora, además de este parámetro, se tienen en cuenta otros como los modelos del lenguaje (Google procesa ahora las frases que se rastrean, los sinónimos o las palabras mal escritas), o la antigüedad o la frescura del documento web (algunas búsquedas tienen su mejor información en las páginas que se han creado en las últimas horas).
:: Continuamente se están realizando modificaciones en los algoritmos del buscador, y en concreto en 2007 se lanzaron 450 nuevas mejoras (9 por semana de media).
:: Se ha implementado recientemente la herramienta de revisión ortográfica (el famoso "Quizás quiso decir") en diferentes idiomas, como el catalán, el serbio o el ucraniano.
:: Google ha creado una red de personas en varios países del mundo, que se encargan de "ofrecer feedback a Google", en referencia al laboratorio 'Rater Hub', en el que se contrata a usuarios de Internet (también de España) para que entrenen a los algoritmos de búsqueda (ver post sobre documento de uso del laboratorio).
:: Google cuenta también con un importante grupo de voluntarios dentro de la compañía que les ayuda a mejorar las búsquedas en diferentes idiomas.
:: Muy pocos usuarios se leen las páginas de ayuda del buscador web, y son mayoría los que desconocen todas las posibilidades que ofrece. Por ello, nos encontramos cada vez más con información proveniente de otras herramientas de Google dentro de los resultados del buscador web. Es lo que se conoce como 'Google Universal Search', presentado por el propio Manber hace justo un año.
:: Hay diferentes grupos de trabajo dentro del Departamento de Calidad del buscador web, y dos de ellos están relacionados con los webmasters. Uno de ellos, para detectar cualquier intento de engaño por parte de algunos de ellos (el de 'Web Spam'), y otro para abrir un canal de comunicación con Google (el de 'Google Webmasters Tools').
Daniel G. Blázquez, el 24 de mayo de 2008 a las 16:15h ( CET), dijo:
Hola Dirson. La traducción de esto:
"By some estimate, more than one thousand programmer/scientist years have gone directly into their development, and the rate of innovation has not slowed down."
¿No quiere decir que hay más de mil años de trabajo de un programador/cientifico?
 AOU, el 28 de mayo de 2008 a las 01:02h ( CET), dijo:
Sigue sin entenderse cómo se produce el milagro de encontrar en fracción de segundos, a veces, los resultados de una búsqueda.
No creo que en algún lugar haya un gigantesco servidor que almacena semejante información, no puede depender de algo así semejante propuesta informativa. La velocidad de respuesta asombra gratamente.
Muchos me dicen, ¡Pero si es solo un índice!. Las páginas y sus contenidos están en la red. Pero no es así: en memoria caché están las páginas resguardadas en Google, aun cuando la vigente ya no esté en la Web.
Mis inquietudes surgieron cuando uso esta maravilla que es Google, y cuando vi el título de la nota, que dice: "Cómo funciona el buscador web de Google". Lamentablemente no se aclaró nada en dicho artículo al respecto, y sigo pensando que no puede existir una memoria física ubicada en un solo lugar que contenga semejante cantidad de información. ¿Estará asentada en millones de mini puertos dentro de la red y que viajan todo en tiempo dentro de ella?
Xavier, el 28 de mayo de 2008 a las 21:12h ( CET), dijo:
AOU con respecto a : "Sigue sin entenderse cómo se produce el milagro de encontrar en fracción de segundos, a veces, los resultados de una búsqueda "
Como dice en la nota "una de cuatro búsquedas en Google es inédita" por lo que esas 3 busquedas ya las tiene Google en cache, la pagina en cache es la pagina completa con los resultados ya procesados con anterioridad a tu busqueda.
De hecho yo hago lo mismo con mi buscador www.madridbuscador.es donde si haces la busqueda "hoteles en madrid" seguramente el tiempo de respuesta sera menor que si haces la busqueda "casas rurales en alpujarra granada" ;-)
 AOU, el 29 de mayo de 2008 a las 05:30h ( CET), dijo:
Xavier. Que otros anteriormente ya hayan hecho las mismas búsquedas que yo, y éstas en general guardan una relación estadística de tres repetidas y una nueva, yo también entiendo que eso aumenta la velocidad de respuesta. También que Google lo guarda en caché, como también lo hace con todas las páginas que releva. Lo que sigue sin entenderse para mi, es en qué lugar físico del planeta está alojada esta brutal cantidad de información. La de las páginas en caché, la de los procesos anteriores de búsquedas que ayudan a los siguientes, y el espacio de memoria para procesar las nuevas consultas. Dije que descarto pueda tenerse en un solo sitio, porque sería imposible lograr, como lo han hecho hasta ahora, que jamás se pierda la información que uno les ha confiado.
No puedo imaginarme cuántos Gb dedicados a esto se necesitan a nivel mundial.
Qué procesadores manejan esta mega información y la devuelven en fracciones de segundo adaptadas a mi necesidad . A una velocidad que ni siquiera mi propio procesador en la PC, el cual está dedicado a mis pedidos exclusivamente, puede realizar.
¿O hay otro mecanismo que desconocemos y entonces no se trata de una o m uchas impresionantes PC o varios gigantescos discos y procesadores.
O será más simple de lo que imagino?
Gracias Xavier por tu aporte, y espero haber logrado trasmitirte que voy más al fondo del maravilloso, del que creo que lo es, secreto de Google.
 michael, el 31 de julio de 2008 a las 17:14h ( CET), dijo:
AYUDA
hola PORFAVOR queria saber como puedo arrglar este problema :
cuando pongo google sale la pagina de inicio normal , pero cuando quiero iniciar busqueda de cualquier tema y le doy click en buscar en" LA WEB" me sale esto:
ʐˋʐˋ!e=ʀˋʀˋ獯搠⁥牰杯慲慭匀卅䥓乏䅎䕍䌽湯潳敬匀獹整䑭楲敶䌽:祓瑳浥潒瑯䌽尺䥗䑎坏S䕔偍䌽尺佄啃䕍ㅾ䍜牡潬屳佃䙎䝉ㅾ呜浥p䵔㵐㩃䑜䍏䵕繅就慃汲獯䍜乏䥆繇就敔灭唀䕓䑒䵏䥁㵎䅆啃䑎O单剅䅎䕍䌽牡潬s单剅剐䙏䱉㵅㩃䑜捯浵湥獴愠摮匠瑥楴杮屳慃汲獯眀湩楤㵲㩃坜义佄南.pongo cualquier tema y vuelve a salir eso
pero cuando pongo temas y busco en : grupos, imagenes,noticia,etc si sale normal SOLO QUE EL BUSQUEDA EN" LA WEB" SALE ESAS LETRAS.
les agredeceria como puedo arreglar ese problema
gracias.
 michael, el 31 de julio de 2008 a las 17:45h ( CET), dijo:
LES AGREDECERIA LA AYUDA INMEDIATA PORFAVOR
GRACIAS
Puedes dejar un comentario sobre la noticia del post rellenando y enviando el siguiente formulario. Los campos marcados con asterisco (*) son obligatorios.
|