Google es más duro de lo que parece
Nelson Minar, ingeniero de Google, participó el pasado
miércoles 11 de febrero en la Conferencia 'Emerging Technology', organizada
por la prestigiosa editorial O'Reilly.
Nelson ofreció una charla de casi una hora titulada 'Google
is harder than it looks' ('Google es más duro de lo que parece'), en la que intentó
explicar a los asistentes el funcionamiento de este popular buscador.
Cory Doctorow acudió al evento, y tomó unas cuantas notas
sobre lo dicho. Entre los puntos que se expusieron caben destacar:
:: Google indexa más de 3 mil millones de páginas web [esta cifra ha sido actualizada
recientemente], aunque ofrecen más resultados gracias a los 'rastreos profundos'.
:: Hay varios 'rastreadores': el general (una vez al mes), que busca en la mayoría
de la WWW; el 'Fresh', que rastrea en las páginas que se actualizan frecuentemente; y el
de noticias, que rastrea cada 10 minutos.
:: El servidor web que utilizan es uno personalizado, llamado
'Google Web Server - GWS' [se sospecha que se trata del servidor Apache
modificado]. Actualmente existe la versión 2.1.
:: Google analiza más de 100 factores para determinar la relevancia
de una página web. Entre ellos, destacan el texto del enlace (el 'anchor text'),
el tamaño de la fuente y la proximidad.
:: Para calcular el valor del PageRank, Google utiliza la teoría
de grafos, mediante una matriz de 30 billones de nodos. Cada uno de estos nodos
tiene 10 arcos (o aristas) diferentes.
:: Hay 4 tipos de servidores en el clúster de Google, situados
en paralelo del servidor web:
- Los servidores índice: están divididos en fragmentos (por ejemplo,
uno apunta a todo lo que comienza con la letra 'a'), y devuelve al servidor
web una lista con las id's de documentos donde aparece una determinada palabra.
- Los servidores de documentos: contienen las copias caché de las
páginas web que se rastrean.
- Los servidores correctores de deletreo: son los que nos muestran
el mensaje "Quiso decir: ...".
- Los servidores AdWords: nos muestran los enlaces patrocinados.
Si quieres saber algo más sobre la arquitectura de Google, puedes consultar
este documento PDF: "The Google Cluster
Architecture".
Publicado el 09 de marzo de 2004 | Categoría: tecnologia
|