Historia del algoritmo de Google

Historia del algoritmo de Google

La historia de Google comienza con el algoritmo de PageRank™, inventado por Larry Page, cofundador de Google junto a Sergey Brin. Este sistema se basaba en puntuar los sitios web dependiendo del número de enlaces que recibían. Un sistema de votación en el que el más popular es el que recibía más votos (enlaces). En Septiembre de 1997, el buscador, que se hospedaba en los servidores de la Universidad de Stanford, toma el nombre de Google.

El procedimiento empieza con un rastreo de toda Internet para recopilar los contenidos de toda web accesible. Toda esta inmensa cantidad de datos se almacena en un índice (organizado por palabras, al igual que el índice de un libro). Cada vez que un usuario escribe una búsqueda, se escudriña este índice en busca de contenido relevante para esa búsqueda. La parte interesante consiste en cómo posicionar este listado devuelto del índice, es decir, determinar como se ordenarán estos resultados y que páginas serán las primeras.

En Agosto de 2001 se renueva completamente el algoritmo para incorporar criterios de posicionamiento adicionales. La capacidad para realizar una ordenación satisfactoria de los resultados, es decir, que los resultados en primera posición sean lo mas relevantes posibles para la búsqueda, tiene un fundamento principal en lo que se conocen como “señales“: factores o propiedades de una página web que la hacen más o menos relevante. El PageRank™, el título de la página, el anchor text de los enlaces que apuntan a ella… todo son señales. Se dice que el buscador utiliza más de 200 señales que le ayudan a posicionar sus resultados.

Google está constantemente investigando nuevas señales que permitan mejorar la relevancia de las búsquedas. En Febrero de 2003, la primera patente de Google, se aplica a una característica que da más peso a los enlaces provenientes de sitios autoritarios, dando más valor a los vínculos procedentes de sitios de referencia o expertos. Otras señales incorporan la distinción entre páginas comerciales y no comerciales, la frescura de los resultados, ya que hay ciertas búsquedas cuyos resultados recientes pueden ser más valiosos que los antiguos, la localización, puesto que Google conoce las coordenadas geográficas de las búsquedas y favorece los resultados locales, etc.

Sin embargo, las señales más importantes provienen de la propia información que Google obtiene de los cientos de millones de búsquedas que los usuarios envían: en qué resultados hacen clic, que palabras usan para reemplazar las consultas cuando no están satisfechos o cómo las búsquedas encajan con dónde están físicamente. En Junio de 2005, se introducen los resultados personalizados, permitiendo que Google memorice el comportamiento de búsqueda de los usuarios para suministrar resultados individualizados.

Toda esta información acumulada permitió al algoritmo interpretar sinónimos y la relación semántica de las palabras. Así que cuando alguien busca “fotos de perritos”, Google entiende que también puede estar interesado en “fotos de cachorritos” y que “hervir agua” implica que el agua está caliente. El problema es que el algoritmo llegó a la conclusión de que un perrito caliente era lo mismo que un cachorrito hervido. Con la información de billones de documentos, esto fue solucionado en 2002, relacionando las palabras con el contexto en el que se encuentran. Así que perrito caliente debería encontrarse en búsquedas que también contengan mostaza y pan y partidos de béisbol, por ejemplo, y nada sobre chuchos escalfados.

Otro interesante reto es la búsqueda de nombres, que representa el 8% del total de peticiones al buscador. Un número muy significativo y que ha requerido grandes esfuerzos para no devolver falsos resultados. Para ello deben separar las palabras en unidades discretas. “New York” son dos palabras que van unidas pero que representan algo distinto cuando son las tres de “New York Times”, y cuyo significado cambia por completo cuando es “New York Times Square”. Algo que los humanos reconocen instantáneamente, pero que algorítmicamente no es tarea banal, y cuyo objetivo es adivinar el significado de lo que queremos decir. En Mayo de 2007, se introdujeron las búsquedas universales.

A partir de Google Images, las Google News (noticias) y el Book Search (libros), la búsqueda universal permite a los usuarios tener enlaces a cualquier medio dentro de las páginas de resultados. Todos estos cambios hacen que en realidad estén constantemente haciendo pruebas de cada ajuste del algoritmo. Y no sólo realizan tests con sus miles de “evaluadores oficiales”, sino que en cualquier momento pueden ejecutar los cambios en un número reducido de usuarios al azar. Son líderes por esta flexibilidad para añadir señales, ajustar el código y testear instantaneamente los resultados.

Desde que Larry Page dijo que Google debería estar escaneando la web cada segundo, el buscador ofrece, desde Diciembre de 2009, resultados en tiempo real con contenido producido desde Twitter o blogs tal cómo se publican. Hablamos de las últimas grandes actualizaciones hace poco, Caffeine y Mayday, pero la mayoría de ellas ni las notamos.

 

Fuente: "How Google’s Algorithm Rules the Web"

Vote: 
Average: 4.5 (2 votes)
Drupal - Drupal Commerce - HTML5 - CSS3