Inverted index
When users enter their queries, our system searches the index for matching pages and returns the results that we consider most relevant and of the highest quality. To determine this relevance, the system takes into account hundreds of factors, such as location, language and the user’s device (computer or phone). For example, if a user from Barcelona searches for “bicycle repair shops”, he or she will get different results than users from Hong Kong who make the same query.
Comentarios
¿Qué ocurre una vez que un motor de búsqueda ha terminado de rastrear una página? Echemos un vistazo al proceso de indexación que los motores de búsqueda utilizan para almacenar información sobre las páginas web, lo que les permite devolver rápidamente resultados relevantes y de alta calidad.
¿Recuerda los tiempos anteriores a Internet, cuando había que consultar una enciclopedia para conocer el mundo y rebuscar en las Páginas Amarillas para encontrar un fontanero? Incluso en los primeros días de la web, antes de los motores de búsqueda, teníamos que buscar en directorios para recuperar información. Qué proceso más largo. ¿Cómo hemos podido tener paciencia?
Un índice invertido es un sistema en el que se recopila una base de datos de elementos de texto junto con punteros a los documentos que contienen esos elementos. A continuación, los motores de búsqueda utilizan un proceso llamado tokenización para reducir las palabras a su significado principal, reduciendo así la cantidad de recursos necesarios para almacenar y recuperar los datos. Se trata de un enfoque mucho más rápido que el de listar todos los documentos conocidos con todas las palabras clave y caracteres relevantes.
Búsqueda secuencial
Para ofrecerte la información más útil, los algoritmos de búsqueda tienen en cuenta muchos factores y señales, como las palabras de tu consulta, la relevancia y utilidad de las páginas, la experiencia de las fuentes y tu ubicación y configuración. El peso aplicado a cada factor varía en función de la naturaleza de tu consulta. Por ejemplo, la frescura del contenido desempeña un papel más importante a la hora de responder a consultas sobre temas de actualidad que sobre definiciones de diccionario.
Para obtener resultados relevantes, primero tenemos que determinar qué es lo que está buscando, es decir, la intención de su consulta. Para ello, construimos modelos lingüísticos que intentan descifrar cómo las relativamente pocas palabras que introduces en el cuadro de búsqueda se corresponden con el contenido más útil disponible.
Esto implica pasos tan aparentemente sencillos como reconocer y corregir las faltas de ortografía, y se extiende hasta intentar nuestro sofisticado sistema de sinónimos que nos permite encontrar documentos relevantes aunque no contengan las palabras exactas que has utilizado. Por ejemplo, puede que hayas buscado “cambiar el brillo del portátil” pero el fabricante ha escrito “ajustar el brillo del portátil”. Nuestros sistemas entienden que las palabras y la intención están relacionadas y así te conectan con el contenido correcto. Este sistema ha tardado más de cinco años en desarrollarse y mejora significativamente los resultados en más del 30% de las búsquedas en todos los idiomas.
Indexación de la búsqueda
¿Qué ocurre una vez que un motor de búsqueda ha terminado de rastrear una página? Veamos el proceso de indexación que utilizan los motores de búsqueda para almacenar información sobre las páginas web, lo que les permite devolver rápidamente resultados relevantes y de alta calidad.
¿Recuerda los tiempos anteriores a Internet, cuando había que consultar una enciclopedia para conocer el mundo y rebuscar en las Páginas Amarillas para encontrar un fontanero? Incluso en los primeros días de la web, antes de los motores de búsqueda, teníamos que buscar en directorios para recuperar información. Qué proceso más largo. ¿Cómo hemos podido tener paciencia?
Un índice invertido es un sistema en el que se recopila una base de datos de elementos de texto junto con punteros a los documentos que contienen esos elementos. A continuación, los motores de búsqueda utilizan un proceso llamado tokenización para reducir las palabras a su significado principal, reduciendo así la cantidad de recursos necesarios para almacenar y recuperar los datos. Se trata de un enfoque mucho más rápido que el de listar todos los documentos conocidos con todas las palabras clave y caracteres relevantes.