Cómo funcionan los motores de búsqueda

La buena noticia sobre Internet y su componente más visible, la World Wide Web, es que hay cientos de millones de páginas disponibles, esperando presentar información sobre una increíble variedad de temas. La mala noticia de Internet es que hay cientos de millones de páginas disponibles, la mayoría de ellas tituladas según el capricho de su autor, casi todas ellas asentadas en servidores con nombres crípticos. Cuando uno necesita saber sobre un tema concreto, ¿cómo sabe qué páginas debe leer? Si es usted como la mayoría de la gente, visita un motor de búsqueda de Internet.

Los motores de búsqueda de Internet son sitios especiales en la Web que están diseñados para ayudar a la gente a encontrar información almacenada en otros sitios. Hay diferencias en el funcionamiento de los distintos motores de búsqueda, pero todos realizan tres tareas básicas:

Los primeros motores de búsqueda tenían un índice de unos cientos de miles de páginas y documentos, y recibían tal vez uno o dos mil consultas al día. Hoy en día, un motor de búsqueda de primera línea indexa cientos de millones de páginas y responde a decenas de millones de consultas al día. En este artículo, le explicaremos cómo se realizan estas tareas principales y cómo los motores de búsqueda de Internet unen las piezas para permitirle encontrar la información que necesita en la Web.

Qué son los motores de búsqueda

En esta guía vamos a ofrecerle una introducción al funcionamiento de los motores de búsqueda. Se tratarán los procesos de rastreo e indexación, así como conceptos como el crawl budget y el PageRank.

Los motores de búsqueda trabajan rastreando cientos de miles de millones de páginas mediante sus propios rastreadores web. Estos rastreadores web se denominan comúnmente bots o arañas de los motores de búsqueda. Un motor de búsqueda navega por la web descargando páginas web y siguiendo los enlaces de estas páginas para descubrir nuevas páginas que han sido puestas a disposición.

A continuación, el usuario selecciona una opción de la lista de resultados de la búsqueda y esta acción, junto con la actividad posterior, alimenta futuros aprendizajes que pueden afectar a las clasificaciones de los motores de búsqueda en el futuro.

Cuando un usuario introduce una consulta en un motor de búsqueda, todas las páginas que se consideran relevantes se identifican a partir del índice y se utiliza un algoritmo para clasificar jerárquicamente las páginas relevantes en un conjunto de resultados.

Algoritmo del motor de búsqueda

El rastreador web, la base de datos y la interfaz de búsqueda son los principales componentes de un motor de búsqueda que hacen que éste funcione. Los motores de búsqueda utilizan la expresión booleana AND, OR, NOT para restringir y ampliar los resultados de una búsqueda. A continuación se indican los pasos que realiza el motor de búsqueda:

Estos criterios de búsqueda pueden variar de un motor de búsqueda a otro. La información recuperada se clasifica en función de varios factores, como la frecuencia de las palabras clave, la relevancia de la información, los enlaces, etc.

Cómo funciona google

Se calcula que la cantidad de información textual a la que se puede acceder a través de los motores de búsqueda es al menos 40 veces mayor que el contenido digitalizado de todos los libros de la Biblioteca del Congreso, la mayor biblioteca del mundo. Es un reto proporcionar acceso a un volumen tan grande de información, pero los motores de búsqueda actuales hacen un trabajo notable de cribado de contenidos e identificación de enlaces relacionados con las consultas.

Una de las formas en que los motores de búsqueda ahorran tiempo es el preprocesamiento del contenido de la web. Es decir, cuando un usuario emite una consulta, ésta no se envía a millones de sitios web. En su lugar, la comparación se realiza con datos preprocesados almacenados en un solo sitio. El preprocesamiento se lleva a cabo con la ayuda de un programa de software llamado crawler. Los responsables de la base de datos envían el crawler periódicamente para recoger páginas web. Un programa informático especializado analiza las páginas recuperadas para extraer palabras. Estas palabras se almacenan junto con los enlaces a las páginas correspondientes en un archivo de índice. Las consultas de los usuarios se comparan con este archivo de índice, no con otros sitios web.