¿Cuál es el rol de las arañas de Google?

admin
septiembre 8th, 2022
No Comments

Googlebot

Este artículo trata sobre el robot de Internet. Para el motor de búsqueda, véase WebCrawler. “Web spider” redirige aquí; no debe confundirse con Spider web. “Spiderbot” redirige aquí; para el videojuego, véase Arac (videojuego).

Un rastreador web, a veces llamado araña o spiderbot y a menudo abreviado como crawler, es un bot de Internet que navega sistemáticamente por la World Wide Web y que suele ser operado por los motores de búsqueda con el propósito de indexar la Web (web spidering)[1].

Los motores de búsqueda y algunos otros sitios web utilizan software de rastreo o spidering para actualizar su contenido web o los índices del contenido web de otros sitios. Los rastreadores web copian las páginas para que sean procesadas por un motor de búsqueda, que indexa las páginas descargadas para que los usuarios puedan realizar búsquedas más eficientes.

Los rastreadores consumen recursos en los sistemas visitados y a menudo visitan los sitios sin ser solicitados. Cuando se accede a grandes colecciones de páginas, entran en juego cuestiones de calendario, carga y “cortesía”. Existen mecanismos para que los sitios públicos que no desean ser rastreados lo hagan saber al agente rastreador. Por ejemplo, incluir un archivo robots.txt puede solicitar a los robots que indexen sólo partes de un sitio web, o nada en absoluto.

Rana gritona

Un rastreador o robot web (también llamados “crawlers”, “robots de indexación” o “arañas web”) es un programa automatizado que navega metódicamente por la web con el único propósito de indexar páginas web y su contenido. Estos robots son utilizados por los motores de búsqueda para rastrear las páginas web con el fin de renovar su índice con nueva información. De este modo, cuando los usuarios de Internet realizan una determinada consulta, pueden encontrar fácil y rápidamente la información más relevante.

Llamado así por el motor de búsqueda más antiguo que existe (Webcrawler), crawler es una palabra inglesa que significa literalmente “colarse”, “arrastrarse”, “escanear”… Tantas correspondencias oportunas que expresan claramente la esencia misma de los robots de indexación

Estos robots de indexación siguen siendo, en el 99% de los casos, utilizados por los motores de búsqueda. Permiten a los motores de búsqueda construir índices estructurados y optimizar su rendimiento como motores de búsqueda (por ejemplo, la presentación de nuevos resultados relevantes).

Para simplificar, tomemos el famoso ejemplo del bibliotecario. En este ejemplo, el bot del buscador es un bibliotecario encargado de inventariar todos los libros y documentos (sitios y páginas web) de una biblioteca enorme y completamente desorganizada (la web).

Qué es la araña en el ordenador

En principio, un crawler es como un bibliotecario. Busca información en la web, que asigna a determinadas categorías, y luego la indexa y cataloga para que la información rastreada sea recuperable y pueda ser evaluada.

Las operaciones de estos programas informáticos deben establecerse antes de iniciar un rastreo. Así, cada orden se define de antemano. A continuación, el rastreador ejecuta estas instrucciones automáticamente. Se crea un índice con los resultados del crawler, al que se puede acceder mediante un software de salida.

El objetivo clásico de un crawler es crear un índice. Así, los rastreadores son la base del trabajo de los motores de búsqueda. Primero rastrean la web en busca de contenidos y luego ponen los resultados a disposición de los usuarios. Los rastreadores enfocados, por ejemplo, se centran en los sitios web actuales y relevantes para el contenido cuando los indexan.

A diferencia de un scraper, un crawler sólo recoge y prepara los datos. El scraping es, sin embargo, una técnica de sombrero negro, cuyo objetivo es copiar datos en forma de contenido de otros sitios para colocarlos de esa manera o de una forma ligeramente modificada en el propio sitio web. Mientras que un crawler se ocupa sobre todo de los metadatos que no son visibles para el usuario a primera vista, un scraper extrae contenidos tangibles.

Búsqueda de la araña

Además, de todos estos impostores, un 23,5% están siendo utilizados por los hackers para realizar ataques de denegación de servicio (DDoS). Gracias a ello, las falsas arañas pueden acceder a los servidores que alojan los archivos web a través del mismo puerto que los legítimos.

Panda Security está especializada en el desarrollo de productos de seguridad para puntos finales y forma parte de la cartera de soluciones de seguridad informática de WatchGuard. Inicialmente centrada en el desarrollo de software antivirus, la empresa ha ampliado desde entonces su línea de negocio a servicios avanzados de ciberseguridad con tecnología para prevenir la ciberdelincuencia.

¿Cuál es el rol de las arañas de Google?

Googlebot

Rana gritona

Qué es la araña en el ordenador

Búsqueda de la araña

Relacionados

¿Cuál es el mejor algoritmo de búsqueda?

¿Qué es PageRank en marketing?

¿Cuáles son las características de las herramientas de búsqueda?

¿Qué son los bots de Google y qué hacen?

¿Qué es un motor de búsqueda ejemplos?

¿Qué es y cómo se realiza una búsqueda con operadores?

¿Cuándo salió Google?

¿Cómo hacer una búsqueda de archivos?

¿Cómo se llama Google ahora?

¿Qué es un grafo y para qué sirve?

¿Cuál es el PageRank de mi web?

¿Qué tipo de emprendedor es Larry Page?

¿Que se festeja el día de hoy Google?

¿Qué es el Deepbot?

¿Qué es el motor de búsqueda Bing?

¿Cómo se hace el algoritmo?

¿Qué es el CLS en SEO?

¿Cuáles son los 5 tipos de algoritmos?

¿Cuáles son las 3 formas de representar un algoritmo?

¿Cómo cambiar el motor de búsqueda en Google Chrome?