Este artículo trata sobre el robot de Internet. Para el motor de búsqueda, véase WebCrawler. “Web spider” redirige aquí; no debe confundirse con Spider web. “Spiderbot” redirige aquí; para el videojuego, véase Arac (videojuego).
Un rastreador web, a veces llamado araña o spiderbot y a menudo abreviado como crawler, es un bot de Internet que navega sistemáticamente por la World Wide Web y que suele ser operado por los motores de búsqueda con el propósito de indexar la Web (web spidering)[1].
Los motores de búsqueda y algunos otros sitios web utilizan software de rastreo o spidering para actualizar su contenido web o los índices del contenido web de otros sitios. Los rastreadores web copian las páginas para que sean procesadas por un motor de búsqueda, que indexa las páginas descargadas para que los usuarios puedan realizar búsquedas más eficientes.
Los rastreadores consumen recursos en los sistemas visitados y a menudo visitan los sitios sin ser solicitados. Cuando se accede a grandes colecciones de páginas, entran en juego cuestiones de calendario, carga y “cortesía”. Existen mecanismos para que los sitios públicos que no desean ser rastreados lo hagan saber al agente rastreador. Por ejemplo, incluir un archivo robots.txt puede solicitar a los robots que indexen sólo partes de un sitio web, o nada en absoluto.
Un rastreador o robot web (también llamados “crawlers”, “robots de indexación” o “arañas web”) es un programa automatizado que navega metódicamente por la web con el único propósito de indexar páginas web y su contenido. Estos robots son utilizados por los motores de búsqueda para rastrear las páginas web con el fin de renovar su índice con nueva información. De este modo, cuando los usuarios de Internet realizan una determinada consulta, pueden encontrar fácil y rápidamente la información más relevante.
Llamado así por el motor de búsqueda más antiguo que existe (Webcrawler), crawler es una palabra inglesa que significa literalmente “colarse”, “arrastrarse”, “escanear”… Tantas correspondencias oportunas que expresan claramente la esencia misma de los robots de indexación
Estos robots de indexación siguen siendo, en el 99% de los casos, utilizados por los motores de búsqueda. Permiten a los motores de búsqueda construir índices estructurados y optimizar su rendimiento como motores de búsqueda (por ejemplo, la presentación de nuevos resultados relevantes).
Para simplificar, tomemos el famoso ejemplo del bibliotecario. En este ejemplo, el bot del buscador es un bibliotecario encargado de inventariar todos los libros y documentos (sitios y páginas web) de una biblioteca enorme y completamente desorganizada (la web).
En principio, un crawler es como un bibliotecario. Busca información en la web, que asigna a determinadas categorías, y luego la indexa y cataloga para que la información rastreada sea recuperable y pueda ser evaluada.
Las operaciones de estos programas informáticos deben establecerse antes de iniciar un rastreo. Así, cada orden se define de antemano. A continuación, el rastreador ejecuta estas instrucciones automáticamente. Se crea un índice con los resultados del crawler, al que se puede acceder mediante un software de salida.
El objetivo clásico de un crawler es crear un índice. Así, los rastreadores son la base del trabajo de los motores de búsqueda. Primero rastrean la web en busca de contenidos y luego ponen los resultados a disposición de los usuarios. Los rastreadores enfocados, por ejemplo, se centran en los sitios web actuales y relevantes para el contenido cuando los indexan.
A diferencia de un scraper, un crawler sólo recoge y prepara los datos. El scraping es, sin embargo, una técnica de sombrero negro, cuyo objetivo es copiar datos en forma de contenido de otros sitios para colocarlos de esa manera o de una forma ligeramente modificada en el propio sitio web. Mientras que un crawler se ocupa sobre todo de los metadatos que no son visibles para el usuario a primera vista, un scraper extrae contenidos tangibles.
Además, de todos estos impostores, un 23,5% están siendo utilizados por los hackers para realizar ataques de denegación de servicio (DDoS). Gracias a ello, las falsas arañas pueden acceder a los servidores que alojan los archivos web a través del mismo puerto que los legítimos.
Panda Security está especializada en el desarrollo de productos de seguridad para puntos finales y forma parte de la cartera de soluciones de seguridad informática de WatchGuard. Inicialmente centrada en el desarrollo de software antivirus, la empresa ha ampliado desde entonces su línea de negocio a servicios avanzados de ciberseguridad con tecnología para prevenir la ciberdelincuencia.