¿Qué es el proceso de crawling?

Fechas de los titulares

Para que su sitio web se clasifique, es necesario que esté indexado de antemano. Para indexarlo, también hay que rastrearlo. El rastreo y la indexación son dos procesos que contribuyen fundamentalmente al rendimiento SEO de su sitio web. En esta guía le explicamos lo que significa cada uno de estos procesos y cómo puede optimizar el rastreo y la indexación para obtener la mejor clasificación posible.

¿Qué páginas son relevantes para el SEO? Para la clasificación son cruciales sobre todo las URL que ofrecen un punto de entrada adecuado desde la búsqueda orgánica. Por ejemplo, si quiere comprar un par de botas de esquí y busca “botas de esquí Salomin”, una página de entrada adecuada sería una página en la que se muestre una selección de botas de esquí Salomon en una tienda. O una página de detalles del producto si buscas más detalles como “salomon X pro”. Si lo que busca es “protección contra robos”, una página de entrada adecuada sería, por ejemplo, una página como ésta: Los tipos típicos de páginas relevantes para el SEO son:

¿Son las páginas de productos relevantes para el ranking? Las páginas de productos son prácticamente siempre relevantes para el SEO. A toda tienda online le gustaría recibir usuarios a través de la búsqueda orgánica. La pregunta, sin embargo, es: ¿le gustaría optimizar todos sus productos y variantes de productos? Si es así, ¿tiene los recursos para hacerlo? Sin embargo, dependiendo del tamaño de su tienda online, en la práctica suele faltar tiempo o dinero para examinar todos los productos y variantes pieza por pieza. En consecuencia, debería dar prioridad a las páginas de productos para su optimización: Alrededor de 2600 usuarios buscan “nike free run” cada mes, mientras que las variantes de color rojo, azul y negro no se buscan. En este caso bastaría con tener indexado el artículo principal, mientras que las variantes de color no son relevantes para el ranking.

Lo que debe ser lo más coherente posible en toda la web al desarrollar una estrategia de seo local

Este artículo se refiere al bot de Internet. Para el motor de búsqueda, véase WebCrawler. “Web spider” redirige aquí; no debe confundirse con Spider web. “Spiderbot” redirige aquí; para el videojuego, véase Arac (videojuego).

Un rastreador web, a veces llamado araña o spiderbot y a menudo abreviado como crawler, es un bot de Internet que navega sistemáticamente por la World Wide Web y que suele ser operado por los motores de búsqueda con el propósito de indexar la Web (web spidering)[1].

Los motores de búsqueda y algunos otros sitios web utilizan software de rastreo o spidering para actualizar su contenido web o los índices del contenido web de otros sitios. Los rastreadores web copian las páginas para que sean procesadas por un motor de búsqueda, que indexa las páginas descargadas para que los usuarios puedan realizar búsquedas más eficientes.

Los rastreadores consumen recursos en los sistemas visitados y a menudo visitan los sitios sin ser solicitados. Cuando se accede a grandes colecciones de páginas, entran en juego cuestiones de calendario, carga y “cortesía”. Existen mecanismos para que los sitios públicos que no desean ser rastreados lo hagan saber al agente rastreador. Por ejemplo, incluir un archivo robots.txt puede solicitar a los robots que indexen sólo partes de un sitio web, o nada en absoluto.

Te han pedido que ayudes a una gran marca de comercio electrónico a optimizar su sitio web

Cuando los rastreadores encuentran una página web, nuestros sistemas muestran el contenido de la página, al igual que lo hace un navegador. Tomamos nota de las señales clave -desde las palabras clave hasta la frescura del sitio web- y hacemos un seguimiento de todo ello en el índice de búsqueda.

De hecho, tenemos múltiples índices de diferentes tipos de información, que se recopilan a través del rastreo, a través de asociaciones, a través de fuentes de datos que se nos envían y a través de nuestra propia enciclopedia de hechos, el Gráfico de Conocimiento.

Estos numerosos índices permiten buscar entre millones de libros de las principales bibliotecas, encontrar los horarios de viaje de la agencia de transporte público local o encontrar datos de fuentes públicas como el Banco Mundial.

Rastreo e indexación

Para configurar un dispositivo de búsqueda para que rastree una fuente de contenido, debe especificar las direcciones URL de nivel superior y las direcciones de directorio y los enlaces que el dispositivo de búsqueda debe seguir mediante la página Fuentes de contenido > Rastreo web > URL de inicio y de bloqueo en la Consola de administración. Además de especificar las URL de inicio, también puede especificar las URL que el dispositivo de búsqueda no debe seguir ni rastrear.

Para especificar dónde se debe iniciar el rastreo, se deben enumerar las direcciones URL de primer nivel y las direcciones de directorio en la sección URL de inicio de la página Fuentes de contenido > Rastreo web > Inicio y bloqueo de URL, que se muestra en la siguiente figura.

Si prefiere que el dispositivo de búsqueda rastree de acuerdo con las horas programadas, también debe realizar las siguientes tareas adicionales utilizando la página Fuentes de contenido > Rastreo web > Programación de rastreo en la Admin Console:

Para programar los tiempos de rastreo para un host específico, puede cambiar la carga y los tiempos del host en la página Fuentes de contenido > Rastreo web > Programación de la carga del host. Al establecer una carga de host de 0, el rastreador no rastreará ese host durante el período de tiempo configurado.

    Comments are closed

    Esta web utiliza cookies propias para su correcto funcionamiento. Contiene enlaces a sitios web de terceros con políticas de privacidad ajenas que podrás aceptar o no cuando accedas a ellos. Al hacer clic en el botón Aceptar, acepta el uso de estas tecnologías y el procesamiento de tus datos para estos propósitos. Más información
    Privacidad