Cómo administrar el presupuesto de rastreo para sitios grandes

Cómo administrar el presupuesto de rastreo para sitios grandes

julio 25, 2023 0 Por admin


Internet es un universo virtual en constante cambio con más de 1.100 millones de sitios web.

¿Crees que Google puede rastrear todos los sitios web del mundo?

Incluso con todos los recursos, el dinero y los centros de datos que tiene Google, ni siquiera puede rastrear toda la web, y tampoco quiere hacerlo.

¿Qué es el presupuesto de rastreo? ¿Importa?

El presupuesto de rastreo hace referencia al tiempo y los recursos que Googlebot dedica a rastrear las páginas web de un dominio.

Es importante optimizar su sitio para que Google encuentre su contenido más rápido e indexe su contenido, lo que podría ayudar a que su sitio obtenga una mejor visibilidad y tráfico.

Si tiene un sitio grande con millones de páginas web, administrar su presupuesto de rastreo es especialmente importante para ayudar a Google a rastrear sus páginas más importantes y comprender mejor su contenido.

Google indica que:

Si su sitio no tiene muchas páginas que cambien rápidamente, o si sus páginas parecen rastrearse el mismo día que se publican, es suficiente mantener su mapa del sitio actualizado y verificar la cobertura de su índice con regularidad. Google también dice que cada página debe revisarse, consolidarse y evaluarse para determinar dónde se indexará después de rastrearla.

El presupuesto de rastreo está determinado por dos elementos principales: el límite de capacidad de rastreo y la demanda de rastreo.

La demanda de rastreo es la cantidad de rastreo que Google quiere realizar en su sitio web. Se explorarán más a fondo las páginas más populares, es decir, una historia popular de CNN y las páginas que experimentan cambios significativos.

Googlebot quiere rastrear su sitio sin sobrecargar sus servidores. Para evitar esto, Googlebot calcula un límite de capacidad de rastreo, que es la cantidad máxima de conexiones paralelas simultáneas que Googlebot puede usar para rastrear un sitio, así como el retraso entre las búsquedas.

Al combinar la capacidad de rastreo y la demanda de rastreo, Google define el presupuesto de rastreo de un sitio como el conjunto de URL que Googlebot puede y quiere rastrear. Incluso si no se alcanza el límite de capacidad de rastreo, si la demanda de rastreo es baja, Googlebot rastreará menos su sitio.

Estos son los 12 mejores consejos para administrar el presupuesto de rastreo para sitios grandes y medianos con 10,000 a millones de URL.

1. Determine qué páginas son importantes y cuáles no deben rastrearse

Determine qué páginas son importantes y qué páginas no son tan importantes para rastrear (y, por lo tanto, Google las visita con menos frecuencia).

Una vez que haya determinado esto a través de análisis, puede ver qué páginas de su sitio vale la pena rastrear y qué páginas de su sitio no vale la pena rastrear y excluirlas del rastreo.

Por ejemplo, Macys.com tiene más de 2 millones de páginas indexadas.

Páginas Macys.com Captura de pantalla de la búsqueda de [site: macys.com]Google, junio de 2023

Administra su presupuesto de rastreo diciéndole a Google que no rastree ciertas páginas del sitio porque impedía que Googlebot rastreara ciertas URL en el archivo robots.txt.
Googlebot puede decidir que no vale la pena mirar el resto de su sitio o aumentar su presupuesto de rastreo. Asegúrese de que la navegación por facetas y los ID de sesión estén bloqueados a través de robots.txt

2. Administrar contenido duplicado

Si bien Google no impone una penalización por contenido duplicado, desea proporcionar a Googlebot información original y única que satisfaga las necesidades de información del usuario final y que sea relevante y útil. Asegúrese de estar utilizando el archivo robots.txt.

Google dijo que no use un índice porque siempre preguntará pero luego se dará por vencido.

3. Bloquee el rastreo de URL irrelevantes usando Robots.txt y dígale a Google qué páginas puede rastrear

Para un sitio comercial con millones de páginas, Google recomienda bloquear las URL sin importancia para que no se rastreen mediante robots.txt.

Además, desea asegurarse de que Googlebot y otros motores de búsqueda permitan rastrear sus páginas importantes, directorios que contienen su contenido preferido y páginas de dinero.

Robots.txtCaptura de pantalla del autor, junio de 2023

4. Cadenas de redirección largas

Mantenga su número de redireccionamientos a un número bajo si puede. Tener demasiados redireccionamientos o bucles de redireccionamiento puede confundir a Google y reducir su límite de rastreo.

Google afirma que las cadenas de redireccionamiento largas pueden tener un efecto negativo en el rastreo.

5. Usa HTML

El uso de HTML aumenta las posibilidades de que un rastreador de cualquier motor de búsqueda visite su sitio web.

Si bien Googlebots ha mejorado en el rastreo e indexación de JavaScript, otros rastreadores de motores de búsqueda no son tan sofisticados como Google y pueden tener problemas con otros lenguajes que no sean HTML.

6. Asegúrese de que sus páginas web carguen rápidamente y brinden una buena experiencia de usuario

Asegúrese de que su sitio esté optimizado para Core Web Vitals.

Cuanto más rápido se carga su contenido, es decir, en menos de tres segundos, más rápido Google puede proporcionar información a los usuarios finales. Si les gusta, Google continuará indexando su contenido porque su sitio demostrará el estado de rastreo de Google, lo que puede aumentar su límite de rastreo.

7. Tener contenido útil

Según Google, el contenido se clasifica según su calidad, independientemente de la edad. Cree y actualice su contenido según sea necesario, pero no hay valor agregado en hacer que las páginas parezcan nuevas artificialmente al hacer cambios triviales y actualizar la fecha de la página.

Si tu contenido satisface las necesidades de los usuarios finales y, es decir, es útil y relevante, no importa si es antiguo o nuevo.

Si los usuarios no encuentran su contenido útil y relevante, le recomiendo que actualice y actualice su contenido para que sea nuevo, relevante y útil y lo promocione a través de las redes sociales.

También vincule sus páginas directamente a la página de inicio, que puede considerarse más importante y rastrearse con más frecuencia.

8. Cuidado con los errores de rastreo

Si eliminó algunas páginas de su sitio, asegúrese de que la URL devuelva un estado 404 o 410 para las páginas eliminadas de forma permanente. Un código de estado 404 es una señal fuerte para no volver a rastrear esa URL.

Sin embargo, las URL bloqueadas permanecerán en la cola de rastreo durante mucho más tiempo y se volverán a rastrear cuando se elimine el bloqueo.

  • Además, Google afirma eliminar todas las páginas 404 del software, que continuará siendo explorado y desperdiciará su presupuesto de exploración. Para probar esto, vaya a GSC y examine su informe de cobertura de índice en busca de errores 404 suaves.

Si su sitio tiene muchos códigos de estado de respuesta HTTP 5xx (errores del servidor) o los tiempos de conexión indican lo contrario, el rastreo se ralentizará. Google recomienda prestar atención al informe de estadísticas de rastreo en Search Console y mantener la cantidad de errores del servidor al mínimo.

Por cierto, Google no respeta ni se adhiere a la regla no estándar de «retraso en el rastreo» de robots.txt.

Incluso si usa el atributo nofollow, la página aún se puede rastrear y desperdiciar el presupuesto de rastreo si otra página en su sitio, o cualquier página en la web, no marca el enlace como nofollow.

9. Mantenga los mapas del sitio actualizados

Los mapas de sitio XML son importantes para ayudar a Google a encontrar su contenido y pueden acelerar las cosas.

Es extremadamente importante mantener actualizadas las URL de su mapa del sitio, use la etiqueta para obtener contenido actualizado y seguir las mejores prácticas de SEO, incluidas, entre otras, las siguientes.

  • Solo incluye las URL que deseas que indexen los motores de búsqueda.
  • Solo incluya direcciones URL que devuelvan un código de estado 200.
  • Asegúrese de que un solo archivo de mapa de sitio tenga menos de 50 MB o 50 000 URL y, si decide usar varios mapas de sitio, cree un índice del mapa del sitio que los enumerará a todos.
  • Asegúrate de que tu mapa del sitio esté codificado en UTF-8.
  • Incluir enlaces a versiones localizadas de cada URL. (Consulte la documentación de Google).
  • Mantenga su mapa del sitio actualizado, es decir, actualice su mapa del sitio siempre que haya una nueva URL o se haya actualizado o eliminado una URL antigua.

10. Construya una buena estructura del sitio

Tener una buena estructura del sitio es importante para el rendimiento de SEO para la indexación y la experiencia del usuario.

La estructura del sitio puede afectar los resultados de la página de resultados del motor de búsqueda (SERP) de varias maneras, incluido el rastreo, la tasa de clics y la experiencia del usuario.

Tener una estructura clara y lineal de su sitio puede usar de manera efectiva su presupuesto de rastreo, lo que ayudará a Googlebot a encontrar contenido nuevo o actualizado.

Recuerde siempre la regla de los tres clics, es decir, cualquier usuario debe poder pasar de cualquier página de su sitio a otra en no más de tres clics.

11. Enlaces internos

Cuanto más facilite a los motores de búsqueda rastrear y navegar por su sitio, más fácil será para los rastreadores identificar su estructura, contexto y contenido importante.

Tener enlaces internos que apunten a una página web puede permitirle a Google saber que esa página es importante, ayudar a establecer una jerarquía de información para el sitio web determinado y puede ayudar a difundir la equidad de los enlaces en todo su sitio.

12. Controla siempre las estadísticas de rastreo

Siempre revise y controle GSC para ver si su sitio tiene algún problema durante el rastreo y busque formas de hacer que su rastreo sea más eficiente.

Puede utilizar el informe Estadísticas de rastreo para ver si Googlebot tiene problemas para rastrear su sitio.

Si se informan errores o advertencias de disponibilidad en GSC para su sitio, busque instancias en el disponibilidad de anfitriones gráficos donde las solicitudes de Googlebot excedieron la línea de límite roja, haga clic en el gráfico para ver qué URL fallaron e intente correlacionar aquellas con problemas en su sitio.

También puede usar la herramienta de inspección de URL para probar algunas URL en su sitio.

Si la herramienta de inspección de URL devuelve advertencias de carga del host, significa que Googlebot no puede rastrear tantas URL en su sitio como ha descubierto.

Envoltura

La optimización del presupuesto de rastreo es crucial para sitios grandes debido a su tamaño y complejidad.

Con muchas páginas y contenido dinámico, los rastreadores de los motores de búsqueda enfrentan desafíos para rastrear e indexar el contenido del sitio de manera eficiente y efectiva.

Al optimizar su presupuesto de rastreo, los propietarios de sitios pueden priorizar el rastreo e indexación de páginas importantes y actualizadas, lo que garantiza que los motores de búsqueda gasten sus recursos de manera inteligente y eficiente.

Este proceso de optimización involucra técnicas como mejorar la arquitectura del sitio, administrar los parámetros de URL, establecer prioridades de rastreo y eliminar el contenido duplicado, lo que lleva a una mejor visibilidad del motor de búsqueda, una mejor experiencia del usuario y un mayor tráfico orgánico para sitios web grandes.

Más recursos:


Imagen destacada: BestForBest/Shutterstock