[ad_1]

Googlebot es un rastreador web automático y permanente que actualiza el índice de Google.

El sitio web worldwebsize.com estima el índice de Google en más de 62 mil millones de páginas web.

El índice de búsqueda de Google es «más de 100.000.000 gigabytes».

Googlebot y sus variantes (teléfonos inteligentes, noticias, imágenes, etc.) tienen ciertas restricciones en la frecuencia de procesamiento de JavaScript o el tamaño de los recursos.

Google usa restricciones de rastreo para proteger sus propios recursos y sistemas de rastreo.

Por ejemplo, si un sitio web de noticias actualiza los artículos recomendados cada 15 segundos, Googlebot puede comenzar a ignorar las secciones que se actualizan con frecuencia, ya que dejarán de ser relevantes o válidas después de 15 segundos.

Hace años, Google anunció que no rastrea ni utiliza recursos de más de 15 MB.

El 28 de junio de 2022, Google volvió a publicar esta publicación de blog en la que afirma que no utiliza la parte excedente de los recursos después de 15 MB para rastrear.

Para enfatizar que esto rara vez sucede, Google dijo que «el tamaño medio de un archivo HTML es 500 veces más pequeño» que 15 MB.

línea de tiempo de bytes htmlCaptura de pantalla del autor, agosto de 2022

Arriba, HTTPArchive.org muestra el tamaño medio de archivo HTML para escritorio y móvil. Por lo tanto, la mayoría de los sitios web no tienen el problema de la restricción de 15 MB para el rastreo.

Pero la web es un lugar vasto y caótico.

Comprender la naturaleza del límite de rastreo de 15 MB y las formas de analizarlo es importante para los SEO.

Una imagen, un video o un error pueden causar problemas de rastreo, y esta información de SEO menos conocida puede ayudar a los proyectos a proteger su valor de búsqueda orgánica.

Encuentre recursos de más de 15 MB para un mejor rastreo de Googlebot

¿El límite de rastreo de 15 MB de Googlebot es solo para documentos HTML?

No.

El límite de rastreo de Googlebot de 15 MB es para todos los documentos indexables y rastreables, incluidos Google Earth, Hancom Hanword (.hwp), texto de OpenOffice (.odt) y formato de texto enriquecido (.rtf) u otros tipos de archivos compatibles con Googlebot. .

¿Se agregan tamaños de imagen y video al documento HTML?

No, cada recurso se evalúa por separado según el límite de rastreo de 15 MB.

Si el documento HTML tiene 14,99 MB y la imagen destacada del documento HTML vuelve a tener 14,99 MB, Googlebot los rastreará y los utilizará.

El tamaño del documento HTML no se agrega a los recursos que están vinculados a través de etiquetas HTML.

¿CSS, JS o URI de datos inflan el tamaño del documento HTML?

Sí, el CSS, JS o URI de datos incrustados se cuentan y se utilizan en el tamaño del documento HTML.

Por lo tanto, si el documento supera los 15 MB debido a recursos y comandos integrados, afectará la capacidad de rastreo del documento HTML específico.

¿Google deja de rastrear el recurso si supera los 15 MB?

No, los rastreadores de Google no dejan de rastrear recursos por encima del límite de 15 MB.

Continúan recuperando el archivo y solo usan la parte más pequeña que los 15 MB.

Para una imagen de más de 15 MB, Googlebot puede fragmentar la imagen hasta 15 MB utilizando el «rango de contenido».

Content-Range es un encabezado de respuesta que ayuda a Googlebot u otros rastreadores y solicitantes a realizar solicitudes parciales.

¿Cómo audito manualmente los tamaños de los recursos?

Puede usar las Herramientas para desarrolladores de Google Chrome para auditar manualmente los tamaños de los recursos.

Siga los pasos a continuación en Google Chrome.

  • Abra un documento de página web a través de Google Chrome.
  • Presione F12.
  • Vaya a la pestaña Red.
  • Actualizar la página web.
  • Ordena los recursos según la cascada.
  • Comprobar el Tamaño columna en la primera línea, que indica el tamaño del documento HTML.

A continuación puede ver un documento HTML de ejemplo de la página de inicio de seoconsem.com, que tiene más de 77 KB.

motor de búsqueda registro página de inicio resultados htmlCaptura de pantalla del autor, agosto de 2022

¿Cómo auditar el tamaño de los recursos de forma automática y masiva?

Utilice Python para auditar el tamaño del documento HTML de forma automática y masiva. Advertools y Pandas son dos bibliotecas de Python útiles para automatizar y escalar tareas de SEO.

Sigue las instrucciones de abajo.

  • Importar herramientas publicitarias y pandas.
  • Recopile todas las URL en el mapa del sitio.
  • Explore todas las URL del mapa del sitio.
  • Filtre las URL con su tamaño HTML.
import advertools as adv

import pandas as pd

df = adv.sitemap_to_df("https://www.holisticseo.digital/sitemap.xml")

adv.crawl(df["loc"], output_file="output.jl", custom_settings={"LOG_FILE":"output_1.log"})

df = pd.read_json("output.jl", lines=True)

df[["url", "size"]].sort_values(by="size", ascending=False)

El bloque de código anterior extrae las URL del mapa del sitio y las rastrea.

La última línea de código es solo para crear un marco de datos con orden descendente según los tamaños.

URL y tamaño deholisticseo.comImagen creada por el autor, agosto de 2022

Puede ver los tamaños de los documentos HTML como se muestra arriba.

El documento HTML más grande en este ejemplo tiene alrededor de 700 KB, que es una página de categoría.

Por lo tanto, este sitio web es seguro para restricciones de 15 MB, pero podemos verificar más allá de eso.

¿Cómo verificar el tamaño de los recursos CSS y JS?

Titiritero se utiliza para comprobar el tamaño de los recursos CSS y JS.

Puppeteer es un paquete de NodeJS para controlar Google Chrome con modo sin cabeza para la automatización del navegador y la prueba de sitios web.

La mayoría de los profesionales de SEO utilizan Lighthouse API o Page Speed ​​​​Insights para sus pruebas de rendimiento. Pero, con la ayuda de Puppeteer, se pueden analizar todos los aspectos técnicos y todas las simulaciones.

Siga el bloque de código a continuación.

const puppeteer = require('puppeteer');

const XLSX = require("xlsx");

const path = require("path");




(async () => {

    const browser = await puppeteer.launch({

        headless: false

    });




    const page = await browser.newPage();

    await page.goto('https://www.holisticseo.digital');

    console.log('Page loaded');

    const perfEntries = JSON.parse(

        await page.evaluate(() => JSON.stringify(performance.getEntries()))

      );

     

      console.log(perfEntries);

     

      const workSheetColumnName = [

          "name",

          "transferSize",

          "encodedSize",

          "decodedSize"

          ]

          const urlObject = new URL("https://www.holisticseo.digital")

          const hostName = urlObject.hostname

          const domainName = hostName.replace("www.|.com", "");

          console.log(hostName)

          console.log(domainName)

          const workSheetName = "Users";

          const filePath = `./${domainName}`;

          const userList = perfEntries;

         

         

          const exportPerfToExcel = (userList) => {

              const data = perfEntries.map(url => {

                  return [url.name, url.transferSize, url.encodedBodySize, url. decodedBodySize];

              })

              const workBook = XLSX.utils.book_new();

              const workSheetData = [

                  workSheetColumnName,

                  ...data

              ]

              const workSheet = XLSX.utils.aoa_to_sheet(workSheetData);

              XLSX.utils.book_append_sheet(workBook, workSheet, workSheetName);

              XLSX.writeFile(workBook, path.resolve(filePath));

              return true;

         

          }

          exportPerfToExcel(userList)

       

          //browser.close();

   

})();

Si no conoce JavaScript o no ha completado ningún tipo de tutorial de Titiritero, puede que le resulte un poco más difícil entender estos bloques de código. Pero, en realidad es simple.

Básicamente abre una URL, toma todos los recursos y proporciona su «tamaño de transferencia», «tamaño codificado» y «tamaño decodificado».

En este ejemplo, «decodedSize» es el tamaño en el que debemos centrarnos. A continuación puede ver el resultado como un archivo XLS.

Tamaños de recursosTamaños en bytes de los recursos del sitio web.

Si desea volver a automatizar estos procesos para cada URL, deberá usar un bucle for en el comando «wait.page.goto()».

Según sus preferencias, puede colocar cada página web en una hoja de trabajo diferente o adjuntarla a la misma hoja de trabajo.

Conclusión

La restricción de rastreo de 15 MB de Googlebot es una posibilidad rara que detendrá sus procesos técnicos de SEO por ahora, pero HTTPArchive.org muestra que los tamaños promedio de video, imagen y JavaScript han aumentado en los últimos años.

El tamaño medio de la imagen de escritorio superó 1 MB.

Serie temporal de bytes de imagenCaptura de pantalla del autor, agosto de 2022

Los bytes de video superan los 5 MB en total.

Serie temporal de bytes de vídeoCaptura de pantalla del autor, agosto de 2022

En otras palabras, de vez en cuando, Googlebot puede ignorar estos recursos, o partes de estos recursos.

Por lo tanto, debería poder controlarlos automáticamente, con métodos masivos para ahorrar tiempo y no omitir.

Más recursos:


Imagen destacada: BestForBest/Shutterstock

[ad_2]

Dejar un comentario

Deja un comentario