Los 5 problemas de indexación de Google más comunes por tamaño de sitio web

Los 5 problemas de indexación de Google más comunes por tamaño de sitio web

marzo 12, 2021 0 Por admin


Google está abierto al hecho de que no indexa todas las páginas que puede encontrar. Con la Consola de búsqueda de Google, puede ver qué páginas de su sitio web no se están indexando.

Google Search Console también le proporciona información útil sobre el problema específico que impidió que se indexara una página.

Estos problemas incluyen errores del servidor, 404 y sugerencias de que la página puede tener contenido delgado o duplicado.

Pero nunca vemos datos que apunten a los problemas más comunes en la web.

Así que … ¡decidí recopilar datos y compilar las estadísticas yo mismo!

En este artículo, exploraremos los problemas de indexación más comunes que impiden que sus páginas aparezcan en la Búsqueda de Google.

Indexación 101

La indexación es como construir una biblioteca, excepto que en lugar de libros, Google se ocupa de los sitios web.

Publicidad

Continuar leyendo a continuación

Si desea que sus páginas aparezcan en la búsqueda, deben estar indexadas correctamente. En pocas palabras, Google necesita encontrarlos y guardarlos.

Luego, Google puede analizar su contenido para decidir para qué consultas podrían ser relevantes.

La indexación es un requisito previo para obtener tráfico orgánico de Google. Y a medida que se indexan más y más páginas de su sitio web, es más probable que aparezca en los resultados de búsqueda.

Por eso es muy importante que sepa si Google puede indexar su contenido.

Esto es lo que hice para identificar problemas de indexación

Mis tareas diarias incluyen optimizar sitios web desde una perspectiva técnica de SEO para hacerlos más visibles en Google y, como resultado, tengo acceso a varias docenas de sitios en Google Search Console.

Decidí usar esto para, con suerte, hacer que los problemas de indexación sean populares … bueno, menos populares.

En aras de la transparencia, he desglosado la metodología que llevó a algunas conclusiones interesantes.

Publicidad

Continuar leyendo a continuación

Metodología

Comencé creando una muestra de páginas, combinando datos de dos fuentes:

  • Utilicé los datos de nuestros clientes, que eran de fácil acceso para mí.
  • Le pedí a otros profesionales de SEO que compartieran datos anónimos conmigo, publicaran una encuesta en Twitter y contactaran a algunos SEO directamente.

Ambos han demostrado ser fuentes de información exitosas.

Excluyendo páginas no indexables

Le conviene no indexar determinadas páginas. Estos incluyen URL antiguas, artículos que ya no son relevantes, configuraciones de filtro de comercio electrónico y más.

Hay varias formas en que los webmasters pueden asegurarse de que Google las ignore, incluido el archivo robots.txt y la etiqueta noindex.

Tener en cuenta estas páginas afectaría negativamente la calidad de mis resultados, por lo que eliminé de la muestra las páginas que cumplían con alguno de los siguientes criterios:

  • Bloqueado por robots.txt.
  • Marcado como noindex.
  • Redirigido.
  • Devolver un código de estado HTTP 404.

Excluyendo páginas sin valor

Para mejorar aún más la calidad de mi muestra, solo consideré las páginas incluidas en los mapas del sitio.

En mi experiencia, los mapas de sitio son la representación más clara de URL valiosas para cualquier sitio web.

Por supuesto, muchos sitios web tienen archivos basura en sus mapas de sitio. Algunos incluso incluyen las mismas URL en sus mapas de sitio y archivos robots.txt.

Pero me ocupé de esto en el paso anterior.

Categorización de datos

Descubrí que los problemas de indexación populares varían según el tamaño de un sitio web.

Así es como distribuí los datos:

  • Sitios web pequeños (hasta 10.000 páginas).
  • Sitios web de tamaño medio (10.000 a 100.000 páginas).
  • Grandes sitios web (hasta un millón de páginas).
  • Sitios web enormes (más de un millón de páginas).

Publicidad

Continuar leyendo a continuación

Debido a las diferencias de tamaño de los sitios web de mi muestra, tuve que encontrar una forma de normalizar los datos.

Un sitio web muy grande que lucha con un problema en particular podría superar los problemas de otros sitios web más pequeños.

Así que eché un vistazo a cada sitio web individualmente para resolver los problemas de indexación que enfrentan. Luego asigné puntos por problemas de indexación en función del número de páginas afectadas por un problema determinado en un sitio web determinado.

Y el veredicto es …

Estos son los cinco problemas principales que he encontrado en sitios web de todos los tamaños.

  1. Explorado: actualmente no indexado (problema de calidad).
  2. Contenido duplicado.
  3. Descubierto: actualmente no indexado (presupuesto de exploración / problema de calidad).
  4. Dulce 404.
  5. Problema de exploración.

Vamos a analizarlos.

Calidad

Los problemas de calidad incluyen escasez de contenido en sus páginas, engaño o sesgo excesivo.

Si su página no proporciona contenido único y valioso que Google quiere mostrar a los usuarios, tendrá dificultades para indexarlo (y no debería sorprenderse).

Publicidad

Continuar leyendo a continuación

Contenido duplicado

Google puede reconocer algunas de sus páginas como contenido duplicado, incluso si no deseaba que sucediera.

Un problema común son las etiquetas canónicas que apuntan a páginas diferentes. El resultado es que la página original no está indexada.

Si tiene contenido duplicado, use el atributo de etiqueta canónica o un redireccionamiento 301.

Esto le ayudará a asegurarse de que las mismas páginas de su sitio no compitan entre sí por las vistas, los clics y los enlaces.

Presupuesto de exploración

¿Cuál es el presupuesto de exploración? Dependiendo de varios factores, Googlebot solo rastreará una cierta cantidad de URL en cada sitio web.

Esto significa que la optimización es vital; no dejes que pierda su tiempo en páginas que no te interesan.

404 suave

Los errores 404 significan que envió una página eliminada o inexistente para indexarla. El software 404 muestra información "no encontrada", pero no devuelve el código de estado HTTP 404 al servidor.

La redirección de páginas eliminadas a otras que no son relevantes es un error común.

Publicidad

Continuar leyendo a continuación

Varias redirecciones también pueden aparecer como errores de software 404. Trate de mantener sus cadenas de redirecciones lo más cortas posible.

Problema de exploración

Hay muchos problemas de rastreo, pero uno de los más importantes es un problema con el archivo robots.txt. Si Googlebot encuentra un archivo robots.txt para su sitio pero no puede acceder a él, no rastreará el sitio en absoluto.

Finalmente, echemos un vistazo a los resultados para diferentes tamaños de sitios web.

Pequeños sitios web

Tamaño de muestra: 44 sitios

  1. Explorado, actualmente no indexado (calidad de exploración o problema de presupuesto).
  2. Contenido duplicado.
  3. Problema de presupuesto de exploración.
  4. Dulce 404.
  5. Problema de exploración.

Sitios web promedio

Tamaño de la muestra: 8 sitios

  1. Contenido duplicado.
  2. Descubierto, actualmente no indexado (presupuesto de exploración / problema de calidad).
  3. Explorado, actualmente no indexado (problema de calidad).
  4. 404 suave (problema de calidad).
  5. Problema de exploración.

Publicidad

Continuar leyendo a continuación

Grandes sitios web

Tamaño de muestra: 9 sitios

  1. Explorado, actualmente no indexado (problema de calidad).
  2. Descubierto, actualmente no indexado (presupuesto de exploración / problema de calidad).
  3. Contenido duplicado.
  4. Dulce 404.
  5. Problema de exploración.

Sitios web enormes

Tamaño de muestra: 9 sitios

  1. Explorado, actualmente no indexado (problema de calidad).
  2. Descubierto, actualmente no indexado (presupuesto de exploración / problema de calidad).
  3. Contenido duplicado (URL duplicada, enviado no seleccionado como canónico).
  4. Dulce 404.
  5. Problema de exploración.

Puntos clave para recordar sobre problemas comunes de indexación

Curiosamente, de acuerdo con estos resultados, dos tamaños de sitios web sufren los mismos problemas. Esto muestra lo difícil que es mantener la calidad en el caso de grandes sitios web.

  • Más de 100.000, pero menos de 1 millón.
  • Más de 1 millón.

Las conclusiones, sin embargo, son las siguientes:

  • Incluso los sitios web relativamente pequeños (más de 10.000) pueden no estar completamente indexados debido a un presupuesto de rastreo insuficiente.
  • Cuanto más grande es el sitio web, más urgentes se vuelven los problemas de calidad / presupuesto de rastreo.
  • El problema del contenido duplicado es grave pero cambia de naturaleza según el sitio web.

P.D .: Nota sobre URL desconocidas para Google

Durante mi investigación, me di cuenta de que hay otro problema común que impide que las páginas se indexen.

Publicidad

Continuar leyendo a continuación

Puede que no se haya ganado su lugar en el ranking anterior, pero sigue siendo importante y me sorprendió ver que sigue siendo tan popular.

Hablo de páginas huérfanas.

Es posible que algunas páginas de su sitio web no tengan enlaces internos a ellas.

Si no hay una ruta para que el robot de Google encuentre una página en su sitio web, es posible que no la encuentre.

¿Cuál es la solución? Agrega enlaces de páginas relacionadas.

También puede solucionar este problema manualmente agregando la página huérfana a su mapa del sitio. Desafortunadamente, muchos webmasters aún se olvidan de hacer esto.

Más recursos: