[ad_1]
En el área de SEO en arquitectura de sitios web, no hay duda de que eliminar contenido duplicado puede ser una de las batallas más difíciles.
Demasiados sistemas de administración de contenido y desarrolladores pobres de meadas construyen sitios que funcionan muy bien para mostrar contenido, pero tienen poca consideración de cómo funciona ese contenido desde una perspectiva amigable para los motores de búsqueda.
Y eso a menudo deja dilemas de contenido duplicado que dañan el SEO.
Hay dos tipos de contenido duplicado, y ambos pueden ser problemáticos:
- En el sitio la duplicación es cuando el mismo contenido se duplica en dos o más URL únicas en su sitio. Por lo general, esto es algo que puede controlar el administrador del sitio y el equipo de desarrollo web.
- Fuera del sitio La duplicación ocurre cuando dos o más sitios web publican exactamente el mismo contenido. Esto es algo que a menudo no se puede controlar directamente, pero que se basa en la colaboración con terceros y los propietarios de los sitios web en cuestión.
¿Por qué el contenido duplicado es un problema?
La mejor manera de explicar por qué el contenido duplicado es malo es decirle primero por qué unico El contenido es bueno.
El contenido único es una de las mejores formas de diferenciarse de otros sitios web. Cuando el contenido de su sitio web es suyo y solo suyo, usted se destaca. Tienes algo que nadie más tiene.
Por otro lado, cuando usa el mismo contenido para describir sus productos o servicios o cuando el contenido se vuelve a publicar en otros sitios, pierde la ventaja de ser único.
O, en el caso de contenido duplicado en el sitio, páginas individuales perder la ventaja de ser único
Mira la siguiente ilustración. Si A representa contenido duplicado en dos páginas y B a Q representa páginas vinculadas a este contenido, la duplicación hace que el valor del enlace transmitido se divida.
Ahora imagine que las páginas BQ están vinculadas solo a la página A. En lugar de dividir el valor proporcionado por cada enlace, todo el valor iría a una única URL, lo que aumenta las posibilidades de clasificar ese contenido en el investigar.
Ya sea en el sitio o fuera del sitio, todo el contenido duplicado compite consigo mismo. Cada versión puede atraer globos oculares y enlaces, pero ninguno recibirá el valor total que obtendría si fuera la versión única y única.
Sin embargo, cuando solo se puede encontrar contenido valioso y único en una URL en cualquier lugar de la web, esa URL tiene la mejor oportunidad de ser encontrada, ya que es el único recolector de señales de autoridad para este contenido.
Ahora, teniendo esta comprensión, examinemos los problemas y las soluciones para contenido duplicado.
Contenido duplicado fuera del sitio
La duplicación fuera del sitio tiene tres fuentes principales:
- Contenido de terceros que ha vuelto a publicar en su propio sitio. Estas son generalmente descripciones genéricas de productos proporcionadas por el fabricante.
- Su contenido que se ha vuelto a publicar en sitios de terceros con su aprobación. Esto es generalmente una distribución de artículos o quizás una distribución inversa de artículos.
- Contenido que alguien robó de su sitio y volvió a publicar sin su aprobación. Aquí es donde los ladrones de contenido y los ladrones se convierten en una molestia.
Miremos cada uno.
Raspadores de contenido y ladrones
Los raspadores de contenido son uno de los mayores delincuentes en la creación de contenido duplicado. Los spammers y otras personas maliciosas crean herramientas que capturan contenido de otros sitios web y luego lo publican por su cuenta.
En su mayor parte, estos sitios están tratando de usar su contenido para atraer tráfico a su propio sitio con el fin de hacer que las personas hagan clic en sus anuncios. (Sí, te estoy mirando, Google!)
Desafortunadamente, no hay nada que pueda hacer al respecto, sino enviar un informe de infracción de derechos de autor a Google con la esperanza de que se elimine de su índice de búsqueda. Aunque, en algunos casos, enviar estos informes puede ser un trabajo de tiempo completo.
Otra forma de administrar este contenido es ignorarlo, con la esperanza de que Google pueda distinguir entre un sitio de calidad (el suyo) y el sitio donde se encuentra el contenido raspado. Esto es aleatorio, ya que he visto que el contenido raspado tiene un rango más alto que la fuente original.
Lo que puede hacer para combatir los efectos del contenido raspado es usar enlaces absolutos (URL completa) en el contenido para todos los enlaces que apuntan a su sitio. Los que roban contenido generalmente no son responsables de limpiarlo, por lo que los visitantes al menos pueden seguirte.
También puede intentar agregar una etiqueta canónica a la página de origen (una buena práctica de todos modos). Si los raspadores ingresan uno de estos códigos, la etiqueta canónica proporcionará al menos una señal para que Google lo reconozca como el autor.
Distribución de articulos
Hace varios años, parecía que cada SEO republicaba su contenido en "ezines" como una táctica de construcción de enlaces. Cuando Google tomó medidas enérgicas contra la calidad del contenido y los patrones de enlaces, se abandonó la republicación.
Pero con el enfoque correcto, puede ser una estrategia de marketing sólida. Tenga en cuenta que dije "marketing" en lugar de "SEO".
En su mayor parte, cada vez que publica contenido en otros sitios web, ellos quieren derechos únicos sobre ese contenido.
¿Por qué? Porque no quieren que múltiples versiones de este contenido web devalúen lo que el editor tiene para ofrecer.
Pero a medida que Google ha mejorado las asignaciones de derechos de autor del contenido (mejor, pero no perfecto), muchos editores también permiten la reutilización de contenido en los sitios web personales del autor.
¿Esto crea un problema de contenido duplicado? De una manera pequeña, esto puede, ya que todavía hay dos versiones del contenido, cada una potencialmente generando enlaces.
Pero, en última instancia, si el número de versiones duplicadas es limitado y controlado, el impacto también será limitado. De hecho, la desventaja principal reside en el autor y no en el editor secundario.
La primera versión publicada del contenido generalmente se acreditará como la versión canónica. En todos los casos, excepto en algunos, estos editores obtendrán más valor del contenido en el sitio web del autor que lo volverá a publicar.
Descripciones genéricas de productos.
Algunas de las formas más comunes de contenido duplicado provienen de descripciones de productos que son reutilizadas por cada (y casi todos) vendedores.
Muchos minoristas en línea venden exactamente los mismos productos que miles de otras tiendas. En la mayoría de los casos, el fabricante proporciona las descripciones de los productos, que luego se cargan en la base de datos de cada sitio y se presentan en sus páginas de productos.
Aunque el diseño de la página es diferente, la mayoría del contenido de la página del producto (descripciones del producto) será el mismo.
Ahora multiplique eso por millones de productos diferentes y cientos de miles de sitios web que venden estos productos, y puede terminar con una gran cantidad de contenido que, por decirlo suavemente, no es único.
¿Cómo diferencia un motor de búsqueda uno u otro durante una búsqueda?
En un nivel de análisis puramente de contenido, esto no es posible. Lo que significa que el motor de búsqueda tiene que mirar otras señales para decidir cuál clasificar.
Una de estas señales son los enlaces. Obtenga más enlaces y podrá ganar sorteos de contenido insípido.
Pero si te enfrentas a un competidor más poderoso, es posible que tengas que luchar mucho antes de poder atraparlos en el departamento de construcción de enlaces. Lo que lo trae de regreso en busca de otra ventaja competitiva.
La mejor manera de hacerlo es hacer un esfuerzo adicional para escribir descripciones únicas para cada producto. Dependiendo de la cantidad de productos que ofrezca, esto podría terminar siendo un verdadero desafío, pero al final, valdrá la pena.
Echa un vistazo a la siguiente ilustración. Si todas las páginas grises representan el mismo producto con las mismas descripciones de producto, el amarillo representa el mismo producto con una descripción única.
Si fueras Google, ¿cuál clasificarías más alto?
Cualquier página con contenido único tendrá automáticamente una ventaja inherente sobre contenido similar pero duplicado. Esto puede o no ser suficiente para superar a su competencia, pero sin duda es el punto de referencia para destacar no solo de Google, sino también de sus clientes.
Contenido duplicado en el sitio
Técnicamente, Google trata todo el contenido duplicado de la misma manera, por lo que el contenido duplicado en el sitio no es realmente diferente de ese fuera del sitio.
Pero en el sitio es menos perdonable porque es un tipo de duplicación que realmente puedes controlar. Está llevando tus esfuerzos de SEO al pie proverbial.
El contenido duplicado en el sitio generalmente proviene de una arquitectura de sitio deficiente. O, lo más probable, ¡desarrollo deficiente del sitio web!
Una arquitectura de sitio sólida es la base de un sitio web sólido.
Cuando los desarrolladores no siguen las mejores prácticas de búsqueda, puede perder una valiosa oportunidad de clasificar su contenido debido a esta competencia automática.
Hay quienes argumentan en contra de la necesidad de una buena arquitectura, citando la propaganda de Google sobre cómo Google puede "entender". El problema con eso es que depende de Google para entender las cosas.
Sí, Google puede determinar que cierto contenido duplicado debe considerarse uno y lo mismo, y los algoritmos pueden tener esto en cuenta al analizar su sitio, pero esto no es una garantía de que 39, lo harán.
¡O otra forma de verlo es que solo saber que alguien inteligente no es necesariamente que pueda protegerte de tu propia estupidez! Si dejas las cosas a Google y Google falla, estás jodido.
Ahora pasemos a algunos problemas y soluciones comunes de contenido duplicado en el sitio.
El problema: la duplicación de la categorización de productos
Demasiados sitios de comercio electrónico sufren este tipo de duplicación. Esto a menudo se debe a los sistemas de administración de contenido que le permiten organizar los productos por categoría, donde un solo producto puede etiquetarse en varias categorías.
Por sí solo, esto no es malo (y puede ser excelente para el visitante), pero al hacerlo, el sistema genera una URL única para cada categoría en la que aparece un solo producto.
Digamos que está en un sitio de reparación de viviendas y está buscando un libro sobre la instalación de pisos de baño. Puede encontrar el libro que está buscando siguiendo una de estas rutas de navegación:
- Inicio> pisos> baño> libros
- Inicio> baño> libros> revestimientos de suelos
- Inicio> Libros> Pisos> Baño
Cada uno de ellos es una ruta de navegación viable, pero el problema surge cuando se genera una URL única para cada ruta:
- https://www.myfakesite.com/flooring/bathroom/books/fake-book-by-fake-author
- https://www.myfakesite.com/bathroom/books/flooring/fake-book-by-fake-author
- https://www.myfakesite.com/books/flooring/bathroom/fake-book-by-fake-author
He visto sitios como este crear hasta diez URL para cada producto, convirtiendo un sitio web de 5,000 productos en un sitio duplicado de 45,000 páginas. Esto es un problema
Si nuestro ejemplo de producto anterior generara diez enlaces, estos enlaces terminarían dividiéndose de tres maneras.
Mientras que, si la página de un competidor para el mismo producto tiene los mismos diez enlaces, pero a una sola URL, ¿qué URL es probable que funcione mejor en la búsqueda?
El competidor!
No solo eso, sino que los motores de búsqueda limitan su ancho de banda de rastreo para que puedan gastarlo en indexar contenido único y valioso.
Cuando su sitio contiene tantas páginas duplicadas, hay una buena posibilidad de que el motor deje de rastrear incluso antes de que indique una fracción de su contenido indexado único.
Esto significa que cientos de páginas importantes no estarán disponibles en los resultados de búsqueda y que las que están indexadas son duplicados que compiten entre sí.
La solución: categorizar las URL principales
Una solución a este problema es marcar productos para una sola categoría en lugar de varias. Esto resuelve el problema de la duplicación, pero no es necesariamente la mejor solución para los compradores, ya que elimina las otras opciones de navegación para encontrar los productos que desean. Así que elimínalo de la lista.
Otra opción es eliminar cualquier tipo de categorización de URL. De esa manera, independientemente de la ruta de navegación utilizada para encontrar el producto, la URL del producto en sí es siempre la misma y puede verse así:
- https://www.myfakesite.com/products/fake-book-by-fake-author
Esto corrige la duplicación sin cambiar la forma en que el visitante puede navegar a los productos. La desventaja de este método es que pierde las palabras clave de categoría en la URL. Aunque esto ofrece una pequeña ventaja para toda la referencia, cada pequeño gesto puede ayudarlo.
Si desea llevar su solución al siguiente nivel, obteniendo el mayor valor posible para la optimización mientras mantiene la experiencia del usuario al mismo tiempo, cree una opción que le permita asignar cada producto a un categoría "maestra", además de las demás.
Cuando una categoría principal está en juego, el producto se puede seguir encontrando a través de múltiples rutas de navegación, pero la página del producto es accesible mediante una URL única que utiliza la categoría principal.
Esto podría hacer que la URL se vea así:
- https://www.myfakesite.com/flooring/fake-book-by-fake-authorOregón
- https://www.myfakesite.com/bathroom/fake-book-by-fake-authorOregón
- https://www.myfakesite.com/books/fake-book-by-fake-author
La última solución es la mejor en general, aunque requiere programación adicional. Sin embargo, hay otra "solución" relativamente fácil de implementar, pero solo la considero una venda hasta que se pueda implementar una solución real.
Solución de apósito: etiquetas canónicas
Dado que la opción de categorización principal no siempre está disponible para soluciones de comercio electrónico o CMS listas para usar, hay otra opción que "ayudará" a resolver el problema de contenido por duplicado
Esto implica evitar que los motores de búsqueda indexen todas las URL no canónicas. Si bien esto puede mantener páginas duplicadas fuera del índice de búsqueda, no resuelve el problema de la división de autoridad de la página. Se perderá cualquier valor de enlace enviado a una URL no indexable.
La mejor solución de apósito es usar etiquetas canónicas. Esto es similar a seleccionar una categoría principal, pero generalmente requiere poca o ninguna programación adicional.
Simplemente agregue un campo para cada producto que le permita asignar una URL canónica, que es solo una forma elegante de decir "la URL que desea mostrar en la búsqueda".
La etiqueta canónica se ve así:
A pesar de la URL en la que se encuentra el visitante, la etiqueta canónica en el fondo de cada URL se duplica en una URL única.
En teoría, esto le dice a los motores de búsqueda que no indexen URL no canónicas y asignen todas las otras métricas valiosas a la versión canónica.
Funciona la mayor parte del tiempo, pero en realidad, los motores de búsqueda solo usan la etiqueta canónica como "señal". Luego elegirán aplicarlo o ignorarlo como mejor les parezca.
Puede o no puede reenviar todos los permisos de enlace a la página correcta, y puede o no mantener las páginas no canónicas fuera del índice.
Siempre recomiendo implementar una etiqueta canónica, pero como no es confiable, considérela como marcador de posición hasta que se pueda implementar una solución más oficial.
El problema: duplicación de URL redundante
Uno de los problemas arquitectónicos más básicos con el sitio web es cómo se accede a las páginas en el navegador.
De forma predeterminada, se puede acceder a casi todas las páginas de su sitio utilizando una URL ligeramente diferente. Si no está marcada, cada URL lleva exactamente a la misma página con exactamente el mismo contenido.
Considerando solo la página de inicio, es probable que sea accesible usando cuatro URL diferentes:
- http://site.com
- http://www.site.com
- https://site.com
- https://www.site.com
Y cuando se trata de páginas internas, puede obtener una versión adicional de cada URL agregando una barra diagonal final:
- http://site.com/page
- http://site.com/page/
- http://www.site.com/page
- http://www.site.com/page/
- Etcétera
¡Son hasta ocho URL alternativas para cada página! Por supuesto, Google debe saber que todas estas URL deben tratarse como una, pero ¿cuál?
La solución: redireccionamientos 301 y coherencia del enlace interno
Además de la etiqueta canónica, que mencioné anteriormente, la solución aquí es asegurarse de que todas las versiones alternativas de URL redirijan a la URL canónica.
Tenga en cuenta que esto no es solo un problema de la página de inicio. El mismo problema se aplica a cada una de las URL de su sitio. Por lo tanto, las redirecciones implementadas deben ser globales.
Asegúrese de forzar cada redirección a la versión canónica. Por ejemplo, si la URL canónica es https://www.site.com, cada redirección debe apuntar a ella. Muchos cometen el error de agregar saltos de redireccionamiento adicionales que podrían verse así:
- Site.com> https://site.com> https://www.site.com
- Site.com> www.site.com> https://www.site.com
En cambio, las redirecciones deberían verse así:
- http://site.com> https://www.site.com/
- http://www.site.com> https://www.site.com/
- https://site.com> https://www.site.com/
- https://www.site.com> https://www.site.com/
- http://site.com/> https://www.site.com/
- http://www.site.com/> https://www.site.com/
- https://site.com/> https://www.site.com/
Al reducir el número de saltos de redirección, acelera la carga de la página, reduce el ancho de banda del servidor y tiene menos de lo que puede salir mal en el camino.
Finalmente, debe asegurarse de que todos los enlaces internos del sitio también apunten a la versión canónica.
Si bien la redirección debería solucionar el problema de duplicación, las redirecciones pueden fallar si algo sale mal en el servidor o en el lado de la implementación.
Si esto sucede, incluso temporalmente, tener solo páginas canónicas vinculadas internamente puede ayudar a prevenir la aparición repentina de problemas de contenido duplicado.
El problema: parámetros de URL y cadenas de consulta
Hace años, el uso de identificadores de sesión creó un problema importante de contenido duplicado para SEO.
Sin embargo, la tecnología actual ha hecho que los ID de sesión sean casi obsoletos, pero otro problema ha aparecido igual de malo, si no peor: los parámetros de URL.
Los parámetros se utilizan para extraer nuevo contenido del servidor, generalmente en función de uno o más filtros o selecciones realizadas.
Los dos ejemplos a continuación muestran URL alternativas para una sola URL: site.com/shirts/.
La primera muestra las camisas filtradas por color, tamaño y estilo, la segunda URL muestra las camisas ordenadas por precio, luego una cierta cantidad de productos para mostrar por página,
- Site.com/shirts/?color=red&size=small&style=long_sleeve
- Site.com/shirts/?sort=price&display=12
Basándose solo en estos filtros, hay tres URL viables que los motores de búsqueda pueden encontrar. Pero el orden de estos parámetros puede cambiar según el orden en que fueron elegidos, lo que significa que puede obtener varias URL más accesibles como esta:
- Site.com/shirts/?size=small&color=red&style=long_sleeve
- Site.com/shirts/?size=small&style=long_sleeve&color=red
- Site.com/shirts/?display=12&sort=price
Y eso:
- Site.com/shirts/?size=small&color=red&style=long_sleeve&display=12&sort=price
- Site.com/shirts/?display=12&size=small&color=red&sort=price
- Site.com/shirts/?size=small&display=12&sort=price&color=red&style=long_sleeve
- Etcétera
Puede ver que esto puede producir muchas URL, la mayoría de las cuales no generarán ningún tipo de contenido único.
De las configuraciones anteriores, la única para la que puede querer escribir contenido de ventas es el estilo. El resto, no tanto.
La solución: parámetros para filtros, no páginas de destino legítimas
La planificación estratégica de su estructura de navegación y URL es esencial para evitar problemas de contenido duplicado.
Parte de este proceso incluye comprender la diferencia entre una página de destino legítima y una página que permite a los visitantes filtrar los resultados.
Y asegúrese de tratarlos en consecuencia cuando desarrolle URL para ellos.
Las URL de página de destino (y canónicas) deberían tener este aspecto:
- Site.com/shirts/long-sleeve/
- Site.com/shirts/v-neck/
- Site.com/shirts/collared/
Y las URL de los resultados filtrados se verían así:
- Site.com/shirts/long-sleeve/?size=small&color=red&display=12&sort=price
- Site.com/shirts/v-neck/?color=red
- Site.com/shirts/collared/?size=small&display=12&sort=price&color=red
Con sus URL correctamente construidas, puede hacer dos cosas:
- Agregue la etiqueta canónica correcta (todo encima del "?" En la URL).
- Vaya a Google Search Console y dígale a Google que ignore todas estas configuraciones.
Si usa parámetros regularmente solo para filtrar y ordenar contenido, no tendrá que preocuparse por decirle accidentalmente a Google que no explore un parámetro valioso … porque ninguno lo es.
Pero como la etiqueta canónica es solo una señal, debe realizar el paso dos para obtener los mejores resultados. Y recuerda que esto solo afecta a Google. Deberías hacer lo mismo con Bing.
Consejo de desarrollador profesional: Los motores de búsqueda generalmente ignoran cualquier cosa a la derecha del símbolo de libra "#" en la URL.
Si programa esto en cada URL antes de cualquier parámetro, no tendrá que preocuparse de que el canónico sea solo una solución de aderezo:
- Site.com/shirts/long-sleeve/#?size=small&color=red&display=12&sort=price
- Site.com/shirts/v-neck/#?color=red
- Site.com/shirts/collared/#?size=small&display=12&sort=price&color=red
Si un motor de búsqueda tuviera acceso a las URL anteriores, solo indexaría la parte canónica de la URL e ignoraría el resto.
El problema: la duplicación de la página de destino y la prueba A / B
No es raro que los especialistas en marketing desarrollen muchas versiones de contenido similar, ya sea como página de destino para anuncios o para pruebas A / B / multivariadas.
Esto a menudo puede proporcionarle excelentes datos y comentarios, pero si estas páginas están abiertas a los motores de búsqueda para rastrearlas e indexarlas, puede crear problemas de contenido duplicado.
La solución: NoIndex
En lugar de usar una etiqueta canónica para apuntar a la página maestra, la mejor solución aquí es agregar una metaetiqueta noindex a cada página para mantenerlas completamente fuera del índice del motor de búsqueda.
En general, estas páginas tienden a quedar huérfanas, sin un enlace directo desde el sitio. Pero eso no siempre evitará que los motores de búsqueda los encuentren.
La etiqueta canónica está diseñada para transferir valor y autoridad de la página a la página principal, pero dado que estas páginas no deben recopilar ningún valor, es mejor mantenerlas fuera del índice.
Cuando el contenido duplicado no es (en su mayor parte) un problema
Uno de los mitos de SEO más comunes es que existe una penalización por contenido duplicado.
No hay ninguno Al menos no más de lo que hay una penalización por no poner gasolina en su automóvil y dejarlo funcionando en vacío.
Es posible que Google no esté penalizando activamente el contenido duplicado, pero eso no significa que no tenga consecuencias naturales.
Sin la amenaza del castigo, esto le da a los vendedores un poco más de flexibilidad para decidir las consecuencias con las que están listos para vivir.
Si bien sostengo que debe eliminar agresivamente (y no solo vendar) todo el contenido duplicado en el sitio, la duplicación fuera del sitio en realidad puede crear más valor que consecuencias.
Obtener contenido valioso reenviado fuera del sitio puede ayudarlo a generar reconocimiento de marca de una manera que no puede publicar usted mismo. De hecho, muchos editores externos tienen una audiencia más amplia y un alcance social mucho más amplio.
Su contenido, publicado en su propio sitio, puede llegar a miles de globos oculares, pero publicado fuera del sitio, puede llegar a cientos de miles.
Muchos editores esperan conservar los derechos exclusivos del contenido que publican, pero algunos le permiten reutilizarlo en su propio sitio después de un breve período de espera. Esto le permite obtener una exposición adicional mientras tiene la oportunidad de construir su propia audiencia al volver a publicar su contenido en su sitio en una fecha posterior.
Pero este tipo de distribución de artículos debe ser limitado para que sea efectivo para todos. Si publica su contenido en cientos de otros sitios para volver a publicarlo, el valor de ese contenido disminuye exponencialmente.
Y, en general, esto no ayuda a fortalecer su marca, ya que los sitios que desean publicar contenido duplicado en masa tienen poco valor al principio.
En todos los casos, evalúe las ventajas y desventajas de publicar su contenido en varios lugares.
Si duplicar con muchas marcas supera el valor de autoridad más pequeño que obtendría con contenido único en su propio sitio, entonces, por todos los medios, siga una estrategia de republicación medida.
Pero la palabra clave es medido. Lo que no desea es el sitio que solo contiene contenido duplicado. En este punto, comienza a reducir el valor que está tratando de crear para su marca.
Al comprender los problemas, las soluciones y, en algunos casos, el valor del contenido duplicado, puede comenzar el proceso de eliminar la duplicación que no desea y continuar la duplicación que sí lo hace.
En última instancia, desea crear un sitio conocido por su contenido sólido y único, y luego usar ese contenido para obtener el mayor valor posible.
Créditos de imagen
Imagen destacada: Paulo Bobita
Imágenes en la publicación: proporcionadas por el autor
[ad_2]