Duplicate content - Identieke sites: verschil tussen versies

Uit De Vliegende Brigade
Naar navigatie springen Naar zoeken springen
 
(44 tussenliggende versies door dezelfde gebruiker niet weergegeven)
Regel 1: Regel 1:
''Duplicate content'' is content die op meerdere plekken verschijnt - Identieke content met meerdere unieke URL's. Het probleem: Google houdt daar niet van, en het schaadt je positie in Google Search.
+
''Duplicate content'' betreft content die op meerdere plekken verschijnt, hetzij op verschillende sites, hetzij binnen één site. Deze pagina behandelt dit eerste geval. Voor het tweede geval, zie [[Duplicate content - Binnen een site]]. Waarom ''duplicate content'' een probleem kan zijn: Google ziet gekloonde websites als fraude en het schaadt je positie binnen Google Search.
  
== Casus ==
+
''Duplicate content'' kan optreden als je een site kloont met aangepaste versies voor verschillende taal-land-combinaties. De truuk is dan, om aan Google duidelijk te maken dat deze klonen bedoeld zijn voor verschillende land-taalcombinaties.
  
Dit is de casus waar dit artikel over gaat (juni 2021):
+
== Probleem ==
  
=== Gekloonde sites ===
+
Stel dat je een webwinkel hebt, die het ook nog eens aardig doet, en je bedenkt dat je deze wilt klonen naar verschillende land-taal-combinaties. Bv. (land_taal):
 
 
Stel je hebt een goedlopende webwinkel. Een mogelijke tactiek om daar meer uit te halen, is door deze site te ''klonen'' voor verschillende land-taal-combinaties. Bv. (land_taal):
 
  
 
* nl_nl
 
* nl_nl
Regel 13: Regel 11:
 
* be_fr
 
* be_fr
 
* fr_fr
 
* fr_fr
* nl_en
 
* be_en
 
* en_en
 
 
* Etc.
 
* Etc.
  
 
Probleem hierbij is dat Google het niet leuk vind als je webwinkels 'zomaar' kloont. Dat is in dit voorbeeld niet het geval, maar alleen als het voor Google duidelijk is, dat deze webwinkels een grotere markt partitioneren. Dus dat het ze niet overlappen, maar elk een eigen publiek bedienen.
 
Probleem hierbij is dat Google het niet leuk vind als je webwinkels 'zomaar' kloont. Dat is in dit voorbeeld niet het geval, maar alleen als het voor Google duidelijk is, dat deze webwinkels een grotere markt partitioneren. Dus dat het ze niet overlappen, maar elk een eigen publiek bedienen.
  
=== Meerdere links naar dezelfde content ===
+
Hierbij gaat het om twee zaken:
 +
 
 +
# Land
 +
# Taal.
 +
 
 +
Merk op dat het eerste item ''land'' heet, en niet ''geografie'' ofzo: Oorspronkelijk kon je hier alleen landen aangeven, en niet bv. ''Europa'' of ''EU''. ''hreflang'' biedt hier nu enige flexibiliteit. Zie [[Hreflang]] voor details.
 +
 
 +
== Taal gaat vanzelf - Of toch niet? ==
 +
 
 +
Google bepaalt zelf de taal van een pagina, zonder gebruik te maken van HTML-keywords op dat gebied. Dus taal vormt geen probleem, toch? - Misschien niet: Verificatie van Engelstalige sites middels [https://www.google.com/webmasters/tools/i18n Google's International Targeting Report], gaf aan dat de taal niet was vastgesteld voor sites die volledig in één taal waren geschreven. Vreemd. Misschien dus tóch de taal specificeren, waar relevant.
  
Het tweede probleem: Google vindt het niet leuk als er binnen een gegeven site, er meerdere links naar dezelfde content is. Daar heb ik mee te maken, omdat webwinkels verschillende paden of ''wizards'' bevatten, om bij bepaalde content te komen. Het kan trouwens al veel sneller gebeuren: Als je bv. soms linkt naar ''example.com'' en andere keren naar ''www.example.com''
+
== ccTLD's ==
  
== Oplossingen ==
+
Op het moment dat je ''country code Top Level Domains (ccTLD's)'' gebruikt, zoals ''widgets.nl'' en ''widgets.be'', is het land-probleem opgelost: Googel snapt ondubbelzinnig op welk land een site betrekking heeft. Dat faalt op het moment dat je een domeinaam hebt zoals ''widgets-nigeria.com''.
  
=== Canonicalization ===
+
[https://developers.google.com/search/docs/advanced/guidelines/duplicate-content]:
  
Met ''canonicalization'' wordt bedoeld, dat als je meerdere links naar identieke content hebt, dat je aangeeft wat de primaire links zijn, en welke kopieën zijn
+
:''Use top-level domains: To help us serve the most appropriate version of a document, use top-level domains whenever possible to handle country-specific content. We're more likely to know that http://www.example.de contains Germany-focused content, for instance, than http://www.example.com/de or http://de.example.com.''
  
[https://developers.google.com/search/docs/advanced/guidelines/duplicate-content] - Snap ik niet helemaal:
+
{|
 +
|[[file:20220711-1351.png|thumb| Google Search Console's [https://www.google.com/webmasters/tools/i18n International Targeting Report] voor een Belgische site waarop niet is gespecificeerd om welke taal of land het gaat. Goolge snapt inderdaad zelf dat dit België betreft]]
 +
|}
  
:''Google does not recommend blocking crawler access to duplicate content on your website, whether with a robots.txt file or other methods. If search engines can't crawl pages with duplicate content, they can't automatically detect that these URLs point to the same content and will therefore effectively have to treat them as separate, unique pages. A better solution is to allow search engines to crawl these URLs, but mark them as duplicates by using the rel="canonical" link element, the URL parameter handling tool, or 301 redirects. In cases where duplicate content leads to us crawling too much of your website, you can also adjust the crawl rate setting in Search Console.''
+
== gSC International Targeting ==
  
* Bv.: Gebruik <code>noindex</code> tags om
+
Voor geotargeting biedt Google Search Console (gSC) deze pagina: https://www.google.com/webmasters/tools/i18n. Hoe deze pagina precies heet?
  
=== Use top-level domains ===
+
* Google Search Console International Targeting page
 +
* Search Console International Targeting-pagina
 +
* International Targeting Report
 +
* Etc. - Maak er maar wat van.
  
[https://developers.google.com/search/docs/advanced/guidelines/duplicate-content]:
+
Wat je met deze pagina kunt doen:
 +
 
 +
* Van een geregistreerde site kun je de gespecificeerde taal en land opvragen
 +
* Voor sites zonder ccTLD's kun je het land opgeven (handig!)
 +
 
 +
Vanaf de home page van Google Search Console vind je de link onder ''legacy tools and reports » International targeting'' (voorheen ''Geotargeting'').
 +
 
 +
{|
 +
||[[file:20210622-1235.png|thumb|''Google Search Console » International Targeting'': Link naar de ''Search Console International Targeting''-pagina]]
 +
|[[file:20220711-1331.png|thumb|[https://www.google.com/webmasters/tools/i18n Google's International Targeting Report] - Handig om te verifiëren welke taal & land Google associëert met een bepaalde site. Interessant dat het hier niet om individuele pagina's gaat, maar om ''sites als geheel'' én dat wordt gesuggereerd dat ''hreflang'' de gebruikelijke manier is om dit in te stellen]]
 +
||[[file:202220711-1419.png|thumb|Dezelfde pagina, maar nu voor domein ''example-nigeria.com''. Je kunt hier aangeven om welk land het gaat - Eindelijk!]]
 +
|}
 +
 
 +
== gSC International Targeting - Beperkingen ==
 +
 
 +
Ik heb de indruk dat Google een paar jaar geleden een aantal diensten heeft gemigreerd (misschien van Webmaster Tools naar Search Console?) en dat ''International Targeting'' daar niet zonder kleerscheuren doorheen is gekomen. Concreet: Ik kan het alleen gebruiken voor een deel van de geregistreerde domeinnamen.
 +
 
 +
* Op het moment dat ik het wil gebruiken voor een domeinnaam die niet in de dropdown-box wordt genoemd, en ik de betreffende URL rechtstreeks invoeg in de URL van de pagina, moet ik dit domein opnieuw verifiëren, ook al zegt-ie dat dat al gebeurt is
 +
* Opnieuwe verifiëren, of op een additionele manier verifiëren, helpen niet: Ik krijg steeds dezelfde foutmelding, dat dit domein nog niet geverifiëerd is
 +
 
 +
{|
 +
|[[file:20220711-1441.png|thumb|Hier begint het probleem: Ik kan de link naar ''International Targeting'' niet openen. Ik heb geverifiëerd of ''domain properties'' iets speciaals is, maar dat is het niet]]
 +
|[[file:20220711-1439.png|thumb|Dit domein was al geverifiëerd. Ik heb het nu opnieuw gedaan, maar het probleem blijft]]
 +
|}
 +
 
 +
== hreflang ==
 +
 
 +
Gebruik van het HTML ''hreflang'' keyword lijkt de standaar-methode te zijn voor geotargeting. Zie [[Hreflang]] voor details.
 +
 
 +
== Zie ook ==
  
:''Use top-level domains: To help us serve the most appropriate version of a document, use top-level domains whenever possible to handle country-specific content. We're more likely to know that http://www.example.de contains Germany-focused content, for instance, than http://www.example.com/de or http://de.example.com.''
+
* [[Duplicate content - Binnen een site]]
  
 
== Bronnen ==
 
== Bronnen ==
Regel 48: Regel 86:
 
* https://moz.com/community/q/topic/38526/duplicate-content-on-sites-from-different-countries/5 - Illustratie van het probleem, maar geen betrouwbare oplossingen + oud
 
* https://moz.com/community/q/topic/38526/duplicate-content-on-sites-from-different-countries/5 - Illustratie van het probleem, maar geen betrouwbare oplossingen + oud
 
* https://moz.com/learn/seo/duplicate-content - Goed artikel, maar behandelt alleen on-site duplicate content
 
* https://moz.com/learn/seo/duplicate-content - Goed artikel, maar behandelt alleen on-site duplicate content
 +
* https://moz.com/community/q/topic/45409/duplicate-content-on-websites-for-multiple-countries/2 - Useful starting point concerning duplicate content across domains
 +
* https://developers.google.com/search/blog/2010/03/working-with-multi-regional-websites - DIT IS 'M!
 +
* https://www.google.com/search?q=google+search+console+set+geotargeting
 +
* https://support.google.com/webmasters/answer/6059209

Huidige versie van 11 jul 2022 om 14:42

Duplicate content betreft content die op meerdere plekken verschijnt, hetzij op verschillende sites, hetzij binnen één site. Deze pagina behandelt dit eerste geval. Voor het tweede geval, zie Duplicate content - Binnen een site. Waarom duplicate content een probleem kan zijn: Google ziet gekloonde websites als fraude en het schaadt je positie binnen Google Search.

Duplicate content kan optreden als je een site kloont met aangepaste versies voor verschillende taal-land-combinaties. De truuk is dan, om aan Google duidelijk te maken dat deze klonen bedoeld zijn voor verschillende land-taalcombinaties.

Probleem

Stel dat je een webwinkel hebt, die het ook nog eens aardig doet, en je bedenkt dat je deze wilt klonen naar verschillende land-taal-combinaties. Bv. (land_taal):

  • nl_nl
  • be_nl
  • be_fr
  • fr_fr
  • Etc.

Probleem hierbij is dat Google het niet leuk vind als je webwinkels 'zomaar' kloont. Dat is in dit voorbeeld niet het geval, maar alleen als het voor Google duidelijk is, dat deze webwinkels een grotere markt partitioneren. Dus dat het ze niet overlappen, maar elk een eigen publiek bedienen.

Hierbij gaat het om twee zaken:

  1. Land
  2. Taal.

Merk op dat het eerste item land heet, en niet geografie ofzo: Oorspronkelijk kon je hier alleen landen aangeven, en niet bv. Europa of EU. hreflang biedt hier nu enige flexibiliteit. Zie Hreflang voor details.

Taal gaat vanzelf - Of toch niet?

Google bepaalt zelf de taal van een pagina, zonder gebruik te maken van HTML-keywords op dat gebied. Dus taal vormt geen probleem, toch? - Misschien niet: Verificatie van Engelstalige sites middels Google's International Targeting Report, gaf aan dat de taal niet was vastgesteld voor sites die volledig in één taal waren geschreven. Vreemd. Misschien dus tóch de taal specificeren, waar relevant.

ccTLD's

Op het moment dat je country code Top Level Domains (ccTLD's) gebruikt, zoals widgets.nl en widgets.be, is het land-probleem opgelost: Googel snapt ondubbelzinnig op welk land een site betrekking heeft. Dat faalt op het moment dat je een domeinaam hebt zoals widgets-nigeria.com.

[1]:

Use top-level domains: To help us serve the most appropriate version of a document, use top-level domains whenever possible to handle country-specific content. We're more likely to know that http://www.example.de contains Germany-focused content, for instance, than http://www.example.com/de or http://de.example.com.
Google Search Console's International Targeting Report voor een Belgische site waarop niet is gespecificeerd om welke taal of land het gaat. Goolge snapt inderdaad zelf dat dit België betreft

gSC International Targeting

Voor geotargeting biedt Google Search Console (gSC) deze pagina: https://www.google.com/webmasters/tools/i18n. Hoe deze pagina precies heet?

  • Google Search Console International Targeting page
  • Search Console International Targeting-pagina
  • International Targeting Report
  • Etc. - Maak er maar wat van.

Wat je met deze pagina kunt doen:

  • Van een geregistreerde site kun je de gespecificeerde taal en land opvragen
  • Voor sites zonder ccTLD's kun je het land opgeven (handig!)

Vanaf de home page van Google Search Console vind je de link onder legacy tools and reports » International targeting (voorheen Geotargeting).

Google Search Console » International Targeting: Link naar de Search Console International Targeting-pagina
Google's International Targeting Report - Handig om te verifiëren welke taal & land Google associëert met een bepaalde site. Interessant dat het hier niet om individuele pagina's gaat, maar om sites als geheel én dat wordt gesuggereerd dat hreflang de gebruikelijke manier is om dit in te stellen
Dezelfde pagina, maar nu voor domein example-nigeria.com. Je kunt hier aangeven om welk land het gaat - Eindelijk!

gSC International Targeting - Beperkingen

Ik heb de indruk dat Google een paar jaar geleden een aantal diensten heeft gemigreerd (misschien van Webmaster Tools naar Search Console?) en dat International Targeting daar niet zonder kleerscheuren doorheen is gekomen. Concreet: Ik kan het alleen gebruiken voor een deel van de geregistreerde domeinnamen.

  • Op het moment dat ik het wil gebruiken voor een domeinnaam die niet in de dropdown-box wordt genoemd, en ik de betreffende URL rechtstreeks invoeg in de URL van de pagina, moet ik dit domein opnieuw verifiëren, ook al zegt-ie dat dat al gebeurt is
  • Opnieuwe verifiëren, of op een additionele manier verifiëren, helpen niet: Ik krijg steeds dezelfde foutmelding, dat dit domein nog niet geverifiëerd is
Hier begint het probleem: Ik kan de link naar International Targeting niet openen. Ik heb geverifiëerd of domain properties iets speciaals is, maar dat is het niet
Dit domein was al geverifiëerd. Ik heb het nu opnieuw gedaan, maar het probleem blijft

hreflang

Gebruik van het HTML hreflang keyword lijkt de standaar-methode te zijn voor geotargeting. Zie Hreflang voor details.

Zie ook

Bronnen