Artikeltext
Einleitung
Frag zehn SEO-Leute, was Duplicate Content anrichtet, und du bekommst zehn Halbwahrheiten. Die häufigste: Google bestraft Websites mit doppelten Inhalten. Stimmt nicht, und genau das ist das Problem.
Google bestraft Duplicate Content nicht mit einer manuellen Penalty. Was Google tut, ist subtiler: Es ignoriert die Kopie. Von mehreren identischen Versionen einer Seite indexiert Google nur eine, und wählt dabei nicht immer die, die du bevorzugst. Der Rest verschwindet im sogenannten Supplemental Index, einem Index zweiter Klasse, der für die Top-10-Ergebnisse nicht existiert.
Das klingt harmlos, hat aber Konsequenzen. Jede doppelte URL verbraucht Crawl-Budget, verdünnt Linkjuice und kann dazu führen, dass Google die falsche Version deiner Seite als kanonisch wählt. Bei kleinen Websites mit 50 Seiten ist das selten ein Problem. Bei einem Online-Shop mit 10.000 Produktseiten, Filtern, Sortierungen und Paginierung kann Duplicate Content dafür sorgen, dass Google einen signifikanten Teil deiner Website schlicht nicht wahrnimmt.
Dieser Artikel erklärt, wie Duplicate Content entsteht, wie Google ihn erkennt und welche Lösungen, Canonical, 301-Redirect, noindex, wann die richtige Wahl sind. Nicht als Panikmache, sondern als technisches Verständnis, das dir hilft, dein Crawl-Budget dort einzusetzen, wo es Rankings bringt.
Was ist Duplicate Content, und was nicht
Duplicate Content (abgekürzt DC) bedeutet: Identische oder nahezu identische Inhalte sind unter verschiedenen URLs erreichbar. Erlhofer unterscheidet drei Arten, und diese Unterscheidung ist wichtig, weil sie bestimmt, wie aggressiv Google reagiert:
1. Echter Duplicate Content, Das identische Dokument existiert unter verschiedenen URLs. Text, HTML-Struktur, Bilder und Quellcode sind durchgehend gleich. Das passiert typischerweise bei www/non-www-Problemen, HTTP/HTTPS-Doppelungen oder Test-Servern, die öffentlich zugänglich sind.
2. Near Duplicate Content, Zwei Dokumente unterscheiden sich in Teilen, aber die Erkennungsalgorithmen stufen sie als nahezu identisch ein. Ein getauschter Absatz, ein anderes CSS-Layout oder ein anderes Veröffentlichungsdatum reichen laut Erlhofer nicht aus, um ein zweites Dokument ausreichend einzigartig zu machen (Erlhofer, S. 560).
3. Inhaltlicher Duplicate Content, Der Text ist identisch, aber alles andere auf der Seite ist verschieden. Auch das reicht für eine Duplicate-Content-Klassifizierung, denn „Texte sind nach wie vor die wichtigste Basis für die Onpage-Bewertungen von Suchmaschinen“ (Erlhofer, S. 560).
Jede dieser Arten kann innerhalb einer Domain auftreten oder domainübergreifend (Cross-Domain Duplicate Content). Die Kopie einer Pressemeldung auf 30 verschiedenen Portalen ist genauso DC wie zwei URL-Varianten desselben Produkts in deinem eigenen Shop.
Was kein Duplicate Content ist: Zitate, kurze Textausschnitte (Snippets) und geteilte Navigationselemente. Suchmaschinen wissen, dass Impressum, Footer und Menüs auf jeder Seite gleich aussehen. Sie können durch HTML-Quelltextanalyse zwischen Supplementary Content (Navigation) und Main Content (Inhalt) unterscheiden.
Merksatz: Duplicate Content ist kein Penalty, aber eine verpasste Chance. Jede doppelte URL kostet Crawl-Budget, ohne Rankings zu bringen.
Kernerkenntnis
Eine Strafe waere ehrlicher als das, was Google tut. Indem es Duplikate stillschweigend ignoriert statt sie zu markieren, bleibt das Symptom unsichtbar, und du suchst den Bug an der falschen Stelle.
Warum Google keine doppelten Inhalte mag: Crawl-Budget und Indexierungsgrenze
Google hat gigantische Rechenkapazitäten, aber sie sind endlich. Wenn ein Crawler deine Website besucht, erfasst er nicht alle URLs auf einmal, sondern eine ausgewählte Menge. Dieses Kontingent, das Crawl-Budget, hängt von drei Faktoren ab:
Antwortgeschwindigkeit: Je schneller deine Website Seiten ausliefert, desto mehr Seiten kann der Crawler innerhalb eines Zeitfensters erfassen. Die Gesamtladezeit sollte laut Erlhofer idealerweise unter zwei Sekunden liegen (Erlhofer, S. 556).
Relevanz und Beliebtheit: Je mehr Autorität deine Website für ein Thema hat, desto häufiger kommt der Crawler vorbei. Eine thematische Autorität signalisiert Google, dass neue Inhalte für Suchende relevant sein könnten.
Aktualisierungshäufigkeit: Wenn der Crawler mehrmals kommt und feststellt, dass sich nichts geändert hat, senkt er die Wiederbesuchsfrequenz. Regelmäßige Aktualisierungen halten das Crawl-Budget hoch.
Duplicate Content verschwendet dieses Budget. Jede doppelte URL, die der Crawler besucht, ist eine URL weniger, die er für einzigartige Inhalte verwendet. Bei einem Shop mit 5.000 Produkten und 15.000 Parameter-URLs (Sortierung, Filter, Paginierung) crawlt Google in vielen Fällen mehr Duplikate als Originalseiten.
Die Indexierungsgrenze verschärft das Problem. Google indexiert bei neuen Domains oder Domains mit wenig Trust nicht alle URLs. Erlhofer beschreibt Fälle, in denen nur 60 Prozent aller URLs einer Domain indexiert werden (Erlhofer, S. 558). Wenn ein Teil dieses Kontingents an Duplikate geht, fehlt es für die Seiten, die du ranken willst.
Linkjuice-Verlust: Doppelte Seiten erhalten internen Linkjuice von Seiten, die auf sie verlinken, aber da sie nicht indexiert werden, verpufft dieser Linkjuice. Er fehlt den Seiten mit Unique Content, die ihn für bessere Rankings bräuchten.
Wie Google Duplicate Content erkennt: Das Shingle-Verfahren
2007 veröffentlichten Google-Mitarbeiter eine wissenschaftliche Arbeit mit dem Titel „Detecting Near-Duplicates for Web Crawling“. Darin wird das Shingle-Verfahren beschrieben, das mit hoher Wahrscheinlichkeit Teil der Google-Duplicate-Content-Erkennung ist.
So funktioniert es: Ein Shingle ist ein Fenster aus zwei bis sechs aufeinanderfolgenden Wörtern. Der Algorithmus extrahiert zunächst den Text einer URL und entfernt Satzzeichen, Überschriften und Formatierung. Dann zerlegt er den Text in überlappende Wortgruppen:
Aus dem Satz „Frühe Jahre Shakespeares Geburtsdatum ist nicht überliefert“ werden bei einem 3-Shingle diese Einheiten:
- Frühe Jahre Shakespeares
- Jahre Shakespeares Geburtsdatum
- Shakespeares Geburtsdatum ist
- Geburtsdatum ist nicht
- ist nicht überliefert
Wenn du nun die Überschrift änderst, aber den Rest kopierst, ändert sich nur ein Bruchteil der Shingles. Erlhofer rechnet vor: Von 23 Shingles ändern sich bei einer neuen Überschrift nur 2, ein Uniqueness-Grad von gerade einmal 9 Prozent (Erlhofer, S. 563). Für Google ist das immer noch identischer Content.
Die praktische Konsequenz: Das Vertauschen von Absätzen oder das Ändern einzelner Wörter reicht nicht, um einen Text unique zu machen. Die Shingle-Menge bleibt nahezu identisch, und die Reihenfolge spielt keine Rolle. Erfahrungsgemäß sollten laut Erlhofer mindestens 70 bis 80 Prozent eines Textes unique sein (Erlhofer, S. 561).
Was Google zusätzlich prüft:
1. Ort des DC: Innerhalb einer Domain oder domainübergreifend?
2. Grad der Gleichheit: Wie hoch ist der Shingle-Overlap?
3. Position im Dokument: Navigation (Supplementary Content) vs. Hauptinhalt (Main Content), Google kann das unterscheiden.
4. Quellverweise: Gibt es Links vom Duplikat zum Original? Dann ist die Zuordnung eindeutig.
Wie Google das Original bestimmt:
- Indexierungsdatum: Wer zuerst indexiert wurde, gilt als Original.
- Reputation/Trust: Wikipedia gewinnt gegen einen No-Name-Blog, selbst wenn der Blog den Text zuerst veröffentlicht hat.
- Eingehende Links: Wer mehr Backlinks hat, wird als Quelle betrachtet.
Merksatz: Google erkennt Duplicate Content über Shingles, kleine Wortgruppen die wie ein Fingerabdruck funktionieren. Absätze vertauschen hilft nicht.
Die 8 häufigsten Ursachen für Duplicate Content
Erlhofer identifiziert wiederkehrende Muster, die in der Praxis für den Großteil aller Duplicate-Content-Probleme verantwortlich sind:
1. Copy & Paste: Herstellertexte und Pressemeldungen
Die häufigste Ursache. Online-Shops übernehmen Produktbeschreibungen des Herstellers, genauso wie hunderte andere Shops. Pressemeldungen werden unverändert auf Dutzenden Portalen veröffentlicht. Nur die wenigsten dieser Seiten werden je für den kopierten Text ranken.
KMU-Lösung: Eigene Produktbeschreibungen schreiben. Sie dürfen inhaltlich auf dem Herstellertext basieren, müssen aber sprachlich einzigartig sein.
2. www vs. nicht-www
Technisch ist www.domain.de eine Subdomain von domain.de. Ohne Weiterleitung existiert jede URL doppelt. Google behandelt das oft automatisch richtig, aber nicht immer.
Lösung: Eine Variante wählen, 301-Redirect der anderen einrichten. In der .htaccess:
