Duplicate Content: Warum Google ihn ignoriert

Artikeltext

Einleitung

Frag zehn SEO-Leute, was Duplicate Content anrichtet, und du bekommst zehn Halbwahrheiten. Die häufigste: Google bestraft Websites mit doppelten Inhalten. Stimmt nicht, und genau das ist das Problem.

Google bestraft Duplicate Content nicht mit einer manuellen Penalty. Was Google tut, ist subtiler: Es ignoriert die Kopie. Von mehreren identischen Versionen einer Seite indexiert Google nur eine, und wählt dabei nicht immer die, die du bevorzugst. Der Rest verschwindet im sogenannten Supplemental Index, einem Index zweiter Klasse, der für die Top-10-Ergebnisse nicht existiert.

Das klingt harmlos, hat aber Konsequenzen. Jede doppelte URL verbraucht Crawl-Budget, verdünnt Linkjuice und kann dazu führen, dass Google die falsche Version deiner Seite als kanonisch wählt. Bei kleinen Websites mit 50 Seiten ist das selten ein Problem. Bei einem Online-Shop mit 10.000 Produktseiten, Filtern, Sortierungen und Paginierung kann Duplicate Content dafür sorgen, dass Google einen signifikanten Teil deiner Website schlicht nicht wahrnimmt.

Dieser Artikel erklärt, wie Duplicate Content entsteht, wie Google ihn erkennt und welche Lösungen, Canonical, 301-Redirect, noindex, wann die richtige Wahl sind. Nicht als Panikmache, sondern als technisches Verständnis, das dir hilft, dein Crawl-Budget dort einzusetzen, wo es Rankings bringt.

Was ist Duplicate Content, und was nicht

Duplicate Content (abgekürzt DC) bedeutet: Identische oder nahezu identische Inhalte sind unter verschiedenen URLs erreichbar. Erlhofer unterscheidet drei Arten, und diese Unterscheidung ist wichtig, weil sie bestimmt, wie aggressiv Google reagiert:

1. Echter Duplicate Content, Das identische Dokument existiert unter verschiedenen URLs. Text, HTML-Struktur, Bilder und Quellcode sind durchgehend gleich. Das passiert typischerweise bei www/non-www-Problemen, HTTP/HTTPS-Doppelungen oder Test-Servern, die öffentlich zugänglich sind.

2. Near Duplicate Content, Zwei Dokumente unterscheiden sich in Teilen, aber die Erkennungsalgorithmen stufen sie als nahezu identisch ein. Ein getauschter Absatz, ein anderes CSS-Layout oder ein anderes Veröffentlichungsdatum reichen laut Erlhofer nicht aus, um ein zweites Dokument ausreichend einzigartig zu machen (Erlhofer, S. 560).

3. Inhaltlicher Duplicate Content, Der Text ist identisch, aber alles andere auf der Seite ist verschieden. Auch das reicht für eine Duplicate-Content-Klassifizierung, denn „Texte sind nach wie vor die wichtigste Basis für die Onpage-Bewertungen von Suchmaschinen“ (Erlhofer, S. 560).

Jede dieser Arten kann innerhalb einer Domain auftreten oder domainübergreifend (Cross-Domain Duplicate Content). Die Kopie einer Pressemeldung auf 30 verschiedenen Portalen ist genauso DC wie zwei URL-Varianten desselben Produkts in deinem eigenen Shop.

Was kein Duplicate Content ist: Zitate, kurze Textausschnitte (Snippets) und geteilte Navigationselemente. Suchmaschinen wissen, dass Impressum, Footer und Menüs auf jeder Seite gleich aussehen. Sie können durch HTML-Quelltextanalyse zwischen Supplementary Content (Navigation) und Main Content (Inhalt) unterscheiden.

Merksatz: Duplicate Content ist kein Penalty, aber eine verpasste Chance. Jede doppelte URL kostet Crawl-Budget, ohne Rankings zu bringen.

Kernerkenntnis

Eine Strafe waere ehrlicher als das, was Google tut. Indem es Duplikate stillschweigend ignoriert statt sie zu markieren, bleibt das Symptom unsichtbar, und du suchst den Bug an der falschen Stelle.

Warum Google keine doppelten Inhalte mag: Crawl-Budget und Indexierungsgrenze

Google hat gigantische Rechenkapazitäten, aber sie sind endlich. Wenn ein Crawler deine Website besucht, erfasst er nicht alle URLs auf einmal, sondern eine ausgewählte Menge. Dieses Kontingent, das Crawl-Budget, hängt von drei Faktoren ab:

Antwortgeschwindigkeit: Je schneller deine Website Seiten ausliefert, desto mehr Seiten kann der Crawler innerhalb eines Zeitfensters erfassen. Die Gesamtladezeit sollte laut Erlhofer idealerweise unter zwei Sekunden liegen (Erlhofer, S. 556).

Relevanz und Beliebtheit: Je mehr Autorität deine Website für ein Thema hat, desto häufiger kommt der Crawler vorbei. Eine thematische Autorität signalisiert Google, dass neue Inhalte für Suchende relevant sein könnten.

Aktualisierungshäufigkeit: Wenn der Crawler mehrmals kommt und feststellt, dass sich nichts geändert hat, senkt er die Wiederbesuchsfrequenz. Regelmäßige Aktualisierungen halten das Crawl-Budget hoch.

Duplicate Content verschwendet dieses Budget. Jede doppelte URL, die der Crawler besucht, ist eine URL weniger, die er für einzigartige Inhalte verwendet. Bei einem Shop mit 5.000 Produkten und 15.000 Parameter-URLs (Sortierung, Filter, Paginierung) crawlt Google in vielen Fällen mehr Duplikate als Originalseiten.

Die Indexierungsgrenze verschärft das Problem. Google indexiert bei neuen Domains oder Domains mit wenig Trust nicht alle URLs. Erlhofer beschreibt Fälle, in denen nur 60 Prozent aller URLs einer Domain indexiert werden (Erlhofer, S. 558). Wenn ein Teil dieses Kontingents an Duplikate geht, fehlt es für die Seiten, die du ranken willst.

Linkjuice-Verlust: Doppelte Seiten erhalten internen Linkjuice von Seiten, die auf sie verlinken, aber da sie nicht indexiert werden, verpufft dieser Linkjuice. Er fehlt den Seiten mit Unique Content, die ihn für bessere Rankings bräuchten.

Wie Google Duplicate Content erkennt: Das Shingle-Verfahren

2007 veröffentlichten Google-Mitarbeiter eine wissenschaftliche Arbeit mit dem Titel „Detecting Near-Duplicates for Web Crawling“. Darin wird das Shingle-Verfahren beschrieben, das mit hoher Wahrscheinlichkeit Teil der Google-Duplicate-Content-Erkennung ist.

So funktioniert es: Ein Shingle ist ein Fenster aus zwei bis sechs aufeinanderfolgenden Wörtern. Der Algorithmus extrahiert zunächst den Text einer URL und entfernt Satzzeichen, Überschriften und Formatierung. Dann zerlegt er den Text in überlappende Wortgruppen:

Aus dem Satz „Frühe Jahre Shakespeares Geburtsdatum ist nicht überliefert“ werden bei einem 3-Shingle diese Einheiten:

Frühe Jahre Shakespeares
Jahre Shakespeares Geburtsdatum
Shakespeares Geburtsdatum ist
Geburtsdatum ist nicht
ist nicht überliefert

Wenn du nun die Überschrift änderst, aber den Rest kopierst, ändert sich nur ein Bruchteil der Shingles. Erlhofer rechnet vor: Von 23 Shingles ändern sich bei einer neuen Überschrift nur 2, ein Uniqueness-Grad von gerade einmal 9 Prozent (Erlhofer, S. 563). Für Google ist das immer noch identischer Content.

Die praktische Konsequenz: Das Vertauschen von Absätzen oder das Ändern einzelner Wörter reicht nicht, um einen Text unique zu machen. Die Shingle-Menge bleibt nahezu identisch, und die Reihenfolge spielt keine Rolle. Erfahrungsgemäß sollten laut Erlhofer mindestens 70 bis 80 Prozent eines Textes unique sein (Erlhofer, S. 561).

Was Google zusätzlich prüft:

1. Ort des DC: Innerhalb einer Domain oder domainübergreifend?

2. Grad der Gleichheit: Wie hoch ist der Shingle-Overlap?

3. Position im Dokument: Navigation (Supplementary Content) vs. Hauptinhalt (Main Content), Google kann das unterscheiden.

4. Quellverweise: Gibt es Links vom Duplikat zum Original? Dann ist die Zuordnung eindeutig.

Wie Google das Original bestimmt:

Indexierungsdatum: Wer zuerst indexiert wurde, gilt als Original.
Reputation/Trust: Wikipedia gewinnt gegen einen No-Name-Blog, selbst wenn der Blog den Text zuerst veröffentlicht hat.
Eingehende Links: Wer mehr Backlinks hat, wird als Quelle betrachtet.

Merksatz: Google erkennt Duplicate Content über Shingles, kleine Wortgruppen die wie ein Fingerabdruck funktionieren. Absätze vertauschen hilft nicht.

Die 8 häufigsten Ursachen für Duplicate Content

Erlhofer identifiziert wiederkehrende Muster, die in der Praxis für den Großteil aller Duplicate-Content-Probleme verantwortlich sind:

1. Copy & Paste: Herstellertexte und Pressemeldungen

Die häufigste Ursache. Online-Shops übernehmen Produktbeschreibungen des Herstellers, genauso wie hunderte andere Shops. Pressemeldungen werden unverändert auf Dutzenden Portalen veröffentlicht. Nur die wenigsten dieser Seiten werden je für den kopierten Text ranken.

KMU-Lösung: Eigene Produktbeschreibungen schreiben. Sie dürfen inhaltlich auf dem Herstellertext basieren, müssen aber sprachlich einzigartig sein.

2. www vs. nicht-www

Technisch ist www.domain.de eine Subdomain von domain.de. Ohne Weiterleitung existiert jede URL doppelt. Google behandelt das oft automatisch richtig, aber nicht immer.

Lösung: Eine Variante wählen, 301-Redirect der anderen einrichten. In der .htaccess:

PROT_3

3. HTTP vs. HTTPS

Seit 2015 haben HTTPS-Seiten einen Ranking-Vorteil. Aber wenn beide Varianten erreichbar sind, entsteht DC für die gesamte Website.

Lösung: Globaler 301-Redirect von HTTP auf HTTPS. Alle vier Varianten (mit/ohne www, mit/ohne HTTPS) müssen direkt, ohne Redirect-Ketten, auf die kanonische Version leiten.

4. Trailing Slashes

/t-shirts-kurzarm/ und /t-shirts-kurzarm sind laut Google zwei verschiedene URLs. John Mueller hat das explizit bestätigt. Wenn dein CMS für beide Varianten den gleichen Inhalt ausliefert, hast du Duplicate Content.

Lösung: Für eine Variante entscheiden (Empfehlung: mit Trailing Slash), 301-Redirect für die andere.

5. Test- und Staging-Server

Eine Kopie deiner Website auf test.domain.de oder staging.domain.de, die nicht vor Crawlern geschützt ist. Die gesamte Website existiert dann doppelt im Index.

Lösung: Passwortschutz oder IP-Sperre. Nicht noindex verwenden, die Gefahr ist zu groß, dass bei der Liveschaltung die noindex-Tags versehentlich mitkopiert werden und die Live-Site aus dem Index fliegt.

6. Funktionale Parameter

Sortier-Parameter (?sort=price), Session-IDs (?SESSID=2348723), Affiliate-Codes (?affiliate=823CX) oder interne Suchanfragen (?q=schuhe) erzeugen für jede Variante eine eigene URL mit identischem oder nahezu identischem Inhalt.

Lösung: Parameter über robots.txt sperren (wenn noch nicht indexiert) oder Canonical auf die parameterfreie URL setzen.

7. Druckansichten

Wenn die Druckansicht über eine eigene URL gesteuert wird (?print=1 oder /produkte-druckansicht.html), entsteht DC. Die CSS-basierte Lösung mit media="print" erzeugt dagegen kein DC, weil es dasselbe Dokument ist.

Lösung: CSS Print-Stylesheet statt eigener Druck-URLs. Falls nicht möglich: noindex + nofollow auf Druck-URLs.

8. Paginierung

Seite 2, 3, 4 einer Produktliste haben unterschiedliche Produkte, aber identische Randspalten, Texte, Title-Tags und Descriptions. Google hat 2019 bestätigt, dass rel="next/prev" seit Jahren nicht mehr beachtet wird.

Lösung: auf allen Seiten ab Seite 2. Das follow ist wichtig, damit Links zu den Produkten auf diesen Seiten weiterhin verfolgt werden und Linkjuice vererben. Aber Vorsicht: John Mueller hat auf der SMX München 2018 gesagt, dass URLs mit langem noindex irgendwann auch als nofollow behandelt werden.

Canonical, 301, noindex: Die Lösungen im Vergleich

Es gibt kein Universalwerkzeug gegen Duplicate Content. Die richtige Lösung hängt davon ab, ob die doppelte URL noch gebraucht wird und ob sie bereits indexiert ist.

| Situation | Lösung | Warum |

|-----------|--------|-------|

| URL wird nicht mehr gebraucht | 301-Redirect | Leitet Nutzer und Linkjuice auf die Ziel-URL. Google schreibt die URL im Index um. |

| URL wird noch gebraucht, aber soll nicht ranken | Canonical-Tag | Beide URLs bleiben erreichbar. Google indexiert nur die kanonische Version. |

| URL war nie im Index und soll es auch nicht werden | robots.txt Disallow | Verhindert das Crawling von Anfang an. Spart Crawl-Budget. |

| URL ist bereits im Index und muss raus | noindex | Entfernt die URL nach einigen Tagen aus dem Index. robots.txt reicht hier nicht. Sie verhindert nur das Crawling, nicht die Deindexierung. |

| URL existiert nicht mehr (gelöscht) | 410 Gone | Signalisiert Suchmaschinen: Diese URL kommt nicht zurück. Schnellere Deindexierung als 404. Vor dem Löschen prüfen: Lohnt sich ein Content-Update statt Löschung? |

| Verschiedene Sprachversionen | hreflang-Tags | Reziproke Verweise zwischen den Sprachvarianten. Wichtig: Alle Versionen müssen aufeinander verweisen. |

Wichtig zum Canonical:

Das Canonical-Tag ist ein starker Hinweis, keine Anweisung. Google kann es ignorieren, besonders wenn Quell- und Ziel-URL sich stark im Main Content unterscheiden. Erlhofer beschreibt Fälle, in denen die interne Verlinkung dem Canonical widersprach und Google das Canonical missachtete (Erlhofer, S. 585).

Selbstreferenzierender Canonical, warum jede URL einen braucht:

Es hat sich als SEO-Best-Practice etabliert, dass jede URL standardmäßig einen Canonical auf sich selbst setzt. Warum? Wenn jemand einen Link mit Parameter auf deine Seite setzt (?ref=newsletter), würde Google ohne Canonical diese Parameter-URL als eigene URL crawlen und indexieren. Der selbstreferenzierende Canonical verhindert das präventiv:

PROT_19

Diese Zeile steht auf der Seite /produktliste/ selbst, und fängt alle Parameter-Varianten ab.

Canonical über HTTP-Header:

Für PDFs und andere Nicht-HTML-Dateien, die keinen -Bereich haben, kann der Canonical im HTTP-Header mitgesendet werden:

PROT_22

Merksatz: Canonical ist eine Empfehlung, kein Befehl. Wenn die interne Verlinkung dem Canonical widerspricht, gewinnt die Verlinkung.

Duplicate Content in Online-Shops: Produktbeschreibungen, Filter, Paginierung

Online-Shops sind die häufigsten Opfer von Duplicate Content, weil sie systembedingt tausende URL-Varianten erzeugen. Drei Problemfelder dominieren:

Produktbeschreibungen: Wer den Herstellertext kopiert, hat denselben Text wie hunderte andere Shops. Seit dem Panda-Update 2011 kann massiver DC auf einer Domain auch die Rankings von Nicht-DC-Seiten beeinflussen, die Abstrafung kann keyword- oder themenbasiert erfolgen. Erlhofer beschreibt Fälle, in denen Shops für ein ganzes Themenfeld 20 bis 30 Plätze verloren haben (Erlhofer, S. 565).

Empfehlung: Eigene Texte für alle Top-Seller und Kategorie-Seiten. Bei tausenden Produkten: Priorisierung nach Umsatz. Die Top 20 % der Produkte generieren 80 % des Traffics.

Filter und Sortierung: Jede Kombination aus Farbe, Größe, Preis und Sortierung erzeugt eine eigene URL. Ein Shop mit 10 Filtern und 3 Sortieroptionen kann pro Kategorieseite hunderte DC-URLs generieren.

Empfehlung: Canonical auf die ungefilterte Kategorieseite. Parameter in der robots.txt sperren. Bei bereits indexierten Parameter-URLs: noindex setzen und warten.

Produktvarianten: Dasselbe T-Shirt in Rot, Blau und Grün, drei URLs mit nahezu identischem Text. Nur die Farbe im Titel unterscheidet sich.

Empfehlung: Eine Haupt-URL mit allen Varianten (Farbwechsel per JavaScript ohne URL-Änderung). Oder: Canonical aller Varianten auf die meistverkaufte Farbe.

Duplicate Content identifizieren: Tools und Methoden

Du musst DC nicht blind suchen. Es gibt systematische Methoden:

1. Google Search Console: Unter Index → Abdeckung → Ausgeschlossen zeigt Google zwei relevante Kategorien:

„Duplikat, vom Nutzer nicht als kanonisch festgelegt“
„Duplikat, Google hat eine andere Seite als kanonische Seite bestimmt“

Beide signalisieren dringenden Handlungsbedarf. Aber Achtung: Google zeigt hier nur eine Auswahl, keine vollständige Liste.

2. Phrasen-Suche bei Google: Kopiere einen markanten Satz aus deinem Text und suche ihn in Anführungszeichen. Idealerweise erscheint nur ein Treffer, deine Seite. Mehrere Treffer = Duplicate-Content-Problem.

3. Site-Parameter: Mit site:domain.de intitle:"Dein Seitentitel" findest du alle indexierten Seiten mit demselben Title-Tag. Mehrere Ergebnisse = doppelte Titles.

4. Screaming Frog und Ryte: Crawling-Tools, die doppelte Titles, Descriptions und Inhalte systematisch identifizieren. Unverzichtbar für Shops mit tausenden URLs.

5. Copyscape und Siteliner: Plagiatserkennung für Cross-Domain-DC. Prüft, ob dein Text auf anderen Websites vorkommt.

Thin Content: Der verwandte Cousin von Duplicate Content

Erlhofer behandelt Thin Content im selben Kapitel wie Duplicate Content, und das hat einen Grund: Beide Probleme haben denselben Effekt. Sie signalisieren Google, dass eine URL keinen Mehrwert bietet.

Thin Content sind Seiten mit wenig oder keinem eigenständigen Inhalt. Eine Kategorieseite mit nur einer Produktüberschrift und einem Bild, aber ohne beschreibenden Text. Eine Tag-Seite, die nur eine Liste von Artikeln zeigt, ohne eigene Einleitung. Eine FAQ-Seite mit Ein-Satz-Antworten.

Im Kontext des Panda-Updates werden Thin Content und Duplicate Content gleich behandelt: Zu viele davon auf einer Domain beeinflussen die Rankings der gesamten Website negativ. Die Lösung ist dieselbe, entweder aufwerten (mehr unique Content) oder aus dem Index nehmen (noindex).

Die 7 häufigsten Fehler bei der DC-Bekämpfung

1. Canonical auf die Startseite setzen, Der häufigste und fatalste Fehler. Wenn ein CMS versehentlich auf jeder Seite den Canonical zur Startseite setzt, verschwinden alle Unterseiten aus dem Index.

2. robots.txt für bereits indexierte URLs, Die robots.txt verhindert nur das Crawling. Bereits indexierte URLs bleiben im Index. Für die Deindexierung brauchst du noindex.

3. 302 statt 301, Ein 302-Redirect signalisiert „temporäre Weiterleitung“. Google überträgt dabei keinen Linkjuice. Für DC-Bereinigung immer 301 verwenden.

4. Canonical zwischen stark unterschiedlichen Seiten, Google behandelt den Canonical als Empfehlung. Wenn Main Content sich stark unterscheidet (z.B. unterschiedliche Sortierung mit Paginierung), ignoriert Google den Canonical.

5. noindex auf Staging vergessen, Bei der Liveschaltung werden die noindex-Tags mitkopiert. Die Live-Site verschwindet aus dem Index. Besser: Passwortschutz statt noindex.

6. URL Entfernen in der Search Console, Diese Funktion blendet URLs nur für ca. 6 Monate aus, entfernt sie aber nicht aus dem Index. Die Ursache bleibt bestehen.

7. Redirect-Ketten, HTTP → www → HTTPS statt direkt HTTP → HTTPS mit www. Jeder Zwischenschritt kostet Crawl-Budget und verdünnt Linkjuice.

Checkliste: Duplicate Content auf deiner Website finden und beheben

Sofort prüfen:

[ ] Ist deine Website sowohl mit als auch ohne www erreichbar? → 301 einrichten
[ ] Ist HTTP neben HTTPS noch erreichbar? → 301 einrichten
[ ] Haben deine URLs mit und ohne Trailing Slash denselben Inhalt? → 301 einrichten
[ ] Gibt es ein öffentlich zugängliches Staging-System? → Passwortschutz setzen
[ ] Hat jede URL einen selbstreferenzierenden Canonical? → Im CMS aktivieren

In der Google Search Console prüfen:

[ ] Wie viele URLs sind als „Duplikat“ ausgeschlossen? → Canonicals setzen oder 301
[ ] Stimmen die von Google gewählten kanonischen URLs mit deinen überein?
[ ] Gibt es doppelte Title-Tags oder Meta-Descriptions?

Bei Online-Shops zusätzlich:

[ ] Nutzt du eigene Produktbeschreibungen oder Herstellertexte? → Umschreiben
[ ] Erzeugen Filter und Sortierungen eigene URLs? → Canonical oder robots.txt
[ ] Ist die Paginierung mit noindex, follow ausgezeichnet?
[ ] Haben Produktvarianten separate URLs? → Canonical auf die Hauptvariante

Problem: Beide URLs liefern denselben Inhalt aus.

✗Duplikathttp://domain.de/produkte/

✗Duplikathttp://www.domain.de/produkte/

↓ 301-Redirect ↓

✓Canonicalhttps://www.domain.de/produkte/

Alle vier Varianten (http/https, www/non-www) leiten per 301 auf eine einzige kanonische URL.

Häufige Fragen

FAQ

Ist Duplicate Content eine Google-Strafe?↓

Nein. Duplicate Content ist keine manuelle Penalty. Google wählt von mehreren identischen Versionen eine aus und ignoriert die anderen. Seit dem Panda-Update 2011 kann massiver Duplicate Content auf einer Domain allerdings indirekt die Rankings aller Seiten beeinflussen, auch der Seiten mit Unique Content.

Wie viel Prozent eines Textes müssen unique sein?↓

Es gibt keine offizielle Zahl. Aus Praxiserfahrungen und dem Shingle-Algorithmus leitet sich ab, dass mindestens 70 bis 80 Prozent eines Textes einzigartig sein sollten (Erlhofer, S. 561). Bloßes Umstellen von Absätzen oder Ersetzen einzelner Wörter reicht nicht.

Wann Canonical-Tag und wann 301-Redirect?↓

301-Redirect, wenn die doppelte URL nicht mehr gebraucht wird, Nutzer und Linkjuice werden weitergeleitet. Canonical-Tag, wenn beide URLs erreichbar bleiben sollen, aber nur eine indexiert werden soll. Canonical ist eine Empfehlung, 301 ist eine Anweisung.

Erkennt Google Duplicate Content automatisch?↓

Ja, über verschiedene Verfahren wie den Shingle-Algorithmus. Google bestimmt auch automatisch eine kanonische URL. Allerdings trifft Google nicht immer die Wahl, die du bevorzugst. Deshalb solltest du Canonicals explizit setzen, statt dich auf die automatische Erkennung zu verlassen.

Schadet es, den gleichen Text auf mehreren Domains zu veröffentlichen?↓

Google indexiert meistens nur eine Version und wählt die Domain mit der höheren Reputation. Für die anderen Domains bringt der Text keinen SEO-Wert. Eine direkte Strafe gibt es nicht, aber der Aufwand ist verschwendet. Cross-Domain-Canonicals können helfen, wenn die Veröffentlichung auf mehreren Domains unvermeidbar ist.