Das Thema ‘Duplicate Content’ kursiert seit einiger Zeit verstärkt durch SEO-Foren und Blogs und verwirrt und ängstigt immer mehr Webmaster. Wie unterschiedlich müssen Texte sein, damit sie nicht als Duplicate Content erkannt werden? Führt bereits ein kopierter Satz dazu, das die Seite von Google “abgestraft” wird? Wie verhält es sich mit Texten, die auf der eigenen Domain mehrfach vorhanden sind?  Und mein absoluter Liebling war vor kurzen die Frage in einem Forum bzgl. ‘Duplicate Content im Impressum’. Klar: die Verwendung des gleichen Namens, der gleichen Adresse oder der gleichen Telefonnummer führt zur sofortigen Löschung der kompletten Domain aus dem Google-Index. Also immer schön variieren.

Irritierend finde ich an den ganzen Diskussionen, das sich anscheinend niemand die Frage stellt, warum Google so bestrebt ist arme kleine Webmaster zu “bestrafen” nur weil sie ein paar gleichlautende Sätze auf ihren Webseiten haben, ein bischen was aus Wikipedia “zitieren” oder ein und dieselbe Seite über mehrere URLs erreichbar sind. Die Antwort darauf würde einiges von dem Schreckgespenst ‘Duplicate Content’ erklären. Um die Antwort zu finden, muss man sich nur ganz kurz in die Lage von Google einfinden. Google möchte seinen Besuchern relevante Suchergebnisse auf ganz konkrete Suchanfragen liefern. Der Suchende möchte verschiedene Webseiten mit Informationen zu dem gesuchten Themengebiet aufgelistet bekommen. Achtung: Informationen=Mehrzahl. Er wäre ziemlich entäuscht, wenn Google ihm auf der ersten Seite 10 verschiedene Webseiten auflistet, auf denen überall wortwörtlich das Gleiche steht. Aus diesem Grunde sucht sich Google eine der Webseiten aus, welches es für das Original hält, und filtert die Dubletten aus - fertig.

Es handelt sich also schlicht und ergreifend um eine Bereinigung der Suchergebnisse und nicht um eine generelle Bestrafung der einzelnen Seite oder der kompletten Domain. Und die Bereinigung erfolgt immer auf Basis einer konkreten Suchanfrage d.h. eine Seite kann bei einer Suchanfrage aufgrund vorhandenem DC ausgefiltert werden und bei einer anderen Suchanfrage trotzdem Top ranken.

Ein Sonderfall sind 1:1-Kopien von kompletten Seiten. Diese entstehen entweder dadurch, das ein und dieselbe Seite über mehrere URLs erreichbar ist (beispielsweise weil die Domain sowohl mit als auch ohne ‘www’ aufgerufen werden kann oder bei der schlampigen Verwendung von dynamischen URLs - siehe hierzu: Die unbegründete Angst der Webmaster vor dynamischen URLs). Oder weil die Seite wirklich kopiert wurde. Diese 1:1-Kopien würden bei jeder Suchanfrage durch das Raster fallen. Aus diesem Grunde ist es für Google wesentlich performanter diese Kopien gleich Ganz aus dem Index zu entfernen.

Die meisten Bedenken gegenüber ‘Duplicate Content’ sind vollkommen unbegründet. Google selbst hat vor zwei Tagen ein offizielles Statement zum Thema ‘Duplicate Content’ herausgegeben, in dem bereits im zweiten Absatz klipp und klar zu lesen ist:

Lasst uns also eines ein für alle Mal klarstellen: Es gibt keine “Duplicate Content-Penalty”.

Also könnten wir uns alle genüßlich und beruhigt zurücklehnen und uns sorglos um andere Dinge kümmern. Nicht ganz, denn im nächsten Abschnitt heißt es:

Zumindest nicht in der Art und Weise, wie es die meisten User beschreiben, wenn sie darüber sprechen.

Die weiteren knapp 900 Wörter könnte man zusammenfassen in: “Macht euch keine Sorgen; nervt uns nicht mit Reinclusion Requests; wir machen das schon alles Richtig.”

Also die gute Nachricht ist, das ein bischen DC einer Seite nicht schaden kann. Auch ein Text, den man beispielsweise aus Wikipedia entliehen hat führt nicht zur Verbannung aus dem Google Index (man sollte aber nicht erwarten, das die Seite auf Basis dieses Textes ranked). Und wir brauchen auch nicht unser Impressum für jede Domain “umschreiben”. Allerdings ganz so unbekümmert sollte man auch nicht mit dem Thema umgehen, wie auch Stefan Fischerländer und Frank Helmschrott in ihren Blogs warnen, da doch die ein oder andere Gemeinheit auf uns lauert.

Gemeinheit No. 1: Eine kleine Textpassage, die auf der eigenen Domain mehrmals vorkommt sollte eigentlich kein Problem darstellen. Wenn Google dies erkennt sucht sich der Kleine eines der Seiten aus, zeigt sie in den Suchergebnissen an und filtert die anderen heraus. Das Ergebnis ist, das irgendeine Seite der Domain in den Suchergebnissen erscheint und der Webmaster eigentlich glücklich sein sollte. Dies konnte man auch vor etlichen Monaten in einem Beitrag von Matt Cutts persönlich nachlesen (leider finde ich den Beitrag nicht mehr). Allerdings verschweigt mein Freund Matty eine Klitzekleinigkeit - was er übrigens des öfteren tut, der kleine Schlingel. Hierzu ein Beispiel: In vielen Online-Shops findet man unter den Artikeln den Satz ‘Preis inkl. Mehrwertsteuer zzgl. Versandkosten’. Den Satz findet man mehrmals auf jeder Seite auf Millionen von verschiedenen Online-Shops. Was bedeutet das für eine halbwegs intelligente Suchmaschine? Die “Information” ist so oft im Netz zu finden, das sie keine wirkliche Relevanz für die darin enthaltenen Suchbegriffe haben kann. Niemand, der nach ‘Mehrwertsteuer’ oder ‘Versandkosten’ sucht, wird sich dafür interessieren das in irgendeinem Online-Shop die Preise entsprechend ausgezeichnet sind. Die Relevanz einer Information für die darin enthaltenen Suchbegriffe sinkt, je öfters diese Information im Netz zu finden ist. Insbesondere dann, wenn die Quelle nicht bestimmbar ist (bspw. dadurch, das auf die Quelle verlinkt wurde - wie man es z.B. bei den bereits mehrfach genannten Wikipedia-Artikeln tun soll). Und was im Großen gilt (komplettes Netz) gilt auch im Kleinen (die eigene Domain). Vielleicht hat sich der ein oder andere schon gewundert, wieso seine Website mit dem Slogan, der auf jeder einzelnen Seite wiederholt wird, so schlecht ranked - das ist die Erklärung.

Gemeinheit No. 2: Wenn Google ‘Duplicate Content’ feststellt, beispielsweise weil die Seite über verschiedene URLs erreichbar ist, dann wird versucht, diese in eine Gruppe zusammenzufassen. Auch alle Rankingfaktoren werden dadurch zusammengefasst. Für den Webmaster ist das toll - wenn es funktioniert - tut es aber nicht, zumindest aufgrund der Komplexität nicht fehlerfrei.

  • Der Vergleich der Seiten geschieht nicht mit dem Originalseiten. Google spidert die Seiten und nimmt sie in ihren Index auf. Der Vergleich der Seiten erfolgt über die Kopie im Google-Cache. Die Kopien wurden aber garantiert zu unterschiedlichen Zeitpunkten erstellt. Wenn nun der Webmaster in seiner Sidebar z.B. die letzten Kommentare anzeigt, so werden die zu vergleichenden Seiten an dieser Stelle unterschiedliche Inhalte aufweisen. Es handelt sich also nicht um 1:1-Kopien sondern der Inhalt stimmt nur noch zu 95%. Eine sichere Identifizierung ist dadurch nicht mehr möglich.
  • Wenn sich die als identisch klassifizierten Inhalte auf der gleichen Domain befinden sollte eine Zusammenfassung zu einer Gruppe kein Problem darstellen. Was ist, wenn es sich um unterschiedliche Domains handelt. Der Webmaster hat die Domain als .de, .com und .net registriert und alle verweisen (ohne 301-Weiterleitung) auf den selben Inhalt. Wie sieht es aus mit andersnamigen Domains, die unser unbekümmerter Webmaster ebenfalls registriert hat? Wird Google diese zu einer Gruppe zusammenfassen? Höchstwahrscheinlich nicht (und das ist auch gut so).

Wegen einem bischen DC auf der eigenen Webseite sollte man sich keine grauen Haare wachsen lassen. Solange der eigene Content überwiegt stellt dies absolut kein Problem dar. Bei Webseiten, die hauptsächlich aus mehrfach im Netz vorkommenden Textbausteinen aufgebaut sind - klassische Beispiele sind Webkataloge oder Online-Shops - sieht die Sache etwas anders aus. Aber das wird eventuell Thema eines anderen Beitrages.

Bei Inhalten, die über mehrere URLs oder noch schlimmer, mehreren Domains erreichbar sind, sollte man sich allerdings auf gar keinen Falle auf Google und die Wir-machen-das-schon-Richtig-Statements verlassen. Es ist schön und löblich, das Google versucht solche Konstellationen zusammenzufassen und gemeinsam zu bewerten. Es ist aber wesentlich besser - und ansich ja nicht so schwierig - solche Konstellationen erst gar nicht aufkommen zu lassen.

Ach ja: und Gratulation an Alle die es bis an’s Ende des Artikels geschafft haben - ich bin Stolz auf Euch ;)