"Duplicate Content" und "Near Duplicate Content" (mal wieder)

Puh, schon wieder „Duplicate Content“! Aber dieses Thema ist ein echter Dauerbrenner. Deshalb hier eine kleine Checkliste, wie man doppelte Inhalte überhaupt erkennt und was „Near Duplicate Content“ ist. Los geht’s…

Duplicate Conten ist…

  • …wenn innherhalb einer Seite der identische Inhalt doppelt verwendet wird. Wenn etwa News nach einer Woche woanders verwendet werden oder Inhalte in ein Archiv wandern – aber auch am ursprünglichen Platz bleiben (warum auch immer jemand so etwas machen sollte…)
  • …wenn identische Seiten systemseitig mit unterschiedlichen URLs ausgestattet werden (also wenn www.domain.de/ UND www.domain.de/index.html vorhanden sind oder Parameter an die URL gehängt werden)
  • …wenn Inhalte verkauft bzw. geklaut werden oder aus sonst einem anderen Grund auf einer anderen Webseite angezeigt werden.
  • …wenn man ein paar Domains gesammelt hat und diese ohne Umleitung einfach als Domain für eine bestehende Webseite verwendet werden (das passiert vor allem kleinen Kunden von großen Hostern wie 1&1, Strato u.s.w.)

Near Duplicate Content ist…

  • …wenn ein überwiegender Texteil noch auf einer anderen Seite verwendet wird.
  • …wenn Index- oder Suchergebnisseiten jeweils sehr ähnliche Ergebnisse bringen. (z.B. Tagcloud-Seiten in denen eh immer die gleichen Tags stecken oder Listenseiten von fast identischen Produktkategorien)
  • …wenn z.B. Namens- oder Produkdatenbanken dazu verwendet werden, möglichst viele Webseiten automatisch zu erstellen und sich auf diesen Seiten z.B. immer nur ein Produktname ändert – der Rest aber identisch bleibt.
  • …wenn eine Anwendung (z.B. via AJAX) unterschiedlich aufgerufen werden kann, aber die Änderung an der für den Robot sichtbaren Seite nur marginal ist.

Beides ist schlecht – wobei die Ausprägungen unterschiedlich sind. Duplicate Content führt in der Regel zu einem Russisch Roulette. Denn gibt es eine Seite mehrfach irgendwo und wird als Duplicate Content erkannt, wird Google eine der Seiten anzeigen und die anderen nicht. Und es ist wahrlich nicht immer der Fall, dass die eigentliche Urheber-Seite angezeigt wird.

Abhilfe bei Duplicate Content ist eigentlich nur, diesen extern völlig zu vermeiden (und dies auch mit Copyscape zu konrollieren). Und ist er intern nicht zu vermeiden, kann der „Canonical Tag“ verwendet werden. Das ist aber nur die zweitbeste Möglichkeit, da es nicht sicher ist, dass die Links auf die doppelte Seite über diesen Canonical Tag auf die ursprüngliche Seite übertragen werden…

Und wie wirkt sich Near Duplicate Content? Dies ist dann meist der Inhalt, der in den „Filter“ von Google rutscht. man erkennt das daran, dass bei einer site-Abfrage („site:domain.de domain“) recht bald in den Suchergebnissen ein Link auf weitere, mögliche Ergebnisse kommt:

near-duplicate-content

Abhilfe bei Near Duplicate Content ist eigentlich auch nur die Vermeidung. Wer aus 10.000 Produktnamen 10.000 Seiten macht, zwischen denen sich nur die Title-Tags und die Überschrift unterscheiden, braucht sich nicht zu wundern…

Wer diese Seiten aber für die User haben möchte, kann diese im Header mit „<meta name=”robots” content=”noindex, follow”>“ versehen. Das ist sicher die eleganteste Lösung.

Noch eine Bemerkung: Selbstverständlich ist das Zitieren im Internet erlaubt. Folgende Inhalte werden garantiert nicht zu Duplicate Content oder Near Duplicate Content führen:

  • Wenn ich z.B. den Vorspann und die Überschrift von Artikeln auf der Startseite zum Anteasern der Beiträge verwende. Denn hier ist dann auch ein eindeutiger Link vorhanden und (das ist natürlich die Voraussetzung) der Inhalt auf er eigentlichen Beitragsseite ist deutlich umfangreicher als die doppelte Passage.
  • Gelegentliche wörtliche oder sonstige Zitate. Das sind beides sehr typische und übliche Inhalte auf Webseiten und werden auch nicht bestraft. Allerdings liegt hier die Betonung auf „gelegentlich“ und auf „Zitat“ (also ein nur satzweise doppelter Inhalt).
  • News für Google News und Produktinformationen für Base: Der Inhalt einer Seite darf völlig identisch zu anderen Seiten sein, wenn man es damit in die Google News bzw. in Google Base schaffen möchte. Zumindest spielt doppelter Inhalt hier keine so große Rolle…
GD Star Rating
loading...
"Duplicate Content" und "Near Duplicate Content" (mal wieder), 4.0 out of 5 based on 1 rating

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Kommentar (1)

  1. Pingback: hreflang Tag - Die richtige Implementierung - SEO Book

Kommentare sind geschlossen.