"Googlebot hat auf Ihrer Website "xxx" eine extrem hohe Anzahl von URLs entdeckt."

Also, wer kennt die Aussagen in der Überschrift? Da wir es sehr häufig mit ziemlich großen Webseiten zu tun haben, finden wir zum Start unserer Beratung diese Mitteilung von Google an einen Webmaster relativ häufig vor. Und ich will in unserer kleinen Kundenzeitschrift hier mal schnell darauf eingehen.

Zunächst einmal erhält man diese Mitteilung ausschließlich in den Google Webmaster Tools (deren Fanboy ich ja bin). Wer diese Meldung also nicht bekommt, weil er seine Seite ohne GWT betreibt, ist also selber schuld.

Aber was will uns Google damit eigentlich sagen? Man könnte das etwa so formulieren: „Hey, du pumpst zu viele sinnlose weil identische oder ähnliche Seiten in meinen Index. Hör auf damit!“

Ich empfehle, das ernst zu nehmen. Es geht nämlich z.B. um Beitragsseiten, die über einen falschen URL-Parameter zahllos dupliziert wurden oder um Filter- bzw. Suchergebnisse, die zur Indexierung vorgelegt werden. All diese Seiten frisst Google zwar bis zu einem gewissen Grad – aber der Robot hat keinen rechten Spaß dran. Außerdem verliert er womöglich eine Menge Zeit für eure wichtigen, uniqune Inhalte.

Deshalb hier eine kleine, spontane Liste von möglichen Ursachen und deren Behebung:

  • Unnötige Parameter in der URL (z.B. Herkunft des Besuchers): Diese am besten vermeiden oder zumindest mit einem Canonical-Tag auf die Haupt-URL zeigen lassen. Die Parameter können auch in den GWT „behandelt“ werden (unter „Webseiten-Konfiguration“ und „Einstellungen“).
  • Filter-Seiten: Wenn ich z.B. Produkte nach Eigenschaften filtern kann („Handy“ für „unter 200 €“ in der Farbe „rot“ mit „UMTS“ und von „Vodafone“) ergeben solche Filter möglicherweise hunderttausende Seiten mit immer dem gleichem Inhalt. Hier kann man das Crawling unterbinden per robots.txt, per „noindex“-Anweisung oder (wenn das via Parameter gefiltert wird) über die Parameter-Behandlung. Man könnte auch die Filter mit einem „nofollow“ versehen oder per Javascript verstecken, aber sind ist für mich die zweitbeste Möglichkeiten.
  • Seiten in der Paginierung: Wenn ich in einem Channel 10.000 Beiträge habe, werde ich versuchen, einen Teil davon zugänglich zu machen, indem ich am Ende der Listenseite eine „Paginierung“ erstelle. Nun sind das aber potentiell 999 Listenseiten, die den Crawler unnötig beschäftigen. Diesen Seiten gebe ich ein „noindex,follow“ mit. Dann werden die darin aufgeführten Beiträge noch gecrawlt – aber die Paginage-Seiten nicht in den Index genommen. Allerdings beschäftigt das den Robot weiterhin, aber das nehmen wir meistens in Kauf.
  • Leere Seiten aus der Datenbank: Wer zum Beispiel Bildergalerien zu seinen Produkten anbietet – aber nur für einige Produkte solche hat, könnte ja auf die Idee kommen, eine Galerie-Seite für jedes Produkt einfach zu generieren (das ist technisch einfacher, als in Laufzeit zu schauen, ob es eine Galerie gibt und dann den Link einbauen). Dann hat man aber viele leere Galerie-Seiten ohne Inhalt. Das gleiche gilt bei anderen DB-Inhalten – z.B. einem Kalender, der immer noch den Link „nächsten Monat“ hat – obwohl wir dafür schon keinen Inhalt mehr haben. Hier gibt es nur eine vernünftige Lösung: weg damit!
  • Manche Bildergalerienseiten: Es ist natürlich sowieso recht einfach möglich, Millionen von gleichen bzw. ähnlichen Seiten zu produzieren, indem man Bildergalerien ohne Bildunterschrift und jeweils als eigene HTML-Seite in den Index pumpt. Auch hier gilt: So macht man das nicht, das sollte schlicht geändert werden.
  • Ach ja: Session-IDs. Dazu sage ich nichts…

Also die Mittel für die Lösung des Problems sind:

  • manchmal Canonical-Tags,
  • manchmal Parameter-Behandlung,
  • manchmal Robots-Anweisung „noindex“
  • manchmal die robots.txt,
  • manchmal „nofollow“,
  • manchmal die XML-Sitemap,
  • manchmal ein schlichtes Vermeiden von Seiten,
  • manchmal vernünftiges HTML
  • und meistens eine Kombination von allem.

Was ist die große Schwierigkeit dabei? Man muss im Kopf zunächst den Paradigmenwechsel vornehmen, dass nicht möglichst viele Seiten in den Index sollen sondern nur die, die Sinn und Content haben. Ja, wir werfen sogar strukturiert Seiten raus. Alles, was doppelt (oder fast doppelt) ist, sollte genauso vermieden werden, wie alles, was irgendwie „leer“ ist. Und der Name eines Produkts der aus einer Datenbank generiert wird ist kein Inhalt. Uniquer Content besteht aus deutlich mehr als 3 Wörtern…

Also, nur Mut: Schmeißt mal ein paar Seiten aus dem Index und macht dem Robot das Leben ein wenig leichter. Vielleicht steht dann statt „Googlebot hat auf Ihrer Website „xxx“ eine extrem hohe Anzahl von URLs entdeckt.“ die Meldung da: „Googlebot bedankt sich ausdrücklich für einen frühen Feierabend!“ 😉

GD Star Rating
loading...

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Kommentar (1)

  1. Pingback: Affiliate Auslese Januar | Online Marketing Agentur (Projecter GmbH)

Kommentare sind geschlossen.