Warum sind meine Seiten/Fehler so lange in den Google Webmaster Tools?

seo frageFrage: Vielleicht könnt Ihr mir ja bei einem Verständnis Problem bezüglich der WMT weiterhelfen. Ich bekomme unter den Crawlingfehlern immer massenhaft 404-Fehler von URLs unserer alten Webseitenstruktur übermittelt. Nach dem Relaunch vor ca. 1Jahr hat sich die komplette Struktur geändert. Wenn Ich mit in den WMT anschaue worüber diese verlinkt sind, werden mir ebenfalls alte URLs angezeigt. Jetzt ist meine Frage: wie kann dies sein – wenn die Seite mit der alten Struktur seid ca. 1 Jahr offline ist? Vielleicht habt ihr eine Idee für mich. (Stefan)

Antwort: Ja, das sehen wir auch häufig und ich klappe deshalb gleich einige Gedanken dazu aus.

gwt fehler

So sieht das aus, wenn man viele Fehler in den Google Webmaster Tools hat. Die meisten werden mit solchen 404-Mengen wohl kaum konfrontiert werden. Aber: Diese Seite hier funktioniert trotzdem bestens!

Beginnen wir mit der ersten Erklärung: der Crawling-Vorgang

Ein einmal gemeldeter Fehler in den Google Webmaster Tools bleibt manchmal extrem lange dort. Darüber wundern sich viele Webmaster. Obwohl es die Seiten schon seit Jahren nicht mehr gibt, stehen sie wie eine Eins in den GWT. Das mag einen ärgern – aber ich finde es auch etwas verständlich, wenn man sich mal den Crawl-Vorgang vorstellt:

Stell dir vor, du bist der Google-Crawler und da draußen gibt es mehr zu untersuchende URLs als es Sterne am Himmel gibt. Was tust du? Du besuchst die Seiten häufiger, auf denen sich etwas tut und die Seiten, die seit Jahren, äh, „stabil“ sind nur selten. Bis der Crawler also mal wieder auf eine deiner 404-Seiten kommt, kann einige Zeit vergehen.

Und nun noch ein zweiter Gedanke: Würdest du eine Seite, die dir einen 404-Fehler zeigt, sofort aus dem Index nehmen? Hoffentlich nicht. Denn „404“ heißt „not found“ und das bedeutet, dass eine Seite (gerade) nicht zu finden ist – etwa wegen eines kurzzeitigen Server-Ausfalls. Der darf ja nicht dazu führen, dass eine ganze Webseite aus dem Index fliegt… Also, der Crawler kommt zwei- oder mehrfach vorbei bis er entscheiden kann, ob eine Seite wirklich nicht mehr da ist.

Das heißt: Selten besuchte Seiten müssen ein paar mal besucht werden, bevor sie raus fliegen. Das kann dauern. Und zwar Monate oder gar Jahre.

Die zweite Erklärung: Warum sie eh drin bleibt

Und wenn heute unter der URL domain.de/xyz eine Seite war und morgen nicht mehr – also ein 404-Fehler gezeigt wird: Warum sollte Google dir diese Seite NICHT als 404-Fehler anzeigen? Schließlich stimmt die Aussage! Und wenn wir uns veranschaulichen, dass Google Daten im Zweifelsfall speichert, können Fehler ewig drin bleiben.

gwt Fehler

In der GWT-Fehlerbehandlung auf die URL klicken und dann auf „Verlinkt von“: Dort finden sich alle Links (externe, interne) Links auf diese Seite. Erst wenn diese weg sind, kann die URL verschwinden.

Vor allem, wenn die Seiten noch von irgendwo her verlinkt sind. Dann macht diese „Fehler“-Aussage sogar verdammt viel Sinn und du solltest dir anschauen, was auf deiner Seite wohin linkt. Es reicht ja schon, wenn die Seiten noch auf einer alten Sitemap oder in alten Artikeln verlinkt werden – Sie bleiben dann genau so lange in den Fehlern stehen, bis du sie entweder per 301-Redirect umleitest oder alle Links darauf entfernst.

Wenn alle verlinkenden Seiten in der GWT-Fehlerbehandlung auch nicht mehr existieren, musst du dich wiederum auf die Suche nach deren Links machen… (Sorry, deshalb sind aufgeräumte Systeme und Umleitungen nach Relaunches eine verdammt gute Idee.)

Dritte Erklärung: Falscher Umgang mit dem Technik-Kram

Holger Etzel hat mich in den Kommentaren auf zwei immer wiederkehrende Fehler gestoßen, die geradezu zwanghaft dafür sorgen, dass die 404-Seiten im Index bleiben:

  1. Wer versucht, mit seiner robots.txt Seiten aus dem Index zu holen, wird scheitern. Denn dann kennt Google nämlich die URL der Seite – aber darf sie nicht crawlen. Das heißt, Google erkennt überhaupt nicht, dass sie gar nicht mehr da ist. Also: Finger weg bei der Fehlerbehandlung von der robots.txt.
  2. Die Verlinkung auf die nicht mehr existierende Seiten kann auch aus der guten, alten XML-Sitemap stammen. Du solltest – wenn du schon URLs änderst – darauf achten, dass deine alte XML-Sitemap weg kommt oder nicht einfach mit den neuen URLs verlängert wird.

Konkret: Was ist zu tun?

Mach dir nicht zuviele Gedanken darüber, ob in den Google Webmaster Tools Seiten sind, die es nicht mehr gibt, sondern darüber, warum es Seiten nicht mehr gibt. URLs sollten ewig Bestand haben. Und wenn du wegen eines Relaunches die URLs ändern musst, gibt es auch die Möglichkeit, die alten URLs auf neue, funktionierende URLs umzuleiten.

Bleiben noch die Fälle, bei denen eine Seite einfach keinen Sinn mehr macht. Etwa die URL für eine Fernsehsendung, die gelaufen ist und nie wiederholt werden wird. Diese könnte man zwar auch irgendwohin umleiten – aber man könnte auch einen 410-Statuscode dort hinein bauen. Der lautet: „gone“. Das ist in diesem Fall besser als 404 („not found“), denn niemand muss mehr suchen – da klar ist, dass die Seite weg ist.

Und, ganz wichtig: Haben Seiten Backlinks (egal ob intern oder extern) ist ein 404-Fehler immer ein böses Foul. Und zwar nicht nur wegen Google sondern auch wegen der Besucher. Die sollte auf jeden Fall immer umgeleitet werden!

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Durch die weitere Nutzung der Seite stimmst du der Verwendung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden.

Schließen