Warum sind meine Seiten/Fehler so lange in den Google Webmaster Tools?

seo frageFrage: Vielleicht könnt Ihr mir ja bei einem Verständnis Problem bezüglich der WMT weiterhelfen. Ich bekomme unter den Crawlingfehlern immer massenhaft 404-Fehler von URLs unserer alten Webseitenstruktur übermittelt. Nach dem Relaunch vor ca. 1Jahr hat sich die komplette Struktur geändert. Wenn Ich mit in den WMT anschaue worüber diese verlinkt sind, werden mir ebenfalls alte URLs angezeigt. Jetzt ist meine Frage: wie kann dies sein – wenn die Seite mit der alten Struktur seid ca. 1 Jahr offline ist? Vielleicht habt ihr eine Idee für mich. (Stefan)

Antwort: Ja, das sehen wir auch häufig und ich klappe deshalb gleich einige Gedanken dazu aus.

gwt fehler

So sieht das aus, wenn man viele Fehler in den Google Webmaster Tools hat. Die meisten werden mit solchen 404-Mengen wohl kaum konfrontiert werden. Aber: Diese Seite hier funktioniert trotzdem bestens!

Beginnen wir mit der ersten Erklärung: der Crawling-Vorgang

Ein einmal gemeldeter Fehler in den Google Webmaster Tools bleibt manchmal extrem lange dort. Darüber wundern sich viele Webmaster. Obwohl es die Seiten schon seit Jahren nicht mehr gibt, stehen sie wie eine Eins in den GWT. Das mag einen ärgern – aber ich finde es auch etwas verständlich, wenn man sich mal den Crawl-Vorgang vorstellt:

Stell dir vor, du bist der Google-Crawler und da draußen gibt es mehr zu untersuchende URLs als es Sterne am Himmel gibt. Was tust du? Du besuchst die Seiten häufiger, auf denen sich etwas tut und die Seiten, die seit Jahren, äh, „stabil“ sind nur selten. Bis der Crawler also mal wieder auf eine deiner 404-Seiten kommt, kann einige Zeit vergehen.

Und nun noch ein zweiter Gedanke: Würdest du eine Seite, die dir einen 404-Fehler zeigt, sofort aus dem Index nehmen? Hoffentlich nicht. Denn „404“ heißt „not found“ und das bedeutet, dass eine Seite (gerade) nicht zu finden ist – etwa wegen eines kurzzeitigen Server-Ausfalls. Der darf ja nicht dazu führen, dass eine ganze Webseite aus dem Index fliegt… Also, der Crawler kommt zwei- oder mehrfach vorbei bis er entscheiden kann, ob eine Seite wirklich nicht mehr da ist.

Das heißt: Selten besuchte Seiten müssen ein paar mal besucht werden, bevor sie raus fliegen. Das kann dauern. Und zwar Monate oder gar Jahre.

Die zweite Erklärung: Warum sie eh drin bleibt

Und wenn heute unter der URL domain.de/xyz eine Seite war und morgen nicht mehr – also ein 404-Fehler gezeigt wird: Warum sollte Google dir diese Seite NICHT als 404-Fehler anzeigen? Schließlich stimmt die Aussage! Und wenn wir uns veranschaulichen, dass Google Daten im Zweifelsfall speichert, können Fehler ewig drin bleiben.

gwt Fehler

In der GWT-Fehlerbehandlung auf die URL klicken und dann auf „Verlinkt von“: Dort finden sich alle Links (externe, interne) Links auf diese Seite. Erst wenn diese weg sind, kann die URL verschwinden.

Vor allem, wenn die Seiten noch von irgendwo her verlinkt sind. Dann macht diese „Fehler“-Aussage sogar verdammt viel Sinn und du solltest dir anschauen, was auf deiner Seite wohin linkt. Es reicht ja schon, wenn die Seiten noch auf einer alten Sitemap oder in alten Artikeln verlinkt werden – Sie bleiben dann genau so lange in den Fehlern stehen, bis du sie entweder per 301-Redirect umleitest oder alle Links darauf entfernst.

Wenn alle verlinkenden Seiten in der GWT-Fehlerbehandlung auch nicht mehr existieren, musst du dich wiederum auf die Suche nach deren Links machen… (Sorry, deshalb sind aufgeräumte Systeme und Umleitungen nach Relaunches eine verdammt gute Idee.)

Dritte Erklärung: Falscher Umgang mit dem Technik-Kram

Holger Etzel hat mich in den Kommentaren auf zwei immer wiederkehrende Fehler gestoßen, die geradezu zwanghaft dafür sorgen, dass die 404-Seiten im Index bleiben:

  1. Wer versucht, mit seiner robots.txt Seiten aus dem Index zu holen, wird scheitern. Denn dann kennt Google nämlich die URL der Seite – aber darf sie nicht crawlen. Das heißt, Google erkennt überhaupt nicht, dass sie gar nicht mehr da ist. Also: Finger weg bei der Fehlerbehandlung von der robots.txt.
  2. Die Verlinkung auf die nicht mehr existierende Seiten kann auch aus der guten, alten XML-Sitemap stammen. Du solltest – wenn du schon URLs änderst – darauf achten, dass deine alte XML-Sitemap weg kommt oder nicht einfach nit den neuen URLs verlängert wird.

Konkret: Was ist zu tun?

Mach dir nicht zuviele Gedanken darüber, ob in den Google Webmaster Tools Seiten sind, die es nicht mehr gibt, sondern darüber, warum es Seiten nicht mehr gibt. URLs sollten ewig Bestand haben. Und wenn du wegen eines Relaunches die URLs ändern musst, gibt es auch die Möglichkeit, die alten URLs auf neue, funktionierende URLs umzuleiten.

Bleiben noch die Fälle, bei denen eine Seite einfach keinen Sinn mehr macht. Etwa die URL für eine Fernsehsendung, die gelaufen ist und nie wiederholt werden wird. Diese könnte man zwar auch irgendwohin umleiten – aber man könnte auch einen 410-Statuscode dort hinein bauen. Der lautet: „gone“. Das ist in diesem Fall besser als 404 („not found“), denn niemand muss mehr suchen – da klar ist, dass die Seite weg ist.

Und, ganz wichtig: Haben Seiten Backlinks (egal ob intern oder extern) ist ein 404-Fehler immer ein böses Foul. Und zwar nicht nur wegen Google sondern auch wegen der Besucher. Die sollte auf jeden Fall immer umgeleitet werden!

GD Star Rating
loading...
Warum sind meine Seiten/Fehler so lange in den Google Webmaster Tools?, 3.7 out of 5 based on 23 ratings

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Kommentare (9)

  1. holgeretzel

    Hallo Eric,
    wie immer ein guter Artikel. Vielleicht noch zwei Anmerkungen, die Du an anderer Stelle schon thematisiert hast. Häufig gibt es zwei „interne“ Ursachen, die 404er-Zombies auf Ewigkeit produzieren: 
    1. die Idee, man könnte alte Strukturen per robots.txt wegbekommen. Nein, das Gegenteil ist der Fall. (Nachzulesen in einigen Deiner Posts zu diesem Thema). Sollte klar sein, wird aber immer und immer wieder versucht.
    2. besonders nach Relaunches: alte sitemap.xmls bleiben bestehen oder werden nur verlängert. Ebenfalls eine Garantie auf ewige 404er.

  2. eric108

    holgeretzel Sauguter Punkt, Holger! Klar, die robots.txt und alte sitemaps. Das nehme ich gleich in den Hauptbeitrag mit auf. Danke!

  3. MarcelWinter

    Hi Eric,
    schöner Artikel. Vielleicht für einige
    Wordpressbegeisterte noch ein Tipp:
    http://wordpress.org/plugins/redirection/. Ideal um Umleitungen schnell
    und einfach entsprechend zu konfigurieren.

  4. Pingback: "Warum sind meine Seiten/Fehler so lange in den Go... | Thorsten BrendelThorsten Brendel

  5. inpirat

    Schöner Artikel und vielen Dank für die Erklärungen.

  6. jacor

    Hallo Eric, ein toller Artikel, vielen Dank.
    Was mich diesbezüglich noch interessiert ist folgendes:
    Unter Crawling Fehler bei „News“ scheint Google sehr häufig ein
    Problem bei der Indexierung selbiger zu haben.
    Bei den Fehlern ist oft zu lesen: „Artikel zu
    lang“. Leider trifft das nicht mal bei der Hälfte der aufgeführten Artikel
    zu.
    Auch die Erklärung Seitens Google: „Häufig handelt es
    sich hierbei um Nachrichtenartikel mit Benutzerkommentaren unter dem Artikel
    oder um HTML-Layouts, die weiteres Material außer dem Artikel selbst
    enthalten.“ ist leider nicht zutreffend. Hast Du hier Erkenntnisse,
    inwieweit diese Crawling Fehler berücksichtigt werden sollen? Fakt ist nämlich,
    dass nur ein Teil der aufgeführten, fehlerhaften Artikelinhalte nicht indexiert
    sind, der Rest ist nämlich vorhanden und sogar gut geranked.

  7. eric108

    jacor Jepp, das hatten wir auch schon mal bei einem Kunden. Wir haben uns dann die Seite angeschaut und erkannt, dass neben dem Artikel noch viele andere Texte auf der Seite standen. Teaser und Selbstbeschreibungen. Die sollten da ja ohnehin nicht als Text stehen…
    Ist das vielleicht bei dir auch der Fall?

  8. Pingback: SEO Auslese September 2013 | Online Marketing Agentur (Projecter GmbH)

  9. Pingback: Wichtigkeit von Weiterleitungen?

Kommentare sind geschlossen.