Noindex, Disallow (robots.txt) oder beides gleichzeitig?

Immer wieder stoßen wir auf dieses leidige „noindex vs. robots.txt“-Thema. Deshalb hier mal eine schnelle Zusammenfassung. Es geht um die Frage, wann und wie man Seiten aussperrt, die nicht gecrawlt bzw. nicht in den Google Index sollen.

„disallow“ per robots.txt

Die robots.txt soll das Verhalten der Crawler steuern. Sie ist dafür da, den Suchrobotern zu zeigen, wo sie Inhalte finden bzw. was nicht gecrawlt werden soll. Und genau dafür soll es auch verwendet werden: Alle Verzeichnisse, die den Robot nichts angehen, sollten per „disallow“ ausgeschaltet werden. Das können unnötige Bilderverzeichnisse sein oder Seitenbereiche, in denen Millionen von gleichen oder ähnlichen Seiten zu finden sind, mit denen er sich gar nich beschäftigen soll.

Disallow: /login/

Doch MERKE: Damit wird lediglich gesagt, dass er die Seiten nicht crawlen soll. Falls es etwa externe Links auf Seiten in diesem Verzeichnis gibt, wird der Robot diese Seite zwar nicht crawlen (das darf er ja nicht) aber sie in den Index aufnehmen. Warum auch nicht? Er hat dann zwar nur die URL und den Anchor-Text der Links – aber die hat er.

„noindex“ in den Metatags

Das „noindex“-Metatag verbietet dagegen dem Robot die Seite in den Index aufzunehmen. Auch das wird er brav machen.  Das gilt, wenn ich etwa Seiten habe, die aus urheberrechtlichen Gründen nicht in den Index gehören – oder z.B. eigene Suchergebnisseiten, die man aus SEO-Gründen möglichst draußen halten sollte.

<meta name="robots" content="noindex">

Es gibt noch eine Verfeinerung (die wir für pagnierte Seiten empfehlen), bei der zwar die Seite nicht in den Index aufgenommen wird – aber den Links darauf gefolgt wird:

<meta name="robots" content="noindex,follow">

Beides tut der Google-Crawler sehr zuverlässig und wir können uns darauf verlassen.

Also am besten gleich „disallow“ und „noindex“ addieren?

Will man nun also einen Seitenbereich (z.B. die eigenen Suchergebnisse) ganz sicher nicht im Index haben, so der Gedanke mancher, dann ist es wohl klug, diese Seite sowohl zu „noindexen“ also auch zu „disallowen“. Doch das ist falsch!

Denn was passiert dann? Google erhält den Link auf eine Seite, nimmt diese in den Index auf und crawlt sie – NICHT. Und weil die Seite nicht gecrawlt wird, sieht der Robot gar nicht, dass in den Meta-Tag ein „noindex“ steht. Die Seite wird also weiterhin (nur als URL und Anchor-Text) im Index bleiben. Deshalb merke:

  • Wenn du Seiten zuverlässig aus dem Index draußen haben möchtest, ist der Eintrag „disallow“ in der robots.txt ein Fehler.
  • Wenn du Seiten nicht gecrawlt haben möchtest, ist das „noindex“ auf der Seite sinnlos.

So sollten etwa Suchergebnisseiten, die aus dem Index gehalten werden müssen, ein „noindex“ in den Meta-Tags enthalten aber nicht in der robots.txt erwähnt sein. Und ein Bereich mit massenhaft Duplicate Content gehört eher in die robots.txt, damit der Crawler seine Zeit damit nicht verschwendet.

Alle einverstanden? Weitere Beispiele?

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Durch die weitere Nutzung der Seite stimmst du der Verwendung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden.

Schließen