Noindex, Disallow (robots.txt) oder beides gleichzeitig?

Immer wieder stoßen wir auf dieses leidige „noindex vs. robots.txt“-Thema. Deshalb hier mal eine schnelle Zusammenfassung. Es geht um die Frage, wann und wie man Seiten aussperrt, die nicht gecrawlt bzw. nicht in den Google Index sollen.

„disallow“ per robots.txt

Die robots.txt soll das Verhalten der Crawler steuern. Sie ist dafür da, den Suchrobotern zu zeigen, wo sie Inhalte finden bzw. was nicht gecrawlt werden soll. Und genau dafür soll es auch verwendet werden: Alle Verzeichnisse, die den Robot nichts angehen, sollten per „disallow“ ausgeschaltet werden. Das können unnötige Bilderverzeichnisse sein oder Seitenbereiche, in denen Millionen von gleichen oder ähnlichen Seiten zu finden sind, mit denen er sich gar nich beschäftigen soll.

Disallow: /login/

Doch MERKE: Damit wird lediglich gesagt, dass er die Seiten nicht crawlen soll. Falls es etwa externe Links auf Seiten in diesem Verzeichnis gibt, wird der Robot diese Seite zwar nicht crawlen (das darf er ja nicht) aber sie in den Index aufnehmen. Warum auch nicht? Er hat dann zwar nur die URL und den Anchor-Text der Links – aber die hat er.

„noindex“ in den Metatags

Das „noindex“-Metatag verbietet dagegen dem Robot die Seite in den Index aufzunehmen. Auch das wird er brav machen.  Das gilt, wenn ich etwa Seiten habe, die aus urheberrechtlichen Gründen nicht in den Index gehören – oder z.B. eigene Suchergebnisseiten, die man aus SEO-Gründen möglichst draußen halten sollte.

<meta name="robots" content="noindex">

Es gibt noch eine Verfeinerung (die wir für pagnierte Seiten empfehlen), bei der zwar die Seite nicht in den Index aufgenommen wird – aber den Links darauf gefolgt wird:

<meta name="robots" content="noindex,follow">

Beides tut der Google-Crawler sehr zuverlässig und wir können uns darauf verlassen.

Also am besten gleich „disallow“ und „noindex“ addieren?

Will man nun also einen Seitenbereich (z.B. die eigenen Suchergebnisse) ganz sicher nicht im Index haben, so der Gedanke mancher, dann ist es wohl klug, diese Seite sowohl zu „noindexen“ also auch zu „disallowen“. Doch das ist falsch!

Denn was passiert dann? Google erhält den Link auf eine Seite, nimmt diese in den Index auf und crawlt sie – NICHT. Und weil die Seite nicht gecrawlt wird, sieht der Robot gar nicht, dass in den Meta-Tag ein „noindex“ steht. Die Seite wird also weiterhin (nur als URL und Anchor-Text) im Index bleiben. Deshalb merke:

  • Wenn du Seiten zuverlässig aus dem Index draußen haben möchtest, ist der Eintrag „disallow“ in der robots.txt ein Fehler.
  • Wenn du Seiten nicht gecrawlt haben möchtest, ist das „noindex“ auf der Seite sinnlos.

So sollten etwa Suchergebnisseiten, die aus dem Index gehalten werden müssen, ein „noindex“ in den Meta-Tags enthalten aber nicht in der robots.txt erwähnt sein. Und ein Bereich mit massenhaft Duplicate Content gehört eher in die robots.txt, damit der Crawler seine Zeit damit nicht verschwendet.

Alle einverstanden? Weitere Beispiele?

GD Star Rating
a WordPress rating system
Noindex, Disallow (robots.txt) oder beides gleichzeitig?, 4.1 out of 5 based on 21 ratings

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Kommentare (17)

  1. Lori

    Und noch ein kleiner Tipp, sollte doch mal eine Seite den Weg in den Index finden (obwohl man das nicht möchte).
    1) Alle internen Links auf diese Seite auf Nofollow setzen
    2) Auf der Seite das Meta-Tag mit Noindex setzen (es darf zusätzlich Follow angegeben werden)
    3) Per GoogleWebmasterTools die Seite „manuell“ entfernen!

  2. Eric Kubitz (Beitrag Autor)

    @lori: Korrekt! Vielen Dank.

    Bei internen „nofollow“ zucke ich aber immer ein wenig zurück. Das, finde ich, kommt auf den konkreten Fall an. Denn wenn es viele interne Links auf solche Seiten gibt, sollte man sich vielleicht auch mal kurz die Frage stellen, ob das wirklich so sein muss (etwa auf Suchseiten bezogen).

    Trotzdem hast du natürlich völlig recht!

  3. Bastian

    Erm…

    und

    … sind absolut das Gleiche…!? völlig Banane, ob du follow angibst oder nicht – so lange du nicht explizit verbietest, folgt der Crawler (also auch in deiner ersten Anweisung).

  4. Bastian

    Schick… HTML mag er wohl nicht. Naja – jedenfalls die beiden Anweisungen in „“noindex” in den Metatags“ sind gemeint 😉

  5. Eric Kubitz (Beitrag Autor)

    Hey Bastian,
    du meinst, die „Standard-Einstellung“ von „noindex“ ist, dass er den Links folgt? Man müsste es also mit „noindex,nofollow“ angeben, wenn er ihnen NICHT folgen soll?
    Äh, da würde ich mich dann sehr irren. Muss ich mal nachgucken, würde mich aber sehr wundern….

    Oder habe ich dich falsch verstanden?

  6. Tobias Schwarz

    Durch das Aussperren der Seiten über “disallow” per robots.txt versickert der den Seiten zugewiesene Linkjuice. Eine Weitervererbung auf andere Seiten ist nicht möglich, da die Seiten ja nicht gecrawlt werden dürfen. Aus meiner Sicht ist “disallow” per robots.txt daher schon länger nicht mehr zu gebrauchen.

  7. Eric Kubitz (Beitrag Autor)

    @tobias: Naja, es gibt von Verzeichnisse, die ganz gut per robots.txt ausgeschlossen werden können. Mindestens bei unnötigen Bilddateien und (in manchen Fällen) das Javascript-Verzeichnis sind wir uns ja vielleicht einig. Aber wir haben etwa auch Kunden, deren Server die ganze Crawlerei nicht mitmachen. Da hilft das dann. (Und ja, ich weiß, das zieht gleich ’ne Meng anderer Fragen nach sich. Aber als erste Lösung ist dann „disallow“ sinnvoll. Finde ich.)

  8. Uwe

    Hm, ich kann dir nicht ganz folgen. Wenn ich einen Relaunch anfange, beginne ich damit eine robots zu bauen useragent sternchen disallow slash. Damit ist es mir bislang zuverlässig gelungen zu verhindern, dass der Bot mich bei der Arbeit beobachtet und meine Baustelle in den Index zieht. Erst wenn ich fertig bin, entferne ich das slash und erlaube die Aufnahme in den Index.
    Für die Verzeichnisse (Systemzeug etc.) die im Index nix zu suchen habe, bleibt das disallow bestehen und G hat sich bislang dran gehalten.
    Ein echtes Problem hast du erst dann, wenn Bereiche bereits in den Index gelangt sind, die du da nicht haben willst. Dann hilft kein disallow und auch kein noindex. Dann musst du über die Webmastertools ran.

  9. Eric Kubitz (Beitrag Autor)

    @uwe: Klar, wenn du eine neue Seite baust, kann das funktionieren. Dann haben die Unterseiten ja auch keine Links. Aber bei einer alten Seite (wie du selber sagst) bleiben die halt eben nicht aus dem Index. Das ist im Übrigen auch das, was Google dazu sagt…

  10. eric108

    test

  11. BastianGrimm

    Eric, korrekt: Das „klassische“ Setting für jede Verteiler-Seite ist doch einfach ein „noindex“ drauf, den Links folgt der Crawler so lange, wie du nicht explizit ein „nofollow“ dazu nimmst.
     
    > Man müsste es also mit „noindex,nofollow“ angeben, wenn er ihnen NICHT folgen soll?
     
    Richtig. Die „Grundeinstellung“ ist im Grunde positiv, habe ich kein Meta Tag behandelt G das als „index“ und „follow“ – wenn ich „noindex“ überschreibe und die „follow“ Anweisung nicht verändere, warum sollte G dann dort ein autom. „noindex“ draus machen? Kann ich so nicht bestätigen – und in Zeiten des Datenhungers von G würde mich das auch sehr, sehr verwundern.
     
    Anders natürlich bei der Anweisung „none“, die als kombinierte Angabe von „noindex,nofollow“ fungiert.

  12. BastianGrimm

    typo -> korrekt wäre: „wenn ich „noindex“ überschreibe und die „follow“ Anweisung nicht verändere, warum sollte G dann dort ein autom. „nofollow“ draus machen?“

  13. eric108

     @BastianGrimm mmmmh. Wenn du das so schreibst, klingt das völlig richtig. Und du hast mich auch schon (fast). Allerdings spricht gegen dein letztes Argument („Warum sollte er ein ’nofollow‘ draus machen?“) das „disallow“-Argument: Warum sollte er sich eine Seite, die er nicht indizieren darf, überhaupt anschauen? Mit dem „follow“ gebe ich ihm aber den Hinweis, dass die Links auf der Seite wichtig sind. Ein reines „noindex“ würde – nach meiner bisherhigen Ansicht – dazu führen, dass er die Finger von der Seite lässt.
     
    Du hast mich aber sehr unsicher gemacht. Ich werde schauen, ob ich vielleicht heute beim Webmaster-Hangout von John Müller dabei bin und ihn frage. Dann wissen wir das 😉
     
    Sehr spannend! Danke!

  14. BastianGrimm

    moment: wenn eine seite in den robots.txt per disallow gesperrt ist, schaut er sich die seite NICHT an. lediglich die tatsache, dass es eine (externe) linkreferenz auf die jeweilige url besteht, reicht, um diese in den SERPs als minimalisiertes listing (url only, kein titel etc.) anzuzeigen…
     
    > Ein reines „noindex“ würde – nach meiner bisherhigen Ansicht – dazu führen, dass er die Finger von der Seite lässt.
     
    Nope 😉 Er nimmt das, was auf der Seite drauf ist und arbeitet damit weiter. Lediglich kein Listing in den SERPs.. :)

  15. etradogmbh

    etradogmbh 
    Sehr umfangreiche ausführliche und interessante Liste – Danke dafür.
    Der Ordnunghalber sollte erwähnt werden, dass in jeder Zeile das Raute-Zeichen „#“ als Kommentar erlaubt ist.
    # Test-Seite
     
    Igor

  16. Pingback: WordPress: robots.txt und noindex Meta-Tag Durcheinander // eTaktiker

  17. Pingback: Etwa 22 Werkzeuge für bessere Crawlability - Onpage -SEO Book

Schreiben Sie einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *