Etwa 22 Werkzeuge für bessere Crawlability

cralabilityNennen wir es „Crawlabilty“: Wie führen wir den Google-Crawler durch unsere Seite? Möglichst schnell und auf alle wichtigen Seiten. Dazu gehört natürlich auch, dass wir ihn nicht mit unnötigen URLs unnötig beschäftigen. Hier etwa 22 Werkzeuge für diese Arbeit.

Alle (wichtigen) Seiten in den Index bringen

1. Die XML Sitemap

Oh, hier sollte jemand etwas tun! Nicht einmal die Hälfte der Seiten sind im Index...

Oh, hier sollte jemand etwas tun! Nicht einmal die Hälfte der Seiten sind im Index…

Weniger ein Ranking-Faktor als ein Analyse-Tool sind die XML-Sitemaps, die man in den Google Webmaster Tools anmelden kann. Einige Faustregeln dafür:

  • In die XML-Sitemaps gehören alle guten Seiten rein – aber auch wirklich nur diese  also keine gesperrten und keine unnötigen.
  • An den XML-Sitemaps erkennt man schön, wie viele Seiten wirklich gecrawlt wurden. Dies sollte überwacht werden.
  •   Da diese Angaben in den Google Webmaster Tools aber sehr grob erfolgen, lohnt es sich bei größeren Web-Seiten diese XML-Sitemaps in sinnvolle Unter-Sitemaps aufzuteilen und über einen Sitemaps-Index zu steuern.
  • Die XML-Sitemaps ernst nehmen – aber nicht glauben, dass man damit das Ranking beeinflussen könnte…

2. HTML Sitemap

Etwas ranking-relevanter kann eine HTML-Sitemap sein. Sie wird hin und wieder auch mal als „Archiv“ oder „Index“ bezeichnet. So eine Sitemap kann sehr gut dabei helfen, auch ältere Seiten oder Produkte noch ordentlich mit Linkjuice zu versorgen.

Hier drei Gedanken dazu: Erstens muss eine HTML-Sitemap nicht der Navigations-Struktur folgen (es kann z.B. auch tatsächlich der Produkt-Index eines Shops sein). Zweitens sollte die Sitemap pro Unterseite auch nicht viele Tausend Links enthalten – 100 bis 300 Links pro Unterseite sollten reichen. Drittens sollte die Seite so gestaltet werden, dass die User sie auch verstehen und möglicherweise sogar mögen. Denn das ist die Voraussetzung für den Punkt Dreikommafünf: Sie sollte von jeder URL der Webseite verlinkt werden.

3. Die Navigation

Die Navigation legt die Hierarchie der Webseite fest. Es mag sein, dass die User die Navigation selten verwenden – aber für den Robot ist die Navigation für das vertikale Verständnis der Seite wichtig. Christoph hat in seinem SEO-Check  dazu sehr viele schlaue Dinge geschrieben. Was man zusammenfassend sagen kann: Die Navigation ist zwar „verlässlich“ – also auf jeder Seite grundsätzlich gleich zu erreichen. Aber sie kann sich von den Elementen nach „unten“ hin anpassen. Man bildet dann innerhalb einer Kategorie die Unterpunkte dieser Kategorie detaillierter ab – und behandelt die Unterpunkte der anderen Kategorien zu sehr grob.

Ach, schaut euch das bei Amazon an…

4. Related Content / Interne Verlinkung

Auch das lässt sich hübsch bei Amazon beobachten: Die interne Verlinkung auf horizontaler Ebene (also zwischen Produkten oder zwischen Beiträgen) ist nicht nur für die Führung von Usern wichtig sondern auch für die Crawlability. Denn so kann (ohne die Navigation umbiegen zu müssen) auch ein älteres Produkt mal wieder mit Linkjuice versorgt werden, weil es unter „User kauften auch…“ oder „Zubehör von…“ steht.

Meine Empfehlung: Bei Related Content sollte man man eine manuelle Verlinkung versuchen zu vermeiden. Denn diese benötigt zu viel unnötigen Pflegeaufwand (zumindest in dynamischen Themen). Lieber gleich mit einem vernünftigen Plugin oder Modul arbeiten…

5. Paginierte Seiten

pagnierte Seiten

Vor allem etwas größere Shops und Portale haben damit zu kämpfen, dass ständig neue Produkte und Beiträge erscheinen. Die alten Produkte sind dann schnell „nach hinten“ verschoben und via Navigation nur über paginierte Seite zu erreichen. Diese sind zwar für die Navigation nicht wirklich wichtig (wer klickt sich schon 20 Seiten lang durch eine Produkt-Liste?) – aber für den Robot wichtig. Hier einige Tipps:

  • Die erste Seite gehört in den Index – die folgenden Seiten sind „Near Duplicate Content“ und machen im Index keinen Sinn. Deshalb gehören sie per „noindex“ ausgeschlossen. (Nicht per robots.txt, nicht per Canonical-Tag)
  • Da die paginierten Seiten aber für die Durchblutung der durch sie verlinkten Seiten/Produkte verantwortlich sind, sollte das Robots-Metatag heißen „noindex/follow“.
  • Da diese Seiten für User ohnehin nicht so interessant sind, kann man auf ihnen auch gerne 50 oder mehr Unterseiten/Produkte verlinken. Allerdings sollte man dann einige Links in den Randpalten und in der Navigation sparen.
  • Es gibt viele Theorien darüber, wie diese Seiten miteinander verlinkt werden. Die sicherlich schlechteste ist, unten einfach ein „weiter…“ zur nächsten Seite zu machen. Besser ist, die angezeigten Seiten möglichst intelligent über die ganze Strecke zu verteilen. (also z.B. „1, 2, 3, 10, 20, 30, 100, 121“).
  • Man kann experimentell auch mit „rel=“prev“, rel=“next““ arbeiten. Vielleicht hilft es ja 😉

6. Google Webmaster Tools

Über den Menüpunkt „Abruf wie durch Google“ (unter „Status“) kann man einzelne Seite – aber auch alle damit verlinkte Seiten dem Crawler vorlegen. Dann wird er sich motiviert darum kümmern. Wer also einen Bereich umgebaut oder eine Domain mit neuem Inhalt versehen, wird damit viel Spaß haben.

Unnötige Seiten sperren/entwerten

7. Paginierte Seiten

Darüber haben wir ja schon gesprochen, doch der Punkt gehört einfach auch unter diese Überschrift. Also: Paginierte Seiten gehören nicht in den Index – sind aber wichtig für die Durchblutung. Also behandelt sie auch so.

8. robots.txt

In der robots.txt kann man den Crawler insoweit steuern, dass er bestimmte Verzeichnisse NICHT crawlen sollen. Es ist grundsätzlich nicht notwendig, ihm zu sagen, dass er irgendwas crawlen soll. Wichtig sind also diese Zeilen darin:

User-agent: *
Disallow: /newsticker/

Dort gehören alle Verzeichnisse und Seiten hinein, die er nicht crawlen soll, weil wir ihm die Arbeitszeit sparen wollen. Wir werden damit nicht erreichen, dass die in diesen Verzeichnissen liegenden Seiten nicht vielleicht doch in den Index kommen. Denn wenn sie verlinkt sind, wird er sie trotzdem aufnehmen – aber nicht crawlen. Das Ergebnis ist dann eine zweizeilige Anzeige in den Suchergebnissen.

Also, merke: „Geheime“ Seiten, die nicht in den Index gehören, werden per „noindex“ behandelt. Seiten, die sich der Robot beim Standard-Crawl sparen kann, werden in der robots.txt disallowed. Und ob es Sinn macht, Noindex, Disallow gleichzeitig zu verwenden, habe ich hier beantwortet.

9. Robots-Metatag „noindex“

In den Meta-Tags einer Seite kann man dem Robot sagen, dass er diese Seite bitte nicht in den Index aufnehmen soll. Das erfolgt durch die Zeile

<meta name="robots" content="noindex">

Er darf diese Seite also nicht in den Index aufnehmen. Nun, er wird sie trotzdem speichern – aber das sollte uns egal sein, da wir es nicht ändern können. Da sich Google an dieses Metatag hält, ist es die einzige sichere Möglichkeit, Seiten NICHT im Index zu finden. Ein Nachteil ist, dass er sich die Seite erst anschauen muss, um auf das Metatag zu kommen. Auch damit verschwendet er Rechenzeit. Doch das können wir ihm kaum ersparen. Allerdings könnte es sich lohnen, auf Seiten mit ziemlich vielen „noindex“-Seiten vielleicht doch mit dem „nofollow“ zu arbeiten. Doch das will gut abgewogen sein – ich kann hier keinen allgemeinen Ratschlag geben.

10 Canonical Tag

Die beste Hilfe gegen Duplicate Content. Nicht weniger – aber auch nicht (viel) mehr. Das Canonical Tag funktioniert genauso, wie es soll: Gibt es zwei URLs (egal ob intern oder extern) mit dem gleichen bzw. mit dem selben Content, richtet das Canonical Tag den Fokus des Crawlers auf einen davon. Die Zeile

<link rel=”canonical” href=”http://www.domain.de/richtige-URL” />

in der duplizierten Seite kanonisiert den Robot – nicht den User. Der sieht das Canonical Tag überhaupt nicht, während die kanonisierte Seite von Google als die Content-Quelle anerkannt wird und sogar die Links auf der zweiten Seiten für die kanonisierte Seite arbeiten. Mehr dazu hier.

11. Parameter Behandlung in den GWT

Nennen wir es "Crawlabilty": Wie führen wir den Google-Crawler durch unsere Seite. Möglichst schnell und auf allen wichtigen Seiten.

Bist du dir sicher, dass bei jedem Parameter weißt, was er tut?

In den Google Webmaster Tools können im Bereich „Crawling“ die URL-Parameter behandelt werden. Völlig zurecht warnt Google, dass dies nur von Admins gemacht werden sollte, die wissen was sie tun. Denn wenn ein CMS oder ein Shop-System mal damit angefangen hat, URLs mit Parameter zu generieren, ist es meist gar nicht mehr so einfach, den Überblick zu behalten.

Deshalb kann ich hier auch nicht allzu konkrete Tipps geben. Denn Parameter sind nicht „des Teufels“ sondern manchmal einfach notwendig. Und Google kann sie auch viel besser verstehen, als noch vor vier oder fünf Jahren. Aber es ist ein sehr individuelles Geschäft, das auch gut mit der robots.txt, den XML-Sitemaps und dem Canonical-Tag abgestimmt werden muss. Also überlegt euch gut, was ihr da tut.

Duplicate Content behandeln

Wenig Sinn bei Duplicate Content macht die Verwendung von robots.txt und das Meta-Tag „noindex“. Denn damit vermeiden wir zwar, dass doppelte Inhalte in den Index kommen. Aber wenn diese Seiten trotzdem gut verlinkt sind, töten wir auch deren internen und externen Linkjuice. Das ist Unfug. Deshalb gibt es für den Duplicate Content nur zwei Strategien:

12. Vermeiden

Ganz einfach: So lange es keinen Duplicate Content gibt, muss dieser nicht behandelt werden. Und weil das immer der Königsweg ist, sollte man sich im ersten Schritt immer überlegen, wie man den DC wieder los wird – bevor man über technische Tricks nachdenkt, wie er denn möglichst wenig schadet.

13 Canonical Tag

Das ist der einzige vernünftige Weg, mit Duplicate Content fertig zu werden. Egal, ob man praktisch identische Produkt-Listen aus einem Shop-Filter bekommt oder URLs unvermeidbare Parameter werfen, die für den gleichen Content eine andere URL bauen: Das Canonical Tag hilft. Doch schon kleine Fehler können zu großen Problemen führen. Deshalb auch hier: Das ist was für Profis. Und so lange es keinen Duplicate Content auf der Seite gibt – kann man sich dieses scharfe Werkzeug sparen.

Performance rules

Nach all den Punkten oben wird das große Ziel immer klarer: Erstens wollen wir den Robot dahin steuern, wo er hin soll. Und zweitens soll er möglichst viele Seiten davon sehen. Und genau dafür ist natürlich eine ordentliche Performance entscheidend. Google betreibt seine Page-Speed-Services ja nicht aus schierer Begeisterung an der Technik – sondern, weil schnelle Webseiten dem Konzern bares Geld sparen. Je schneller der Crawler durch 100.000 Seiten von Seite „A“ kommt, umso eher kann Seite „B“ gecrawlt werden…

Ein direkter Zusammenhang: Je schneller eine Seite, umso mehr Seiten werden gecrawlt...

Ein direkter Zusammenhang: Je schneller eine Seite, umso mehr Seiten werden gecrawlt…

Hier eine kurze Übersicht, der möglichen Faktoren:

14. Größe von Dateien reduzieren

Komprimierung, Bilder in vernünftiger Auflösung, HTML-Minify.

15. Connections reduzieren

Zum Beispiel, Javascript und CSS zusammen fassen und mit Sprites arbeiten.

16. Caching

Nach Bedarf und auf Basis von einzelnen Dateien einstellen.

17. Datenbanken

Nicht alles, was man für die Seite benötigt, muss aus einer Datenbank kommen…

18 Webhosting

Ein Billig-Anbieter ist halt ein Billig-Anbieter. Das zeigt, wie wertvoll einem die Seite ist. Hier einige Faktoren.

Mehr dazu, in einem Beitrag zum Thema „Performance„. Dieser ist zwar schon ein paar Monate alt – aber das zeigt, wie „zeitlos“ dieses Thema eigentlich ist. 

Noch ein paar Hinweise für die Crawlability

Bei der Crawlability sollte man nicht allzu sehr tricksen – sondern einfach gute Arbeit abliefern. Denn wer hier nicht sauber arbeitet, wird spätestens bei der nächsten Skalierung der Seite oder bei einem Relaunch darüber stolpern. Das sage ich aus eigener Erfahrung…

Doch hier noch ein paar Tricks und Bemerkungen, die noch dazu gehören – aber nicht unter die Punkte oben passen:

19. Der Trick mit dem Canonical-Tag

Das Canonical-Tag ist natürlich zur Behandlung von Duplicate Content erschaffen und soll auch dafür eingesetzt werden. Allerdings ist Google hier nicht sonderlich pingelig: Das Tag funktioniert auch zwischen recht unterschiedlichen Seiten. Beispiel: Gibt es eine intern stark verlinkte Seite deren Ranking aber egal ist (z.B. Newsletter-Anmeldung) und eine conversionstarke Unterseite, die aber nicht soooo doll verlinkt ist, lohnt sich möglicherweise ein Canonical-Tag vom Newsletter auf die Conversions-Sau. Nur mal so experimentell…

20. Aktualisierungen als Beschleuniger

Zur Unterstützung der o.g. Maßnahmen, um etwa ältere aber wichtige Seiten wieder in den Index zu bringen, hilft Aktualität. Spätestens seit dem Freshness-Update von Google ist Aktualität ein nicht zu unterschätzender Faktor geworden. Bei aller technischer Behandlung gilt deshalb immer: Auch der Inhalt und auch die Verlinkung sollten für ein gutes Ergebnis aktualisiert werden.

21. 404 Seiten sind kein Werkzeug für die Crawlability

Fehlerseiten sind keine (in Zahlen: „0“) Maßnahme, um Seiten aus dem Index draußen zu halten. Eine 404-Seite ist immer eine blöde Sache: Denn alle internen und externen Links auf sie versickern im Nirvana und die ganze Webseite wirkt irgendwie, äh, ungepflegt. Deshalb: Weg damit!

22. „nofollow“ nur in Maßen

Wirklich gewollt? Die roten Markierungen sind "nofollow"-Links (über Metatag gesteuert).

Wirklich gewollt? Die roten Markierungen sind „nofollow“-Links (über Metatag gesteuert).

Das Nofollow-Attribut wurde von Google eingeführt, um ausgehende Links zu kennzeichnen, die entweder nicht vertrauenswürdig oder bezahlt sind. Und, um das Crawling zu steuern. Zum Beispiel kann man es einsetzen, um das Login oder den Warenkorb auf jeder URL zu maskieren. Man spart dem Robot eine Menge Zeit, wenn man diese hinter ein „nofollow“ legt. Doch Vorsicht: Dieses „nofollow“ tötet den Linkjuice, man sollte also auch damit Vorsicht umgehen.

Ach ja: Welche Seiten gehören rein, und welche nicht?

Gute Frage, aber die wollte ich jetzt hier gar nicht beantworten. In diesem Beitrag geht es darum, WIE man das macht. Die Frage nach dem WAS werden wir wohl ein andermal besprechen.

Einverstanden?

GD Star Rating
loading...
Etwa 22 Werkzeuge für bessere Crawlability, 4.6 out of 5 based on 17 ratings

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Kommentare (8)

  1. VorticonCmdr

    Hi Eric, der nofollow-Screenshot (22.)  ist irreführend. suche.chip.de ist per robots.txt gesperrt.
    Grüße
    Valentin

  2. eric108

    Hey Valentin,
    naja, die Seite ist AUCH per robots.txt gesperrt, aber sie enthält auch: „<meta name=“robots“ content=“noindex, nofollow, noarchive“ />“
     
    Und logischerweise ist sie genau aus diesem Grund (also wg. der robots.txt) ja auch im Index (weil der Robot ja gar nicht crawlen darf und deshalb nicht das „noindex“ entdeckt). Das ist auch interessant.
     
    Ach, und dann noch ein Canonical Tag auf http://suche.chip.de/?q=sitemap. Sehr experimentell 😉
     
    Na ja, ich hab‘ halt ein prominentes Beispiel mit viel nofollow gesucht – und Wikipedia ist da ja wieder eine andere Geschichte…

  3. Pingback: Was Sie verpasst haben: Social-Media-Rückblick KW 05 | SMO14 - New Media Excellence

  4. eric

    Test

  5. Paul

    test 2

  6. Pingback: Was alles in eine SEO-Analyse gehört - Allgemein -SEO Book

  7. Pingback: Semantische Optimierung bei Google: Von der Entität zur Marke › Aufgesang Inbound Marketing

  8. Pingback: Semantische Optimierung bei Google: Von der Entität zur Marke | Kopp Online MarketingKopp Online Marketing

Kommentare sind geschlossen.