Erweiterte Crawlability: Don’t waste robot-time!

erweiterte CrawlabilityFür den Google-Crawler spielt die Geschwindigkeit der zu crawlenden Webseiten eine wichtige Rolle: Denn je schneller diese sind, umso mehr Seiten kann er sich einverleiben. Deshalb möchte ich hier so etwas wie den Gedanken der „Erweiterten Crawability“ von Webseiten darstellen. Da spielen Technik, Struktur und interne Verlinkung die wichtigste Rolle. crawlability

Das Problem ist eigentlich der Scheduler

Jo Müller, der „europäische Matt Cutts“, zeigt auf seinen Präsentationen gerne den komplexen Weg, den eine Seite durch die Google-Server nehmen muss, um gecrawlt zu werden. Ganz am Anfang steht da der „Scheduler“, sozusagen der Vorarbeiter des Robots, der dessen Zeit einteilt. Vermutlich ist die Zeitmenge, die der Robot pro Webseite hat, abhängig von ihrer Autorität (und damit wieder von den Backlinks). Was er aber in dieser Zeit zu sehen bekommt, haben wir selber in der Hand. Und ist diese Zeit abgelaufen, wird der Robot zurück gepfiffen und muss woanders crawlen.

Zeitsparprogramm für den Robot

Ein wichtiges Ziel der Google-Optimierung ist also, dem Robot in möglichst kurzer Zeit möglichst viele relevante Seiten zu zeigen. Und da spielen eine Menge Faktoren eine Rolle:

  • Alle Seiten sollten schnell ausgeliefert werden. Hierbei ist es nicht entscheidend, wie groß die Seiten sind – sondern wie schnell der Crawler sie sehen kann.
  • Neue und veränderte Seiten müssen ihm zuerst „vorgelegt“ werden,
  • danach aber auch alle anderen wichtigen Seiten.
  • Duplicate Content ist kein Grund für eine Penalty – sondern die Verschwendung von kostbarer Crawler-Zeit.
  • Das gilt auch für unnötige Index- bzw. gefilterte Seiten.
  • Und auf den eigentlichen Beitragsseiten sollte der Robot möglichst schnell und übersichtlich die zur Einordnung wichtigen Informationen erkennen können.

Das ist eigentlich schon alles 😉

Viel Arbeit für die Crawlability…

Selbstverständlich ist das für Kunden mit mehreren Hundertausend Unterseiten und einem komplexen Content Management System eine gigantische Herausforderung. Das kostet Geld und Zeit. Aber, hey, es muss nun mal sein…

Ich kann und will in diesem Übersichts-Artikel nicht auf die Details eingehen, aber die drei wichtigsten Arbeitsbereiche möchte ich schon kurz darstellen:

  1. Seitengeschwindigkeit“ heit auf Englisch „Page Speed“ und ich kann jedem nur das gleichnamige Tool von Google sowie „ySlow“ von Yahoo empfehlen. Wem das Installieren von Firefox-Erweiterungen zu kompliziert ist, dem empfehle ich „Pagetest“ als Einstieg…
  2. Duplicate Content & unnötige Index-Seiten findet man am besten mit dem viruosen Einsatz des „site“-Befehls (wobei ich diesen Artikel unbedingt  aktualisieren muss….). Ziel hier sollte es nicht sein, möglichst viele Seiten in den Index zu bekommen – sondern unique und relevante Seiten. Das macht man in der robots.txt, mit Meta-Angaben für den Robot („noindex“ bzw. „noindex,follow“) und/oder mit dem geschickten Einsatz der Google Webmaster Tools.
  3. Die Seitenstruktur sollte die Relevanz abdecken. Wichtige und aktuelle Seiten sind möglichst „nahe“ der Home – weniger wichtige Seiten aber trotzdem erreichbar. Und wer jetzt sagt, dass er dafür einfach eine Sitemap mit allen Unterseiten an Google liefert, dem empfehle ich, diesen Artikel noch mal oben zu beginnen…
  4. Der Code ist nicht nur schlank sondern auch eindeutig. Wer viele Überschriften und kiloweise Text in die Randspalten packt, braucht sich nicht darüber zu wundern dass der Robot den Kontext für wichtiger hält als die eigentliche Information. Am besten präsentieren wir unsere Seiten ohne Javaskript, mit eindeutigen Hinweisen auf den „eigentlichen“ Content und gut strukturiert. HTML 5 wird uns da möglicherweise in Zunft helfen.

Das soll es heute mal gewesen sein. Einen Credit will ich noch los werden: Solche Themen wie „Crawlability“ sind für Konferenzen meist zu komplex und bringen  nicht so viel Credibility wie irgendwelche Pseudo-Blackhat-SEM-Themen. Deshalb habe ich mich sehr über den Einsatz von Alexander Holl und Boris Bergmann von 121Watt auf dem vergangenen Konferenz-Marathon gefreut!

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Durch die weitere Nutzung der Seite stimmst du der Verwendung von Cookies zu. Weitere Informationen

Die Cookie-Einstellungen auf dieser Website sind auf "Cookies zulassen" eingestellt, um das beste Surferlebnis zu ermöglichen. Wenn du diese Website ohne Änderung der Cookie-Einstellungen verwendest oder auf "Akzeptieren" klickst, erklärst du sich damit einverstanden.

Schließen