Mrz
29
Erweiterte Crawlability: Don’t waste robot-time!
Filed Under Technik Sonstiges
Auf den drei SEO-Konferenzen der letzten Wochen (SEMSEO, SEO Campixx, SMX) wurde das wichtige Thema “Crawlability” vom allgegenwärtigen Thema “Links” glatt in den Hintergrund gedrückt. Dabei ist dieses Thema vor allem für große Seiten (die im Grunde schon ‘ne Menge Links haben) äußerst essentiell. Deshalb möchte hier so etwas wie den Gedanken der “Erweiterten Crawability” von Webseiten darstellen. Da spielen Technik, Struktur und interne Verlinkung die wichtigste Rolle.
Das Problem ist eigentlich der Scheduler
Jo Müller, der “europäische Matt Cutts”, zeigt auf seinen Präsentationen gerne den komplexen Weg, den eine Seite durch die Google-Server nehmen muss, um gecrawlt zu werden. Ganz am Anfang steht da der “Scheduler”, sozusagen der Vorarbeiter des Robots, der dessen Zeit einteilt. Vermutlich ist die Zeitmenge, die der Robot pro Webseite hat, abhängig von ihrer Autorität (und damit wieder von den Backlinks). Was er aber in dieser Zeit zu sehen bekommt, haben wir selber in der Hand. Und ist diese Zeit abgelaufen, wird der Robot zurück gepfiffen und muss woanders crawlen.
Zeitsparprogramm für den Robot
Ein wichtiges Ziel der Google-Optimierung ist also, dem Robot in möglichst kurzer Zeit möglichst viele relevante Seiten zu zeigen. Und da spielen eine Menge Faktoren eine Rolle:
- Alle Seiten sollten schnell ausgeliefert werden. Hierbei ist es nicht entscheidend, wie groß die Seiten sind – sondern wie schnell der Crawler sie sehen kann.
- Neue und veränderte Seiten müssen ihm zuerst “vorgelegt” werden,
- danach aber auch alle anderen wichtigen Seiten.
- Duplicate Content ist kein Grund für eine Penalty – sondern die Verschwendung von kostbarer Crawler-Zeit.
- Das gilt auch für unnötige Index- bzw. gefilterte Seiten.
- Und auf den eigentlichen Beitragsseiten sollte der Robot möglichst schnell und übersichtlich die zur Einordnung wichtigen Informationen erkennen können.
Das ist eigentlich schon alles
Viel Arbeit für die Crawlability…
Selbstverständlich ist das für Kunden mit mehreren Hundertausend Unterseiten und einem komplexen Content Management System eine gigantische Herausforderung. Das kostet Geld und Zeit. Aber, hey, es muss nun mal sein…
Ich kann und will in diesem Übersichts-Artikel nicht auf die Details eingehen, aber die drei wichtigsten Arbeitsbereiche möchte ich schon kurz darstellen:
- “Seitengeschwindigkeit” heit auf Englisch “Page Speed” und ich kann jedem nur das gleichnamige Tool von Google sowie “ySlow” von Yahoo empfehlen. Wem das Installieren von Firefox-Erweiterungen zu kompliziert ist, dem empfehle ich “Pagetest” als Einstieg…
- Duplicate Content & unnötige Index-Seiten findet man am besten mit dem viruosen Einsatz des “site”-Befehls (wobei ich diesen Artikel unbedingt aktualisieren muss….). Ziel hier sollte es nicht sein, möglichst viele Seiten in den Index zu bekommen – sondern unique und relevante Seiten. Das macht man in der robots.txt, mit Meta-Angaben für den Robot (“noindex” bzw. “noindex,follow”) und/oder mit dem geschickten Einsatz der Google Webmaster Tools.
- Die Seitenstruktur sollte die Relevanz abdecken. Wichtige und aktuelle Seiten sind möglichst “nahe” der Home – weniger wichtige Seiten aber trotzdem erreichbar. Und wer jetzt sagt, dass er dafür einfach eine Sitemap mit allen Unterseiten an Google liefert, dem empfehle ich, diesen Artikel noch mal oben zu beginnen…
- Der Code ist nicht nur schlank sondern auch eindeutig. Wer viele Überschriften und kiloweise Text in die Randspalten packt, braucht sich nicht darüber zu wundern dass der Robot den Kontext für wichtiger hält als die eigentliche Information. Am besten präsentieren wir unsere Seiten ohne Javaskript, mit eindeutigen Hinweisen auf den “eigentlichen” Content und gut strukturiert. HTML 5 wird uns da möglicherweise in Zunft helfen.
Das soll es heute mal gewesen sein. Einen Credit will ich noch los werden: Solche Themen wie “Crawlability” sind für Konferenzen meist zu komplex und bringen nicht so viel Credibility wie irgendwelche Pseudo-Blackhat-SEM-Themen. Deshalb habe ich mich sehr über den Einsatz von Alexander Holl und Boris Bergmann von 121Watt auf dem vergangenen Konferenz-Marathon gefreut!
Ähnliche Beiträge:
Tags:Backlinks, Crawlability, SEO, Struktur, ToolsComments
13 Responses to “Erweiterte Crawlability: Don’t waste robot-time!”
Leave a Reply

Brainstorming (Ideensammlung)…
PiratenSchatzkarte als Overlay für die Map, wenn während des Jahres mal etwas passendes ist. (Linkbait) Zu Ostern: Virtuelle OstereierJagd über die Map Wir brauchen zwei SkriptOrdner in einer neuen suchen.de Version…….
Hey Confluence, ich hätte noch eine Idee für Ideensammlung: Ausschalten der Trackback-Funktion wenn man in einem geschützten Bereich arbeitet
eric
[...] Erweiterte Crawlability: Don’t waste robot-time! var szu=encodeURIComponent(location.href); var [...]
Inhaltlich stimme ich Dir zu. Hinsichtlich der Wahrnehmung der Themen auf der SMX aber nicht. Der Vortrag von Johannes und mir zum Thema Search Engine Friendly Design, wovon Dein Thema ja nur einen Aspekt darstellt, war sehr gut besucht obwohl parallel zu der WotR Abschiedsshow lief.
Vor allem große Firmen / Unternehmen sind bei solchen Vorträgen stark vertreten. Dieser Personenkreis schreibt aber nicht so oft über die Vorträge. Deshalb nehmen wir in unseren Blogs die Gewichtung nicht wirklich korrekt war.
IMHO wird das Thema sehr gut wahrgenommen, da Deine Analyse zur Priorisierung der Themen für große Websites nicht nur korrekt sondern von den Besitzern solcher Angebote auch geteilt wird.
P.S.Sehr schöner Artikel!
Mmmh, hast wohl Recht. Die Konferenzen waren schon reichhaltig. Man hat halt immer so seine Vorurteile…
Danke aber für die Blumen zum Beitrag.
Eric
[...] ist dafür der „Scheduler“, der dem Robot die Zeiteinteilung vorgibt. Hier gilt es anzusetzen, schreibt der SEO-Experte Eric Kubitz. Ziel muss es sein, den Crawler in möglichst kurzer Zeit alle relevanten Inhalten auf den [...]
[...] Seo-Book – Erweiterte Crawlability: Dont´t Waste Robot Time [...]
[...] Webprojekts, neuen und aktualisierten Content dem Crawler möglichst schnell nahe zu bringen. Bei SEO Book ist ein Beitrag zu diesem Thema erschienen, der an dieser Stelle kurz aufgegriffen werden sollte. [...]
[...] Erweiterte Crawlability: Don’t waste robot-time! | Seo Book [...]
[...] verschwenden langsame Seiten schon immer die ihnen zur Verfügung gestellte Crawlerzeit und werden deshalb mittelbar schlechter gewertet (weil weniger Seiten im Index aktuell gehalten [...]
Sehr guter Beitrag.
[...] Overlooks that buried your SEO-efforts“ sowie Eric Kubitz vom SEO-Book in „Erweiterte Crawlability: Don’t waste robot-time!“ erklären die Problematik „Crawlability“ sehr genau und geben sehr gute Tipps, [...]
[...] „10 Crawlability Overlooks that buried your SEO-efforts“ sowie Eric Kubitz vom SEO-Book in „Erweiterte Crawlability: Don’t waste robot-time!“ erklären die Problematik „Crawlability“ sehr genau und geben sehr gute Tipps, wie man dem [...]