Erweiterte Crawlability: Don’t waste robot-time!

Filed Under Technik Sonstiges 

erweiterte CrawlabilityAuf den drei SEO-Konferenzen der letzten Wochen (SEMSEO, SEO Campixx, SMX) wurde das wichtige Thema “Crawlability” vom allgegenwärtigen Thema “Links” glatt in den Hintergrund gedrückt. Dabei ist dieses Thema vor allem für große Seiten (die im Grunde schon ‘ne Menge Links haben) äußerst essentiell. Deshalb möchte hier so etwas wie den Gedanken der “Erweiterten Crawability” von Webseiten darstellen. Da spielen Technik, Struktur und interne Verlinkung die wichtigste Rolle.

Das Problem ist eigentlich der Scheduler

Jo Müller, der “europäische Matt Cutts”, zeigt auf seinen Präsentationen gerne den komplexen Weg, den eine Seite durch die Google-Server nehmen muss, um gecrawlt zu werden. Ganz am Anfang steht da der “Scheduler”, sozusagen der Vorarbeiter des Robots, der dessen Zeit einteilt. Vermutlich ist die Zeitmenge, die der Robot pro Webseite hat, abhängig von ihrer Autorität (und damit wieder von den Backlinks). Was er aber in dieser Zeit zu sehen bekommt, haben wir selber in der Hand. Und ist diese Zeit abgelaufen, wird der Robot zurück gepfiffen und muss woanders crawlen.

Zeitsparprogramm für den Robot

Ein wichtiges Ziel der Google-Optimierung ist also, dem Robot in möglichst kurzer Zeit möglichst viele relevante Seiten zu zeigen. Und da spielen eine Menge Faktoren eine Rolle:

  • Alle Seiten sollten schnell ausgeliefert werden. Hierbei ist es nicht entscheidend, wie groß die Seiten sind – sondern wie schnell der Crawler sie sehen kann.
  • Neue und veränderte Seiten müssen ihm zuerst “vorgelegt” werden,
  • danach aber auch alle anderen wichtigen Seiten.
  • Duplicate Content ist kein Grund für eine Penalty – sondern die Verschwendung von kostbarer Crawler-Zeit.
  • Das gilt auch für unnötige Index- bzw. gefilterte Seiten.
  • Und auf den eigentlichen Beitragsseiten sollte der Robot möglichst schnell und übersichtlich die zur Einordnung wichtigen Informationen erkennen können.

Das ist eigentlich schon alles ;-)

Viel Arbeit für die Crawlability…

Selbstverständlich ist das für Kunden mit mehreren Hundertausend Unterseiten und einem komplexen Content Management System eine gigantische Herausforderung. Das kostet Geld und Zeit. Aber, hey, es muss nun mal sein…

Ich kann und will in diesem Übersichts-Artikel nicht auf die Details eingehen, aber die drei wichtigsten Arbeitsbereiche möchte ich schon kurz darstellen:

  1. Seitengeschwindigkeit” heit auf Englisch “Page Speed” und ich kann jedem nur das gleichnamige Tool von Google sowie “ySlow” von Yahoo empfehlen. Wem das Installieren von Firefox-Erweiterungen zu kompliziert ist, dem empfehle ich “Pagetest” als Einstieg…
  2. Duplicate Content & unnötige Index-Seiten findet man am besten mit dem viruosen Einsatz des “site”-Befehls (wobei ich diesen Artikel unbedingt  aktualisieren muss….). Ziel hier sollte es nicht sein, möglichst viele Seiten in den Index zu bekommen – sondern unique und relevante Seiten. Das macht man in der robots.txt, mit Meta-Angaben für den Robot (“noindex” bzw. “noindex,follow”) und/oder mit dem geschickten Einsatz der Google Webmaster Tools.
  3. Die Seitenstruktur sollte die Relevanz abdecken. Wichtige und aktuelle Seiten sind möglichst “nahe” der Home – weniger wichtige Seiten aber trotzdem erreichbar. Und wer jetzt sagt, dass er dafür einfach eine Sitemap mit allen Unterseiten an Google liefert, dem empfehle ich, diesen Artikel noch mal oben zu beginnen…
  4. Der Code ist nicht nur schlank sondern auch eindeutig. Wer viele Überschriften und kiloweise Text in die Randspalten packt, braucht sich nicht darüber zu wundern dass der Robot den Kontext für wichtiger hält als die eigentliche Information. Am besten präsentieren wir unsere Seiten ohne Javaskript, mit eindeutigen Hinweisen auf den “eigentlichen” Content und gut strukturiert. HTML 5 wird uns da möglicherweise in Zunft helfen.

Das soll es heute mal gewesen sein. Einen Credit will ich noch los werden: Solche Themen wie “Crawlability” sind für Konferenzen meist zu komplex und bringen  nicht so viel Credibility wie irgendwelche Pseudo-Blackhat-SEM-Themen. Deshalb habe ich mich sehr über den Einsatz von Alexander Holl und Boris Bergmann von 121Watt auf dem vergangenen Konferenz-Marathon gefreut!

Ähnliche Beiträge:

  1. Nun auch “offziell”: Seitengeschwindigkeit ist Rankingfaktor
  2. SEO am Morgen: Google pumpt Seiten
Tags:, , , ,

Comments

13 Responses to “Erweiterte Crawlability: Don’t waste robot-time!”

  1. Confluence: Search Engine Optimization on März 29th, 2010 13:34

    Brainstorming (Ideensammlung)…

    PiratenSchatzkarte als Overlay für die Map, wenn während des Jahres mal etwas passendes ist. (Linkbait) Zu Ostern: Virtuelle OstereierJagd über die Map Wir brauchen zwei SkriptOrdner in einer neuen suchen.de Version…….

  2. Eric Kubitz on März 29th, 2010 13:37

    Hey Confluence, ich hätte noch eine Idee für Ideensammlung: Ausschalten der Trackback-Funktion wenn man in einem geschützten Bereich arbeitet ;-)

    eric

  3. Webseiten-Crawlability verbessern - SEO.at on März 29th, 2010 13:54

    [...] Erweiterte Crawlability: Don’t waste robot-time! var szu=encodeURIComponent(location.href); var [...]

  4. jens on März 30th, 2010 08:32

    Inhaltlich stimme ich Dir zu. Hinsichtlich der Wahrnehmung der Themen auf der SMX aber nicht. Der Vortrag von Johannes und mir zum Thema Search Engine Friendly Design, wovon Dein Thema ja nur einen Aspekt darstellt, war sehr gut besucht obwohl parallel zu der WotR Abschiedsshow lief.

    Vor allem große Firmen / Unternehmen sind bei solchen Vorträgen stark vertreten. Dieser Personenkreis schreibt aber nicht so oft über die Vorträge. Deshalb nehmen wir in unseren Blogs die Gewichtung nicht wirklich korrekt war.

    IMHO wird das Thema sehr gut wahrgenommen, da Deine Analyse zur Priorisierung der Themen für große Websites nicht nur korrekt sondern von den Besitzern solcher Angebote auch geteilt wird.

    P.S.Sehr schöner Artikel!

  5. Eric on März 30th, 2010 09:39

    Mmmh, hast wohl Recht. Die Konferenzen waren schon reichhaltig. Man hat halt immer so seine Vorurteile…

    Danke aber für die Blumen zum Beitrag.

    Eric

  6. SEO-Tipp „Crawlability“: Mach dem Suchmaschinen-Crawler das Leben leichter! » t3n News on März 30th, 2010 10:22

    [...] ist dafür der „Scheduler“, der dem Robot die Zeiteinteilung vorgibt. Hier gilt es anzusetzen, schreibt der SEO-Experte Eric Kubitz. Ziel muss es sein, den Crawler in möglichst kurzer Zeit alle relevanten Inhalten auf den [...]

  7. Erweiterte Crawlability — shortseo on März 30th, 2010 11:01

    [...] Seo-Book – Erweiterte Crawlability: Dont´t Waste Robot Time [...]

  8. Crawlability von Webseiten optimieren « AdClicks-Agent.de on März 30th, 2010 12:13

    [...] Webprojekts, neuen und aktualisierten Content dem Crawler möglichst schnell nahe zu bringen. Bei SEO Book ist ein Beitrag zu diesem Thema erschienen, der an dieser Stelle kurz aufgegriffen werden sollte. [...]

  9. "SEO ist sehr speziell und fordert ein spezifisches Fachwissen. Gutes SEO ist alles, was darüber hinaus geht." Astrid Staats | Maclites on April 6th, 2010 00:26

    [...] Erweiterte Crawlability: Don’t waste robot-time! | Seo Book [...]

  10. Nun auch “offziell”: Seitengeschwindigkeit ist Rankingfaktor | Technik Sonstiges | Seo Book on April 10th, 2010 12:54

    [...] verschwenden langsame Seiten schon immer die ihnen zur Verfügung gestellte Crawlerzeit und werden deshalb mittelbar schlechter gewertet (weil weniger Seiten im Index aktuell gehalten [...]

  11. Lars Heinemann on Juli 28th, 2010 14:50

    Sehr guter Beitrag.

  12. Crawlability der Webseite verbessern « SEOMarketing.H on Juli 28th, 2010 15:03

    [...] Overlooks that buried your SEO-efforts“ sowie  Eric Kubitz vom SEO-Book in „Erweiterte Crawlability: Don’t waste robot-time!“ erklären die Problematik „Crawlability“ sehr genau und geben sehr gute Tipps, [...]

  13. Crawlability der Webseite verbessern « Der Unternehmensblog von adocom on Juli 28th, 2010 15:08

    [...] „10 Crawlability Overlooks that buried your SEO-efforts“ sowie  Eric Kubitz vom SEO-Book in „Erweiterte Crawlability: Don’t waste robot-time!“ erklären die Problematik „Crawlability“ sehr genau und geben sehr gute Tipps, wie man dem [...]

Leave a Reply