Crawling-Budget optimieren

Crawling-Budget optimierenJan Hendrik Merlin Jacob von Onpage.org hat auf der SEOkomm 2015 seinen Vortrag über die sinnvolle Nutzung des Crawling-Budget gehalten. In unserem Bericht von der SEOkomm hatte ich versprochen, dieses Thema etwas detaillierter zu behandeln und aufzuarbeiten. Also lasst uns loslegen…

Warum sollte man überhaupt auf das sogenannte Crawl-Budget achten?

Fakt ist, dass selbst Google, man glaubt es kaum, begrenzte Ressourcen hat. Sie können folglich nicht alle eure Seiten crawlen und es wird versucht, den Fokus auf die „wichtigen Seiten“ zu legen. Der Suchmaschinen-Riese versucht also selbst seine Ressourcen effektiv einzusetzen und die, für den User relevantesten Seiten zu crawlen und folglich zu indexieren. Deshalb ist es wichtig, dass man dieses zur Verfügung gestellte Budget effektiv nutzt und so viel relevante Inhalte wie möglich zur Verfügung stellt. Das Gleiche gilt natürlich für alle Suchmaschinen auf dem Markt.

Wonach richtet sich die Suchmaschinen bzw. nach welchen Kriterien wird entschieden, ob und wie lange die jeweilige Seite gecrawlt wird?

Ein Irrglaube in der Szene ist, dass die Suchmaschinen ihr Crawl-Budget auf Grund der Anzahl von URLs limitieren. Das ist falsch! Richtig ist, dass die Crawler sich eine bestimmte Zeit auf eure Seite befinden. Quasi eine Art Verweildauer kann man sagen 🙂

Es gibt natürlich etliche Faktoren, welche einen Einfluss darauf haben nach welchen Kriterien vorgegangen wird. Bing versucht es dabei mit dieser Aussage:

Crawling-Budget optimieren - Bing LogoBy providing clear, deep, easy to find content on your website, we are more likely to index and show your content in research results.

 

 

 

Sicherlich trifft diese Aussage auch auf Google zu. Doch wie stellt man das an? Eines dürfte klar sein. Je klarer eure Inhalte strukturiert sind, desto relevanter erachten die Crawler diese. Auch das Thema PageRank scheint eine essentielle Rolle zu spielen. Je öfter eine URL extern und auch intern verlinkt ist, desto wahrscheinlicher wird diese also gecrawlt. Doch nochmals: Wie stellt man das an?

Crawling-Budget optimieren - Definition Searchability

Quelle: Präsentation SEOkomm 2015 Jan Hendrik Merlin Jacob

Jan Hendrik Merlin Jacob hat dies in seiner Präsentation recht anschaulich mit Hilfe einer „selbst generierten Formel“ vermittelt. Für viele werden die folgenden Punkte reine Basics zu sein. Aber es ist wie es ist und man sollte sich diese Punkte immer wieder ins Bewusstsein rufen. Befolgt man diese Schritte, kann man den Crawlern da draußen ganz gut klar machen, welche Inhalte für den Index relevant sein sollen und welche eben nicht.

Die Searchability, sprich die Auffindbarkeit eurer Inhalte, setzt sich aus 3 wesentlichen Faktoren zusammen:

  • der Crawlability…
  • der Indexability…
  • und der Rankability…

Auf all diese 3 Punkte habt ihr ein Mitspracherecht bzw. könnt diese beeinflussen.

Einfluss auf die Crawlability…

Die Crawlability ist dafür zuständig, ob der entsprechende Inhalt für die Crawler zugänglich ist oder nicht. Klar ist, hier müsst ihr euch im Vorfeld festlegen, was ihr in den Index schiessen wollt und was nicht. Seid ihr euch darüber im Klaren, könnt ihr wie folgt Einfluss darauf haben.

  • Durch die Anpassung der robots.txt. Dort können gewisse Bereiche einer Webseite vom Crawl ausgeschlossen werden. Javascript und CSS sollten übrigens nicht mehr ausgeschlossen werden.
  • Die bewusste Verwendung von gängigen „Status Codes“ kann den Crawlern mitteilen ob dieser Inhalt aktuell relevant ist oder eben nicht.
    • 200 → Diese Seite ist erreichbar und relevant für den Index.
    • 301 → Die relevante Seite für den Index befindet sich unter einer anderen URL.
    • 302 → Für eine unbestimmte Zeit findet sich der relevante Inhalt für den Index unter einer anderen URL.
    • 303 → Eine alternative Version dieses Inhalts ist für den Index relevant.
    • 304 → Diese Seite hat sich seit dem letzten Crawl nicht verändert (ein sehr kluger Schachzug wie ich finde).
    • 403 → Hier gibt es keinen Zugang für dich.
    • 404 → Diese Seite existiert nicht mehr (Nutzt hier entsprechende 3xx Weiterleitungen).
  • Durch die Optimierung eurer Ladegeschwindigkeiten (PageSpeed). Je schneller der Crawler eine Seite downloaden kann, desto mehr Seiten kann er downloaden. In der Summe kann das immense Auswirkungen haben (siehe Bild).
    Crawling-Budget optimieren - Ladegeschwindigkeit

    Quelle: Präsentation SEOkomm 2015 Jan Hendrik Merlin Jacob

    Wenn wir gerade beim Thema PageSpeed sind. Macht euch mit AngularJS vertraut. Dies ist ein Framework auf Open-Source Basis mit welchem Applikationen erstellt werden können. Mit dessen Hilfe werden lediglich kleine Teile einer Seite vom Crawler geladen und eben nicht der komplette Inhalt.

  • Durch das Arbeiten mit sauberen URL-Strukturen, welche im besten Fall dem Klickpfad entsprechen. So ist eine eindeutige Zugehörigkeit eure Inhalte gewährleistet. Auch die Crawler honorieren das bzw. verstehen, wo ein bestimmter Inhalt einzugliedern ist.
  • Gebt dem Crawler schon mit Hilfe des Vary-Headers einiges an Informationen mit (gleichzeitig teilt ihr dem Crawler mit, dass es eure Inhalte für unterschiedliche Devices gibt)…
    • …Ihr arbeitet mit Komprimierung? Dann gebt es an!
    • …Eure Seite ist in mehreren Sprachen zu finden? Gebt es an!
HTTP/1.1 200 OK
Cache-Control: private, must-revalidate, max-age=0
Connection: Keep-Alive
Content-Encoding: gzip
Content-Language: de
Content-Length: 6952
Content-Type: text/html; charset=UTF-8
Date: Wed, 02 Dec 2015 10:24:26 GMT
Expires: Thu, 01 Jan 1970 00:00:00 GMT
Keep-Alive: timeout=15, max=100
Last-Modified: Wed, 25 Nov 2015 08:22:03 GMT
Server: Apache
Vary: Accept-Encoding,Accept-Language,Cookie,User-Agent
  • Arbeitet mit „Last-Modified„. Der Crawler ruft eine eurer Seiten auf (sofern diese neu für ihn ist). Er bekommt via Response-Header mitgeteilt, dass an dem Inhalt an Tag XXX das letzte mal etwas geändert wurde. Beim nächsten Crawl stößt er erneut auf diese URL. Hat sich seit dem letzten Crawl nichts getan (Last-Modified hat sich nicht geändert) und euer Server außerdem einen 304 auswirft, crawlt der Bot nicht nochmal den gesamten Inhalt dieser URL. Das spart enorm an Zeit!

Ihr seht schon das Beeinflussen der Crawlability ist eher etwas für Techniker gut konfigurierter Systeme. Aber sind wir nicht alle ein bisschen Technik? 😉

Einfluss auf die Indexability via…

Weiter geht es mit dem Einfluss auf die Indexability. Soll der Crawler die Inhalte entsprechender URLs auslesen, interpretieren und dem Index hinzufügen, sprechen wir von der „Indexability“.

  • Nutzt die robots Directives, welche via <head> Tag im HTML eingebunden werden. Darüber könnt ihr Seiten gezielt vom Index ausschließen. Auch die Variante via Response-Header ist möglich.
Via <head> Tag:

<meta name“robots“ content=“noindex,follow“

Via Response-Header:

HTTP/1.1 200 OK
Date: Tue, 25 Nov 2015 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Für Inhalte, die nur für bestimmte Zeit indexierbar sein sollen (Shop-Produkte etc…), empfiehlt sich folgendes Directive:

Via <head> Tag:

<meta name“robots“ content=“unavailable_after:27-Nov-2015 15:35:00 CET“

Via Response-Header:

HTTP/1.1 200 OK 
Date: Tue, 27 Nov 2015 21:42:43 GMT
(…)
X-Robots-Tag: unavailable_after:27-Nov-2015 15:35:00 CET
(…)
  • Arbeitet mit Canonical-Tags. Mit deren Hilfe könnt ihr dem Crawler gezielte Anweisungen geben, welche Inhalte relevant für ihn sind und welche nicht (auch hier ist die Integration via Response-Header möglich) .
  • Wenn ihr mit Redirects arbeitet, dann bitte mit validen Redirects (keine Weiterleitungsketten, klassische 301 Weiterleitungen nutzen und keine Weiterleitungen per Meta-Refresh).
  • Inhaltlich solltet ihr darauf achten, dass die Inhalte einen Mehrwert für eure User bieten (Stichwort holistische Inhalte).
    • Vermeidet dabei sowohl internen als auch externen Duplicate Content.
    • Die Inhalt sollten lediglich eine H1 aufweisen.
    • Eure Inhalte sollten mit Meta-Angaben versehen werden (Page-Title, Meta-Description, alt-Attribut etc.) und dabei sollte mit klarem Keyword-Fokus gearbeitet werden.
    • Stellt eine interne Verlinkung hinsichtlich „wichtiger Inhalte“ her (Anchortexte mit entsprechenden Keywords nutzen; auch eine sauber Breadcrumb spielt hier eine Rolle).
    • Arbeitet dabei mit gewöhnlichen HTML-Links (keine Rich-Media-Links via JavaScript oder Flash implementieren).
    • Die Inhalte sollten über eine klare und lesbare Navigation erreichbar sein (gängige HTML-Auszeichnungen verwenden). Klickpfadlänge beachten! Je näher an der Startseite, desto wertvoller ist der Inhalt.
    • Integriert für den Index relevante Inhalte in einer aktuellen XML-Sitemap.
    • Achtet auf die „Freshness“ eure Inhalte und haltet eure Webseite stets aktuell.
  • Vermittelt dem Crawler mit welchem Inhaltstyp er es zu tun hat. Somit gewährleistet ihr, dass sich der Crawl der entsprechenden URL auch lohnt und letztlich korrekt für den Bot dargestellt wird.
Via Response-Header:

Content-Type: text/html; charset=UTF-8

Via <head> Tag:

<meta charset=“UTF-8″ />

  • Achtet auf relativ kleine Dateigrößen (max. 1MB pro Seite).
  • Verweigert den Crawlern nicht den Zugriff auf JavaScript und CSS Dateien. Werden diese beispielsweise noch über die robots.txt ausgeschlossen, könnte die Indexierung der entsprechenden Siete gefährdet sein.

Einfluss auf die Rankability via…

Als nächstes widmen wir uns dem Thema der Rankability. Wenn eine bestimmte Seite für eine bestimmte Suchanfrage in den SERPS angezeigt werden soll, sprechen wir von der „Rankability“.

  • Stichwort paginierte Seiten. Gibt es bspw. Inhalte auf eurer Webseite, welche  auf mehrere Seiten aufgeteilt sind, habt ihr 2 Möglichkeiten um dem Bot zu vermitteln, welche der Seiten auf eine entsprechende Suchanfrage in den Suchergebnissen ausgespielt werden sollen.
    • Gebt eine Gesamtansicht-Seite an. Möchtet ihr diese Seite für den Suchenden am Ende des Tages zur Verfügung stellen, bestückt die „Komponenten-Seiten“ mit einem rel=“canonical“-Link , um Google mitzuteilen, dass in den Suchergebnissen die Gesamtansicht-Version erscheinen soll.
    • Verwendet  rel="next"– und rel="prev"-Links um die Beziehung zwischen Komponenten-URLs anzugeben. Dieses Markup enthält einen starken Hinweis für Google, dass diese Seiten als logische Abfolge behandelt werden sollen. Google wird folglich die erste Seite in den Suchergebnissen ausspielen.
Via <head> Tag:

<link rel=“prev“ href=“http://abc.com/article?page=1″ />

<link rel=“next“ href=“http://abc.com/article?page=3″ />

Via Response-Header:

Link: <http://abc.com/article?page=1>; rel=“prev“

Link: <http://abc.com/article?page=3>; rel=“next“

  • Bei Inhalten, welche mehrsprachig zur Verfügung gestellt werden, solltet ihr mit dem hreflang Tag arbeiten. Damit vermittelt ihr dem Crawler, welche URL in welcher Sprach für welchen Index (hinsichtlich der Sprache) relevant ist.
Crawling-Budget optimieren - hreflang

Quelle: Präsentation SEOkomm 2015 Jan Hendrik Merlin Jacob

  • Vermittelt dem Crawler via <head> Tag, für welches Endgerät die entsprechende URL gedacht ist. Ihr erreicht somit nicht nur die optimale Darstellung eurer Inhalte auf unterscheidlichen Devices, sondern vermittelt auch für welche Index diese URL relevant sein soll (mobile vs. desktop).
Viewport Tag:

<meta name=“viewport“ content=“width=device-width, initial-scale=1.0″ />

Media Queries:

<link rel=“stylsheet“ media=“only screen and (max-width: 800px)“ href=“/mobile.min.css“ />

Dedicated URL for mobile devices:

<link rel=“alternate“ media=“only screen and (max-width: 640px)“ href=““http://m.example.com/page-1″>

  • Nutzt die Markups von schema.org um dem Bot zu vermitteln, um welche Art der Inhalte es sich hier handelt (Produkte, Events, Local Business etc.).

Folgendes Schema zeigt euch eine Zusammenfassung der oben erwähnten Punkte:

Crawling-Budget optimieren - Know what to do

Quelle: Präsentation SEOkomm 2015 Jan Hendrik Merlin Jacob

 

Fazit:

Wie bereits gesagt. Viele der aufgeführten Punkte könnten für den ein oder anderen unter euch Basics sein und somit selbstverständlich. Aber überprüft, ob ihr all das auch umgesetzt habt. Solltet ihr Fragen zur Umsetzung haben, einfach einen Kommentar hinterlassen!

Außerdem möchte ich noch mal ein ausdrückliches Dankeschön an Merlin anmerken, der einen super Vortrag gehalten hat!

In diesem Sinne „SEO might be the CEO“…

Hier die gesamte Präsentation Merlin`s von der SEOkomm 2015:

GD Star Rating
loading...
Crawling-Budget optimieren, 5.0 out of 5 based on 1 rating

Andreas Burde

Andreas Burde hat sich nach seiner Zeit bei der CONTENTmanufaktur als Berater im Bereich der Suchmaschinenoptimierung und Webseiten-Erstellung mit Spezialisierung auf den KMU selbstständig gemacht.
Hier kann man mehr über ihn erfahren.

 

More Posts

Kommentare (15)

  1. Benjamin

    Ahoi,
    irgendwelche Erfahrungen mit dem Code 304? 😉

  2. Andi Burde (Beitrag Autor)

    Moin Benjamin,

    ehrlich gesagt noch nicht…
    Ich habe das nun schön öfter gehört. Allerdings noch keinen getroffen, mal abgesehen von Merlin und Co., der das realisiert hat. Für mich scheint das aber eine stimmige Sache zu sein sofern die technische Umsetzung funktioniert. Wir mal Zeit das Ganze an eigenen Projekten zu testen.

    Hast Du denn schon Erfahrungen damit?

    VG
    Andi

  3. Benjamin

    ok…nein..aber ich will es für unsere .asp bzw. .aspx Anwendungen nutzen da der googlebot sehr oft auf den Seiten unterwegs ist obwohl diese Seite für uns keine SEO Relevanz hat (noindex,follow).

  4. Andi Burde (Beitrag Autor)

    Wie ist es wenn Du diese über die robots.txt sperrst und gleichzeitig auf „noindex“ setzt (auch via der .txt)?!

  5. Pingback: Top 10 der Woche 49/15 - SEO-united.de Blog

  6. Benjamin

    Wäre auch noch eine Möglichkeit…Was wäre die bessere Lösung? 🙂 Also noindex ist sowieso gesetzt..da die URLs früher indexiert wurden, aber die sind mittlerweile alle draußen.
    Danke!

  7. Benjamin

    ach moment..wir haben viele externe Signale auf die URLs da diese verlinkt werden mit entsprechender partnerid…Wenn ich die jetzt komplett sperre wäre denke ungünstig, oder?

  8. Andi Burde (Beitrag Autor)

    Wenn Du die Seiten über die robots.txt vom Crawl ausschließt und in der selbigen die Anweisung auf die Nichtindexierung der entsprechenden Seiten gibst, hast Du eines definitiv erreicht, Crawling-Budget/Index-Budget eingespart.
    Hinsichtlich der externen Signale hat das einen negativen Einfluss, da durch die Sperrung dieser Seite kein Linkjuice vererbt werden kann….

  9. Benjamin

    Also könnte man einen 304 Status Code einbauen und dann ein paar wichtige Unterseiten aus dem Text heraus verlinken der sich dort befindet…Wäre aber in dem Fall nur das Impressum oder Datenschutz, da es sich quasi um einen „Rechner“ handelt. 🙂 Weiß nicht ob das so sinnvoll ist…;)

  10. Andi Burde (Beitrag Autor)

    Von einem „304“ habe ich doch jetzt nicht gesprochen 😮

    Ging an dieser Stelle um den Linkjuice.

    Schick mir mal eine Deiner Seiten, wenn Du magst…

  11. Benjamin

    ja das war auch eine Idee von mir 🙂

  12. Pingback: Von Spickzetteln, gewürfelten Zahlen und Vermutungen - Allgemein | SEO-Book

  13. Rene Tzschoppe

    Danke für den Input. Hatte schon öfter gelesen, dass wie Crwalhäufigkeit wichtig ist aber der Zusammenhang ist hier klasse erklärt 🙂 Habe gleich mal meinen Stand geprüft und kleine Fehler gefunden…

  14. Pingback: Aktualisierung der Webmaster Guidelines - SEO Book

  15. xxx

    Greetings! Very helpful advice in this particular post!
    It’s the little changes which will make the most significant changes.
    Many thanks for sharing!

Kommentare sind geschlossen.