SEO Check Teil 4: "Technik" – Ladegeschwindigkeit, robots.txt & Co.

In unserem Beratungsalltag als Suchmaschinenoptimierer stoßen wir regelmäßig auf große, zum Teil sogar sehr große Seiten mit guten, einzigartigen Inhalten und vielen Backlinks. Doch je größer und älter eine Seite ist, desto mehr Funktionen und Features kommen im Laufe der Jahre hinzu. So stellen vor allem gewachsene Systeme mit vielen tausend Unterseiten immer wieder eine besondere Herausforderung für den Suchmaschinenoptimierer dar.

Der vierte Teil unserer SEO Check-Serie richtet sich deshalb insbesondere an Inhouse-SEOs großer Unternehmen, die es mit gewachsenen Systemen und vielen tausend Unterseiten zu tun haben – denn für einen Affiliate, der alle 20 Unterseiten seiner Webseite persönlich kennt, spielen die Ladegeschwindigkeit und Sitemaps kaum eine Rolle. Auch fehlerhafte Links sollten bei dieser überschaubaren Anzahl an Seiten kein Thema sein.

Der Vollständigkeit halber sollte jedoch erwähnt werden, dass es sich bei nachfolgender Auflistung um eine Zusammenfassung typischer Probleme handelt, die mit Sicherheit noch ergänzt werden könnte. Gleiches gilt natürlich auch für unsere Lösungsvorschläge. Wir erheben also keinen Anspruch auf Vollständigkeit.

Ladegeschwindigkeit
Vor einigen Monaten ist nun auch die Ladegeschwindigkeit einer Webseite offiziell ein Faktor für das Google-Ranking geworden. Die Ladegeschwindigkeit spielt allerdings nicht nur für das Ranking eine wichtige Rolle, sondern auch für den Indexierungs-Vorgang. Denn je schneller eine einzelne Webseite vom Google-Robot geladen werden kann, desto mehr Seiten kann dieser bei seinem “Besuch” sichten und somit indizieren. Gleiches gilt selbstverständlich auch für den User: laden die einzelnen Seiten schnell, sieht sich der User mehr Unterseiten an, als wenn er auf jede Seite 10 Sekunden warten muss. Doch woher weiß man nun, ob die eigene Seite “schnell” oder “langsam” lädt? Ab wann zählt eine Seite offiziell als “langsam”? Diese Fragen lassen sich beispielsweise mit Hilfe der Google Webmaster Tools beantworten. Unter “Google Labs -> Website-Leistung” erhält der Webmaster Statistiken zur Leistung seiner Website. Diese Informationen sollen dazu dienen, die Seite schneller und damit benutzerfreundlicher zu machen.
Page Speed-Plug-In: Google selbst unterstützt den Webmaster dabei, indem es das kostenlose Browser Plug-In namens Page Speed zur Verfügung stellt. Damit kann die Leistung der Seite gemessen und eingeschätzt werden, außerdem erhält der Webmaster Vorschläge zur Optimierung seiner Seiten. Was kann also getan werden um die Ladegeschwindigkeit der Seite zu verbessern?
- Datenbank optimieren
- CSS und JavaScript-Dateien zusammenfassen
- Verwenden eines Browser-Caches
- Bilder (die auf jeder Unterseite verwendet werden) mit Hilfe sogenannter “Sprites” zusammenfassen
- Komprimierung nutzen
- DNS-Anfragen minimieren
- Bilder optimieren
  Da es hier nicht ausschließlich um die Ladegeschwindigkeit geht, möchten wir an dieser Stelle erwähnen, dass diese Liste noch lange nicht vollständig ist und noch weiter fortgesetzt werden könnte. Hinweis: Heutzutage ist es zwar üblich, moderne Webseiten aus einem Patchwork von Daten anderer Seiten zusammen zu basteln, allerdings verzögert sich dadurch natürlich auch die Ladegeschwindigkeit der Seite. Wer also (mehrere) Web-Tracking-Systeme, (mehrere) AdServer, Like- und +1-Buttons und womöglich auch noch externe Feeds einbinden möchte, der sollte sich das vorher gut überlegen. Die Skripte, die tatsächlich notwendig sind, sollten dann nach Möglichkeit auch so eingebaut werden, dass Sie die Ladegeschwindigkeit der Seite nicht verzögern. Literatur zum Thema: Wer sich intensiv mit dem Thema Ladegeschwindigkeit beschäftigen möchte, dem sei an dieser Stelle das Buch “Even Faster Web Sites: Performance Best Practices for Web Developers“ von Steve Souders und Robert Romano (O’Reilly Media) empfohlen. Darin wird genau beschrieben, wie man die Ladegeschwindigkeit einer Website optimieren kann – in englischer Sprache. Wer lieber deutsche Bücher liest, der sollte es mit der deutschen Übersetzung von Steve Souders erstem Buch versuchen: “High Performance Websites“ von Steve Souders und Peter Klicman. Allerdings sollte hierzu erwähnt werden, dass das Buch bereits 2007 erschienen ist und somit nicht auf dem aktuellsten Stand ist. Auch Eric hat zum Thema “Ladegeschwindigkeit optimieren” bereits einen ausführlichen Artikel verfasst.
Robots.txt-Datei
Mit der robots.txt-Datei können die “Einsatzorte” des Google Robots gesteuert werden. Content, der nicht in den Suchergebnissen von Google oder anderen Suchmaschinen angezeigt werden soll, kann mit Hilfe der robots.txt-Datei vom Crawling ausgeschlossen werden. Dazu muss im Stammverzeichnis (Root) einer Domain eine Datei mit dem Namen robots.txt angelegt werden – wichtig ist, dass diese Datei im Root-Verzeichnis liegt und genau diesen Dateinamen trägt. In der robots.txt-Datei können dann einzelne Dateien oder ganze Verzeichnisse vor dem Zugriff des Crawlers geschützt werden.

Inhalt der robots.txt-Datei: Wichtig ist, dass hierbei nicht übertrieben wird. Bevor eine Datei oder gar ein ganzes Verzeichnis für den Crawler gesperrt wird, sollte sichergestellt sein, dass dies auch gewünscht ist. Häufig werden Bilder- und CSS-Verzeichnisse für den Google Robot gesperrt. Das führt dann beispielsweise dazu, dass die Seite nicht korrekt in der Vorschau-Funktion der Google Suchergebnisse angezeigt wird.

Sitemap-Verweis: Eingetragen werden sollte dagegen auf jeden Fall ein Verweis auf die XML-Sitemap(s) der Webseite.

Google Webmaster Tools: In den Google Webmaster Tools kann der Inhalt der robots.txt-Datei unter “Website-Konfiguration -> Crawler-Zugriff” eingesehen und getestet werden. Wer noch keine robots.txt-Datei angelegt hat, bekommt hier außerdem die Möglichkeit eine solche Datei mit Hilfe von Google anzulegen. Auch sehr interessant ist hier der Punkt “URL entfernen”. Dieser ist für URLs gedacht, die von Google gecrawlt und indexiert wurden, allerdings jedoch privaten oder nicht mehr aktuellen Content enthalten. Google bietet hier die Möglichkeit, diese URLs durch das Ausfüllen eines Antrags aus den Suchergebnissen entfernen zu lassen. Tipp: Die Google Webmaster Tools bieten unter “Google Labs” mit der “Vorschau”-Funktion, eine tolle Möglichkeit, zu prüfen, ob die Seite in der Vorschau der Google Suchergebnisse korrekt dargestellt wird. Im unteren Bereich der Seite listet Google auch gleich die “Fehler beim Abrufen von Ressourcen” auf. Steht hier unter Details “Durch eine “robots.txt”-Datei blockiert”, sollten Sie sich den Inhalt der Datei genauer ansehen. Sicherheits-Hinweis: Wichtig ist auch, dass ein Eintrag in der robots.txt nicht dafür geeignet ist, wichtige Informationen vor dem Zugriff Fremder zu schützen. Wer also private Inhalte schützen möchte, sollte dafür andere Mechanismen – beispielsweise eine .htaccess-Datei – verwenden.
Fehlerseite / 404-Seite
Wird eine URL falsch eingegeben, muss das System eine Fehlermeldung mit einer entsprechenden Seite ausgeben. Dabei sind folgende Punkte wichtig:
- Status-Code: Der korrekte Status-Code für eine nicht gefundene Seite lautet “404 Not Found”.
- Aussagekräftige Fehlermeldung: Wird vom User eine Seite aufgerufen, die nicht gefunden werden kann, so sollte diesem eine aussagekräftige Fehlermeldung angezeigt werden. Darin sollte dem User kurz und knapp erklärt werden, weshalb er nun eine Fehlermeldung sieht.
- Navigationsmöglichkeit: Landet ein User auf einer Fehlerseite, sollte diese ihm die weitere Navigation auf der Seite erlauben. Eine leere Seite, die lediglich die Systemfehlermeldung enthält, kann bedeuten, dass der User die Seite verlässt und seine Suche beispielsweise auf Google fortsetzt.
- Alternative Seiten: Abgesehen von den gewöhnlichen Navigationsmöglichkeiten der Seite, sollten dem User möglichst auch alternative Seiten vorgeschlagen werden, die ihn dabei unterstützen, die gewünschte Information zu finden.
  Hinweis: Noch besser als eine 404-Fehlerseite ist es selbstverständlich, wenn nicht mehr existierende Seiten via 301-Redirect auf entsprechende Seiten mit dem passenden Content weitergeleitet werden.
  Google Webmaster Tools: In den Google Webmaster Tools sind fehlerhafte Seiten unter “Diagnose -> Crawling-Fehler” zu finden. Dort wird zwischen “Durch robots.txt gesperrten” Seiten, “HTTP-Fehlern” und “Nicht gefundenen” Seiten unterschieden. Diese Crawling-Fehler sollten regelmäßig überprüft und nach Möglichkeit natürlich auch behandelt werden. Und wenn das nicht für alle möglich ist: Die Tabelle zeigt auch gleich an, wie viele Links die Seiten jeweils haben. Und selbstverständlich kümmern wir uns zuerst um die mit den vielen Links…
  Spider: Fehler und Broken Links lassen sich außerdem auch sehr gut mit einem Spider wie beispielsweise dem Screeming Frog SEO Spider oder Xenu’s Link Sleuth aufspüren.
XML-Sitemaps
Mit einer XML-Sitemap geben die wichtigsten Suchmaschinen den Webseitenbetreiben die Möglichkeit, eine Liste aller Unterseiten zu “melden”. Das Einreichen der Seiten hat den Vorteil, dass diese besser und schneller indexiert werden. Nicht vergessen: In die Sitemap gehören nicht nur die Beitrags- bzw. Produktseiten. Auch Kategorie- oder Themenseiten müssen dort ihre Erwähnung finden. Selbstverständlich nur, wenn sie auch indiziert werden sollen. Es wäre nicht besonders zielführend, tausende von Thin-Content-Seiten, die nachher eh ein “noindex” mitführen, dort einzubauen.

Google Webmaster Tools: In den Google Webmaster Tools besteht die Möglichkeit “XML-Sitemaps” unter “Website-Konfiguration” einzureichen. Hier erhält der Webmaster außerdem Informationen über den Status der eingereichten Sitemap, wann diese zuletzt von Google heruntergeladen wurde, wie viele URLs übermittelt wurden und wie viele URLs davon aktuell im Index sind.
HTML-Sitemaps
Mit einer HTML-Sitemap oder einem Archiv werden die Benutzer und vor allem die Suchmaschinen mit möglichst kurzen Wegen zu allen Unterseiten geführt. Eine solche Sitemap sollte je Unterseite maximal 100 bis 150 Links enthalten und eine Klicktiefe von vier nicht überschreiten. Ideal ist, wenn eine HTML-Sitemap nicht viel Drumrum (also etwa Randspalten enthält). Außerdem empfehlen wir, die Sitemap selbst auf “noindex,follow” zu stellen. Denn die Seiten selbst sollen ja nicht indiziert werden sondern nur für Ordnung im Crawling des Robots sorgen. Wer es ganz perfekt mit einer solchen HTML-Sitemap angehen möchte, verpasst dieser auch noch einen Bereich, in dem neue Seiten etwas bevorzugt behandelt werden. Und auch das etwas stärkere Herausheben von wichtigen SEO-Seiten, kann sich lohnen. Wie diese beiden Dinge allerdings organisiert werden, ist völlig von dem Inhalt der Webseite abhängig.