Richtig Scrapen! (legal, legitim und SEO-konform)

scrapen„Scraping“ ist grundsätzlich böse, weil man damit erstens Inhalte anderer von deren Seiten klaut und zweitens weil Google das eh als Duplicate Content wahrnimmt. Wirklich? Nein, nicht wirklich. Denn wer clever und legal scrapt und damit Nutzwert für die User aufbaut, der tut damit sogar noch ein gutes Werk. Schauen wir mal, wie das geht.

Alles fängt damit an, dass man sich natürlich keine Inhalte von fremden Webseiten holt, die man sich nicht holen darf. Hier gibt es zwei Kriterien:

  • Erstens dürfen damit keine Urheberrechte verletzt werden. Ein journalistischer Text etwa darf nur dann verwendet werden, wenn dieser freigegeben ist. Von Bildern lassen wir eh die Finger weg. Doch einzelne Datensätze sind (lt. einem Urteil des OLG Frankfurt a.M vom 5.3.2009, Az.: 6 U 221/08 siehe aktuelle Ausgabe Internet World Business Seite 32) grundsätzlich keine wesentlichen Teile einer Datenbank. (In diesem Urteil wurde ein Fall verhandelt, bei dem eine Fluglinie dagegen geklagt hat, dass ein anderes Unternehmen seine Flugdaten indiziert.) Das heißt für mich: Es ist rechtlich völlig in Ordnung, wenn Daten von fremden Webseiten geholt werden, so lange sich die Nutzung im Rahmen einer normalen Auswertung der Datenbank hält und die berechtigten Interessen des anderen nicht unzumutbar beeinträchtigt werden Wie das jeder für sich auslegt, dürfte unterschiedlich sein und möglichst von einem Juristen geprüft werden. Ich interpretiere das so, das ich öffentliche Daten (z.B. auch Produktdaten, Preise u.s.w.) von Herstellern und Händlern holen darf. Es sei denn…
  • Technische Maßnahmen zur Sperrung der Daten dürfen nicht umgangen werden. Ich denke, schon eine Information in der robots.txt, dass die Inhalte  nicht indiziert werden dürfen, sollte ernst genommen werden. Andere technische Sperrungen sowieso.

Es gibt also Inhalte da draußen, die wir verwenden können. Wie gesagt, dazu zähle ich Produktdaten, Preise u.s.w.. Wir müssen zunächst checken, ob uns eine technische Sperre dies verbietet. Doch wenn nicht, können wir solche Inhalte manuell oder automatisiert scrapen. (Falls es dazu andere Meinungen gibt, bitte in die Kommentare, das würde mich interessieren.)

Das Problem ist nun, dass diese Inhalte nicht einzigartig sind und somit von Google schnell als Duplicate Content identifiziert werden. Das müssen wir unbedingt vermeiden. Da wir aber ohnehin mit strukturierten Daten arbeiten (es geht ja um Datensätze und keine journalistische Texte) können wir aus den Daten ja richtige Texte machen.

Beispiel: Wir möchten unique Seiten für eine Flugsuche bauen. Flüge gehen immer von Stadt 1 zu Stadt 2, beide Städte liegen im gleichen oder in verschiedenen Ländern, die Flüge werden von verschiedenen Fluglinien geflogen und dauern unterschiedlich lange. Wir können die Daten strukturiert ablegen und damit sogar neue Informationen berechnen (durchschnittliche Flugdauer, Zahl der Flüge u.s.w.). Ausgegeben werden die Daten dann jeweils auf optimierten Seiten z.B. auf „Flug München-Paris“ optimiert:

Flug München-Paris
Der Flug München (Deutschland) nach Paris (Frankreich) wird von Lufthansa, Air Berlin u.a. Fluglinien angeboten und dauert im Schnitt 2:45 Stunden. Für diesen Flug haben wir täglich bis zu fünf Starts in München in unserer Datenbank. Hier alle Flüge „München-Paris„:
Lufthansa: Start 6:30 Uhr, Ankunft 9:00 Uhr (Flugdauer 2:30 Stunden)
Air Berlin: Start 7:05 Uhr, Ankunft 9:40 Uhr (Fludauer 2:35 Stunden)
u.s.w.

Damit haben wir gleich mehrere Dinge erledigt: Mit der Abfrage der 5 bis 10 wichtigsten deutschen Fluglinien können wir zahlreiche dynamische Seite generieren. Alle diese Seiten bestehen aus für Google optimierten Text – sind aber in keinem Punkt „Duplicate Content“. Mit ein bisschen mehr Fantasie und Mühe, wird der Text auch über 150 Wörter lang und ich kann passende Nebenkeywords (z.B. Namen der Fluglinien) verbauen. Außerdem ist das eh ansprechender für die User als dumpfe Tabellen.

Nun gut, wir müssen auch darauf achten, dass wir uns mit solcherart automatisch erstellten Texten keinen eigenen Duplicate Content auf der Seite schaffen – aber das bekommen wir in den Griff, wenn wir ausreichend Daten für jede optimierte Seite gesammelt haben und diese möglichst gleichmäßig dynamisch in die Texte einbauen. (Wie der Einbau technisch z.B. via PHP-Abfragen funktioniert gehört nicht hier her, ist aber zu schaffen. Und wer besonders clever ist, bastelt sich hiermit seine Datenbank zum Weiterentwickeln…). Selbstverständlich verwenden wir die gescrapten Daten auch für die Befüllung von Meta-Tags, ALT-Tags (falls z.B. Pressebilder vorhanden sind) u.s.w..

Und, klar, es lassen sich mit einer solchen „Text-Maschine“ nicht nur gescrapte Daten sondern auch die bereit gestellten Produktdaten von Affiliate-Netzwerken aufpeppen. Aber das war ja hier nicht das Thema 😉

GD Star Rating
loading...
Richtig Scrapen! (legal, legitim und SEO-konform), 5.0 out of 5 based on 1 rating

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus