SEO am Morgen: Site-Befehl kombiniert mit "inurl"

Dir ist nicht so ganz klar, wie eine Seite strukturiert ist und wie stark die einzelnen Unterkategorien von Google wahrgenommen werden? Da hilft die virtuose Kombination des Site-Befehls mit „inurl“:

site-inurl

Wir bekommen also alle Seiten, die im Index sind und im Bereich „/wiki/“ stecken – also alle eigentliche Einträge der deutschen Wikipedia (siehe Subdomain). Das sind 1.530.000 von 2.270.000 Seiten, die insgesamt im Index sind. Eure Hausaufgaben: Wie viele Seiten werden denn tatsächlich auch mir irgendwas gefunden? Wie erfährt man diese Zahl? Wer SEO Book eifrig liest, müsste die Antwort wissen. Wir kümmern uns jetzt aber um die Frage: Welche Seiten denn *keine* Wikipedia-Einträge sind…

Denn dann führt uns zu den „Rechenkünsten“ des Site-Befehls. Du kannst nämlich auch folgendes eingeben und bekommst dann alle Seiten auf Wikipedia, die eben keine Erklärungen sind:

site:de.wikipedia.org -inurl:/wiki/

(man beachte das Minus vor „inurl“). In diesem Ergebnis fällt mir auf, dass sehr viele URLs zu den Tags gehören. Also weg damit:

site:de.wikipedia.org -inurl:/wiki/ -inurl:tags

Und so kann man nach und nach alles Bekannte weg-sperren und erhält am Ende möglicherweise die Seiten, die für Überraschungen sorgen.

Oder wer z.B. alle robots.txt der Wikipedia mal anschauen will, findet diese so:

site:wikipedia.org inurl:robots.txt -inurl:/wiki/

Das ist: Root-Domain mit robots.txt in der URL aber ohne die Beiträge, in denen die robots.txt erklärt wird

Ja, ja, da geht noch mehr. Das hier nur zum Üben. Viel Spaß!

GD Star Rating
loading...

Eric Kubitz

Eric Kubitz ist einer der Chefs der CONTENTmanufaktur GmbH . Außerdem ist er Redner auf Konferenzen, Dozent bei Hochschulen, schreibt über SEO (und über andere Dinge) und ist der Chefredakteur des SEO-Book.

More Posts - Website - Twitter - Facebook - LinkedIn - Google Plus

Kommentare (7)

  1. shan_dark

    Hööö??? Das ist mir zu hoch…was bringt mir das Auswerten mit der inurl? Muss wohl die Hausaufgaben schwänzen.

  2. Eric Kubitz (Beitrag Autor)

    Hey shan_dark – das gibt aber Strafarbeiten…

    Die URL ist in diesem Fall eigentlich nur eine Hilfe, um eine größere Seite irgendwie in den Griff zu bekommen. Manchmal möchte man ja wissen, welche Seiten da überhaupt in welchem Channel sind. Ich brauche das ständig für die Analyse. Aber manchmal denke ich mir auch, dass das vielleicht nur Beschäftigungstherapie ist 😉

  3. Pingback: nützliche Tweets: 24.10.2009 | preisbiene Blog

  4. Pingback: Erweiterte Crawlability: Don’t waste robot-time! | Technik Sonstiges | Seo Book

  5. FlitzR

    Interessant!

    Weshalb seh ich bei der Suche:
    site:de.wikipedia.org -inurl:/wiki/ -inurl:tags

    dieselben Ergebnisse wie bei dieser Suche:
    site:de.wikipedia.org -inurl:/wiki/

    ?????
    😎

  6. Eric Kubitz (Beitrag Autor)

    @FlitzR:

    Weil es nur 41 URLs mit „tags“ gibt. Such mal nach
    site:de.wikipedia.org inurl:tags

  7. Pingback: Erweiterte Crawlability: Don't waste robot-time! - Offpage -SEO Book

Kommentare sind geschlossen.