SEO am Morgen: Site-Befehl kombiniert mit “inurl”

Filed Under Tools 

Dir ist nicht so ganz klar, wie eine Seite strukturiert ist und wie stark die einzelnen Unterkategorien von Google wahrgenommen werden? Da hilft die virtuose Kombination des Site-Befehls mit “inurl”:

site-inurl

Wir bekommen also alle Seiten, die im Index sind und im Bereich “/wiki/” stecken – also alle eigentliche Einträge der deutschen Wikipedia (siehe Subdomain). Das sind 1.530.000 von 2.270.000 Seiten, die insgesamt im Index sind. Eure Hausaufgaben: Wie viele Seiten werden denn tatsächlich auch mir irgendwas gefunden? Wie erfährt man diese Zahl? Wer SEO Book eifrig liest, müsste die Antwort wissen. Wir kümmern uns jetzt aber um die Frage: Welche Seiten denn *keine* Wikipedia-Einträge sind…

Denn dann führt uns zu den “Rechenkünsten” des Site-Befehls. Du kannst nämlich auch folgendes eingeben und bekommst dann alle Seiten auf Wikipedia, die eben keine Erklärungen sind:

site:de.wikipedia.org -inurl:/wiki/

(man beachte das Minus vor “inurl”). In diesem Ergebnis fällt mir auf, dass sehr viele URLs zu den Tags gehören. Also weg damit:

site:de.wikipedia.org -inurl:/wiki/ -inurl:tags

Und so kann man nach und nach alles Bekannte weg-sperren und erhält am Ende möglicherweise die Seiten, die für Überraschungen sorgen.

Oder wer z.B. alle robots.txt der Wikipedia mal anschauen will, findet diese so:

site:wikipedia.org inurl:robots.txt -inurl:/wiki/

Das ist: Root-Domain mit robots.txt in der URL aber ohne die Beiträge, in denen die robots.txt erklärt wird

Ja, ja, da geht noch mehr. Das hier nur zum Üben. Viel Spaß!

Ähnliche Beiträge:

  1. site:sag.mir.alles (Was mir Google mit dem Site-Befehl verrät)
  2. SEO am Morgen: Mit der Site-Abfrage Backlinks suchen
  3. Open Site Explorer: ein neues Backlink-Tool von SEOmoz

Comments

6 Responses to “SEO am Morgen: Site-Befehl kombiniert mit “inurl””

  1. shan_dark on Oktober 21st, 2009 19:36

    Hööö??? Das ist mir zu hoch…was bringt mir das Auswerten mit der inurl? Muss wohl die Hausaufgaben schwänzen.

  2. Eric Kubitz on Oktober 22nd, 2009 07:39

    Hey shan_dark – das gibt aber Strafarbeiten…

    Die URL ist in diesem Fall eigentlich nur eine Hilfe, um eine größere Seite irgendwie in den Griff zu bekommen. Manchmal möchte man ja wissen, welche Seiten da überhaupt in welchem Channel sind. Ich brauche das ständig für die Analyse. Aber manchmal denke ich mir auch, dass das vielleicht nur Beschäftigungstherapie ist ;-)

  3. nützliche Tweets: 24.10.2009 | preisbiene Blog on Oktober 25th, 2009 08:56

    [...] am Morgen: Site-Befehl kombiniert mit “inurl” (Link) [...]

  4. Erweiterte Crawlability: Don’t waste robot-time! | Technik Sonstiges | Seo Book on März 29th, 2010 08:37

    [...] Content & unnötige Index-Seiten findet man am besten mit dem viruosen Einsatz des “site”-Befehls (wobei ich diesen Artikel unbedingt  aktualisieren muss….). Ziel hier sollte es nicht sein, [...]

  5. FlitzR on März 29th, 2010 12:50

    Interessant!

    Weshalb seh ich bei der Suche:
    site:de.wikipedia.org -inurl:/wiki/ -inurl:tags

    dieselben Ergebnisse wie bei dieser Suche:
    site:de.wikipedia.org -inurl:/wiki/

    ?????
    8-)

  6. Eric Kubitz on März 29th, 2010 13:03

    @FlitzR:

    Weil es nur 41 URLs mit “tags” gibt. Such mal nach
    site:de.wikipedia.org inurl:tags

Leave a Reply