Dir ist nicht so ganz klar, wie eine Seite strukturiert ist und wie stark die einzelnen Unterkategorien von Google wahrgenommen werden? Da hilft die virtuose Kombination des Site-Befehls mit “inurl”:

Wir bekommen also alle Seiten, die im Index sind und im Bereich “/wiki/” stecken – also alle eigentliche Einträge der deutschen Wikipedia (siehe Subdomain). Das sind 1.530.000 von 2.270.000 Seiten, die insgesamt im Index sind. Eure Hausaufgaben: Wie viele Seiten werden denn tatsächlich auch mir irgendwas gefunden? Wie erfährt man diese Zahl? Wer SEO Book eifrig liest, müsste die Antwort wissen. Wir kümmern uns jetzt aber um die Frage: Welche Seiten denn *keine* Wikipedia-Einträge sind…
Denn dann führt uns zu den “Rechenkünsten” des Site-Befehls. Du kannst nämlich auch folgendes eingeben und bekommst dann alle Seiten auf Wikipedia, die eben keine Erklärungen sind:
site:de.wikipedia.org -inurl:/wiki/
(man beachte das Minus vor “inurl”). In diesem Ergebnis fällt mir auf, dass sehr viele URLs zu den Tags gehören. Also weg damit:
site:de.wikipedia.org -inurl:/wiki/ -inurl:tags
Und so kann man nach und nach alles Bekannte weg-sperren und erhält am Ende möglicherweise die Seiten, die für Überraschungen sorgen.
Oder wer z.B. alle robots.txt der Wikipedia mal anschauen will, findet diese so:
site:wikipedia.org inurl:robots.txt -inurl:/wiki/
Das ist: Root-Domain mit robots.txt in der URL aber ohne die Beiträge, in denen die robots.txt erklärt wird
Ja, ja, da geht noch mehr. Das hier nur zum Üben. Viel Spaß!
Ähnliche Beiträge:



Pingback: nützliche Tweets: 24.10.2009 | preisbiene Blog
Pingback: Erweiterte Crawlability: Don’t waste robot-time! | Technik Sonstiges | Seo Book