Ich halte den Artikel für ziemlich schwach.
1. google spidert schon seit längerer Zeit auch größere Dokumente. Die Suche nach
"HALFWIDTH HANGUL LETTER I" "Letter Other"
listet die Seite zur Kategorie
Letter, Other aus meiner Unicode-Datenbank - und die Seite ist 672 KB groß, 'Halfwidth Hangul Letter I' steht ganz am Ende. Man kann auch noch meinen Nachnamen dazunehmen und dann in den Cache gucken. Ich meine, daß das mindestens schon zwei Jahre so ist.
2. Die Aussage, daß es 'technische Barrieren' in Form von Suchmasken gäbe, ist falsch. Es gibt genügend Spammer, die Suchen ihrer Nutzer mitschneiden und diese geeignet verlinken - dann indiziert die google auch.
3. Die 'zeitliche Barriere' ist ein merkwürdiges Argument: Wenn die Informationen nur so kurzlebig sind, daß sie nach zwei Tagen (bis sie gelistet sind) schon wieder veraltet sind, dann braucht man sie eigentlich gar nicht spidern.
4. Spezialsuchmaschinen mögen ja toll sein. Aber erstens stehen sie vor genau denselben Problemen, zweitens muß ich dann wieder jedes einzelne Portal aufsuchen und dort manuell suchen. Genau diese Arbeit sollen ja Suchmaschinen, die domainübergreifend arbeiten, abnehmen.
Oh, grade kann ich es mir nicht verkneifen, nach
"sql-und-xml.de" filetypedf
zu googeln, also nach meiner Hauptdomain plus dem PDF-Dateityp.
Ergebnis: Ein Dokument aus Potsdam mit knapp 500 KB, etwas aus Dresden mit 730 KB, wohl eine Magisterarbeit aus Köln mit 865 KB, etwas von der Uni Graz mit 1.78 MB - und irgendetwas aus Heidelberg mit schlappen 5.98 MB. Cool - da ist sogar ein Screenshot von meiner Xml-Unicode-Seite drin - wußte ich bis jetzt gar nicht.
Wenn man also unter 'Suchen' google versteht, dann ist der Artikel schwach.
PS: Kleine Ergänzung zum Verständnis des letzten Beispiels: Der Artikel schreibt, daß doch wichtige wissenschaftliche Dokumente als PDF abgelegt seien - mit Linklisten ganz hinten, also jenseits der 100-KB-Grenze. Dann hätte ich ja diese Beispiele gar nicht über google gefunden.