Robots.txt

sd12

Legendäres Mitglied
Was robots.txt angeht, schaff ich es immer wieder, google ungewollt auszuschliessen...

So bin ich derzeit nicht mehr im google index und bei Technorati rausgefallen.

Nachdem ich das File gelöscht habe, bin ich bei Technorati wieder drinn, bei google dürfte es etwas länger dauern...

Wo ist hier der Hund begraben?
CODE User-agent: ia_archiver
Disallow: /

User-agent: *
Allow: /


Ich will damit verhindern, dass die Seite bei archive.org auftaucht...
 
Vielleicht hebt sich das bei dir gegenseitig auf.

Ich habe:

CODE User-agent: ia_archiver
User-agent: psbot
User-agent: Googlebot-Image
Disallow: /

User-agent: *

Disallow: /url.php
Disallow: /grafiken/


Und es klappt einwandfrei. Es gibt nichts im IA Archiver zu schnüffeln, die Bilderdiebe verschonen mich auch und in den normalen Suchergebnissen sind meine Seiten drin.

Uberprüfe mal mit dem Robots.txt Checker deine robots.txt. Vielleicht hast du ein Return nicht richtig gemacht. Der Checker zeigt so etwas als Fehler an. Wie kleinlich da die Suchmaschinen sind weis ich nicht.
 
den zweiten teil mit "allow" kannst du auch weglassen.

"Hinter jeder Zeile, die mit Disallow: beginnt, können Sie jeweils eine Pfadangabe notieren. Die Robots werden diese Pfade auf Ihrer Seite dann nicht indizieren. Es besteht übrigens keine Möglichkeit, Verzeichnisse explizit für die Indizierung zu erlauben. Ein Schlüsselwort Allow: wurde niemals definiert."
aus: http://de.selfhtml.org/diverses/robots.htm

laut http://www.google.de/support/webmasters/bi...py?answer=40364 versteht google das zwar, aber wer weiss?!?!?
wenn schon "allow", dann würde ich zur sicherheit auch den user-agent googlebot angeben, da andere robots damit vielleicht nicht klar kommen.
und laut den beispielen auf dieser seite ist auch "allow:" richtig (ohne schrägstrich!)
 
QUOTE (sd12 @ Mo 18.12.2006, 11:24)Wo ist hier der Hund begraben?

CODE User-agent: ia_archiver
Disallow: /

User-agent: *
Allow: /


google hält sich - nach meinen Beobachtungen - ziemlich streng an den Standard http://www.robotstxt.org/wc/norobots.html . Und dies ist ein Beispiel dafür:


QUOTE Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.

Any empty value, indicates that all URLs can be retrieved. At least one Disallow field needs to be present in a record (Hervorhebung von mir)


Bei dir fehlt dieses eine Disallow-Feld. Sprich: Füge ein


QUOTE Disallow:
mit anschließendem Return dazu

Ich mache das seit jeher so, daß ich immer eine Zeile


QUOTE Disallow: /temp/


hinzufüge, auch wenn es das Verzeichnis noch gar nicht gibt. Die Allow-Zeile ist - für google - schon ok. Allerdings muß jede Zeile durch ein Return abgeschlossen sein.
 
Google kennt den Parameter Allow: offensichtlich nicht!

Soeben hab ich in der URL Konsole folgende Fehlermeldung von Google erhalten:
We cannot process robots.txt files that contain Allow: lines.
 
QUOTE (sd12 @ Mo 18.12.2006, 22:01)Google kennt den Parameter Allow: offensichtlich nicht!

Soeben hab ich in der URL Konsole folgende Fehlermeldung von Google erhalten:
We cannot process robots.txt files that contain Allow: lines.

Das Allow hatte google schon vor langer Zeit einmal eingeführt und das auch auf seiner Website so erläutert.

Es wird bsp. hier verwendet und da erläutert.

Wenn sich die Url-Konsole nun strikt an den Standard hält, dann ist das einerseits zu begrüßen. Andererseits sind ein paar dieser Wildcard-Erweiterungen auch nicht schlecht.
 
Zurück
Oben