google's unergründliche Wege

sd12

Legendäres Mitglied
Google wollte bis gestern eine meiner Seiten nicht indexieren

Gestern hab ich die Seite auf eine Subdomain auf meinen Server zuhause gezügelt. Dreimal dürft Ihr raten, was google in der Nacht gemacht hat. Genau! Die Seite ist nun im Index...

Ohne was am Inhalt oder am Code geändert zu haben...
 
Ich verstehe Google schon seit Monaten nicht mehr. Wenn ich Seiten über die URL Konsole lösche, dann klappt das zur Zeit innerhalb einiger Stunden. Neue Seiten über die sitemap.xml (auch angemeldet bei Google) funktioniert überhaupt nicht.
 
QUOTE (Andreas Ploetzeneder @ Sa 5.8.2006, 9:33) Ich hab mir schonmal gedacht, man sollte ne Anleitung machen.
So kommt man schnellsten in den GOogle Index.

Und was willst du in diese Anleitung schreiben?

Machen Sie alles was Sie möchten, es ist sowiso alles falsch?
 
Geht mir ähnlich wie euch. Habe monatelang versucht eine Seite in den Index zu bekommen. Google sträubte sich während Yahoo/MSN keine Probleme hatte. Irgendwann habe ich es dann aufgegeben und einige Monate nichts mehr gemacht. Seit knapp einer Woche ist die Seite nun im Index, wobei ich mir nicht erklären kann, was nun der ausschlaggebende Grund für die Aufnahme war.
Eine Frage am Rand: Hört der Googlebot bei euch noch auf die Anweisungen der Robots.txt - Datei? Bei mir scheint es nicht der Fall zu sein und es werden Seiten indexiert, die ich eigentlich überhaupt nicht indexiert haben möchte.. Verstehen einer Google
 
QUOTE Hört der Googlebot bei euch noch auf die Anweisungen der Robots.txt - Datei? Bei mir scheint es nicht der Fall zu sein und es werden Seiten indexiert, die ich eigentlich überhaupt nicht indexiert haben möchte..


Wenn ich Google die robots.txt über die URL Konsole mitteile, dann löscht er die Seiten innerhalb weniger Stunden. Ob es so die robots.txt bei mir beachten tut weiss ich nicht.
 
QUOTE (Rainer @ Sa 5.8.2006, 22:55) Wenn ich Google die robots.txt über die URL Konsole mitteile, dann löscht er die Seiten innerhalb weniger Stunden. Ob es so die robots.txt bei mir beachten tut weiss ich nicht.

Vielen Dank für den Hinweis. Werde es in den folgenden Tagen gleich mal ausprobieren.
 
als ich wäre vorsichtig mit dem löschen über die url konsole.... da kann auch was zu lange aus dem index verschwinden.....

wie bringe ich eine site schnell in den google index...

a.) es bedarf keiner anmeldung bei google
b.) setze einen link auf einer von google gut besuchten seite....
c.) setze jetzt jeden tag einen neuen link auf die seite... 14 tage lang. natürlich von sites die google kennt.

je nach seite und links...

...ist im normalfall die startseite in 2 tagen im index.
...sind unterseiten (20-30) stk. innert 14 tagen im index.
...ein paar hundert innert ca. 4 wochen
...10-100tausende innert monaten...

das sind natürlich erfahrungswerte die etwas abweichen können, wenn die tante mal wieder ihre tage hat... aber wenn sie die regel mal nicht hat, dann passt das mehr oder minder...

ric
 
QUOTE (omc @ So 6.8.2006, 1:51)a.) es bedarf keiner anmeldung bei google
b.) setze einen link auf einer von google gut besuchten seite....
c.) setze jetzt jeden tag einen neuen link auf die seite... 14 tage lang. natürlich von sites die google kennt.

Das ist mir natürlich bekannt. Die Seite hatte unzählige Links, auch von PR-starken Seiten. Darum war es für mich unerklärlich wieso diese Seite einfach nicht aufgenommen wurde. Nun, diese Frage habe ich nun aufgegeben, denn Google verstehe ich wirklich überhaupt nicht (mehr), nicht zuletzt, weil eine andere Seite von mir nach einem (PR-schwachen) Link vollständig indexiert wurde...


QUOTE als ich wäre vorsichtig mit dem löschen über die url konsole.... da kann auch was zu lange aus dem index verschwinden.....

Das Ziel für mich beim Löschen durch die URL-Konsole ist ja, dass die Seiten die per robots.txt "disallowed" wurden, aus dem Index verschwinden. Die sollen da auch nicht mehr zurück kommen
wink.gif
 
QUOTE (simonius @ Sa 5.8.2006, 21:57)Hört der Googlebot bei euch noch auf die Anweisungen der Robots.txt - Datei? Bei mir scheint es nicht der Fall zu sein und es werden Seiten indexiert, die ich eigentlich überhaupt nicht indexiert haben möchte.. Verstehen einer Google

Bei mir hat sich google bis jetzt immer an die robots.txt (kleingeschrieben) gehalten. Sowohl bei laufendem Betrieb auf meiner Hauptdomain als auch beim früheren Blockieren von http://www.server-daten.de/ und anschließendem partiellen Freigeben. Als die Domain blockiert war, hat sich google bald täglich die robots.txt geholt und verschwand wieder, nach dem Freigeben wurden die entsprechenden Seiten gespidert.

Poste deine mal - eventuell ist da ein Fehler drin.
 
QUOTE (jAuer @ So 6.8.2006, 11:17)Poste deine mal - eventuell ist da ein Fehler drin.


QUOTE User-agent: *
Disallow: /impressum.php
Disallow: /impressum2.php
Disallow: /impressum.jpg
Disallow: /impressumanschrift.jpg
Disallow: /tgp/


Einige Seiten mit der URL www.domain.com/tgp/text/index.html sind nun im Google-Index zu finden... Für mich unerklärlich.
 
QUOTE (simonius @ So 6.8.2006, 15:51)
QUOTE User-agent: *
Disallow: /impressum.php
Disallow: /impressum2.php
Disallow: /impressum.jpg
Disallow: /impressumanschrift.jpg
Disallow: /tgp/



http://www.robotstxt.org/wc/norobots.html - The Format:


QUOTE The file consists of one or more records separated by one or more blank lines (terminated by CR,CR/NL, or NL). Each record contains lines of the form "<field>:<optionalspace><value><optionalspace>". The field name is case insensitive.


Mache mal nach der letzten Zeile noch zwei Returns - die scheinen zu fehlen. Damit ist die letzte Zeile nicht terminiert. Also:


QUOTE User-agent: *
Disallow: /impressum.php
Disallow: /impressum2.php
Disallow: /impressum.jpg
Disallow: /impressumanschrift.jpg
Disallow: /tgp/




Und prüfe, ob die Berechtigung korrekt ist - die robots.txt muß sich korrekt im Browser aufrufen lassen.
 
QUOTE (jAuer @ So 6.8.2006, 17:40)
QUOTE (simonius @ So 6.8.2006, 15:51)
QUOTE User-agent: *
Disallow: /impressum.php
Disallow: /impressum2.php
Disallow: /impressum.jpg
Disallow: /impressumanschrift.jpg
Disallow: /tgp/



http://www.robotstxt.org/wc/norobots.html - The Format:


QUOTE The file consists of one or more records separated by one or more blank lines (terminated by CR,CR/NL, or NL). Each record contains lines of the form "<field>:<optionalspace><value><optionalspace>". The field name is case insensitive.


Mache mal nach der letzten Zeile noch zwei Returns - die scheinen zu fehlen. Damit ist die letzte Zeile nicht terminiert. Also:


QUOTE User-agent: *
Disallow: /impressum.php
Disallow: /impressum2.php
Disallow: /impressum.jpg
Disallow: /impressumanschrift.jpg
Disallow: /tgp/




Und prüfe, ob die Berechtigung korrekt ist - die robots.txt muß sich korrekt im Browser aufrufen lassen.

Erstmal danke für dein tolles Feedback/Hilfe.
Habe die Datei, wie von dir empfohlen, nun um zwei weitere Absätze erweitert. Mal schauen wie der Googlebot reagiert.
Zu letzterem: Jep, die robots.txt-Datei lässt sich problemlos im Browser öffnen.
 
Zurück
Oben