Domaininterner partieller Duplicated Content

Jürgen Auer

Legendäres Mitglied
Eine Beobachtung, die mich selbst verblüfft hatte.

Eine Kundensubdomain ist öffentlich sichtbar, hat nur sehr wenige eingehende Links.

Man kann suchen (jeweils zehn Ergebnisse mit Links zum Weiterblättern), das Ergebnis umsortieren (nach allen möglichen Spalten) und sich die Details zu einer Person ansehen. Insgesamt etwa 400 Personen drin.

Ursprünglich waren alle Seiten, deren Url Sortierungen oder Details enthielten, auf nofollow/noindex gesetzt, um mögliche Probleme mit Duplicated Content auszuschließen. Das ist zwar kein vollständiger DC, aber doch ein partieller.

Irgendwann im Februar / März diese Einschränkungen einfach mal entfernt nach dem Motto: Mal gucken, was passiert.

Was passiert? google frißt sich irgendwann wie wildgeworden durch die Seiten, holt sich hunderte von Seiten innerhalb kurzer Zeit, das wiederholt sich alle paar Tage.

Ergebnis nun: Sehr viele der Detailseiten zu den Personen kommen jetzt raus, mit 'Vorname Nachname' im Titel, also sehr individuell. Bei den Suchergebnisseiten ist der Titel immer gleich, von denen sind nur 'relativ wenige' (im Vergleich zur potentiell möglichen Zahl) im Index.

Sehr verblüffend finde ich, daß jetzt schon seit geraumer Zeit über 200 Seiten relativ stabil im Index sind, davon gut die Hälfte Personenseiten. Die Subdomain hat tatsächlich kaum eingehende Links.

Wer sich das angucken möchte: Auf meiner Startseite der Link unter 'Daten selbst pflegen'. Der ist übrigens nofollow, zählt also nicht.
 
Das kann meiner Ansicht nach auch "temporär" sein. Bei mir sind z.B. Snippets der internen Suchmaschine auch relativ DC-verdächtig.

In etwa so:
"Hauptseite zum Thema Keyword" verlinkt zu "Suchergebnis interne Suche zum Keyword" listet zig Unterseiten mit "Keyword".

Nun kann ich in den SERPS von google sehen, dass die "Suchergebnis"-Seiten in zweiter Zeile eingerückt erscheinen, dann wieder nicht. Oder eine Unterseite und die dann wieder nicht...

Das schwankt.

Was mir in letzter Zeit noch aufgefallen ist:
Meine Buchrezensionen, die auch eine kopierte Anpreisung vom Verlag enthalten (wird z.B. auch von Amazon verwendet), sind vor einigen Monaten allesamt aus dem Index verschwunden. Ich habe daraufhin alle Titel abgeändert, woraufhin alle Seiten wieder in google gelistet wurden. Seit zwei Wochen sind diese Seiten wieder verschwunden.

Ich für mich denke auch, dass die DC-Richtlinien bei "Domainintern" etwas weicher gestaltet sind. Zudem könnte das Problem mit den Büchern ("kommerzieller Charakter") auch eher auf eine bevorzugte Behandlung seitens von google hindeuten.

Ob das eine "generelle Neuordnung" seitens von google ist? Abwarten...
Für mich schwankt es zu sehr...
 
Ich hatte erwartet, daß google vielleicht 50 Seiten spidert und dann am Ende vielleicht 30 anzeigt, 20 davon als Suchergebnisse, zehn mit Details und individuellen Namen im Titel.

Stattdessen hat sich google - fast wie ein durchgeknallter Spider - über das Projekt hergemacht. Das erste Mal habe ich noch gedacht, 'na ja, einmal', dann hat sich das regelmäßig wiederholt. Wenn man auf der Seite den Blätterlinks folgt und dann umsortiert, dann gibt es schon sehr viele Möglichkeiten.

google weiß ja, daß die Subdomain nicht viele eingehende Links hat. Also kann für das 'heftige Spidern' eigentlich nur ein domaininterner Grund vorliegen, der Content bzw. die Art der Verlinkung muß irgendwie interessant sein.

Nur hatte ich diese bis dahin überhaupt nicht als interessant, sondern eher als kritisch betrachtet. Deshalb hatte ich ja ursprünglich ein noindex/nofollow reingesetzt.

Vielleicht hat google 'relativ schnell' (algorithmisch) gemerkt, daß man über verschiedenartige Zwischenseiten auf jeweils 'etwa dieselben Zielseiten' kommt, die Details sind dieselben, das Suchergebnis unten ist jeweils unterschiedlich.

Und daß jetzt schon seit längerer Zeit stabil über 200 Seiten drin sind und die Seiten teilweise auch durchaus bei der Suche nach 'Vorname Nachname' gefunden werden, finde ich weiterhin verblüffend. Andere klagen, daß google kaum etwas indiziert und haben sehr viel mehr Links, diese Subdomain hat fast keine Links und so viele Seiten drin.
 
Die Subdomain wird der Domain zugeordnet, Google trennt da mittlerweile nicht mehr. Wie sieht es denn mit der Linkpower der Hauptdomains aus?
 
@jAuer:

ich habe 2000 Seiten von Hand geschrieben, aber 30 000 Seiten sind im google Index... Dass google spidert wie wild, ist inmho schon länger der Fall.

Es kommt dazu, dass google es zumindest bei mir nicht mehr mit der "internen Verlinkung" genau nimmt. Es kommen durchaus Seiten in den Index, die von nirgends her verlinkt sind (Ursachen: Seiten mit Adsense, Toolbar, GA ???).

Was mich persönlich fasziniert, ist: obwohl meine Seitensuche solche URLs zwingend erzeugt
search.cgi?keyword=parameter1&q=parameter2&...
hat es google sogar geschafft, die kleinstmögliche URL zu generieren, unter der noch dasselbe angezeigt wird:
search.cgi?keyword=parameter1

Das ist schon relativ intelligent, denn damit hat google schon einigen DC ausgeräumt.
Man sollte testen, inwieweit google durch die Kürzung von Parametern sogar in der Lage ist, völlig unterschiedliche Inhalte zu spidern. Hierzu habe ich Dir eine PN geschickt.

Generell: die Zahl der Seiten im Index schwankt bei mir zwischen 15000 und 50000. Zur Zeit hänge ich bei 30000. Für mich ist das ein brauchbarer Wert. Und ich weiss sehr wohl, dass ich einigen DC erzeuge!

Und interner DC ist mir mittlerweile egal
ph34r.gif

Ich füge aber auch hinzu, dass ich bei Schwierigkeiten auf die robots.txt zurückgreifen würde. Aber bislang musste ich nicht.

Google spidert deutlich mehr als nur URL's die verlinkt werden. Hier geht es um die Nutzbarmachung von Deep-Web-Inhalten. Inwieweit das sinnvoll ist, kann natürlich diskutiert werden...
 
QUOTE (Peter Schneider @ Mi 2.07.2008, 14:25)Was mich persönlich fasziniert, ist: obwohl meine Seitensuche solche URLs zwingend erzeugt
search.cgi?keyword=parameter1&q=parameter2&...
hat es google sogar geschafft, die kleinstmögliche URL zu generieren, unter der noch dasselbe angezeigt wird:
search.cgi?keyword=parameter1

Das ist ziemlich heftig.

Zum einen füllt ja eigentlich google keine Formulare aus, wo hat er also die eigentlichen Urls her? Bleiben nur Adsense-Spider, Toolbar o.ä., zumindest der Adsense-Spider und der normale googlebot bestücken ja denselben Index mit einer Caching-Logik.

Und das Kürzen ist eindeutig eine 'geistige Leistung'.

Bei mir stehen die Urls für die Details durch die Liste von zehn Einträgen zur Verfügung, insofern muß nicht gepostet werden. Dann kommt man im Prinzip per Klick auf alle weiteren Seiten.

Ich hatte ja auch Schiß, daß google die Subdomain quasi kickt, weil zu vieles ähnlich ist, deshalb ursprünglich noindex/nofollow. Das Gegenteil ist eingetreten. Und der Content ist auch unique, nur eben nicht subdomainintern.


QUOTE (AdMarkt @ Mi 2.07.2008, 13:04)Die Subdomain wird der Domain zugeordnet, Google trennt da mittlerweile nicht mehr. Wie sieht es denn mit der Linkpower der Hauptdomains aus?


Das halte ich im allgemeinen für falsch. Wenn verschiedene Subdomains (www ist ja auch bloß eine Subdomain) miteinander verlinkt sind, dann zählt das als ein Konglomerat (auch domainübergreifend, ist schon lange so). Bei fehlender Verlinkung (wie bei den server-daten - Subdomains) ist das getrennt. Die Kundensubdomains verlinken weder auf die www-Variante (die dient bloß zur Anmeldung) noch auf meine Hauptdomain noch untereinander (von meiner beispiel abgesehen). Ich riskiere doch nicht, daß es da irgendwelche Abhängigkeiten und Risiken gibt. Deshalb hat ja jeder Kunde seine isolierte Subdomain. Die meisten sind ohnehin völlig unbekannt, da bloß ein Login drauf ist und nicht einmal google die Subdomain kennt.
 
Hallo!

Zum Ausfüllen von Formularen habe ich von mir nichts entdeckt, aber das Kürzen von Parametern zeigt durchaus in die selbe Richtung. Ich wäre, was dynamisch generierte Seiten anbelangt insofern vorsichtig:
- blocke ich "fehlerhafte" Anfragen nicht lieber ab?
- sperre ich ganze Skripte (bzw. Ordner) in der robots.txt

Nofollow bringt nichts. Denn die parametrisierten Seiten könnten auch leicht von externen Seiten her mit follow verlinkt werden. Und zudem: rein semantisch heisst "nofollow" kein Sperren, sondern lediglich, dass google diesem Link von der link-gebenden Seite kein Link-Juice vererbt (anders rum: prinzipiell "darf" alles gespidert werden, das nicht in der robots.txt gesperrt wird).
QUOTE The nofollow attribute is just a mechanism that gives webmasters the ability to modify PageRank flow at link-level granularity.

http://www.google.com/search?hl=en&client=...tts&btnG=Search

"Angst wegen DC": klar, kann ich verstehen. Aber wenn die SUMA bei mir die Parameter von Seiten aus der internen Suche kürzt, dann würde ich meinen, dass das deren Politik ist. Klar, das kann sich wieder ändern und vielleicht sogar bedeuten, dass meine Seiten irgendwann als Spam gebrandmarkt werden, aber dann habe ich immer noch robots.txt und im schlimmsten Fall sogar den Reinclusion Request (nachdem ich die problematischen Seiten in die robots.txt geschrieben habe).

Bis dahin nutze ich meine tausende Seiten, die völlig ohne interne Verlinkung im Index von google sind zum Geldverdienen.
 
Zurück
Oben