newb frage: wie "spidert" google meine links net?

Josh

Legendäres Mitglied
hallo.

die startseite von www.josh.ch ist schön in google aufgeführt, wenn ich nach bestimmten worten des contents suche. aber alle anderen seiten schauen kaum in google vorhanden zu sein! verfolgt der google spider denn die links auf meiner seite zu den anderen contents nicht, oder was muss ich da abändern???

thx für antwort!
 
Hier kannst du sehen, welche Seiten deiner Website Google bereits gespidert und indexiert hat: http://www.google.ch/search?sourceid=navcl...sh%2Ech+%2Dasdf

Aber wie ich schon ein paar mal erwähnt habe, würde ich dein URL-Design dringend vereinfachen. Session-IDs und Parameter würde ich komplett verschwinden lassen. Wenn du trotzdem auf Parameter angewiesen bist, dann benutze doch mod_rewrite zur Vereinfachung deiner URLs. Auch ein Vorteil von mod_rewrite ist, dass du dynamische URLs statisch aussehen lassen kannst - was positiv für alle Suchmaschinen ist, nicht nur für Google.

Gruss, Remo
 
hrm aber was macht denn das für sinn?? wieso verfolgt google die links auf meiner page nicht weiter? es wird ja wohl kaum 100x der gleiche link mit ner anderen session oder so sein?! (so für so dumm halte ich google dann doch wieder nicht).
mod_rewrite ist tatsächlich hübsch, aber ich hab momentan keine zeit, mich in die materie einzuarbeiten...

gruss j0sh
 
Hi Josh,

Also ich befasse mich noch nicht sehr lange mit Suma Optimierung...
Jedoch kann ich mir sehr gut vorstellen und es ist eigentlich auch logisch, dass Google lieber eine page indexieren oder spidern wird, welche z.B. in der form (www.josh.ch/tools/phptool.php) gelinkt ist, also einen riesen langen link wie dieser: (http://www.josh.ch/josh/_home.php?show=content&show_menu=phpMyWebmin&show_menu_sub=Overview&type=text&session=]http://www.josh.ch/josh/_home.php?show=con...e=text&session=)

Ändere doch einfach mal das Menü ab wenn dir die Google erfassung so wichtigtig ist, dann kanst du das mal testen ob google besser spidert...
 
@Josh:
Der Sinn ist ein einfacher. Eine Suchmaschine will einfach nicht riskieren, in eine Sackgasse zu laufen. Und bei dynamischen Seiten ist da die Gefahr nun mal viel grösser. Und ausserdem ist es für die Besucher viel angenehmer, wenn sie hinter dem Link schon erkennen können, worüber sich der Content handeln mag. Diesen Punkt finde ich fast wichtiger.

Hier ein paar Beispiele von grossen Seiten, die diese Methode vorbildlich im Griff haben:
http://www.google.ch/search?sourceid=navcl...en%2Ede+%2Dasdf
http://www.google.ch/search?num=100&hl=de&...com+-asdf&meta=

Gruss, Remo
 
hrm ok, tönt irgendwie auch logisch. allerdings finde ich es doch ziemlich bedenklich, dass google "riskante" seiten einfach überfliegt, da so doch wichtige resourcen vergessen werden können.

ich habe ein sehr ausfürhliches tutorial über ein 3d programm, welches meines wissens einzigartig im web ist (bis vor einiger zeit auf jeden fall, hab schon lange nicht mehr nachgeprüft).
ich habe alleine wegen dem tut 2000 unique visitors pro monat, und das scheinbar nur per mund zu mund propaganda und links auf einigen wenigen seiten. in google ist das tutorial überhaupt nicht vorhanden.

bei sowas frage ich mich schon ein bissel über die politik von google und co.

nun jo, ich werde wohl bei zeiten mit mod_rewrite herumzuspielen versuchen müssen.

aber gibt es irgendwelche kriterien, damit dynamic content websites trotzdem gespidert werden? ich meine, viele foren werden ja auch gespidert, obwohl die kaum mehr als eine topic id im link haben...?!

gruss j0sh
 
Es ist ja nicht so, dass deine Seite gar nicht gespidert wird. Z.B. sind diese zwei Seiten in Google drin:
1. http://www.josh.ch/josh/_home.php?show_menu=aboutMe&session=
2. http://www.josh.ch/josh/_home.php?show_men...orials&session=

Ich habe einfach die Erfahrung gemacht, dass statische Seiten schneller und kompletter indexiert werden.

Zwei Sachen, die sehr wichtig sind, und bei dir fehlen, sind mir noch aufgefallen:
1. Der Title-Tag ist auf allen Seiten gleich. Das darf nicht sein, denn der Title-Tag ist sehr wichtig, sowohl für die Suchmaschinen-Platzierung, als auch für Besucher, die in Suchmaschinen suchen, da sie diesen als ersten sehen. D.h. jeder Title-Tag muss individuell den Inhalt der entsprechenden Unterseite beschreiben.
2. Bei dir fehlt eine Sitemap. Bei dynamischen Seiten ist es so, dass sie meist erst indexiert werden, wenn sie mindestens je einen Backlink haben (am besten von einer statischen Seite). Schau dir mal die Sitemap dieses Forums an. Dies hilft bei SuMas ungemein: http://www.webmasterforum.ch/sitemap.html

Ausserdem sollte deine Startseite nicht die URL http://www.josh.ch/josh/_home.php?show=fil...&show_menu=home haben, sondern ganz einfach http://www.josh.ch. Dann hast du auch eine Chance auf einen PageRank...

Weitere Infos findest du auf:
http://www.webmasterworld.com
http://www.markcarey.com/googleguy-says/
http://www.suchmaschinentricks.de
http://www.at-web.de
etc.

Gruss, Remo
 
ok, da klärt sich also einiges. vielen dank.
bevor ich alles neu code, werd ich also mal n bissel hinter die bücher gehen. vielen dank!
smile.gif


gr33tz j0sh
 
Ja, auf den Suchmaschinen-Seiten schwirrt wirklich einiges an Wissen herum. Man muss es sich nur nehmen ;-).

Viel Erfolg!
 
also das mod_rewrite funzt soweit *EINIGERMASSEN*, nachdem ich mir die zähne fast ausgeknirscht habe...
allerdings hab ich folgendes kleines prob:

RewriteRule ^xxx_(.*)_(.*)_(.*).html$ article.php?menu=$1&menu_sub=$2&content=$3

der code funktioniert nur, wenn die file article.php, auf welche weitergeleitet werden soll, im root dir des servers ist (also localhost). wenn ich z.b. ein mein_ordener/ vor den filenamen stelle, wird das einfach ignoriert... was kann ich da tun??

danke für hilfe.
smile.gif

ich weiss, das ist kein coder forum, aber es passt ja schliesslich zum thema.

gr33tz j0sh
 
Der Grund, warum Google keine Session ID mag, ist noch ein anderer:

Zitat Google:QUOTE Ihre Seiten werden dynamisch erstellt. Google ist in der Lage, dynamisch generierte Seiten zu indizieren. Da unsere Webcrawler jedoch Sites mit dynamischem Inhalt unter Umständen lahm legen und zum Absturz bringen, wurde der Umfang der indizierten dynamischen Seiten begrenzt.
Denk mal an folgendes:
1. Schritt: Google kommt und findet auf der Startseite z.B. einen Link zu einer dynamischen Seite. Er kommt wieder und spidert die Seite mit Session ID
2. Google spidert einige Zeit später wieder Deine Startseite und findet einen Link zu einer Seite mit einer anderen Session ID. Der Spider 'denkt', es ist eine 'neue' Seite, es ist aber die alte, die er schon gespidert hat.
3. Der Spider kommt immer öfter und findet immer mehr 'neue' Seiten.
4. Dein Server sagt unter der Last Tschüß !!!

Also: nutze mod_rewrite, um dynamischen Seiten ein statisches Aussehen zu verpassen. Session IDs dürfen nur 'echte' besucher bekommen, Spider nie!
 
ok, is kloar!
smile.gif


wie ist es eigentlich mit submit-buttons? sucht ein spider auch die action="" url ab?
 
Ein Spider kann nicht rechnen bzw. Code ausführen.

Er findet zwar die Ziel URL des Scriptes, aber dann ist auch Schluß mit Lustig
 
hi,

wenn Seiten aus header, template und footer zusammengesetzt sind, wohin gehören metatags und title?

Danke
 
QUOTE (Halli @ Mo 1.12.2003, 20:21) 1. Schritt: Google kommt und findet auf der Startseite z.B. einen Link zu einer dynamischen Seite. Er kommt wieder und spidert die Seite mit Session ID
2. Google spidert einige Zeit später wieder Deine Startseite und findet einen Link zu einer Seite mit einer anderen Session ID. Der Spider 'denkt', es ist eine 'neue' Seite, es ist aber die alte, die er schon gespidert hat.
3. Der Spider kommt immer öfter und findet immer mehr 'neue' Seiten.
4. Dein Server sagt unter der Last Tschüß !!!

Also: nutze mod_rewrite, um dynamischen Seiten ein statisches Aussehen zu verpassen.

Durch mod_rewrite wird das Rekursions-Problem nicht behoben, sondern nur verschleiert. Wozu soll jemand mod_rewrite benutzen? Etwa, um den Server unter "der Last" zusammenbrechen zu lassen (wie du selbst sagst)? Warum empfiehlst du das?

Der Rekursionsschutz basiert auf einer maximalen Linktiefe - sobald diese überschritten wird, bricht Google den Crawlvorgang ab. Bloßes verschleiern verhindert nicht, dass Google den Crawlvorgang irgendwann abbricht.

Gruß, SloMo
 
Zurück
Oben