Duplicate Content (schon wieder)

ZX-Sinclair

Mitglied
Oder besser immer noch.

Ich habe eine Seite zu meiner Website hinzugefügt und wollte mit: www.marcobeierer.de/tools/sitemap-generator

eine neue Sitemap generieren lassen. Dabei ist mir (gottseidank) aufgefallen, daẞ ich inzwischen triple content habe!

2 x https://www.ABC.com

1 x https://www.ABC.com/index.html

ABC = meine Website

Andere Generatoren: https://www.xml-sitemaps.com/

liefern nur

1 x https://www.ABC.com

1 x https://www.ABC.com/index.html

In meiner .htaccess steht:

RewriteEngine On
RewriteCond %{SERVER_PORT} !=443
RewriteRule ^(.*)$ https://www.traktal.com/$1 [R=301,L]

ErrorDocument 401 /404.html
ErrorDocument 403 /404.html
ErrorDocument 404 /404.html
ErrorDocument 410 /404.html

In robots.txt

User-agent: *
Allow: /

Google hat mich seit Jahren deswegen abgewatscht, meldet diesen Fehler aber inzwischen nicht mehr.

Wo liegt der Fehler?

 
Die Sitemap zählt alles was nicht gesperrt ist. 

Ich nehme das Index.html aus der Sitemap raus und habe einen htaccess der den Rest regelt. Durch eine Doppelte Seit wirst du nicht abgestraft. Selbst bei meheren werden höchstens die betreffenden Seiten nicht im Index landen. Wobei man auch Vorsich gelten lassen sollte ist das man Aussagen der GSC als Realität sieht. Es gibt oft große Unterschiede zwischen desn Aussagen der GSC und den SERP. 

 
Ja, ich habe auch schon festgestellt: je mehr man testet, desto unterschiedlichere Aussagen bekommt man. Wenn dann noch Google nicht weiß was los ist, wird man völlig irre. Ich korrigiere die Sitemap und stelle die ein. Dann sehen wir schon.

 
Du hast aber lustigerweise wirklich Duplicate Content.

Denn deine Seite ist mit und ohne www. erreichbar.

Zu DC hast du in der .htaccess gar keine Regel, du definierst nur Fehlerdokumente und leitest auf die https-Version um, wenn https nicht genutzt wird. Das wars.

 
Diese Regel hat kaum jemand. Hab schon danach gegoogelt. Scheint wohl nicht so wichtig zu sein? Ansonsten wäre es ja für jeden zwingend notwendig.

Ausserdem bleibt ja ABC.com und ABC.com/index.html

Wäre die htaccess so richtig?

RewriteCond %{SERVER_PORT} !=443
RewriteCond %{HTTP_HOST} !www\.ABC\.com$
RewriteRule ^(.*)$ https://www.ABC.com/$1 [R=301,L]

 
Zuletzt bearbeitet von einem Moderator:
Diese Regel hat kaum jemand. Hab schon danach gegoogelt. Scheint wohl nicht so wichtig zu sein? Ansonsten wäre es ja für jeden zwingend notwendig.
Bitte was? Die Festlegung auf die Variante mit oder ohne www. ist Standard und eine der ersten Einstellungen, die man vornimmt. Das ist auf dem ganzen Auftritt Duplicate Content, weil jede deiner Seiten über mindestens zwei Varianten aufrufbar ist. Das ist der Klassiker des DC. Woher nimmst du deine Behauptung?

RewriteCond %{SERVER_PORT} !=443
RewriteCond %{HTTP_HOST} !www\.ABC\.com$
RewriteRule ^(.*)$ https://www.ABC.com/$1 [R=301,L]
Nein, das greift nur in dem Fall, dass beide Bedingungen zutreffen, d.h. nur dann, wenn jemand nicht über HTTPS kommt und nicht die www.-Version nutzt.

Aber wenn die Regel kaum jemand hat, kannst du sie ja auch einfach weglassen. ^^

 
Das steht bestenfalls unter: ferner liefen....
So liest du das, weil du es falsch verstehst und bewertest. Bei einer Erklärung eines so vielseitigen Werkzeugs wie der .htaccess, in der man praktisch alles machen kann, ist jeder Teilbereich nur eine Kleinigkeit.

Du müsstest dir eine Information zu DC und SEO ansehen, nicht eine Erklärung der unzähligen Möglichkeiten, wie man die .htaccess nutzen könnte. Prinzipiell ist gar nichts, das man in die .htaccess schreibt, wichtig oder zwingend dort zu verorten. Man kann komplett auf sie verzichten. Deshalb sind Maßnahmen, die man dort trifft, aber nicht unwichtig.

Wenn du andere Möglichkeiten hast, kann das direkt in die Server-Config, du kannst es über PHP lösen, ...

Aber wenn du es unnötig findest, lass es ruhig ganz weg. Ich muss nicht mit dir diskutieren.

 
Zurück
Oben