Welche häufigen Fehler verhindern die Indizierung Ihrer Seiten?
Haben Sie sich auch schon mal gefragt, warum Sie Traffic verlieren? Als ob etwas Google daran hindert, vollständig auf Ihre Website zuzugreifen? Google indiziert nicht alle Seiten, die es auf einer Website findet, und das war bisher auch transparent. Google hilft Website-Besitzern und Webmastern mit Hilfe der Google Search Console herauszufinden, welche der Seiten indiziert sind. Jede andere Seite, die nicht in der Search Console gefunden wird, ist entweder nicht indexiert oder hat irgendwelche Schwierigkeiten, die behoben werden müssen.
Die GSC gibt Ihnen alle wichtigen Informationen über das jeweilige Seiten-spezifische Problem. Zu diesen Informationen gehören Serverfehler, 404er und einige allgemeine inhaltsbezogene Probleme. Wir müssen ein wenig tiefer graben, um genau herauszufinden, was Ihre Seiten daran hindert, in der Google-Suche aufzutauchen.
Google-Indizierung
Stellen Sie sich vor - wäre es möglich, etwas zu verkaufen, ohne dass es tatsächlich im Ladenregal steht oder irgendwo, wo es ein potenzieller Kunde finden kann? Um Ihre Website Ihren potenziellen Nutzern zu zeigen, muss Google Ihre Seiten finden und indizieren.
Wenn Sie möchten, dass Ihre Seiten in der Suche angezeigt werden, müssen sie richtig indiziert werden. Gleichzeitig analysiert Google Ihren Content, um zu entscheiden, für welche Suchanfragen er relevant sein könnte.
Wenn Sie organischen Traffic von Google erhalten möchten, müssen Ihre Seiten indiziert sein. Und je mehr Seiten indiziert sind, desto mehr erscheinen sie in den Suchergebnissen und Sie können mehr Traffic von Google erwarten.
Deshalb müssen Sie wissen, ob Google Ihren Content indizieren kann.
Wie man Indizierungsprobleme identifiziert
Die Optimierung von Websites aus technischer Sicht macht sie bei Google sichtbarer. Natürlich hat nicht jede Seite den gleichen Wert, und Ihr Ziel ist es nicht, dass alle Seiten indiziert werden. Sie haben z. B. alte, überholte Seiten, Taxonomien, Tag-Seiten und andere eCommerce-Filterparameter.
Webadministratoren haben mehrere Möglichkeiten, Google mitzuteilen, dass sie diese ignorieren sollen, einschließlich der robots.txt-Datei und dem no-index-Tag.
Die Berücksichtigung solcher Seiten würde sich negativ auf die gesamte Website-SEO auswirken, daher ist es besser, eine ordentliche Auflistung aller durch robots.txt blockierten und als no-index markierten Seiten zu führen und alle Weiterleitungen mit 404s oder anderen Statuscodes als 200 zu verfolgen.
Es ist auch hilfreich, wenn Sie Ihre Sitemap auf dem neuesten Stand halten, einschließlich aller relevanten und gültigen URLs. Eine gute und aktualisierte Sitemap ist die einfachste Darstellung von wertvollen URLs auf jeder Website. Das bedeutet, keine zufälligen Junk-URLs, sondern nur rein wertvolle Seiten.
Die Hauptprobleme bei der Indexierung hängen von der Größe einer Website ab. Es gibt kleine Websites mit etwa 1-15 000 Seiten, mittlere Websites mit bis zu 100 000 Seiten und große Websites mit Seiten sogar über einer Million Seiten. Somit wird klar, dass es keine allgemein gültige Praxis geben kann.
Das liegt vor allem daran, dass ein bestimmtes Problem, das eine "große" Website hat, einen Haufen anderer Probleme aufwiegen kann, die eine kleinere Website hat. Jede Website hat ihr eigenes Muster von Indizierungsproblemen, mit denen sie zu kämpfen hat. Aber es gibt eine Möglichkeit, sie zu kategorisieren.
Top-Indizierungsprobleme
Wie wir bereits erwähnt haben, stehen alle Websites vor spezifischen Problemen, während sie versuchen, bei Google zu ranken. Die Top-Probleme, die verhindern, dass die Website gründlich indexiert wird, sind:
- Entdeckt - nicht indiziert
- Gecrawlte Seite - nicht indiziert
- Duplizierter Inhalt
- Crawl-Problem
- Soft 404er
Aber es gibt auch andere Dinge, die Sie beachten sollten. Eines der häufigsten Probleme, mit denen Websites konfrontiert sind, sind Probleme mit der Qualität des Inhalts. Das heißt, Ihre Seiten können „dünnen Inhalt“ haben oder Sie könnten Ihren Inhalt von einer anderen Website kopieren oder er kann in irgendeiner Weise anstößig oder irreführend sein.
Wenn Sie keinen einzigartigen, wertvollen Content bereitstellen können, den Google den Nutzern zeigen möchte, können Sie erhebliche Probleme bei der Indizierung haben.
Zum Beispiel könnte Google einige Ihrer Seiten als Duplicate Content erkennen - selbst wenn Sie einzigartigen und nicht kopierten Content bereitgestellt haben.
Wir alle wissen, dass die Verwendung des kanonischen Tags Probleme mit doppeltem Content verhindert, der unter mehreren URLs erscheint. Sie können kanonische Tags setzen, die auf verschiedene Seiten zeigen und als Ergebnis die Originalseite nicht indiziert bekommen.
Wenn Sie doppelten Inhalt haben, verwenden Sie das kanonische Tag oder eine 301-Weiterleitung, um sicherzustellen, dass die gleichen Seiten auf Ihrer Website nicht gegeneinander um Ansichten, Klicks und Links konkurrieren.
Crawling
Das Crawl-Budget gibt die Anzahl der Webseiten an, die Google bereit ist, auf jeder Website aufzurufen. Der Googlebot wird nur eine begrenzte Anzahl von URLs auf jeder Website crawlen. Aus diesem Grund ist die Optimierung so wichtig, damit Sie Ihr Crawl-Budget nicht für irrelevante Seiten verschwenden.
Wir hatten auch 404-Fehler als eines der Indizierungsprobleme. 404er bedeuten, dass Sie eine gelöschte oder nicht-existierende Seite zur Indizierung eingereicht haben. Soft 404s zeigen die Information "nicht gefunden" an, geben aber nicht den HTTP 404-Statuscode an den Server zurück. Auch die Weiterleitung von nicht-existierenden Seiten auf andere, die irrelevant sind, ist ein häufiger Fehler. Mehrfache Weiterleitungen können ebenfalls als Soft-404-Fehler angezeigt werden und es kann dazu führen, dass Google die endgültige Zielseite nicht mehr indiziert. Versuchen Sie also, Weiterleitungsketten so weit wie möglich zu vermeiden.
Es gibt viele Crawl-Probleme, aber ein wichtiges ist ein Problem mit robots.txt. Wenn der Googlebot eine robots.txt für Ihre Website findet, aber nicht darauf zugreifen kann, wird er die Website überhaupt nicht crawlen.
Fazit
Soweit wir bisher herausgefunden haben, sind fast alle großen Websites mit den gleichen Problemen konfrontiert, so dass es schwierig ist, das Qualitätsniveau zu halten, wenn es um große Websites mit über 100k Seiten geht.
Was wir bis jetzt wissen, ist Folgendes:
- Websites mit 10.000 - 100.000 Seiten haben möglicherweise ein unzureichendes Crawl-Budget und könnten Probleme bei der Indexierung haben
- Das Crawl-Budget und die Qualität der Seiten werden bei größeren Websites immer wichtiger
- Das Duplicate-Content-Problem variiert je nach Website
- Verwaiste Seiten sind ein oft vernachlässigtes Problem, das zu Indizierungsproblemen führt
Verwaiste Seiten haben keine internen Links, die zu ihnen führen. Infolgedessen hat der Googlebot keinen klaren Pfad, um diese Seite zu finden, was ihn daran hindert, die Seite zu indexieren.
Die Lösung für dieses Problem besteht darin, Links von verwandten Seiten zu dieser Seite hinzuzufügen. Oder Sie fügen die verwaiste Seite zu Ihrer Sitemap hinzu und verhindern so weitere Indizierungsprobleme mit dieser Seite. So oder so, mit einer intelligenten Content-Strategie und der kontinuierlichen Optimierung Ihrer Website können Sie sich eine Menge Probleme bei der Indizierung ersparen. Und bringt Ihnen viel wertvollen Traffic!