Du hast doch bestimmt schon mal davon gehört, dass man Google nicht komplett zuspammen soll?
Du hast in dem Context auch bestimmt schon mal gehört, dass man nur relevante und wichtige Seiten in den Google Index lassen sollte, oder?
Wenn nicht, auch nicht schlimm.
Ich zeige dir, warum du das wirklich beachten solltest und vor allem wie du deine Seite wieder aufräumst.
Was ist ein Index Bloat?
Ein Index Bloat ist ein künstliches und unnötiges Aufblähen des Google Index.
Sprich, du lässt zu viele Seiten von Google indexieren und verschwendest damit das Crawling-Budget und damit die Ressourcen von Google.
Aber was heißt nun zu viel?
Zu viel heißt, du sagst Google, es soll Seiten indexieren, die eigentlich nicht wirklich relevant sind und keinen Mehrwert für den Suchmaschinennutzer liefern.
Stell dir vor, du hast eine Sitemap mit allen deinen wichtigen Unterseiten erstellt.
Diese Sitemap reichst du bei Google in der Search Console ein und denkst dir, du hast alles richtig gemacht.
Ich muss dich enttäuschen.
Google nimmt deine Sitemap als “Hinweis” wahr. Die Seiten in der Sitemap müssen nicht zwangsläufig von Google indexiert werden. Dieses “Recht” zu entscheiden behält sich Google vor.
Nun crawlt Google alle deine in der Sitemap eingereichten URLs und indexiert sie.
Aber auf diesen Seiten hast du nun auch noch weitere Seiten verlinkt (meist unbewusst), die nicht in den Index der Suchmaschine sollten.
Hier Beispiele von solchen Seiten:
- tag-Seiten in WordPress
- Autorenseiten
- Datumsseiten
- oder auch inhaltsleere Seiten
Was sind inhaltsleere Seiten?
Ein gutes Beispiel ist hier ein Kunde, der einen großen Blog betreibt.
In diesem Blog hatte er wirklich gute Beiträge mit teilweise einer Länge von 3.000 – 4.000 Wörtern.
Nun hat er aber auch gern Bücher in seinen Posts verlinkt.
Für diese Bücher hat er nun eine eigene Seite angelegt und hier das Buchcover eingebunden, einen kurzen Text zum Inhalt des Buches und einen Link zu Amazon.
Und das natürlich mehrfach, weil er viele Bücher gelesen und vorgestellt hat.
Diese Seite über ein einzelnes Buch ist eine inhaltsleere Seite oder auch “thin content” genannt.
Wenn diese Seite zum Buch irgendwie auch nur ein Ranking bei Google erreichen soll, muss hier deutlich mehr Content rein.
Wenn man das aber nicht will, sollte man dazu auch keine eigene Seite zum Buch erstellen.
Diese inhaltsleeren Seiten müllen den Google Index zu, weil sie einfach nicht relevant für irgendeinen Suchbegriff sind und auch keine Chance auf ein Ranking haben werden.
→ Frag dich immer, ob eine veröffentlichte Seite überhaupt eine Daseinsberechtigung bei Google hätte.
Index Bloat nach einem Relaunch
Bei einem Website Relaunch werden gern alte irrelevante Inhalte gelöscht und neue Unterseiten live geschaltet.
Hier erlebe ich in der Praxis die meisten Index Bloats.
Ein Website Relaunch ist eine riesige Gefahr, um Google mit irrelevanten Inhalten zuzumüllen.
Wenn man nicht aufpasst, hat man ganz schnell 10x mehr Seiten im Index, als die Unternehmensseite eigentlich URLs hat.
Folgende Seiten könnten durch den Google Crawler in den Index gelangen:
- Produktseiten, die durch Filteroptionen mit Parametern versehen werden
- Interne Suchergebnisse der Suchfunktion
- Seiten, die man ausdrucken kann
- Dankeseiten von Formulare
- Test-URLs oder Platzhalterseiten
Indexbloat durch fehlende Robots.txt
Wenn du keine robots.txt Datei auf deinem Server hast, führt das oft zu einem Index Bloat.
So kommen nämlich ungebetene URLs in den Index.
Mit der robots.txt Datei kannst du allen Suchmaschinen sagen, welche Verzeichnisse indexiert werden sollen oder eben nicht. Tu es, nutze das einfache Tool.
Warum ist ein Index Bloat schlecht für die Suchmaschinenoptimierung?
- Crawling-Budget Verschwendung
- Verwässerung des Contents
- Duplicate Content
Crawling-Budget Verschwendung ist kein Kavaliersdelikt (für Google)
Jede Suchanfrage, die bei Google ausgeführt wird, kostet den Suchmachinenriesen Geld (Strom, Server, Mitarbeiter, etc.).
Jeder Crawler, der über Webseiten drüberläuft und die Links entlangläuft, muss auch von einem Server betrieben werden.
Wenn der Crawler nun sehr viel Zeit damit verbringt, über deine Seite zu laufen und die Inhalte zu indexieren, hat er weniger Zeit für andere Webseiten.
Wenn du das Crawling-Budget verschwendest, verschwendest du damit Ressourcen von Google. Und das mag Google nicht. Zu Recht, Ressourcenverschwendung ist immer schlecht.
Verwässerung des Inhaltes verwirrt die Suchmaschine
Wenn du eine Webseite zum Thema Versicherungen betreibst, solltest du idealerweise auch nur über Versicherungsthemen schreiben.
Du willst als Experte für Versicherungen wahrgenommen werden, weil du dich damit gut auskennst.
Also bleib bei deiner Expertise.
Wenn du nun aber anfängst zum Thema Abnehmen und Fitness zu schreiben, bekommst du mittelfristig ein Problem.
Google positioniert dich nach einer gewissen Zeit und vielen relevanten Beiträgen als Versicherungsexperten in den Suchergebnissen.
Wenn du nun aber andere Themen immer mehr einbringst, bist du kein Versicherungsexperte mehr.
Du bist ein Versicherungsexperte, der eigentlich auch Gesundheitsexperte ist. Und beides so lala betreibt.
Google weiß dann nicht mehr, für was du der Experte bist und lässt dich für beide Branchen in den Suchergebnissen absacken. (Dazu zeige ich gern ein Beispiel aus der Praxis, aber nur auf Nachfrage.)
Duplicate Content
Durch automatisierte Unterseiten oder inhaltsleere Seiten besteht die Gefahr von duplicate Content. Teilweise reicht es schon aus, dass der Titel oder H1-Überschrift die gleichen sind wie auf einer anderen Seite, damit duplicate Content entsteht.
Duplicate Content führt zu einer Herabstufung der Qualität der Seite und somit zu sinkenden Rankings.
Kurzer Exkurs zu Crawling-Budget
Jede Webseite bekommt von Google ein festes Budget für das Crawling.
Das heißt, die Anzahl der URLs, die pro Besuchvorgang des Google-Bots besucht werden.
Sobald das Budget aufgebraucht ist, begibt sich der Bot zur nächsten Webseite im Internet.
Das Crawling-Budget wird beeinflusst durch den Zustand der Seite und die Popularität der Seite.
Zustand: Jegliche Fehler der Seite, langsame Ladezeiten, zu viele Filterseiten, etc. sorgen dafür, dass du weniger Budget bekommst.
Popularität: Wenn deine Seite immer wieder neue Backlinks erhält, kommt der Bot auch öfter vorbei. Dein Inhalt scheint ja schließlich relevant und wichtig zu sein.
Index Bloat diagnostizieren
Das ist eigentlich relativ einfach.
Zähle deine Seiten, die auf alle Fälle in den Google Index aufgenommen werden sollen.
Und mache danach eine Site-Abfrage bei Google und prüfe die Zahl der indexierten Seiten.
Die Angabe mit “Ungefähr 203 Ergebnisse” ist leider wirklich unpräzise und wird bei 10 Leuten 9 verschiedene Ergebnisse ausspielen.
Daher empfehle ich hier, mit der Search Console zu arbeiten. Hier bekommst du die tagesaktuellen Daten direkt von Google serviert.
Hier siehst du in der linken Navigation, unter Indexierung – > Seiten die Anzahl der indexierten Unterseiten.
Solltest du merken, dass hier deutlich mehr Seiten indexiert sind, als du eigentlich auf der Webseite hast, dann musst du das korrigieren.
Index Bloat beheben
Es gibt folgende Möglichkeiten das Problem mit unnötigen Unterseiten zu beheben:
- Lösche und entferne unnötige Seiten von deiner Webseite
- Entferne interne Links zu “schlechten” Unterseiten
- Nutze die robots.txt Datei
- Nutze das meta-robots-tag (bei WordPress das Plugin Rankmath)
- Arbeite mit canonical-tags
Wenn du Hilfe oder auch ein SEO-Audit brauchst, wende dich gerne an mich. Ich helfe dir aus dem Schlamassel.