Index Bloat – Oder wieso man den Google Index nicht zumĂĽllen sollte

SEO | Content Marketing

Verfasst von:
Sergej Gerber

Du hast doch bestimmt schon mal davon gehört, dass man Google nicht komplett zuspammen soll?

Du hast in dem Context auch bestimmt schon mal gehört, dass man nur relevante und wichtige Seiten in den Google Index lassen sollte, oder?

Wenn nicht, auch nicht schlimm.

Ich zeige dir, warum du das wirklich beachten solltest und vor allem wie du deine Seite wieder aufräumst.

Was ist ein Index Bloat?

Ein Index Bloat ist ein künstliches und unnötiges Aufblähen des Google Index.

Sprich, du lässt zu viele Seiten von Google indexieren und verschwendest damit das Crawling-Budget und damit die Ressourcen von Google.

Aber was heiĂźt nun zu viel?

Zu viel heiĂźt, du sagst Google, es soll Seiten indexieren, die eigentlich nicht wirklich relevant sind und keinen Mehrwert fĂĽr den Suchmaschinennutzer liefern.

Stell dir vor, du hast eine Sitemap mit allen deinen wichtigen Unterseiten erstellt.

Diese Sitemap reichst du bei Google in der Search Console ein und denkst dir, du hast alles richtig gemacht.

Ich muss dich enttäuschen.

Google nimmt deine Sitemap als “Hinweis” wahr. Die Seiten in der Sitemap müssen nicht zwangsläufig von Google indexiert werden. Dieses “Recht” zu entscheiden behält sich Google vor.

Nun crawlt Google alle deine in der Sitemap eingereichten URLs und indexiert sie.

Aber auf diesen Seiten hast du nun auch noch weitere Seiten verlinkt (meist unbewusst), die nicht in den Index der Suchmaschine sollten.


Hier Beispiele von solchen Seiten:

  • tag-Seiten in WordPress
  • Autorenseiten
  • Datumsseiten
  • oder auch inhaltsleere Seiten

Was sind inhaltsleere Seiten?

Ein gutes Beispiel ist hier ein Kunde, der einen groĂźen Blog betreibt.

In diesem Blog hatte er wirklich gute Beiträge mit teilweise einer Länge von 3.000 – 4.000 Wörtern.

Nun hat er aber auch gern BĂĽcher in seinen Posts verlinkt.

FĂĽr diese BĂĽcher hat er nun eine eigene Seite angelegt und hier das Buchcover eingebunden, einen kurzen Text zum Inhalt des Buches und einen Link zu Amazon.

Und das natĂĽrlich mehrfach, weil er viele BĂĽcher gelesen und vorgestellt hat.

Diese Seite über ein einzelnes Buch ist eine inhaltsleere Seite oder auch “thin content” genannt.

Wenn diese Seite zum Buch irgendwie auch nur ein Ranking bei Google erreichen soll, muss hier deutlich mehr Content rein.

Wenn man das aber nicht will, sollte man dazu auch keine eigene Seite zum Buch erstellen.

Diese inhaltsleeren Seiten mĂĽllen den Google Index zu, weil sie einfach nicht relevant fĂĽr irgendeinen Suchbegriff sind und auch keine Chance auf ein Ranking haben werden.

→ Frag dich immer, ob eine veröffentlichte Seite ĂĽberhaupt eine Daseinsberechtigung bei Google hätte. 

Index Bloat nach einem Relaunch

Bei einem Website Relaunch werden gern alte irrelevante Inhalte gelöscht und neue Unterseiten live geschaltet.

Hier erlebe ich in der Praxis die meisten Index Bloats.

Ein Website Relaunch ist eine riesige Gefahr, um Google mit irrelevanten Inhalten zuzumĂĽllen.

Wenn man nicht aufpasst, hat man ganz schnell 10x mehr Seiten im Index, als die Unternehmensseite eigentlich URLs hat.


Folgende Seiten könnten durch den Google Crawler in den Index gelangen:

  • Produktseiten, die durch Filteroptionen mit Parametern versehen werden
  • Interne Suchergebnisse der Suchfunktion
  • Seiten, die man ausdrucken kann
  • Dankeseiten von Formulare 
  • Test-URLs oder Platzhalterseiten

Indexbloat durch fehlende Robots.txt

Wenn du keine robots.txt Datei auf deinem Server hast, fĂĽhrt das oft zu einem Index Bloat.

So kommen nämlich ungebetene URLs in den Index.

Mit der robots.txt Datei kannst du allen Suchmaschinen sagen, welche Verzeichnisse indexiert werden sollen oder eben nicht. Tu es, nutze das einfache Tool.

Warum ist ein Index Bloat schlecht fĂĽr die Suchmaschinenoptimierung?

  1. Crawling-Budget Verschwendung
  2. Verwässerung des Contents
  3. Duplicate Content

Crawling-Budget Verschwendung ist kein Kavaliersdelikt (fĂĽr Google)

Jede Suchanfrage, die bei Google ausgefĂĽhrt wird, kostet den Suchmachinenriesen Geld (Strom, Server, Mitarbeiter, etc.).

Jeder Crawler, der ĂĽber Webseiten drĂĽberläuft und die Links entlangläuft, muss auch von einem Server betrieben werden. 

Wenn der Crawler nun sehr viel Zeit damit verbringt, ĂĽber deine Seite zu laufen und die Inhalte zu indexieren, hat er weniger Zeit fĂĽr andere Webseiten.

Wenn du das Crawling-Budget verschwendest, verschwendest du damit Ressourcen von Google. Und das mag Google nicht. Zu Recht, Ressourcenverschwendung ist immer schlecht.

Verwässerung des Inhaltes verwirrt die Suchmaschine

Wenn du eine Webseite zum Thema Versicherungen betreibst, solltest du idealerweise auch nur ĂĽber Versicherungsthemen schreiben.

Du willst als Experte fĂĽr Versicherungen wahrgenommen werden, weil du dich damit gut auskennst.

Also bleib bei deiner Expertise.

Wenn du nun aber anfängst zum Thema Abnehmen und Fitness zu schreiben, bekommst du mittelfristig ein Problem.

Google positioniert dich nach einer gewissen Zeit und vielen relevanten Beiträgen als Versicherungsexperten in den Suchergebnissen.

Wenn du nun aber andere Themen immer mehr einbringst, bist du kein Versicherungsexperte mehr.

Du bist ein Versicherungsexperte, der eigentlich auch Gesundheitsexperte ist. Und beides so lala betreibt.

Google weiß dann nicht mehr, für was du der Experte bist und lässt dich für beide Branchen in den Suchergebnissen absacken. (Dazu zeige ich gern ein Beispiel aus der Praxis, aber nur auf Nachfrage.)

Duplicate Content

Durch automatisierte Unterseiten oder inhaltsleere Seiten besteht die Gefahr von duplicate Content. Teilweise reicht es schon aus, dass der Titel oder H1-Ăśberschrift die gleichen sind wie auf einer anderen Seite, damit duplicate Content entsteht. 

Duplicate Content führt zu einer Herabstufung der Qualität der Seite und somit zu sinkenden Rankings.

Kurzer Exkurs zu Crawling-Budget

Jede Webseite bekommt von Google ein festes Budget fĂĽr das Crawling.

Das heiĂźt, die Anzahl der URLs, die pro Besuchvorgang des Google-Bots besucht werden.

Sobald das Budget aufgebraucht ist, begibt sich der Bot zur nächsten Webseite im Internet.

Das Crawling-Budget wird beeinflusst durch den Zustand der Seite und die Popularität der Seite.

Zustand: Jegliche Fehler der Seite, langsame Ladezeiten, zu viele Filterseiten, etc. sorgen dafĂĽr, dass du weniger Budget bekommst.

Popularität: Wenn deine Seite immer wieder neue Backlinks erhält, kommt der Bot auch öfter vorbei. Dein Inhalt scheint ja schließlich relevant und wichtig zu sein.

Index Bloat diagnostizieren 

Das ist eigentlich relativ einfach.

Zähle deine Seiten, die auf alle Fälle in den Google Index aufgenommen werden sollen.

Und mache danach eine Site-Abfrage bei Google und prĂĽfe die Zahl der indexierten Seiten.

Die Angabe mit “Ungefähr 203 Ergebnisse” ist leider wirklich unpräzise und wird bei 10 Leuten 9 verschiedene Ergebnisse ausspielen.

image Index Bloat - Oder wieso man den Google Index nicht zumĂĽllen sollte

Daher empfehle ich hier, mit der Search Console zu arbeiten. Hier bekommst du die tagesaktuellen Daten direkt von Google serviert.

Hier siehst du in der linken Navigation, unter Indexierung – > Seiten die Anzahl der indexierten Unterseiten.

image 1 Index Bloat - Oder wieso man den Google Index nicht zumĂĽllen sollte

Solltest du merken, dass hier deutlich mehr Seiten indexiert sind, als du eigentlich auf der Webseite hast, dann musst du das korrigieren.

Index Bloat beheben

Es gibt folgende Möglichkeiten das Problem mit unnötigen Unterseiten zu beheben:

  1. Lösche und entferne unnötige Seiten von deiner Webseite
  2. Entferne interne Links zu “schlechten” Unterseiten
  3. Nutze die robots.txt Datei
  4. Nutze das meta-robots-tag (bei WordPress das Plugin Rankmath)
  5. Arbeite mit canonical-tags

Wenn du Hilfe oder auch ein SEO-Audit brauchst, wende dich gerne an mich. Ich helfe dir aus dem Schlamassel.

Weitere Beiträge

Noch mehr Inhalte aus unserem Blog

Mit unseren Blogbeiträgen geben wir unser Wissen an alle interessierten Leser weiter. Solltest du Fragen zu einem Beitrag haben, schreib uns einfach.

Lass uns ĂĽber eure digitale Dominanz sprechen!

In einem 30-minütigen Call lernen wir uns kennen und zeigen dir, welches Potenzial bei euch schlummert und wie ihr euren Unternehmenszielen näher kommt.
Call vereinbaren