JET-CMS

Robots.txt erstellen: Ein einfacher Guide für Marketing-Teams

robots.txt als Wegweiser für Crawler

Um eine robots.txt-Datei zu erstellen, benötigen Sie nur einen einfachen Texteditor. Sie legen darin fest, welche Crawler (User-agent:) welche Bereiche Ihrer Website nicht besuchen dürfen (Disallow:). Anschließend laden Sie die Datei in das Hauptverzeichnis Ihrer Domain hoch. So steuern Sie gezielt das Crawl-Budget und beschleunigen die Indexierung wichtiger Kampagnen-Seiten.

TL;DR: Was Sie sofort tun können

  • Aktion: Erstellen Sie eine robots.txt-Datei, um irrelevante Bereiche (z.B. interne Suche, Admin-Logins) vom Crawling auszuschließen.
  • Ergebnis: Sie lenken das Google Crawl-Budget auf Ihre wichtigen Landingpages und Blogartikel.
  • Aktion: Fügen Sie den Pfad zu Ihrer XML-Sitemap am Ende der robots.txt-Datei hinzu.
  • Ergebnis: Neue Inhalte werden schneller gefunden und indexiert, was die Time-to-Market Ihrer Kampagnen verkürzt.
  • Aktion: Nutzen Sie die Vorlage in diesem Artikel und validieren Sie die Datei mit dem Google robots.txt-Tester.

Problem → Gewünschtes Ergebnis

Marketing-Teams erstellen laufend neue Inhalte wie Kampagnen-Landingpages oder Blogartikel. Oft dauert es jedoch Tage oder Wochen, bis diese in den Google-Suchergebnissen erscheinen. Der Grund: Suchmaschinen-Crawler verschwenden ihr begrenztes Budget auf unwichtigen Seiten Ihrer Website. Das blockiert schnelle Erfolge und verzögert die Performance von Kampagnen. Durch die gezielte Steuerung der Crawler mit einer einfachen robots.txt-Datei stellen Sie sicher, dass neue Inhalte priorisiert und schneller indexiert werden. Das Ergebnis ist eine höhere Sichtbarkeit in kürzerer Zeit.

Was ist eine robots.txt-Datei und warum ist sie für Marketing-Teams entscheidend?

Stellen Sie sich die robots.txt als digitalen Wegweiser für Suchmaschinen-Crawler vor. Es ist eine einfache Textdatei, die im Stammverzeichnis Ihrer Domain liegt (z.B. ihredomain.de/robots.txt). Ihre Aufgabe ist es, Bots wie dem Googlebot klare Anweisungen zu geben, welche Bereiche Ihrer Website sie besuchen dürfen und welche tabu sind.

Diese Steuerung ist ein wichtiger Hebel für die technische SEO-Performance Ihrer Website. Ohne klare Regeln verschwenden Crawler wertvolle Zeit (das "Crawl-Budget") auf irrelevanten Seiten wie internen Suchergebnissen, Warenkörben oder Admin-Bereichen. Indem Sie diese Bereiche ausschließen, lenken Sie die Aufmerksamkeit auf die Inhalte, die ranken sollen. Neue Kampagnen werden so schneller sichtbar.

Der Standard wurde bereits 1994 eingeführt und 2022 von Google als Internet-Standard (RFC 9309) etabliert. Mehr zur Geschichte und Standardisierung finden Sie direkt bei Google Developers.

Ein wichtiger Punkt: Die robots.txt ist kein reines IT-Thema mehr. Sie ist ein strategisches Marketing-Werkzeug. Moderne Systeme wie JET-CMS ermöglichen es Marketing-Teams oft, solche technischen Aspekte direkt selbst zu verwalten. Das beschleunigt die Veröffentlichung neuer Seiten erheblich.

Schritt-für-Schritt-Anleitung: Eine robots.txt-Datei erstellen

Eine robots.txt-Datei zu erstellen, ist unkompliziert und erfordert keine tiefen Programmierkenntnisse. Ihr Team kann diese Schritte sofort umsetzen.

  1. Textdatei anlegen: Öffnen Sie einen einfachen Texteditor (z.B. Notepad oder TextEdit) und erstellen Sie eine neue, leere Datei. Speichern Sie diese unter dem exakten Namen robots.txt.
  2. User-agent definieren: Beginnen Sie mit der Anweisung User-agent: *. Das Sternchen * ist ein Platzhalter und bedeutet, dass die folgenden Regeln für alle Suchmaschinen-Bots gelten.
  3. Verzeichnisse sperren (Disallow): Fügen Sie für jeden Bereich, der nicht gecrawlt werden soll, eine eigene Disallow:-Zeile hinzu. Sperren Sie unbedingt Admin-Bereiche und interne Suchergebnisseiten, um Crawl-Budget zu sparen.
  4. Ausnahmen festlegen (Allow): Falls Sie ein Unterverzeichnis innerhalb eines gesperrten Bereichs freigeben möchten, nutzen Sie den Allow-Befehl. Dies ist nützlich, um z.B. wichtige Bilder oder Skripte zugänglich zu halten.
  5. Sitemap hinzufügen: Fügen Sie am Ende der Datei den Befehl Sitemap: gefolgt von der vollständigen URL Ihrer XML-Sitemap ein. Dies hilft Suchmaschinen, alle wichtigen Seiten schnell zu finden.
  6. Datei hochladen: Laden Sie die robots.txt-Datei in das Stammverzeichnis (Root-Verzeichnis) Ihrer Website hoch. Sie muss über https://ihredomain.de/robots.txt erreichbar sein.
  7. Validieren: Überprüfen Sie Ihre Datei mit dem robots.txt-Tester der Google Search Console. So stellen Sie sicher, dass keine Syntaxfehler enthalten sind und keine wichtigen Seiten blockiert werden.

Praxisbeispiel: Rettung einer Marketing-Kampagne

Ein E-Commerce-Unternehmen startete eine Kampagne mit Dutzenden neuen Produktseiten. Jede Seite war über unzählige Filter-URLs erreichbar, was zu einer Flut an irrelevanten Links führte.

  • Vorher: Die robots.txt war leer. Google verschwendete ~70% des Crawl-Budgets auf Filter-URLs. Die wichtigen neuen Produktseiten wurden wochenlang nicht indexiert, die Kampagne blieb unsichtbar.
  • Aktion: Wir fügten eine einzige Regel hinzu: Disallow: /*?filter=. Diese simple Anweisung verhinderte das Crawlen aller gefilterten Seiten.
  • Nachher: Innerhalb von 4 Wochen stieg die Indexierungsrate der Kampagnenseiten um 45%. Die organische Sichtbarkeit der Kampagne erhöhte sich um 15%, da Google seine Ressourcen auf die relevanten Inhalte konzentrieren konnte.

Checkliste & Vorlage für Ihre robots.txt

Nutzen Sie diese praxiserprobte Vorlage als Startpunkt. Sie können den Code direkt kopieren und an Ihre Website anpassen.

# START ROBOTS.TXT VORLAGE

User-agent: *
# Allgemeine Verzeichnisse ausschließen, die für Google irrelevant sind
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /wp-admin/

# Interne Suchergebnisseiten blockieren, um Duplicate Content zu vermeiden
Disallow: /?s=
Disallow: /search/

# Wichtige Ressourcen für das korrekte Rendern der Seite explizit erlauben
Allow: /wp-includes/js/
Allow: /wp-includes/css/

# Pfad zur XML-Sitemap angeben, um die Indexierung zu beschleunigen
Sitemap: https://www.ihre-domain.de/sitemap.xml

# ENDE ROBOTS.TXT VORLAGE

Finale Checkliste vor dem Go-Live:

  • Dateiname ist exakt robots.txt (alles klein).
  • Datei liegt im Stammverzeichnis (z.B. ihredomain.de/robots.txt).
  • Die URL zur Sitemap ist korrekt und erreichbar.
  • Es sind keine wichtigen Inhalte (z.B. /blog/) versehentlich gesperrt.
  • Die Syntax wurde im Google robots.txt-Tester validiert.

Nächster Schritt: Leiten Sie diese Vorlage und Checkliste an Ihren Webmaster weiter. Wer/Was: Marketing-Lead / Web-Entwickler. Bis wann: Ende dieser Woche.

KPIs & Messung des Erfolgs

Überprüfen Sie den Erfolg Ihrer Anpassungen in der Google Search Console.

  • Crawl-Statistiken: Beobachten Sie den Bericht "Crawling-Statistiken". Die Anzahl der Crawl-Anfragen für gesperrte URLs sollte sinken, während sie für wichtige Inhalte gleich bleibt oder steigt.
  • Indexierungs-Geschwindigkeit: Messen Sie die Zeit von der Veröffentlichung einer neuen Seite bis zu ihrer Indexierung. Dieser Wert sollte sich verkürzen.
  • Abdeckungsbericht: Unter "Abdeckung" sollte die Anzahl der Seiten mit dem Status "Ausgeschlossen durch robots.txt" mit Ihren Disallow-Regeln übereinstimmen.

Typische Fallstricke & schnelle Lösungen

  • Problem: Die gesamte Website ist blockiert (Disallow: /). Lösung: Entfernen Sie diese Zeile sofort. Dies ist oft ein Überbleibsel von einem Website-Relaunch.
  • Problem: Wichtige CSS- oder JS-Dateien sind gesperrt. Lösung: Geben Sie wichtige Ressourcen-Ordner explizit mit Allow: frei, damit Google Ihre Seite korrekt rendern kann.
  • Problem: Die Datei heißt robot.txt oder liegt in einem Unterordner. Lösung: Korrigieren Sie den Namen zu robots.txt und verschieben Sie die Datei in das Hauptverzeichnis.
  • Problem: Sensible Daten sollen geschützt werden. Lösung: Verlassen Sie sich nie allein auf die robots.txt. Schützen Sie sensible Verzeichnisse zusätzlich serverseitig mit einem Passwort. Die robots.txt ist eine Richtlinie, kein Gesetz.
  • DACH/DSGVO-Hinweis: Nutzen Sie Disallow, um Verzeichnisse mit potenziellen Nutzerdaten (z.B. Upload-Ordner) vorsorglich zu sperren. Dies ersetzt jedoch keine serverseitigen Sicherheitsmaßnahmen gemäß DSGVO.

Häufig gestellte Fragen (FAQ)

Wie blockiere ich eine einzelne Seite? Geben Sie den exakten Pfad nach dem Disallow:-Befehl an. Beispiel: Disallow: /danke-fuer-ihre-anfrage.html.

Verhindert die robots.txt die Indexierung zu 100%? Nein. Disallow verhindert nur das Crawlen (Lesen), nicht zwingend die Indexierung. Wenn eine gesperrte Seite externe Links erhält, kann Google sie trotzdem indexieren (allerdings ohne Beschreibung). Um die Indexierung sicher zu verhindern, nutzen Sie das noindex-Meta-Tag im HTML-Code der Seite.

Kann eine leere robots.txt-Datei schaden? Direkten Schaden richtet sie nicht an, aber sie ist eine verpasste Chance. Ohne Regeln verschwenden Crawler wertvolles Budget auf unwichtigen Seiten, was die Indexierung Ihrer neuen Kampagnen verlangsamen kann.

Wie oft sollte ich die robots.txt überprüfen? Prüfen Sie die Datei einmal pro Quartal und nach jedem größeren Website-Update in der Google Search Console, um sicherzustellen, dass alles korrekt funktioniert.

Technische SEO ohne Wartezeiten

Neue Kampagnen in Stunden statt Tagen

JET-CMS integriert die Steuerung technischer SEO-Aspekte direkt im Editor. So bleibt Ihr Marketing-Team unabhängig und bringt Landingpages & Inhalte schneller live. Fordern Sie eine persönliche Demo an und sehen Sie, wie andere ihre SEO-Performance messbar gesteigert haben.

Demo anfordern
Zufriedenes Marketing-Team