Die Grundpfeiler: Crawling, Indexierung und Sitemaps erklärt
Bevor wir in die Praxis einsteigen, ist es wichtig, die zentralen Begriffe zu verstehen. Sie bilden die Grundlage für alle weiteren Optimierungen und helfen Ihnen, die Funktionsweise von Suchmaschinen nachzuvollziehen.
- Crawling
- Dies ist der Entdeckungsprozess. Der Googlebot (ein Webcrawler) navigiert durch das Internet, folgt Links von Seite zu Seite und sammelt Informationen über die gefundenen URLs. Ziel ist es, neue und aktualisierte Inhalte zu entdecken.
- Indexierung
- Nach dem Crawling analysiert Google den Inhalt einer Seite – Texte, Bilder, Videos – und speichert diese Informationen in einer riesigen Datenbank, dem Google-Index. Nur Seiten, die erfolgreich indexiert wurden, können in den Suchergebnissen erscheinen.
- XML-Sitemap
- Eine Sitemap ist eine Datei im XML-Format, die alle für Sie wichtigen URLs Ihrer Website auflistet. Sie funktioniert wie eine Landkarte, die Sie Google an die Hand geben, um sicherzustellen, dass alle relevanten Seiten schnell zu finden und gecrawlt werden.
Crawling steuern: Sagen Sie Google, wohin es gehen soll
Nicht jede Seite Ihrer Website ist für den Google-Index bestimmt. Interne Suchergebnisse, Warenkorb-Seiten oder Admin-Bereiche sollten vom Crawling ausgeschlossen werden. Das spart wertvolles Crawl-Budget – die von Google für Ihre Seite zur Verfügung gestellte Ressourcenzeit – und lenkt den Fokus auf Ihre wirklich wichtigen Inhalte.
Das zentrale Werkzeug hierfür ist die robots.txt-Datei. Diese einfache Textdatei liegt im Hauptverzeichnis Ihrer Website (z.B. `ihre-domain.de/robots.txt`) und gibt den Crawlern Anweisungen. Mit der Anweisung `Disallow` können Sie bestimmte Verzeichnisse oder URLs für Bots sperren.
Pro-Tipp: Eine `Disallow`-Anweisung in der robots.txt verhindert zwar das Crawling, aber nicht zwingend die Indexierung. Wenn eine blockierte Seite von externen Quellen verlinkt wird, kann sie trotzdem im Index landen – allerdings ohne Beschreibung. Für einen sicheren Ausschluss aus dem Index ist das `noindex`-Tag die bessere Wahl.
Ein Beispiel: Ein Maler- und Lackierbetrieb aus Leipzig möchte verhindern, dass die internen Login-Seiten für Mitarbeiter von Google gecrawlt werden. Die `robots.txt` könnte so aussehen:
User-agent: *
Disallow: /mitarbeiter-login/
Disallow: /admin/
Sitemap: https://www.ihre-domain.de/sitemap.xml
Indexierung sicherstellen: Der Weg in den Google-Index
Sobald eine Seite gecrawlt wurde, entscheidet Google, ob sie in den Index aufgenommen wird. Sie können diesen Prozess mit Meta-Tags im <head>-Bereich Ihrer HTML-Seite direkt beeinflussen.
- Das "noindex"-Tag:
Mit
<meta name="robots" content="noindex">teilen Sie Google unmissverständlich mit, dass diese spezifische Seite nicht im Suchindex erscheinen soll. Das ist ideal für Danke-Seiten, interne Landingpages oder Archivseiten mit geringem Wert. - Das Canonical-Tag:
Oft existieren Inhalte unter mehreren URLs (z. B. mit und ohne www, mit verschiedenen Filtern). Das Canonical-Tag zeigt Google, welche Version die „offizielle“ ist, die indexiert werden soll. So vermeiden Sie Probleme mit Duplicate Content. Es sieht so aus:
<link rel="canonical" href="https://www.ihre-domain.de/original-seite/">
Stellen Sie sicher, dass Ihre wichtigsten Leistungsseiten – wie die Seite über „Fassadengestaltung“ des Malerbetriebs – kein noindex-Tag enthalten und ein korrektes, auf sich selbst verweisendes Canonical-Tag besitzen. Diese Einstellungen können Sie direkt im Quellcode der Seite oder über Ihr CMS (z. B. WordPress mit einem SEO-Plugin) prüfen und anpassen.
Ihre Schritt-für-Schritt-Anleitung zur technischen Prüfung
Mit dem nötigen Grundwissen können Sie nun Ihre Website systematisch prüfen. Die kostenlose Google Search Console (GSC) ist dabei Ihr wichtigstes Werkzeug. Folgen Sie dieser Umsetzungs-Anleitung:
- Google Search Console einrichten: Falls noch nicht geschehen, verifizieren Sie Ihre Website bei der GSC. Dies ist die direkte Schnittstelle zu Google und liefert Ihnen unbezahlbare Daten.
- XML-Sitemap einreichen: Navigieren Sie in der GSC zum Bereich "Sitemaps". Geben Sie die URL Ihrer Sitemap ein (meist `sitemap.xml`) und reichen Sie sie ein. Prüfen Sie, ob Google die Sitemap erfolgreich verarbeiten konnte und wie viele der eingereichten URLs entdeckt wurden.
- Indexierungsbericht analysieren: Unter "Seiten" im Menü "Indexierung" finden Sie den Kernreport. Achten Sie auf die Anzahl der "Indexierten" und "Nicht indexierten" Seiten. Schauen Sie sich die Gründe für nicht indexierte Seiten genau an. Häufige Fehler sind "Gecrawlt – zurzeit nicht indexiert" oder "Durch 'noindex'-Tag ausgeschlossen".
- robots.txt testen: Mit dem robots.txt-Tester in den "Einstellungen" der GSC können Sie prüfen, ob Google Ihre `robots.txt`-Datei korrekt interpretieren kann und ob wichtige URLs versehentlich blockiert werden.
- URLs stichprobenartig prüfen: Nehmen Sie sich einige Ihrer wichtigsten URLs und prüfen Sie sie mit dem URL-Prüftool (ganz oben in der GSC). Das Tool zeigt Ihnen live, ob eine Seite indexiert ist, ob sie mobilfreundlich ist und ob sie in der eingereichten Sitemap enthalten ist.
Eine saubere technische Basis ist kein Luxus, sondern die Grundvoraussetzung für jede erfolgreiche Website. Indem Sie das Crawling gezielt steuern, die Indexierung Ihrer wichtigsten Seiten sicherstellen und Google über eine aktuelle Sitemap den Weg weisen, schaffen Sie das Fundament, auf dem alle weiteren SEO-Maßnahmen aufbauen können.
Vernachlässigen Sie diese essenziellen Aspekte nicht. Ein regelmäßiger Blick in die Google Search Console und die konsequente Anwendung dieser Checkliste schützen Sie vor unsichtbaren Fehlern, die Ihren Erfolg sabotieren. Fangen Sie noch heute an, die Sichtbarkeit Ihrer Website proaktiv zu gestalten.
Häufige Fragen zu Technische SEO-Checkliste: So meistern Sie Crawling, Indexierung & Sitemaps
- Was ist der Unterschied zwischen Crawling und Indexierung?
- Crawling ist der Prozess, bei dem Google Ihre Website mit Bots durchsucht, um Inhalte zu entdecken. Indexierung ist der nachfolgende Schritt, bei dem diese entdeckten Inhalte analysiert, verstanden und in der Google-Datenbank gespeichert werden, um in den Suchergebnissen zu erscheinen.
- Warum ist eine XML-Sitemap so wichtig?
- Eine XML-Sitemap ist wie eine Landkarte Ihrer Website für Suchmaschinen. Sie hilft Google, alle wichtigen Seiten schnell zu finden und zu verstehen, welche Inhalte für die Indexierung relevant sind. Besonders bei großen oder neuen Websites ist sie unverzichtbar.
- Wie kann ich die Indexierung einer Seite verhindern?
- Um eine einzelne Seite von der Indexierung auszuschließen, verwenden Sie das 'noindex'-Tag im HTML-Header der Seite. Um ganze Bereiche zu blockieren, können Sie die 'Disallow'-Anweisung in der robots.txt-Datei nutzen, was jedoch primär das Crawling verhindert.
Bereit für eine technisch einwandfreie Website?
Ihre Website ist Ihr wichtigstes digitales Werkzeug. Lassen Sie uns gemeinsam sicherstellen, dass sie technisch perfekt aufgestellt ist, um von Ihren Kunden gefunden zu werden.
Jetzt kostenlose Analyse anfordern