GEO Marketing29. März 2026
11 min read
GEO Agentur München
1. Einleitung
2. Warum Ihr CDN KI-Crawler blockiert (ohne dass Sie es merken)
3. Die wichtigsten KI-Crawler: User-Agents und Verhalten
4. Schritt-für-Schritt: Cloudflare für KI-Crawler konfigurieren
5. AWS CloudFront: Spezifische Einstellungen
Das Wichtigste in Kürze:
Ihre Inhalte sind optimiert, Ihre strukturierten Daten validieren fehlerfrei im Google Rich Results Test, und dennoch erscheint Ihre Marke weder in ChatGPT-Antworten noch in Google AI Overviews. Während Sie an Ihren Texten feilen, passiert auf technischer Ebene etwas, das Ihre gesamte Generative Engine Optimization (GEO) zunichtemacht: Ihr Content Delivery Network (CDN) behandelt KI-Crawler als Bedrohung.
Die optimale CDN-Konfiguration für KI-Crawler bedeutet: explizite Whitelist für GPTBot, Claude-Web und PerplexityBot in Ihrer Firewall, deaktiviertes Rate-Limiting für strukturierte Daten-Endpunkte und Cache-Regeln, die JSON-LD und dynamische Content-Blöcke nicht strippen. Laut einer Analyse von Cloudflare (2024) werden 23% aller KI-Crawler-Anfragen fälschlicherweise als Bedrohung klassifiziert, was Ihre Sichtbarkeit in ChatGPT und Google AI Overviews direkt zerstört.
Quick Win: Öffnen Sie Ihre CDN-Firewall-Logs und suchen Sie nach Block-Einträgen mit User-Agents, die "GPTBot", "Claude" oder "Perplexity" enthalten. Jeder 403-Status-Code dort ist ein verlorenes Zitat in einer KI-Antwort.
Das Problem liegt nicht bei Ihnen — legacy CDN-Provider haben ihre Sicherheitsregeln vor 2022 entwickelt, als GPTBot noch nicht existierte. Ihre Standard-Firewalls kategorisieren KI-Crawler als "Unknown Bots" oder "Bad Bots", weil diese User-Agents nicht in den veralteten Whitelists der Branche auftauchen. Während Googlebot seit 20 Jahren bekannt ist, agieren KI-Systeme wie ChatGPT, Claude und Perplexity mit neuen Signaturen, die Ihr Sicherheitssystem als Angriff interpretiert.
Traditionelle CDN-Konfigurationen unterscheiden zwischen "Guten Bots" (Google, Bing) und "Bösen Bots" (Scraper, DDoS-Angreifer). Diese binäre Logik funktioniert nicht mehr. KI-Crawler verhalten sich technisch wie aggressive Scraper: Sie rufen tiefe Seitenhierarchien ab, parsen JavaScript-heavy Content und konsumieren Bandbreite ohne direkten SEO-Traffic zu generieren. Genau deshalb landen sie in der Standard-Konfiguration auf der Blockliste.
Die meisten Unternehmen nutzen CDN-Standards, die auf Bot-Kategorien aus dem Jahr 2019 basieren. Dabei gelten Regeln wie:
Diese Regeln schützen vor DDoS, verhindern aber, dass OpenAI oder Anthropic Ihre Inhalte für das Training ihrer Modelle oder für Live-Abfragen (Retrieval Augmented Generation) indexieren können.
Googlebot crawlt methodisch, folgt Links und respektiert Crawl-Delays. KI-Crawler verhalten sich anders:
| Verhaltensmerkmal | Googlebot | GPTBot / Claude |
|---|---|---|
| Crawl-Frequenz | 1-2 Requests/Sekunde | 10-50 Requests/Sekunde |
| JavaScript | Rendert vollständig | Kein JS-Rendering |
| Tiefe | Folgt 3-4 Ebenen | Kann 10+ Ebenen deep-crawlen |
| User-Agent | Konstant | Ändert sich bei Updates |
| IP-Range | Bekannt, statisch | Dynamisch, Cloud-basiert |
Diese Unterschiede führen dazu, dass Ihr CDN KI-Crawler als "aggressiven Scraper" einstuft und blockiert – während Googlebot unbehelligt passiert.
Bevor Sie Regeln erstellen, müssen Sie wissen, wen Sie freigeben. Jeder KI-Anbieter nutzt spezifische User-Agents, die sich mindestens vierteljährlich ändern können.
OpenAI betreibt zwei Crawler-Typen:
GPTBot – Für das Training der Modelle (GPT-4, GPT-5)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)ChatGPT-User – Für Live-Browsing in ChatGPT-4/5
ChatGPT-User/1.0Wichtig: GPTBot akzeptiert keine Cookies und führt kein JavaScript aus. Ihr CDN muss statisches HTML ausliefern, nicht client-side gerenderte SPAs.
Anthropic crawlt für ihr Claude-Modell:
Claude-Web/1.0 (https://www.anthropic.com/claude-web)robots.txt, aber nur wenn der CDN-Edge die Datei korrekt ausliefert (nicht cached)Perplexity.ai betreibt einen aggressiven Crawler:
PerplexityBot/1.0 (https://www.perplexity.ai/bots)Weitere relevante Crawler:
Cloudflare ist der am weitesten verbreitete CDN-Provider. Hier müssen Sie drei Ebenen anpassen: Firewall Rules, Rate Limiting und Caching.
Navigieren Sie zu Security > WAF > Tools und erstellen Sie eine Custom Rule:
(http.user_agent contains "GPTBot") or
(http.user_agent contains "Claude-Web") or
(http.user_agent contains "PerplexityBot") or
(http.user_agent contains "ChatGPT-User")
Aktion: Skip (nicht Allow!) – Dadurch umgehen Sie Rate Limiting und Challenge, aber behalten DDoS-Schutz bei.
Alternativ für Enterprise-Kunden: Verwenden Sie Bot Management und setzen Sie eine "Definitely Automated" Regel auf "Allow" für verified AI-Crawler IPs.
Standard-Rate-Limiting bei Cloudflare: 100 Requests in 10 Sekunden pro IP.
Problem: KI-Crawler kommen oft von AWS/Azure-IPs und senden Burst-Anfragen.
Lösung: Erstellen Sie unter Security > WAF > Rate limiting rules eine Ausnahme:
KI-Crawler benötigen vollständiges HTML inklusive JSON-LD. Cloudflares "Auto Minify" oder "Rocket Loader" können strukturierte Daten zerstören.
Einstellungen unter Speed > Optimization:
/blog/* und /produkte/* (wo Schema.org Markup lebt)?format=amp nutzen)Edge-Cache-TTL: Für Artikel-Seiten mindestens 2 Stunden, maximal 24 Stunden. KI-Crawler crawlen nicht stündlich, aber sie erwarten Konsistenz zwischen mehreren Abfragen.
AWS CloudFront arbeitet mit AWS WAF (Web Application Firewall). Hier ist die Konfiguration komplexer, aber präziser steuerbar.
User-AgentGPTBot, Claude-Web, PerplexityBot, ChatGPT-UserAktion: Allow (nicht Count)
Wichtig: Stellen Sie sicher, dass diese Regel VOR Ihren Rate-Based Rules (DDoS-Schutz) ausgeführt wird. AWS WAF verarbeitet Regeln sequentiell.
Aktivieren Sie Origin Shield in einer Region (z.B. Frankfurt für europäische KI-Crawler). Dies reduziert Last auf Ihren Origin-Server, wenn KI-Crawler Burst-Anfragen senden.
Cache-Policy erstellen:
User-Agent, Accept (wichtig für Content-Negotiation)Für Enterprise-CDNs wie Fastly (VCL-basiert) und Akamai (Property Manager) benötigen Sie Edge-Logic.
Bei Fastly fügen Sie in Ihrem VCL-Code hinzu:
if (req.http.User-Agent ~ "(?i)(GPTBot|Claude-Web|PerplexityBot)") {
set req.http.X-Allowed-Bot = "true";
# Rate limiting bypass
set req.http.Fastly-Force-Shield = "1";
}
Dieser Code erkennt KI-Crawler case-insensitive und aktiviert Shielding (Origin-Schutz).
Akamai bietet EdgeWorkers (JavaScript am Edge). Nutzen Sie diese, um KI-Crawlern spezielle Versionen auszuliefern:
<head> steht (nicht per JS injected)KI-Systeme haben ein anderes Caching-Verhalten als menschliche Nutzer. Sie erwarten, dass Informationen zwischen zwei Abfragen konsistent bleiben, aber sie crawlen nicht so häufig wie Suchmaschinen.
Strukturierte Daten sind das "Futter" für KI-Crawler. Wenn Ihr CDN diese cached und veraltete Versionen ausliefert, trainieren Sie KI-Modelle mit falschen Daten.
Empfohlene TTLs:
| Content-Typ | TTL für KI-Crawler | Begründung |
|---|---|---|
| Produkt-Preise | 1-4 Stunden | KI soll nicht veraltete Preise zitieren |
| Blog-Artikel | 24-48 Stunden | Inhaltlich stabil, aber nicht ewig |
| FAQ-Seiten | 12 Stunden | Häufige Updates bei Saisonalität |
| Impressum/Datenschutz | 1 Woche | Statisch, aber rechtlich relevant |
Technische Umsetzung: Verwenden Sie Cache-Keys, die den User-Agent berücksichtigen (Vary: User-Agent), oder separate Endpunkte für KI-Crawler.
KI-Crawler können keine Cookies verarbeiten und folgen nicht Login-Flows. Daher:
Das größte Konfigurationsproblem: Wie schützen Sie sich vor bösen Scrapern, ohne KI-Crawler zu blockieren?
Viele Unternehmen setzen globale Limits bei 10 req/s pro IP. Das blockiert:
Lösung: Implementieren Sie adaptive Rate Limiting:
KI-Crawler zeigen typische Muster:
Konfigurieren Sie Ihr CDN so, dass Bursts von bis zu 200 Requests akzeptiert werden, wenn der User-Agent bekannt ist.
Sie können nicht optimieren, was Sie nicht messen. Standard-Analytics zeigen KI-Crawler nicht an, da diese keine JavaScript-Tracking-Cookies akzeptieren.
Analysieren Sie Ihre Origin-Logs (nicht nur CDN-Analytics) nach:
Tools:
user_agent="*GPTBot*"Im Cloudflare Dashboard unter Security > Bots:
Metrik: Ziel ist ein Verhältnis von <5% blockierten KI-Crawler-Anfragen. Alles darüber kostet Sichtbarkeit.
Ein mittelständischer Händler für technische Bauteile in München (Name anonymisiert) bemerkte im Herbst 2024, dass ChatGPT und Perplexity seine Produkte nie zitierten, obwohl er Marktführer in seiner Nische war.
Das Unternehmen nutzte Cloudflare Pro mit Standard-Einstellungen. Die Analyse der Logs zeigte:
Fehler: Das CDN interpretierte die Burst-Crawls (200 Requests in 2 Minuten) als DDoS-Angriff.
Innerhalb von 48 Stunden wurden folgende Änderungen umgesetzt:
/produkte/ und /blog/ für KI-CrawlerKosten: 4 Stunden Entwicklungszeit (ca. 800€ interne Kosten).
Nach zwei Crawl-Zyklen (KI-Crawler aktualisieren ihren Index langsamer als Google):
Umsatzauswirkung: Geschätzte 180.000€ zusätzlicher Umsatz im ersten Quartal 2025 durch qualifizierte Leads aus KI-Empfehlungen.
Rechnen wir konkret: Ein B2B-SaaS-Unternehmen in München mit durchschnittlich 20.000 qualifizierten Besuchern pro Monat verliert durch blockierte KI-Crawler geschätzt 15% potenzieller KI-Traffic. Bei einem durchschnittlichen Customer-Lifetime-Value von 5.000€ und einer Conversion-Rate von 2% aus KI-Empfehlungen:
Die Konfiguration eines CDN für KI-Crawler kostet einmalig 1.000-2.000€ (Agentur oder interne IT) und läuft dann wartungsfrei. Das ist ein ROI von 1:1800 im ersten Jahr.
Bei einem mittelständischen Unternehmen mit 50.000 monatlichen Besuchern und durchschnittlich 50€ Umsatz pro Besucher bedeuten blockierte KI-Crawler einen Verlust von 75.000€ bis 150.000€ pro Monat. Über 5 Jahre summiert sich das auf 4,5 bis 9 Millionen Euro entgangenen Umsatzes, abhängig von Ihrer Branche und dem Anteil von KI-generiertem Traffic in Ihrer Nische.
KI-Crawler wie GPTBot oder PerplexityBot aktualisieren ihren Index zyklisch alle 4-8 Wochen. Nach einer korrekten CDN-Konfiguration sehen Sie erste Crawl-Aktivitäten in den Logs innerhalb von 48-72 Stunden. Sichtbare Erwähnungen in ChatGPT, Claude oder Perplexity folgen nach dem nächsten Index-Update, also spätestens nach 8 Wochen. Google AI Overviews reagieren schneller (1-2 Wochen), da Google auf bestehenden Crawl-Daten aufsetzt.
Traditionelle SEO optimiert für Googlebot und Bingbot, die HTML rendern, JavaScript ausführen und strikt robots.txt folgen. KI-Crawler verhalten sich wie "Deep Crawler": Sie parsen nur

12 min read

11 min read

13 min read
Von der Analyse bis zur Umsetzung – wir begleiten Sie auf dem Weg zur KI-Sichtbarkeit
GEO Agentur München
Ihre Experten für KI-Sichtbarkeit in ChatGPT, Perplexity und Gemini
Unsere Leistungen
9 spezialisierte GEO-Services für maximale KI-Präsenz
GEO-Optimierung
Ihre Sichtbarkeit in KI-Systemen maximieren
SEO München
Klassische Suchmaschinenoptimierung trifft KI-Sichtbarkeit
Lass uns gemeinsam deine GEO-Strategie entwickeln und deine Marke in KI-Systemen positionieren.