ChatGPT auf Englisch oder Deutsch? Die Daten 2026

Ein Geständnis eines Muttersprachlers

Meine Muttersprache ist Deutsch. Aber jedes Mal, wenn ich Claude, ChatGPT oder ein anderes LLM öffne, spreche ich Englisch. Ich habe vor Monaten aufgehört, Prompts zu tippen — aber selbst beim Diktieren bleibe ich bei Englisch. ChatGPT auf Englisch oder Deutsch ansprechen — macht das wirklich einen Unterschied? Oder ist das nur Einbildung?

Monatelang dachte ich Letzteres. Ein Bias aus zu viel Zeit in englischsprachigen Entwickler-Communities. Dann habe ich angefangen, die Forschungslage zu prüfen. Es stellt sich heraus: Mein Bauchgefühl hat Daten auf seiner Seite.

Das Trainingsdaten-Problem: Englisch dominiert das Internet

Die Ursache ist simpel: LLMs werden überwiegend mit englischen Texten trainiert.

67 %von LLaMA's Trainingsdaten sind Englisch

93 %von GPT-3's Trainingsdaten waren Englisch

5-6 %typischer Anteil von Deutsch in Trainingskorpora

Laut Metas LLaMA-Paper war die Trainingsmischung 67 % Englisch, der Rest verteilt auf Dutzende Sprachen und Programmiercode. OpenAIs GPT-3-Paper (Brown et al., 2020) dokumentierte sogar 93 % Englisch. Selbst das bewusst multilinguale BLOOM-Modell von BigScience hatte 30 % Englisch als größte Einzelsprache.

Die Konsequenz: Englisch ist die Sprache, in der diese Modelle die meisten Beispiele für gutes Schreiben, logisches Denken, Faktenwissen und nuancierte Ausdrucksweise gesehen haben. Wer auf Englisch promptet, aktiviert die am dichtesten und besten trainierten neuronalen Pfade.

Deutsch liegt mit etwa 5-6 % der typischen Trainingskorpora unter den besser vertretenen nicht-englischen Sprachen. Aber „eine der besten nicht-englischen Sprachen" bedeutet immer noch rund 10-mal weniger Trainingsdaten als Englisch.

Was die Benchmarks tatsächlich zeigen

Das ist keine Spekulation. Mehrere Forschungsteams haben den Unterschied gemessen.

Die historische Baseline: GPT-4 (2023)

Laut dem GPT-4 Technical Report testete OpenAI GPT-4 mit übersetzten MMLU-Versionen in 26 Sprachen. Der Abstand war deutlich:

App	MMLU-Score	Abstand zu Englisch
Englisch	~86 %	Baseline
Deutsch	~83 %	-3 %
Französisch	~83 %	-3 %
Chinesisch (Mandarin)	~80 %	-6 %
Japanisch	~79 %	-7 %
Koreanisch	~77 %	-9 %
Suaheli	~72 %	-14 %

Die Leistung sank proportional zum Trainingsdaten-Volumen. Deutsch und Französisch lagen 3 Punkte hinter Englisch. Weniger vertretene Sprachen zeigten Abstände von 10-14 Punkten.

Aber das war 2023. Seitdem hat sich viel verändert.

Die Realität 2025-2026: Der Abstand ist dramatisch geschrumpft

Drei Jahre Modellverbesserungen haben den multilingualen Gap für gut vertretene Sprachen deutlich komprimiert:

App	Multilingualer MMLU-Score	Kernaussage
Gemini 2.5 Pro	89,8 % (Global MMLU Lite)	94 % Parität mit Englisch über 12 Sprachen
Claude Sonnet 4.5	89,1 % (MMMLU)	Gleichauf mit Opus 4.1 und GPT-5
Claude Opus 4.0	88,8 % (MMMLU)	15,5-Punkte-Sprung über Claude 3.5 Sonnet
Llama 4	84,6 (Multilingual MMLU)	MoE-Architektur mit robuster Mehrsprachigkeit
DeepSeek-V3	79,4 (MMMLU non-English)	Übertrifft GPT-4o bei chinesischem Faktenwissen
Qwen 2.5 72B	74,8 (MMMLU non-English)	EN: 70,3 %, DE: 65,9 %, ZH: 65,9 % auf ProX

Die Schlüsselzahl: Gemini 2.5 Pro erreicht 94 % Parität mit Englisch über 12 Sprachen. Das ist eine grundlegend andere Landschaft als GPT-4's 3-14 % Abstände.

Claude Opus 4.6 erreicht durchschnittlich 96 auf BenchLMs multilingualer Suite — ein 15,5-Punkte-Sprung über Claude 3.5 Sonnet. Der Generationssprung in multilingualer Fähigkeit war enorm.

Besonders überraschend: Eine 2026-Studie von Lilt, die GPT-5.2, Claude Opus 4.6 und Gemini 3.1 an Arabisch, Deutsch und Koreanisch testete, ergab, dass Deutsch bei Versions-Editieraufgaben Englisch tatsächlich übertraf (53,66 % vs. 46,34 %). Die pauschale Annahme „Englisch ist immer besser" stimmt nicht mehr für jede Aufgabe.

Die umgekehrte Asymmetrie: Chinesische Modelle

DeepSeek-V3 erzählt eine interessante Geschichte. Bei englischem Faktenwissen (SimpleQA-Benchmark) liegt es hinter GPT-4o und Claude 3.5 Sonnet. Aber bei Chinese SimpleQA übertrifft es beide. Das ist keine Parität, sondern ein umgekehrter Vorteil für die Sprache, auf die das Modell optimiert wurde.

Qwen 3 expandierte von 29 auf 119 Sprachen und Dialekte, trainiert auf 36 Billionen Tokens. Qwen3-235B mit Thinking erreicht rund 80 % auf MMLU-ProX über mehrere Sprachen.

Die Lektion: Wer primär auf Chinesisch arbeitet, fährt mit einem chinesisch-optimierten Modell möglicherweise besser als mit westlichen Modellen — selbst wenn man diese auf Englisch promptet.

Der Reasoning-Gap ist größer als der Wissens-Gap

Der Qualitätsunterschied ist nicht gleichmäßig über alle Aufgabentypen verteilt. Bei einfachen Faktenfragen spielt die Sprache kaum eine Rolle. Bei komplexen Denkketten wird der Abstand größer.

Shi et al. (2022) zeigten, dass englische Chain-of-Thought-Beispiele die Reasoning-Leistung auch in anderen Sprachen verbessern. Huang et al. (2023) formalisierten dies mit Cross-Lingual Thought (XLT) Prompting: Das Modell wird instruiert, intern auf Englisch zu denken, was 1-10 % Verbesserung bei arithmetischem Reasoning brachte.

Aber eine Mai-2025-Studie mit 39 multilingualen Prompting-Techniken zeigt, dass neuere Strategien den simplen „Denke auf Englisch"-Ansatz übertreffen können. Cross-Lingual Self-Consistent Prompting (CLSP), das in mehreren Sprachen denkt und die konsistenteste Antwort wählt, übertrifft English-Only-CoT bei Mathematik und kausalem Reasoning. Und Regressive Native-CoT übertrifft English CoT für bestimmte Sprachen bei Subjektivitätsaufgaben.

Die Erkenntnis hat sich weiterentwickelt: Englisch hilft beim Reasoning, ist aber nicht mehr der einzige Weg zu guten Ergebnissen.

Die Token-Steuer: Nicht-englische Sprachen kosten mehr

Neben der Qualität gibt es eine harte finanzielle Realität. LLM-Tokenizer wurden primär auf englischen Texten trainiert, was Englisch zur effizientesten Sprache macht.

App	Tokens pro 1K englische Wortäquivalente	Kostenfaktor
Englisch	~1.300	1,0x
Spanisch	~1.400	1,1x
Französisch	~1.500	1,15x
Deutsch	~1.650	1,3x
Chinesisch	~1.500	1,2x
Japanisch	~1.600	1,25x
Hindi	~3.700	2,8x

Der 30-prozentige Token-Overhead im Deutschen kommt hauptsächlich von zusammengesetzten Substantiven. „Geschwindigkeitsbegrenzung" verbraucht 4-5 Tokens, während „speed limit" nur 2 kostet. Diese Werte basieren auf OpenAIs cl100k_base-Tokenizer-Analyse. Über ein ganzes Gespräch multipliziert wird daraus ein echter Aufpreis.

Für ein Unternehmen mit Tausenden API-Aufrufen pro Tag summiert sich das. Ein deutschsprachiger Kundenservice-Bot kostet rund 30 % mehr pro Interaktion als ein englischer — noch bevor man den Qualitätsunterschied berücksichtigt.

Chinesische Token-Effizienz: Vom Mythos zur Realität

Jahrelang wurde die Behauptung „Chinesisch ist Token-effizienter" als Mythos abgetan. Mit älteren Tokenizern stimmte das auch: GPT-4's cl100k_base machte jedes chinesische Zeichen zu 2-3 BPE-Tokens, was chinesischen Text rund 1,8x teurer machte als Englisch.

Das hat sich grundlegend geändert. OpenAIs o200k_base-Tokenizer (GPT-4o und GPT-5) verdoppelte das Vokabular auf 200K Tokens mit speziellen Unicode-Kategorien für CJK-Schriften. Das Ergebnis: „artificial intelligence" benötigt 3 Tokens, „人工智能" nur 2 Tokens. Chinesisch gewinnt. Auf Satzebene herrscht laut Tokenizer-Analyse nahezu Parität (~1,0-1,1x). Auf Absatzebene liegt Chinesisch rund 15 % über Englisch — weit entfernt vom alten 80-%-Aufschlag.

ℹ️

Das wahre Bild 2026

Die chinesische Informationsdichte übersetzt sich mit modernen Tokenizern tatsächlich in echte Token-Effizienz. Der alte 1,8x-Aufschlag ist auf rund 1,1-1,2x kollabiert. Bei kurzen technischen Begriffen schlägt Chinesisch Englisch sogar. Der „Mythos" ist keiner mehr.

Ein Vorbehalt bleibt: Tokenisierung kann semantische Einheiten im Chinesischen fragmentieren, was bei komplexem Reasoning stören kann. Und für wenig vertretene Sprachen (Hindi, Tamil, Arabisch) bestehen weiterhin 2-3x Token-Aufschläge gegenüber Englisch.

Deutsch-spezifische Eigenheiten, die mir auffallen

Nach Tausenden Stunden Prompting in beiden Sprachen sind mir diese deutschspezifischen Probleme immer wieder begegnet:

Halluzinierte Komposita. Modelle erfinden gelegentlich zusammengesetzte Wörter, die im Deutschen nicht existieren. Sie verstehen das Prinzip der deutschen Komposition, kreieren aber manchmal plausibel klingende Neuschöpfungen.

Kasus-Drift. In längeren Ausgaben verschwimmen Dativ und Akkusativ. Das Modell tendiert zum Nominativ, besonders in komplexen Schachtelsätzen. Muttersprachlichen fällt das sofort auf.

Sie/du-Inkonsistenz. Die formelle/informelle Unterscheidung ist ein Minenfeld. Modelle wechseln mitten im Gespräch zwischen Sie und du, besonders nach Codeblöcken oder technischen Erklärungen.

Gendern-Chaos. Wer geschlechtergerechte Sprache anfordert, bekommt einen inkonsistenten Mix aus Genderstern (Mitarbeiter*innen), Doppelnennung und generischem Maskulinum innerhalb desselben Absatzes — es sei denn, man ist extrem spezifisch in den Anweisungen.

Keines dieser Probleme tritt in englischen Ausgaben auf. Das Modell hat schlicht genug Englisch gesehen, um diese Fehlerklassen zu vermeiden.

Englisch oder Deutsch prompten? Die aufgabenabhängige Antwort

Nach Sichtung der Forschung und ausgiebigem eigenen Testen empfehle ich Folgendes:

Für komplexes Reasoning und Analyse: Auf Englisch prompten

Wenn das Modell intensiv nachdenken muss, gewinnt Englisch. Mathematische Probleme, logische Deduktion, strategische Analysen, Dateninterpretation. Schreiben Sie Ihren Prompt auf Englisch, selbst wenn Sie die finale Antwort in einer anderen Sprache brauchen. Fügen Sie am Ende „Respond in German" hinzu.

Das deckt sich direkt mit der Forschung. Englisches Chain-of-Thought ist zuverlässiger. Englisches Instruction Following ist konsistenter. Das Alignment-Training (RLHF) wurde überwiegend auf Englisch durchgeführt.

Für kreatives Schreiben und Marketingtexte: Muttersprache nutzen

Hier bricht die gängige Weisheit. Wer natürlich klingende deutsche Marketingtexte will, sollte auf Deutsch prompten. Der Umweg über Englisch erzeugt „Translationese" — grammatisch korrektes Deutsch, das sich wie eine Übersetzung liest. Muttersprachliche spüren das sofort, selbst wenn sie nicht benennen können, warum.

Auch der kulturelle Kontext zählt. Deutsche Geschäftskommunikation folgt anderen Konventionen, anderen Formalitätsebenen, anderen rhetorischen Mustern. Das Modell greift darauf natürlicher zu, wenn das gesamte Gespräch auf Deutsch stattfindet.

Für Code: Immer Englisch

Hier gibt es keine Diskussion. Variablennamen, Kommentare, Dokumentation, Code-Erklärungen — alles auf Englisch. Programmierung ist eine englischsprachige Domäne. Die Trainingsdaten für Code sind überwältigend englisch. Wer auf Deutsch nach Code fragt, bekommt schlechtere Variablennamen, weniger idiomatische Muster und mehr Fehler. Das gilt ob Sie Cursor, Claude Code oder ein anderes KI-Coding-Tool nutzen.

Für strukturierte Ausgaben: Englische Anweisungen, Zielsprache für Inhalte

Bei JSON, Tabellen oder anderen strukturierten Formaten sollten die Strukturanweisungen auf Englisch sein. Das Modell befolgt Formatierungsregeln auf Englisch zuverlässiger. Die Inhalte innerhalb der Struktur können in der Zielsprache sein.

💡

Der Hybrid-Ansatz, der am besten funktioniert

Schreiben Sie Ihren System-Prompt auf Englisch. Ihre Nutzernachricht in der Sprache, die sich natürlich anfühlt. Und eine klare Sprachanweisung für die Antwort. Das nutzt Englischs überlegenes Instruction Following, während Ihre Eingabe natürlich und komfortabel bleibt.

Ein praktischer Trick: „Think in English, Respond in German"

Die einzelne effektivste Technik, die ich gefunden habe: Dem Modell explizit sagen, intern auf Englisch zu denken.

„Think through this problem in English, then provide your response in German" in komplexen Prompts zu ergänzen, liefert spürbar bessere Ergebnisse. Das ist die Praxis-Version der Cross-Lingual Thought (XLT) Prompting-Strategie von Huang et al. (2023).

Es kostet ein paar zusätzliche Tokens für das interne Reasoning. Es lohnt sich bei allem, was über einfache Fragen hinausgeht.

Der Abstand schrumpft — schnell für manche, langsam für andere

Die Entwicklung von GPT-3 bis heute erzählt die Geschichte:

App	Deutsch vs. Englisch	Chinesisch vs. Englisch	Low-Resource-Gap
GPT-3 (2020)	~10 %	~15 %	~25-30 %
GPT-4 (2023)	~3 %	~6 %	~14 %
GPT-5 / Claude Opus 4 (2025-2026)	~1-3 %	~3-5 %	~10-20 %

Für Deutsch nähern wir uns funktionaler Parität. Die Lilt-Studie 2026 fand, dass Instruction Retention bei aktuellen Frontier-Modellen nur 3-7 % für nicht-englische Sprachen sinkt. Deutsch übertraf Englisch sogar bei einigen Aufgaben. Gemini 2.5 Pro erreicht 94 % Parität mit Englisch über 12 Sprachen.

Aber die unbequeme Wahrheit bleibt: Für wenig vertretene Sprachen ist die Verbesserung deutlich langsamer. Der INCLUDE-Benchmark (ICLR 2025), der mit muttersprachlich erstellten Ressourcen statt Übersetzungen arbeitet, offenbarte anhaltende Lücken. Bei Qwen 2.5's MMLU-ProX beträgt der Abstand zwischen Englisch (70,3 %) und Suaheli (40,1 %) noch immer 30 Punkte. Ein Stanford-HAI-Bericht und eine Januar-2025-Studie zu multilingualen LLMs kommen beide zum Schluss, dass die meisten LLMs fundamental englischzentriert bleiben.

Der Rat „Immer auf Englisch prompten" ist veraltet

Hier muss ich meine eigenen Annahmen korrigieren. Eine 2025-Studie über 35 Sprachen bei Extraktionsaufgaben ergab, dass die Prompt-Sprache an die Inhaltssprache anzupassen durchgehend besser abschneidet als englische Prompts — mit bis zu 50 % Genauigkeitsverbesserung. Englische Prompts brauchten sogar 25-35 % länger, um nicht-englische Inhalte zu verarbeiten.

Das heißt nicht, dass englische Prompts nutzlos sind. Für Reasoning-lastige Aufgaben ohne muttersprachlichen Input gewinnt Englisch weiterhin tendenziell. Aber der pauschale Rat „Immer Englisch verwenden" ist ein Relikt der GPT-3/GPT-4-Ära. Aktuelle Modelle sind in großen Sprachen gut genug, dass Aufgabenanpassung wichtiger ist als Sprachwechsel.

Was das für Unternehmen bedeutet

Wer KI-gestützte Produkte oder agentische Workflows baut, für den ist die Prompt-Sprache eine echte Architekturentscheidung:

Kostenoptimierung. Eine English-First-Prompt-Strategie spart 20-40 % Token-Kosten für deutsche Anwendungen, noch mehr für CJK-Sprachen. Bei Hochvolumen-Anwendungen ist das ein Posten, den man optimieren sollte.

Qualitätssicherung. Wenn Ihre KI-Ausgaben kundengerichtet sind, beeinflusst die Prompt-Sprache die Qualität, die Ihre Kundschaft sieht. Ein gründlicher KI-Readiness-Check sollte die Prompt-Sprachstrategie einschließen. Testen Sie beide Ansätze mit Muttersprachlichen, bevor Sie sich festlegen.

Längere Kontexte verstärken den Gap. Bei kurzen Prompts spielt die Sprache kaum eine Rolle. Bei langen Kontexten (10K+ Tokens) zeigen nicht-englische Prompts mehr Instruction Drift, Formatierungsinkonsistenzen und gelegentliches Umschalten auf Englisch.

Temperatur-Sensitivität. Höhere Temperature-Werte verstärken multilinguale Qualitätsunterschiede. Für nicht-englische Generierung empfiehlt sich eine niedrigere Temperatur (0,3-0,5) als für Englisch (0,7).

Mein persönlicher Workflow

Ich prompte auf Englisch für alles außer deutschem Marketing-Content. Selbst wenn ich Features für den deutschen Markt baue: Meine System-Prompts sind Englisch, meine technischen Diskussionen sind Englisch, und mein Code ist natürlich Englisch.

Wenn ich deutschen Output brauche, schreibe ich „Respond in German" und akzeptiere den kleinen Qualitäts-Tradeoff zugunsten natürlich klingender Ergebnisse. Für kritische deutsche Inhalte reviewe und editiere ich manuell — das Modell trifft 90 % richtig, aber die letzten 10 % sind dort, wo muttersprachliche Sprachkompetenz lebt.

Ist das optimal? Die Forschung sagt ja. Fühlt es sich leicht absurd an, mit einer Maschine in einer Fremdsprache zu sprechen? Auch ja. Aber solange die Verteilung der Trainingsdaten nicht aufholt, bleibt Englisch die Lingua franca der KI — nicht absichtlich, sondern durch Daten.

Kurzreferenz: Wann welche Sprache nutzen

Aufgabentyp	Empfohlene Sprache	Grund
Komplexes Reasoning, Mathematik, Logik	Englisch	Stärkstes Chain-of-Thought
Verarbeitung nicht-englischer Dokumente	Dokumentsprache	Bis zu 50 % Genauigkeitsgewinn (2025-Studie)
Kreatives Schreiben, Marketingtexte	Muttersprache	Vermeidet „Translationese", trifft kulturellen Ton
Code-Generierung	Englisch	Programmierung ist eine englischsprachige Domäne
System-Prompts, strukturierte Ausgaben	Englisch	Besseres Instruction Following
Übersetzung	Quellsprache + englische Anweisungen	Zuverlässige Formatierung mit natürlichem Quellverständnis

FAQ

Macht es bei einfachen Fragen wirklich einen Unterschied, auf Englisch zu prompten?

Kaum. Bei einfachen Faktenfragen oder kurzen Interaktionen ist der Unterschied vernachlässigbar. Relevant wird er bei komplexem Reasoning, langen Kontexten und Aufgaben, bei denen Instruction Following wichtig ist.

Sollte ich auf Englisch wechseln, auch wenn mein Englisch nicht perfekt ist?

Ja, für Reasoning-Aufgaben. Unperfekte englische Prompts übertreffen in den meisten Fällen muttersprachliche Prompts bei komplexen Analysen. Das Modell versteht nicht-muttersprachliches Englisch sehr gut. Ihre leicht unbeholfene Formulierung aktiviert bessere neuronale Pfade als perfektes Deutsch.

Wird sich das mit besseren Modellen ändern?

Für gut vertretene Sprachen wie Deutsch, Französisch und Japanisch — ja, der Abstand schrumpft schnell. Für weniger vertretene Sprachen ist die Verbesserung langsamer. Die englische Dominanz in den Trainingsdaten ist ein strukturelles Problem, das noch Jahre brauchen wird.

Was ist mit chinesisch-spezialisierten Modellen wie DeepSeek oder Qwen?

Sie erreichen nicht nur englisches Niveau — sie übertreffen westliche Modelle bei chinesischen Aufgaben. DeepSeek-V3 schlägt GPT-4o und Claude 3.5 Sonnet bei Chinese SimpleQA. Qwen 3 unterstützt 119 Sprachen, trainiert auf 36 Billionen Tokens. Wer primär auf Chinesisch arbeitet, fährt mit einem chinesisch-optimierten Modell nicht nur vergleichbar, sondern wahrscheinlich besser als mit einem westlichen Modell auf Englisch.

Ist der Token-Kostenunterschied für Einzelpersonen relevant?

Bei persönlicher Nutzung mit Abo-Tools (ChatGPT Plus, Claude Pro) spielt Token-Effizienz kaum eine Rolle — Sie zahlen einen Festpreis. Relevant wird es bei API-basierten Anwendungen mit Tausenden Anfragen pro Tag.