Zum Inhalt springen
KIDatenschutz·

On-Premise LLM: DSGVO-konforme KI auf eigener Infrastruktur

Jamin Mahmood-Wiebe

Jamin Mahmood-Wiebe

Schematische Darstellung einer DSGVO-konformen KI-Infrastruktur mit Datenschutzschichten
Article

On-Premise LLM: DSGVO-konforme KI auf eigener Infrastruktur

Künstliche Intelligenz verändert Geschäftsprozesse grundlegend. Large Language Models klassifizieren Dokumente, extrahieren Vertragsdaten, beantworten Kundenanfragen und orchestrieren komplexe Workflows. Doch jede dieser Anwendungen nutzt potenziell sensible Daten — und damit greifen die Regeln der DSGVO. Für viele Unternehmen ist ein On-Premise LLM der sicherste Weg, KI-Leistung und Datensouveränität zu vereinen.

Kurzfassung: Sie können KI datenschutzkonform betreiben — mit der richtigen Architektur. Dieser Artikel zeigt, wann On-Premise nötig ist, wann EU-Cloud reicht und wie eine Hybrid-Lösung beides verbindet.

Für deutsche Unternehmen ist das keine theoretische Frage. Die Bußgelder sind real: 2024 und 2025 haben europäische Aufsichtsbehörden mehrfach Millionenstrafen gegen Unternehmen verhängt, die KI-Systeme ohne ausreichende Schutzmaßnahmen betrieben haben. Die italienische Aufsichtsbehörde sperrte ChatGPT vorübergehend. Die französische CNIL verhängte Bußgelder wegen unzureichender Informationspflichten bei KI-gestützter Profilbildung. Die Frage lautet nicht, ob Sie KI einsetzen sollten — sondern wie Sie es rechtskonform und datensouverän tun.

Dieser Artikel liefert die technische und rechtliche Grundlage: von den relevanten DSGVO-Artikeln über On-Premise-Hosting-Optionen bis zur praktischen Checkliste für die Umsetzung. Wir bei IJONIS begleiten Unternehmen auf genau diesem Weg — und teilen hier die Erfahrungen aus dutzenden Projekten.

Welche DSGVO-Regeln gelten für KI-Systeme?

Die DSGVO kennt den Begriff "Künstliche Intelligenz" nicht. Sie regelt den Umgang mit sensiblen Daten — unabhängig davon, ob ein Mensch oder ein Algorithmus diese Auswertung durchführt. Entscheidend ist: Jedes KI-System, das mit Informationen über identifizierbare Personen arbeitet, unterliegt denselben Pflichten wie jede andere Form der Datennutzung. Für KI-Systeme sind vier Bereiche besonders relevant:

Welche Rechtsgrundlage braucht KI für die Datennutzung? (Art. 6 DSGVO)

Jede Nutzung sensibler Daten braucht eine Rechtsgrundlage. Für KI-Anwendungen kommen in der Praxis drei Varianten in Frage:

  • Einwilligung (Art. 6 Abs. 1 lit. a): Die betroffene Person stimmt der Nutzung explizit zu. Problematisch bei KI, weil die Abläufe oft intransparent sind und die Einwilligung spezifisch sowie informiert sein muss. Wenn Sie nicht erklären können, was genau das LLM mit den Daten tut, ist eine wirksame Einwilligung schwer zu erreichen.
  • Vertragserfüllung (Art. 6 Abs. 1 lit. b): Die Datennutzung ist zur Erfüllung eines Vertrags erforderlich. Funktioniert bei Kundensupport-Chatbots, automatisierter Angebotserstellung oder vertraglicher Dokumentenanalyse — solange die KI-Auswertung unmittelbar dem Vertragszweck dient.
  • Berechtigtes Interesse (Art. 6 Abs. 1 lit. f): Die Nutzung dient einem berechtigten Interesse des Unternehmens und überwiegt die Interessen der betroffenen Person. Die häufigste Grundlage für interne KI-Automatisierung — erfordert aber eine dokumentierte Interessenabwägung, die regelmäßig überprüft wird.

Unsere Empfehlung: Dokumentieren Sie die Rechtsgrundlage für jede KI-Anwendung in einem zentralen Register. Das ist nicht nur rechtlich sauber, sondern beschleunigt auch Audits und interne Freigabeprozesse erheblich.

Wann darf KI allein entscheiden? (Art. 22 DSGVO)

Art. 22 DSGVO gibt betroffenen Personen das Recht, nicht einer ausschließlich auf automatisierter Auswertung beruhenden Entscheidung unterworfen zu werden, die ihnen gegenüber rechtliche Wirkung entfaltet oder sie erheblich beeinträchtigt. Dieser Artikel ist für KI-Agenten-Systeme von zentraler Bedeutung.

Was das in der Praxis bedeutet:

  • Ein KI-Agent, der automatisch Kreditanträge ablehnt: Art. 22 greift. Der Betroffene hat das Recht auf menschliche Überprüfung.
  • Ein KI-Agent, der Dokumente klassifiziert und einer zuständigen Person zur Entscheidung vorlegt: Art. 22 greift nicht, weil ein Mensch die finale Entscheidung trifft.
  • Ein KI-Agent, der automatisch Kündigungsbestätigungen versendet: Grauzone — hängt davon ab, ob die automatische Verarbeitung eine rechtliche Wirkung entfaltet oder die betroffene Person erheblich beeinträchtigt.
  • Ein KI-Agent, der Bewerbungen vorsortiert und Absagen ohne menschliche Prüfung versendet: Art. 22 greift. Erhebliche Beeinträchtigung liegt vor.

Die sicherste Architektur ist Human-in-the-Loop: Der Agent bereitet Entscheidungen vor, ein Mensch bestätigt sie. Das erfüllt Art. 22 und schafft gleichzeitig Vertrauen bei Mitarbeitenden und Kunden. Wie wir diese Architektur in der Praxis umsetzen, beschreiben wir in unserem Artikel über KI-Agenten für Unternehmen.

„Die größte Hürde bei datenschutzkonformer KI ist nicht die Technologie — es ist das fehlende Verständnis dafür, welche Daten überhaupt durch das System fließen. Wer das einmal sauber kartiert hat, findet die passende Architektur fast von selbst." — Jamin Mahmood-Wiebe, Gründer von IJONIS

Welche Informationspflichten gelten bei KI-Einsatz? (Art. 13/14 DSGVO)

Betroffene Personen müssen informiert werden, wenn ihre Daten durch KI-Systeme genutzt werden. Diese Pflicht gilt unabhängig davon, ob die Auswertung lokal oder in der Cloud stattfindet. Das umfasst:

  • Zweck und Rechtsgrundlage der Datennutzung
  • Aussagekräftige Informationen über die involvierte Logik (verständlich, nicht als Code-Dokumentation)
  • Tragweite und angestrebte Auswirkungen der automatisierten Auswertung
  • Kontaktdaten des Datenschutzbeauftragten
  • Hinweis auf Rechte der betroffenen Person (Auskunft, Berichtigung, Löschung, Widerspruch)

In Kombination mit dem EU AI Act (dazu später mehr) verschärfen sich die Transparenzanforderungen weiter: Nutzer müssen wissen, dass sie mit einem KI-System interagieren.

Wann ist eine Datenschutz-Folgenabschätzung Pflicht? (Art. 35 DSGVO)

Für KI-Systeme, die sensible Daten in großem Umfang auswerten, ist eine Datenschutz-Folgenabschätzung (DSFA) verpflichtend. Die DSFA dokumentiert Risiken, bewertet Schutzmaßnahmen und zeigt der Aufsichtsbehörde, dass Sie die Gefahren kennen und adressieren. Das betrifft insbesondere:

  • Profiling und Scoring von Personen
  • Systematische Überwachung öffentlich zugänglicher Bereiche
  • Umfangreiche Nutzung besonderer Datenkategorien (Gesundheit, Religion, politische Meinung)
  • Einsatz neuer Technologien mit hohem Risiko für die Rechte und Freiheiten natürlicher Personen

Empfehlung: Führen Sie für jedes KI-Projekt eine DSFA durch — auch wenn die Pflicht im Einzelfall nicht eindeutig besteht. Die Dokumentation schützt im Streitfall und erleichtert die Zusammenarbeit mit dem Datenschutzbeauftragten. Der Aufwand einer DSFA liegt bei 2–5 Arbeitstagen und ist im Verhältnis zum Bußgeldrisiko minimal.

On-Premise, EU-Cloud oder US-Cloud — welches Hosting passt zu Ihrem KI-Projekt?

Die Wahl der Hosting-Infrastruktur ist die wichtigste technische Entscheidung für datenschutzkonforme KI. Sie bestimmt, wer Zugriff auf die Daten hat, wo die Auswertung stattfindet und welche vertraglichen Vereinbarungen nötig sind. Die wichtigste Erkenntnis: Es gibt keine Universallösung — die richtige Wahl hängt von der Sensibilität Ihrer Daten ab.

KriteriumOn-PremiseEU-Cloud (AVV)US-Cloud (DPA)
DatenstandortEigenes Rechenzentrum / DEEU-Region (z.B. Frankfurt)USA oder weltweit
DatenzugriffNur internes PersonalCloud-Anbieter + AuftragnehmerUS-Anbieter, ggf. US-Behörden (CLOUD Act)
DSGVO-KonformitätVolle KontrolleKonform mit AVVProblematisch (Schrems II)
Aufwand SetupHoch (Hardware, DevOps, Kühlung)Mittel (Managed Services)Niedrig (API-Key genügt)
Kosten initial15.000–100.000+ EUR500–5.000 EUR/Monat0–1.000 EUR/Monat
Kosten laufendHardware-Wartung, Strom, PersonalNutzungsbasiertNutzungsbasiert
ModellauswahlOpen-Source (Llama 3, Mistral, Qwen, Phi)Provider-Modelle + Open-SourceAlle kommerziellen Modelle
SkalierbarkeitBegrenzt durch HardwareHoch (Auto-Scaling)Sehr hoch
LatenzSehr niedrig (lokal)Niedrig (EU-Region)Variabel (transatlantisch)
Vendor Lock-inKein Lock-inMittlerer Lock-inHoher Lock-in
Geeignet fürHochsensible Daten, regulierte BranchenStandardanwendungen mit PIIAusschließlich nicht-personenbezogene Daten

Für welche Unternehmen lohnt sich On-Premise?

On-Premise-Hosting bedeutet: Sie betreiben die KI-Modelle auf eigener oder dedizierter Hardware in einem deutschen Rechenzentrum. Kein Byte verlässt Ihr Netzwerk. Das ist relevant für:

  • Gesundheitswesen und Pharma: Patientendaten unterliegen besonderen Schutzanforderungen (Art. 9 DSGVO). Krankenhäuser und Forschungseinrichtungen verarbeiten regelmäßig Daten besonderer Kategorien, für die eine Cloud-Übermittlung kaum vertretbar ist.
  • Finanzdienstleister: BaFin-regulierte Unternehmen haben zusätzliche Anforderungen an Datenverarbeitung durch Dritte. Die MaRisk (Mindestanforderungen an das Risikomanagement) setzen enge Grenzen für Auslagerungen.
  • Öffentlicher Sektor: Behörden und kommunale Unternehmen mit strikten Souveränitätsanforderungen. Viele Landes-Datenschutzbeauftragte empfehlen ausdrücklich lokale Verarbeitung.
  • Unternehmen mit Betriebsgeheimnissen: Wenn die verarbeiteten Daten selbst das Geschäftsmodell sind — proprietäre Forschungsdaten, Rezepturen, Konstruktionspläne, Strategiedokumente.
  • Unternehmen mit hohem Datenvolumen: Ab einer bestimmten Menge an API-Calls ist On-Premise wirtschaftlicher als Cloud-Abrechnung pro Token.

Der aktuelle Stand der Technik: Open-Source-Modelle wie Llama 3.1 (Meta), Mistral Large, Qwen 2.5 (Alibaba) und Phi-4 (Microsoft) erreichen bei vielen Aufgaben eine Qualität, die mit kommerziellen APIs vergleichbar ist -- eine aktuelle Übersicht finden Sie auf Hugging Face. Für spezialisierte Aufgaben — Dokumentenextraktion, Zusammenfassungen, Klassifizierung, Code-Analyse — übertreffen feingetunte Open-Source-Modelle oft die generischen kommerziellen Alternativen. Die Infrastruktur für lokales Hosting ist ausgereift: vLLM, Ollama, TGI (Text Generation Inference) und llama.cpp machen den Betrieb von LLMs auf eigener Hardware produktionsreif. Einen detaillierten Vergleich der aktuellen Modelle, Hardware-Optionen und Deployment-Tools finden Sie in unserem Leitfaden zu lokalen LLM-Systemen mit Open-Source-Modellen.

Wann reicht EU-Cloud mit Auftragsverarbeitungsvertrag?

Für viele Standardanwendungen ist EU-Cloud-Hosting mit einem Auftragsverarbeitungsvertrag (AVV) die pragmatischste Lösung. Die großen Cloud-Anbieter betreiben Rechenzentren in Frankfurt, Amsterdam und anderen EU-Standorten:

  • Azure OpenAI Service (Frankfurt): GPT-4o, GPT-4 Turbo und Embeddings in EU-Regionen mit AVV. Microsoft garantiert vertraglich, dass Daten die EU nicht verlassen und nicht zum Modelltraining verwendet werden.
  • AWS Bedrock (Frankfurt): Claude (Anthropic), Llama, Mistral und weitere Modelle in der EU-Region. AVV über AWS-Standardvertrag. Besonders interessant: eigene Modelle können auf Bedrock gehostet werden.
  • Google Cloud Vertex AI (Frankfurt): Gemini-Modelle in EU-Regionen. AVV über Google-Cloud-Vertrag. Data Residency ist konfigurierbar.

Wichtig: Ein AVV allein genügt nicht. Prüfen Sie folgende Punkte:

  1. Setzt der Anbieter Subunternehmer ein? Operieren diese ebenfalls in der EU?
  2. Wie sehen die technisch-organisatorischen Maßnahmen (TOMs) des Anbieters aus?
  3. Gibt es eine vertraglich zugesicherte Data Residency oder nur eine Konfigurationsoption?
  4. Was passiert bei einem Failover? Werden Daten in Nicht-EU-Regionen repliziert?
  5. Hat der Anbieter eine CLOUD-Act-Verpflichtung, die EU-Zusicherungen aushebeln könnte?

Wie funktioniert die Hybrid-Architektur in der Praxis?

In der Praxis setzen wir bei IJONIS in Hamburg häufig auf eine Hybrid-Architektur, die das Beste aus beiden Welten kombiniert und gleichzeitig die Datenschutz-Anforderungen erfüllt:

  1. Daten-Vorverarbeitung on-premise: Personenbezogene Daten werden lokal anonymisiert oder pseudonymisiert, bevor sie das interne Netzwerk verlassen.
  2. Anonymisierte Verarbeitung in der Cloud: Nur bereinigte, nicht-personenbezogene Daten gehen an leistungsstärkere Cloud-Modelle für komplexe Reasoning-Aufgaben.
  3. Re-Kontextualisierung on-premise: Die Ergebnisse werden lokal wieder mit dem Originalkontext zusammengeführt — der vollständige Datensatz existiert nur innerhalb der eigenen Infrastruktur.

Diese Architektur bietet hohe Modellqualität bei gleichzeitiger Datensouveränität. Die technische Umsetzung — insbesondere wie Retrieval-Augmented Generation in diesem Setup funktioniert — beschreiben wir detailliert in unserem Leitfaden zu RAG-Systemen für Unternehmen.

„Viele Unternehmen denken bei Datenschutz und KI in Extremen: entweder alles lokal oder gar keine KI. Die Hybrid-Architektur zeigt, dass es einen dritten Weg gibt — und der ist in 80 Prozent der Fälle der richtige." — Jamin Mahmood-Wiebe, Gründer von IJONIS

Wie schützen Anonymisierung und Pseudonymisierung Ihre KI-Pipeline?

Die DSGVO unterscheidet klar zwischen anonymisierten und pseudonymisierten Daten — mit erheblichen Konsequenzen für den Umgang mit KI. Anonymisierte Daten fallen gar nicht erst unter die DSGVO, pseudonymisierte Daten hingegen schon. Die richtige Technik zu wählen, entscheidet darüber, welche Pflichten Sie erfüllen müssen:

  • Anonymisierte Daten fallen nicht unter die DSGVO. Wenn eine Person nicht mehr identifizierbar ist — auch nicht durch Kombination mit anderen verfügbaren Daten — gelten keine Einschränkungen. Der Haken: Echte Anonymisierung ist technisch anspruchsvoll und muss gegen Re-Identifizierungsangriffe bestehen. Eine Alternative, die dieses Problem umgeht: synthetische Daten, die statistische Eigenschaften realer Daten replizieren, ohne echte Datenpunkte zu enthalten.
  • Pseudonymisierte Daten bleiben weiterhin geschützt. Die Zuordnungsinformation wird separat gespeichert, aber eine Re-Identifizierung ist grundsätzlich möglich. Die DSGVO gilt weiterhin — aber Pseudonymisierung wird als Schutzmaßnahme anerkannt und senkt das Risiko in der Interessenabwägung.

Anonymisierungstechniken für KI-Pipelines

TechnikBeschreibungEinsatz in KI-Pipelines
Named Entity Recognition (NER)KI erkennt und entfernt Personennamen, Adressen, Telefonnummern, E-MailsVorverarbeitung von Dokumenten vor LLM-Verarbeitung
GeneralisierungSpezifische Werte durch Kategorien ersetzen ("42 Jahre" wird zu "40–50 Jahre")Trainings-Daten, Reporting, Analysedaten
PerturbationNumerische Werte leicht verändern (kontrolliertes Rauschen hinzufügen)Statistische Analysen, aggregierte Auswertungen
k-AnonymitätSicherstellen, dass jeder Datensatz mindestens k-1 identische Einträge hatDatensets für Modell-Fine-Tuning
Differential PrivacyMathematische Garantie, dass einzelne Datenpunkte nicht erkennbar sindModelltraining, Federated Learning
TokenisierungSensible Daten durch nicht-rückverfolgbare Token ersetzenEchtzeit-Verarbeitung, Payment-Daten

Wie funktioniert datenschutzkonforme Dokumentenanalyse mit lokaler KI?

Datenschutzkonforme KI-Automatisierung erfordert entweder lokalen Betrieb oder EU-gehostete Cloud-Infrastruktur mit Auftragsverarbeitungsverträgen. Open-Source-Modelle wie Llama 3 oder Mistral analysieren sensible Dokumente vollständig innerhalb Ihres Netzwerks — keine Daten verlassen Ihr Unternehmen, und die Protokolle bleiben unter Ihrer vollen Kontrolle.

Praxisbeispiel: Dokumentenverarbeitung mit Anonymisierung

Ein konkreter Workflow für die DSGVO-konforme Verarbeitung eingehender Dokumente, wie wir ihn bei IJONIS in Kundenprojekten einsetzen:

  1. Eingang: Dokument (PDF, E-Mail, Scan) trifft über definierte Kanäle ein.
  2. OCR und Strukturierung (on-premise): Bei Scans wird Text extrahiert. Das Dokument wird in maschinenlesbare Strukturen überführt.
  3. NER-Pipeline (on-premise): Erkennung und Maskierung personenbezogener Daten. "Max Mustermann, Musterstr. 12, 80331 München, geboren am 15.03.1985" wird zu "[PERSON], [ADRESSE], [PLZ] [STADT], geboren am [DATUM]". Die Mapping-Tabelle wird verschlüsselt lokal gespeichert.
  4. LLM-Verarbeitung: Das maskierte Dokument wird an das LLM gesendet — ob Cloud oder lokal. Das Modell klassifiziert, extrahiert und analysiert — ohne Zugriff auf echte personenbezogene Daten.
  5. Re-Kontextualisierung (on-premise): Die LLM-Ergebnisse werden mit den ursprünglichen Daten zusammengeführt. Die Platzhalter werden durch die echten Werte ersetzt. Das passiert ausschließlich in der lokalen Infrastruktur.
  6. Logging und Audit: Die Agent-Aktion wird geloggt — mit pseudonymisierten Referenzen, Zeitstempel und Ergebnis-Status, aber ohne Klartextdaten der betroffenen Personen.

Dieser Workflow stellt sicher, dass selbst bei Nutzung von Cloud-APIs keine personenbezogenen Daten das Unternehmensnetzwerk verlassen.

Was muss ein Auftragsverarbeitungsvertrag für KI-Dienste regeln?

Wenn Sie einen externen KI-Dienst nutzen — Cloud-API, SaaS-Tool oder Managed AI Service — agiert der Anbieter als Auftragsverarbeiter nach Art. 28 DSGVO. Ein AVV ist Pflicht und ohne diesen Vertrag ist jede Datenübermittlung rechtswidrig. Der AVV legt fest, welche Daten wie genutzt werden, wer Zugriff hat und was bei Vertragsende passiert.

Pflichtinhalte eines AVV für KI-Dienste

  • Gegenstand und Dauer: Welche Daten werden genutzt? Wie lange werden sie gespeichert? Wann werden sie gelöscht?
  • Art und Zweck der Datennutzung: Textanalyse, Klassifizierung, Generierung, Embedding-Erstellung — konkret und abschließend benennen.
  • Datenkategorien: Kundendaten, Mitarbeitendendaten, Gesundheitsdaten, Finanzdaten — differenziert auflisten.
  • Kategorien betroffener Personen: Kunden, Mitarbeitende, Bewerbende, Geschäftspartner.
  • Pflichten und Rechte des Verantwortlichen: Weisungsrecht, Kontrollbefugnisse, Audit-Rechte.
  • Subunternehmer: Vollständige Liste aller Subprozessoren, Genehmigungspflicht bei Änderungen, Informationspflicht bei neuen Subunternehmern.
  • Schutzmaßnahmen (TOMs): Verschlüsselung at-rest und in-transit, Zugangskontrolle, Protokollierung, Pseudonymisierung.
  • Löschung und Rückgabe: Was passiert mit den Daten nach Vertragsende? Fristen für Löschung. Nachweis der Löschung.

Welche besonderen Risiken bringen LLM-Anbieter mit?

LLM-Anbieter haben spezifische Risiken, die über klassische SaaS-Dienste hinausgehen:

  • Modelltraining: Werden Ihre Daten zum Training des Modells verwendet? Die meisten kommerziellen Anbieter (OpenAI, Anthropic, Google) bieten API-Zugänge an, bei denen explizit kein Training mit Kundendaten stattfindet. Aber: Lesen Sie die konkrete Vertragsklausel, nicht nur die Marketing-Seite. Die Bedingungen unterscheiden sich zwischen Consumer-Produkt und Enterprise-API.
  • Prompt-Caching: Manche Anbieter cachen Prompts zur Latenzoptimierung. Klären Sie, ob personenbezogene Daten in Caches landen, wie lange sie dort verbleiben und ob Sie Caching deaktivieren können.
  • Logging und Monitoring: Welche Daten protokolliert der Anbieter zu Debug- und Abuse-Prevention-Zwecken? Werden Prompts oder Antworten gespeichert? Für wie lange? Wer hat Zugriff?
  • Datenlokalisierung: Wo stehen die Server tatsächlich? Eine EU-Region im Vertrag ist nur der Anfang. Fragen Sie nach Failover-Regionen, Support-Zugriffen aus Drittländern und Disaster-Recovery-Szenarien.
  • Modell-Updates: Was passiert, wenn der Anbieter das Modell aktualisiert? Können sich Datenschutz-Eigenschaften ändern? Haben Sie ein Vetorecht?

Wie verändert der EU AI Act die Anforderungen an datenschutzkonforme KI?

Seit August 2025 gelten die ersten Verpflichtungen des EU AI Act. Im Zusammenspiel mit der DSGVO entstehen zusätzliche Anforderungen für KI-Betreiber. Zusammengefasst: Wer bereits eine saubere DSGVO-Compliance hat, muss den AI Act nicht fürchten — viele Pflichten überschneiden sich. Einen umfassenden Überblick über alle Risikoklassen, Fristen und Compliance-Anforderungen bietet unser Artikel zum EU AI Act für Unternehmen.

Die wichtigsten Überschneidungen von DSGVO und EU AI Act:

  • Hochrisiko-KI-Systeme (Anhang III) erfordern ein Konformitätsbewertungsverfahren, das auch Datenschutz-Folgenabschätzungen nach DSGVO einschließt. Wer eine DSFA für die DSGVO erstellt, kann diese mit der Grundrechte-Folgenabschätzung des AI Act konsolidieren.
  • Transparenzpflichten des AI Act ergänzen die DSGVO-Informationspflichten: Nutzer müssen wissen, dass sie mit KI interagieren. KI-generierte Inhalte müssen als solche gekennzeichnet werden.
  • Datenqualitätsanforderungen des AI Act verlangen, dass Trainingsdaten frei von Verzerrungen sind — was mit den DSGVO-Grundsätzen der Datenrichtigkeit (Art. 5 Abs. 1 lit. d) und Datenminimierung (Art. 5 Abs. 1 lit. c) korrespondiert.
  • Dokumentationspflichten beider Verordnungen können konsolidiert werden: Ein gemeinsames Compliance-Register für DSGVO und AI Act spart Aufwand und vermeidet Widersprüche.
  • Logging-Anforderungen des AI Act (automatische Protokollierung für Hochrisiko-KI) ergänzen die DSGVO-Anforderungen an Verarbeitungsverzeichnisse und Audit-Trails.

Unser Tipp: Behandeln Sie DSGVO-Compliance und AI-Act-Compliance nicht als getrennte Projekte. Ein integriertes Compliance-Framework spart Zeit, Geld und Nerven.

Wie setzen Sie datenschutzkonforme KI in 10 Schritten um?

Diese Checkliste fasst die notwendigen Schritte zusammen, um ein KI-System datenschutzkonform zu betreiben — von der Planung bis zum laufenden Betrieb. Entscheidend ist: Beginnen Sie nicht mit der Technik, sondern mit der rechtlichen Grundlage.

  1. Rechtsgrundlage bestimmen: Welche Rechtsgrundlage (Art. 6 DSGVO) gilt für die Datennutzung? Dokumentieren Sie die Entscheidung mit Begründung. Bei berechtigtem Interesse: Interessenabwägung durchführen und dokumentieren.
  2. Daten klassifizieren: Welche Daten nutzt das KI-System? Welche davon sind sensibel? Welche gehören zu besonderen Kategorien (Art. 9)? Erstellen Sie ein Dateninventar mit Schutzbedarf-Bewertung.
  3. Folgenabschätzung erstellen: Für Systeme, die sensible Daten im großen Umfang auswerten oder Profiling betreiben. Beziehen Sie den Datenschutzbeauftragten von Anfang an ein.
  4. Hosting-Modell wählen: On-Premise, EU-Cloud oder Hybrid — basierend auf der Datenklassifizierung, Risikoanalyse und Budget. Dokumentieren Sie die Entscheidung mit technischer Begründung.
  5. AVV abschließen: Mit jedem externen Anbieter, der sensible Daten nutzt. Prüfen Sie Subunternehmer-Klauseln, Schutzmaßnahmen und Löschfristen. Führen Sie eine TOM-Analyse durch.
  6. Anonymisierung einrichten: NER-basierte Maskierung vor der Übermittlung an externe Dienste. Testen Sie die Pipeline mit realistischen Testdaten und prüfen Sie die Qualität der Anonymisierung.
  7. Informationspflichten erfüllen: Datenschutzerklärung aktualisieren, Betroffene über den KI-Einsatz informieren. Bei Chatbots: KI-Kennzeichnung einbauen. Das Verzeichnis der Datennutzung (Art. 30) aktualisieren.
  8. Art. 22 einhalten: Bei automatisierten Entscheidungen Human-in-the-Loop einrichten oder alternative Rechtsgrundlage schaffen. Widerspruchsmöglichkeit für Betroffene bereitstellen.
  9. Logging und Audit-Trail einrichten: Alle KI-Entscheidungen protokollieren — pseudonymisiert, nicht im Klartext. Aufbewahrungsfristen definieren. Zugriffsberechtigungen für Logs festlegen.
  10. Regelmäßig prüfen: Mindestens jährlich die Datenschutz-Compliance bewerten. Bei Modell-Updates, Anbieter-Wechseln oder geänderten Zwecken erneut evaluieren. Penetration-Tests und Anonymisierungs-Audits einplanen.

FAQ: Datenschutzkonforme KI für Unternehmen

Dürfen wir ChatGPT oder Claude im Unternehmen einsetzen?

Grundsätzlich ja — aber nicht unkontrolliert. Für den geschäftlichen Einsatz nutzen Sie die API-Zugänge (nicht die Consumer-Produkte), schließen einen AVV ab und stellen sicher, dass keine sensiblen Daten in Prompts landen. Die sicherste Variante: eine Anonymisierungs-Pipeline vorschalten, die diese Daten vor der API-Übergabe maskiert. Zusätzlich sollten Sie eine interne Richtlinie erstellen, die regelt, welche Daten in KI-Tools eingegeben werden dürfen und welche nicht.

Was kostet eine On-Premise-KI-Infrastruktur?

Die Kosten variieren stark nach Anforderung. Ein GPU-Server für ein mittelgroßes Open-Source-Modell (z.B. Llama 3.1 70B, Mistral Large) beginnt bei ca. 15.000 EUR Hardware-Kosten. Dazu kommen Einrichtung (5.000–15.000 EUR), DevOps-Aufwand und laufende Wartung (Strom, Kühlung, Updates). Managed GPU-Hosting bei deutschen Anbietern wie Hetzner oder netcup startet bei ca. 2.000 EUR/Monat. Für viele Unternehmen ist die EU-Cloud mit AVV die kosteneffizientere Alternative — besonders als Einstieg. Die Hybrid-Architektur bietet einen guten Kompromiss: sensible Daten lokal, Reasoning in der EU-Cloud.

Wie stelle ich sicher, dass ein LLM-Anbieter meine Daten nicht zum Training nutzt?

Nutzen Sie ausschließlich API-Zugänge mit einer klaren vertraglichen Zusicherung, dass keine Kundendaten zum Modelltraining verwendet werden. OpenAI (API), Anthropic (API) und Google (Vertex AI) bieten solche Verträge an. Prüfen Sie die aktuellen Nutzungsbedingungen — sie ändern sich regelmäßig. Achten Sie auf den Unterschied zwischen Consumer-Produkten und Enterprise-APIs: Bei ChatGPT Free werden Daten zum Training genutzt, bei der API standardmäßig nicht. Alternativ setzen Sie auf Open-Source-Modelle, die Sie selbst hosten — dann haben Sie volle Kontrolle.

Brauche ich einen Datenschutzbeauftragten für KI-Projekte?

Unternehmen, die sensible Daten regelmäßig und systematisch nutzen (was bei KI-Agenten fast immer der Fall ist), benötigen einen Datenschutzbeauftragten (DSB) nach Art. 37 DSGVO. In Deutschland gilt dies ab 20 Personen, die ständig mit automatisierter Datenauswertung beschäftigt sind. Bei KI-Projekten empfehlen wir, den DSB von Anfang an einzubinden — nicht erst nach der Entwicklung. Ein frühzeitig eingebundener DSB kann Design-Entscheidungen beeinflussen und spätere kostspielige Umbauten verhindern.

Was passiert bei einem Datenschutzvorfall mit einem KI-System?

Art. 33 DSGVO verlangt eine Meldung an die Aufsichtsbehörde innerhalb von 72 Stunden. Für KI-Systeme bedeutet das: Sie brauchen Monitoring, das Anomalien erkennt — ungewöhnlich viele Datenzugriffe, Prompt-Injection-Versuche oder unerwartete Ausgaben mit sensiblen Daten. Ein Incident-Response-Plan sollte KI-spezifische Szenarien abdecken: einen Agent, der durch manipulierte Eingaben sensible Informationen extrahiert, ein Modell, das Trainingsdaten "halluziniert", oder eine kompromittierte RAG-Datenbank, die vertrauliche Dokumente an unautorisierte Anfragen ausliefert.

Fazit: Datensouveränität ist kein Hindernis, sondern Wettbewerbsvorteil

Zusammengefasst: Datenschutz und leistungsfähige KI-Systeme schließen sich nicht aus. Im Gegenteil: Unternehmen, die ihre KI-Infrastruktur von Anfang an datenschutzkonform aufbauen, gewinnen das Vertrauen von Kunden, Mitarbeitenden und Aufsichtsbehörden. In einer Zeit, in der Datenskandale Unternehmen über Nacht ruinieren können, ist "Privacy by Design" kein Kostenfaktor — es ist eine Investition in Vertrauen und Zukunftsfähigkeit.

Die Technologie ist reif. Open-Source-Modelle liefern Enterprise-Qualität. EU-Cloud-Anbieter bieten belastbare Vertragsgrundlagen. Techniken zur Datenanonymisierung sind ausgereift und praxiserprobt. Hamburger Unternehmen und Betriebe in ganz Deutschland profitieren bereits von lokaler Beratung zu datenschutzkonformer KI-Infrastruktur. Was fehlt, ist oft nicht die Technologie — sondern ein klarer Plan für die Umsetzung.

Sie wollen KI-Automatisierung datenschutzkonform in Ihrem Unternehmen einführen? Sprechen Sie mit uns — wir entwickeln eine Architektur, die Ihre Datensouveränität wahrt und gleichzeitig das volle Potenzial moderner KI-Modelle ausschöpft.


Wie bereit ist Ihr Unternehmen für KI? Finden Sie es in 3 Minuten heraus — mit unserem kostenlosen, KI-gestützten Readiness-Check. Jetzt Check starten →

End of article

AI Readiness Check

Find out in 3 min. how AI-ready your company is.

Start now3 min. · Free

AI Insights for Decision Makers

Monthly insights on AI automation, software architecture, and digital transformation. No spam, unsubscribe anytime.

Let's talk

Questions about this article?.

Keith Govender

Keith Govender

Managing Partner

Book appointment

Auch verfügbar auf Deutsch: Jamin Mahmood-Wiebe

Send a message

This site is protected by reCAPTCHA and the Google Privacy Policy Terms of Service apply.