Warum Datensouveränität für KI in Unternehmen entscheidend ist

Jeder große US-LLM-Anbieter trainiert standardmäßig mit Ihren Gesprächen. Europäische Unternehmen müssen die Kontrolle zurückgewinnen.

Die Zahlen sprechen für sich

100%

der großen US-LLM-Anbieter trainieren standardmäßig mit Nutzerdaten

King et al., 2025

61%

der europäischen CIOs planen, stärker auf lokale KI-Anbieter zu setzen

Gartner, 2025

€480B

jährliches Marktpotenzial für souveräne KI in Europa bis 2030

McKinsey

Das Problem: Ihre Daten werden zum Training von KI-Modellen verwendet

Jedes Mal, wenn ein Mitarbeiter eine Vertragsklausel in ChatGPT einfügt, eine Patientenakte in einen Cloud-KI-Assistenten hochlädt oder ein LLM bittet, ein Vorstandsprotokoll zusammenzufassen, gelangen diese Daten in eine Pipeline, die das Unternehmen nicht kontrolliert. Die Frage lautet nicht mehr, ob KI-Anbieter Ihre Daten verwenden – sondern wie viel, wie lange und mit welchen Konsequenzen.

Eine wegweisende Studie von King et al. (2025), veröffentlicht unter dem Titel „User Privacy and Large Language Models”, untersuchte die Datenschutzpraktiken von sechs dominanten LLM-Anbietern: OpenAI, Google, Anthropic, Meta, Mistral und Cohere. Die Ergebnisse sind eindeutig. Alle sechs trainieren standardmäßig mit den Chat-Daten der Nutzer. Benutzer müssen aktiv Opt-out-Mechanismen aufspüren und aktivieren – Mechanismen, die in Einstellungsseiten vergraben, in mehrdeutiger Sprache beschrieben oder ohne Vorankündigung änderbar sind.

Auch die Datenspeicherung gibt Anlass zur Sorge. Mehrere Anbieter speichern Gesprächsdaten auf unbestimmte Zeit, ohne automatischen Ablauf oder Löschplan. Selbst dort, wo Aufbewahrungsfristen dokumentiert sind, geben die Richtlinien selten an, ob die gespeicherten Daten bereits in die Modellgewichte eingeflossen sind – ein Prozess, der für alle praktischen Zwecke irreversibel ist.

King et al. stellten fest, dass sensible Datenkategorien – Gesundheitsinformationen, biometrische Identifikatoren, Finanzdaten –, die in Gesprächen offenbart werden, nicht von den Trainingspipelines ausgeschlossen sind. Es gibt keinen inhaltsbasierten Filter, der eine medizinische Diagnose oder eine Sozialversicherungsnummer abfängt, bevor sie in den Trainingskorpus gelangt. Die Nutzer sind der Filter – und das wird ihnen nicht klar mitgeteilt.

Besonders besorgniserregend ist, dass vier der sechs Anbieter Kinderdaten in ihre Trainingsdatensätze aufnehmen. Trotz Altersschranken und Nutzungsbedingungen gibt es technisch keinen robusten Mechanismus, der verhindert, dass Gespräche von Minderjährigen in die Trainingspipeline gelangen. Die regulatorischen Implikationen nach den spezifischen DSGVO-Schutzvorschriften für Minderjährige (Artikel 8) und dem US Children’s Online Privacy Protection Act (COPPA) sind erheblich und weitgehend unbeachtet.

Die Studie deckte auch systematische Lücken bei der Transparenz von Datenschutzrichtlinien auf. Kritische Informationen – welche Daten erhoben werden, wie sie verwendet werden, mit wem sie geteilt werden und wie lange sie gespeichert werden – werden häufig weggelassen oder in so allgemeinen Begriffen beschrieben, dass sie bedeutungslos sind. Die Richtlinie eines Anbieters räumt sich selbst das Recht ein, „Inhalte” aus „allen Produkten und Diensten” zur Modellverbesserung zu verwenden und damit die Grenze zwischen einem Chat-Gespräch und Daten aus völlig anderen Produkten aufzulösen.

Kundendaten aus benachbarten Produkten werden ebenfalls in Trainingspipelines eingebunden. Wenn Sie neben dem KI-Angebot eines Anbieters auch dessen E-Mail-Dienst, Cloud-Speicher oder Produktivitätssuite nutzen, ist die Datengrenze zwischen diesen Produkten möglicherweise dünner als angenommen. Klauseln zur produktübergreifenden Datennutzung sind weit verbreitet und werden beim Onboarding selten hervorgehoben.

Das Fazit: Wenn Sie ein cloud-gehostetes LLM nutzen, sind Sie nicht nur Kunde. Sie sind Datenzulieferer für das Modell eines anderen – und Sie haben kaum Kontrolle darüber, wie dieser Beitrag genutzt, gespeichert oder weitergegeben wird.

Die Regulierungslandschaft

Europäische Regulatoren haben auf das Problem der KI-Datensouveränität mit drei ineinandergreifenden Rahmenwerken reagiert. Zusammen schaffen sie Verpflichtungen, die schwer – und in einigen Fällen unmöglich – zu erfüllen sind, wenn man auf US-gehostete LLM-Anbieter setzt.

EU-KI-Verordnung (2024)

Die EU-KI-Verordnung legt ein risikobasiertes Klassifikationssystem für KI-Einsätze fest. Systeme, die personenbezogene Daten verarbeiten, um Entscheidungen zu treffen, die Einzelpersonen betreffen – Einstellungswerkzeuge, Kreditbewertung, medizinische Diagnostik –, fallen gemäß Artikel 6 in die Hochrisikokategorie. Hochrisikosysteme unterliegen verbindlichen Anforderungen: technische Dokumentation, Konformitätsbewertungen, Marktüberwachung und Transparenzpflichten gemäß Artikel 13.

Für Organisationen, die cloud-gehostete LLMs nutzen, ist die Herausforderung struktureller Natur. Sie können die nach Artikel 9 (Risikomanagement) oder Artikel 10 (Daten-Governance) geforderte technische Dokumentation nicht erstellen, wenn Modellarchitektur, Trainingsdaten und Entscheidungslogik proprietär sind. Sie setzen ein System ein, das Sie nicht vollständig beschreiben können, in einem regulatorischen Umfeld, das eine vollständige Beschreibung verlangt.

Artikel 52 verpflichtet alle KI-Systeme, die mit natürlichen Personen interagieren, zur Transparenz. Nutzer müssen darüber informiert werden, dass sie mit KI interagieren, und der Betreiber muss erklären können, was das System tut und wie. Bei einer Blackbox-API ist „wie” eine Frage, die Sie nicht beantworten können.

DSGVO

Die Datenschutz-Grundverordnung erzeugt eine grundlegende Spannung mit cloud-basiertem LLM-Training. Artikel 17 gewährt betroffenen Personen das Recht auf Löschung – doch sobald personenbezogene Daten durch Training in Modellgewichte eingeflossen sind, können sie nicht selektiv entfernt werden. Dies schafft eine Compliance-Lücke, die durch keine Richtlinienformulierung überbrückt werden kann.

Die Zweckbindung (Artikel 5) verlangt, dass für einen Zweck erhobene Daten nicht ohne kompatible Rechtsgrundlage umgewidmet werden. Wenn ein Mitarbeiter ein Cloud-LLM zur E-Mail-Erstellung nutzt, ist der Zweck die E-Mail-Erstellung – nicht das Modelltraining. Dennoch definieren die Nutzungsbedingungen des Anbieters diese Interaktion als Trainingsbeitrag um und dehnen die Zweckbindung bis zur Unkenntlichkeit.

Organisationen müssen eine Rechtsgrundlage für die Verarbeitung nach Artikel 6 benennen, und für KI-Systeme, die personenbezogene Daten in großem Maßstab verarbeiten, ist eine Datenschutz-Folgenabschätzung (DSFA) nach Artikel 35 verpflichtend. Eine DSFA für ein System abzuschließen, dessen Innenleben man nicht einsehen kann, ist eine Übung in Annahmen.

NIS2-Richtlinie

Die NIS2-Richtlinie, die für wesentliche und wichtige Einrichtungen in der gesamten EU gilt, fügt eine dritte Ebene hinzu. Organisationen, die kritische Infrastrukturen betreiben – Energie, Verkehr, Gesundheit, Finanzen – und KI in ihre Abläufe integrieren, unterliegen verschärften Sicherheitsanforderungen: Meldung von Vorfällen innerhalb von 24 Stunden, Management von Lieferkettenrisiken und Verantwortung auf Vorstandsebene für Cybersicherheit.

Wenn Ihre KI-Inferenz über die API eines US-Anbieters läuft, wird dieser Anbieter zu einem kritischen Glied in Ihrer Lieferkette. Sein Ausfall ist Ihr Ausfall. Sein Datenschutzverstoß ist Ihr Datenschutzverstoß. NIS2 macht Sie verantwortlich für Risiken in Systemen, die Sie nicht kontrollieren.

Die Compliance-Lücke ist nicht theoretischer Natur. Sie ist strukturell und wächst mit jeder neuen Regulierung.

Datenstandort ist nicht Datensouveränität

Aspekt	Datenstandort	Datensouveränität	Volle Kontrolle
Definition	Daten werden physisch in einem bestimmten Land gespeichert	Daten unterliegen einer bestimmten Rechtsordnung	Sämtliche Verarbeitung, Metadaten und Backups unter Ihrer Jurisdiktion
Rechtlicher Schutz	Das Recht des Gastlandes gilt für die Speicherung, aber der Anbieter kann ausländischem Recht unterliegen (z. B. US CLOUD Act)	Keine ausländische Regierung kann den Zugriff auf die Daten erzwingen	Keine ausländische Regierung kann den Zugriff erzwingen, und kein Dritter verarbeitet Ihre Daten
Modelltraining	Der Anbieter kann weiterhin mit Ihren Daten trainieren	Der Anbieter darf ohne Einwilligung nicht mit Ihren Daten trainieren	Ihre Daten verlassen nie Ihre Infrastruktur
Beispiel	ChatGPT mit EU-Rechenzentrum	EU-Cloud-Anbieter mit DSGVO-AVV	Selbstgehostetes Open-Source-LLM auf eigenem Cluster

Die souveräne KI-Chance

Der Wandel hin zur souveränen KI ist nicht nur eine Compliance-Übung – es ist eine wirtschaftliche Chance von historischem Ausmaß. Laut McKinsey-Analysen könnte souveräne KI-Infrastruktur bis 2030 jährlich €480 Milliarden an Wertschöpfung in der EU erschließen, angetrieben von Organisationen, die KI-Fähigkeiten intern aufbauen, anstatt sie von ausländischen Anbietern zu mieten.

Der Unternehmensappetit ist bereits messbar. Laut der Gartner CIO and Technology Executive Survey 2025 erhöhen 61 % der westeuropäischen CIOs ihre Investitionen in lokale KI-Infrastruktur, und bis 2027 werden 33 % der europäischen Unternehmen KI auf lokalisierten Plattformen betreiben – gegenüber heute lediglich 5 %. Das ist eine Sechsfachsteigerung in drei Jahren und stellt einen der schnellsten Infrastrukturübergänge in der Geschichte der Unternehmens-IT dar.

Die Sektoren, die diesen Wandel anführen, sind jene mit dem größten Verlustrisiko durch Datenpannen: Organisationen des öffentlichen Sektors, die Bürgerdaten verwalten, Gesundheitsanbieter, die der Patientenvertraulichkeit unterliegen, Finanzinstitute, die regulatorischen Prüfungen ausgesetzt sind, und Rüstungsunternehmen, die unter Sicherheitsbeschränkungen auf nationaler Ebene arbeiten. Für diese Sektoren ist Souveränität keine Präferenz – sie ist eine Voraussetzung für die KI-Einführung.

Die EuroStack-Initiative – das strategische EU-Programm zum Aufbau souveräner digitaler Infrastruktur – signalisiert politisches Engagement auf höchster Ebene und lenkt Mittel in europäische Cloud-Infrastruktur, Open-Source-KI-Modelle und souveräne Rechenkapazitäten. Dies ist kein Forschungsprogramm – es ist Industriepolitik, die darauf ausgelegt ist, die Abhängigkeit von US-Hyperscalern für KI-Workloads zu reduzieren.

Die regulatorischen Rückenwinde sind unverkennbar. Die EU-KI-Verordnung, DSGVO und NIS2 schaffen zusammen ein Umfeld, in dem souveräner Betrieb nicht nur wünschenswert, sondern zunehmend erforderlich ist. Organisationen, die früh handeln, werden Compliance von Anfang an in ihre Architektur einbauen. Diejenigen, die warten, werden mit Nachrüstkosten, Prüfungsrisiken und Wettbewerbsnachteilen konfrontiert, wenn die Regulierungen strenger werden.

Das Fenster für den First-Mover-Vorteil steht jetzt offen. Wenn die vollständige Durchsetzung der EU-KI-Verordnung einsetzt, werden die Organisationen, die bereits souveräne KI-Fähigkeiten aufgebaut haben, aktiv einsetzen, während ihre Wettbewerber noch migrieren.

Organisationen, die Souveränität als Kompetenz behandeln – als Asset, das sie besitzen und kontrollieren –, werden feststellen, dass Compliance, Leistung und Kosteneffizienz sich ergänzen statt zu konkurrieren.

Wie sieht ein souveräner KI-Stack aus?

Eine souveräne KI-Bereitstellung bedeutet nicht, alles von Grund auf neu zu bauen. Es bedeutet, bewährte Open-Source-Komponenten zu einer Architektur zusammenzustellen, die Sie vollständig besitzen und kontrollieren.

Open-Source-Modelle haben Parität mit proprietären Alternativen erreicht. Die Modellfamilien Llama, Mistral und Qwen liefern Leistungen, die mit GPT-4 und Claude bei den für Unternehmensanwendungen relevanten Benchmarks vergleichbar sind – Zusammenfassung, Klassifikation, Code-Generierung und strukturierte Extraktion. Da diese Modelle open-weight sind, können ihre Architekturen und Trainingsdokumentationen unabhängig von ihrer Herkunft geprüft werden. Viele verwenden Mixture-of-Experts-Architekturen, die Frontier-Leistung zu einem Bruchteil der Rechenkosten liefern. Sie müssen nicht mehr Leistungsfähigkeit gegen Souveränität eintauschen.

Die Inferenzschicht läuft auf Kubernetes-nativer Infrastruktur. Containerisierte Modellserver – wie llama.cpp, eine hochleistungsfähige C++-Inferenz-Engine – ermöglichen skalierbare, reproduzierbare Bereitstellungen, die wie jeder andere Workload versioniert, zurückgerollt und geprüft werden können. Jede Konfigurationsänderung wird in einem Helm-Chart verfolgt. Jede Bereitstellung ist deklarativ und wiederholbar.

Infrastrukturwahlmöglichkeiten bleiben innerhalb europäischer Gerichtsbarkeit. Bare-Metal-Systeme vor Ort bieten maximale Kontrolle für klassifizierte oder stark regulierte Workloads. In der EU ansässige Cloud-Anbieter – OVHcloud, Hetzner, Scaleway, unter anderem – bieten GPU-ausgestattete virtuelle Maschinen nach europäischem Recht an, ohne die jurisdiktionale Reichweite des US CLOUD Act. Sie wählen die Kontrollebene, die Ihrem Risikoprofil entspricht.

Das Betriebsmodell ändert sich grundlegend. Jede Inferenzanfrage wird lokal protokolliert. Jede Modellversion wird verfolgt. Jeder Zugriff ist prüfbar. Es gibt keinen undurchsichtigen API-Aufruf an ein ausländisches Rechenzentrum – nur eine Anfrage an Ihre eigene Infrastruktur, geregelt durch Ihre eigenen Richtlinien, gespeichert in Ihren eigenen Protokollen.

Diese Architektur eliminiert eine gesamte Kategorie rechtlicher Gemeinkosten. Keine Drittanbieter-Datenverarbeitungsverträge sind erforderlich, da es keinen Drittanbieter gibt. Keine Standardvertragsklauseln zu verhandeln. Keine Transfer-Folgenabschätzungen durchzuführen. Keine Abhängigkeit von Angemessenheitsbeschlüssen, die über Nacht für ungültig erklärt werden können, wie Schrems II gezeigt hat.

Die operative Reife dieses Stacks steht nicht mehr in Frage. Tausende von Organisationen betreiben Kubernetes bereits in der Produktion. Open-Source-LLMs werden von Unternehmen aller Sektoren in großem Maßstab eingesetzt. Das fehlende Element war nicht die Technologie – es war die Integration. Ein souveräner KI-Stack braucht jemanden, der die Komponenten zusammenstellt, die Konfigurationen testet und die Automatisierung veröffentlicht. Das ist es, was Prositronic bietet.

Wie Prositronic dieses Problem löst

Prositronic ist ein produktionsreifer, quelloffener souveräner KI-Stack, der direkt auf die Compliance-Anforderungen europäischer Organisationen zugeschnitten ist. Es handelt sich nicht um ein Konzept oder eine Roadmap – es ist einsetzbare Infrastruktur.

DSGVO-Compliance ist architektonisch, nicht vertraglich. Daten verlassen Ihre Infrastruktur nie. Es gibt keinen Drittverarbeiter, keine grenzüberschreitende Übertragung, keine mehrdeutige Datenfreigabeklausel. Wenn ein Benutzer mit Ihrer KI interagiert, bleibt das Gespräch auf Ihren Servern, unter Ihrer Gerichtsbarkeit und unterliegt Ihren Aufbewahrungsrichtlinien. Das Recht auf Löschung ist eine Datenbankoperation, keine rechtliche Verhandlung.

Transparenz gemäß EU-KI-Verordnung ist eingebaut. Prositronic setzt Open-Source-Modelle ein – Llama, Mistral, Qwen –, deren Architekturen, Trainingsdatendokumentation und Fähigkeiten öffentlich prüfbar sind. Es gibt keine Blackbox. Wenn ein Regulierer fragt, wie Ihr KI-System funktioniert, können Sie auf die Modellkarte, den Quellcode und die Bereitstellungskonfiguration verweisen. Die Artikel 9, 10 und 13 werden zu Dokumentationsaufgaben, nicht zu Reverse-Engineering-Herausforderungen.

NIS2-Lieferkettenrisiko ist eliminiert. Self-Hosted-Inferenz bedeutet keine Abhängigkeit von der Verfügbarkeit, dem Sicherheitsniveau oder den Richtlinienänderungen eines US-Anbieters. Ihre KI-Verfügbarkeit liegt in Ihrer Verantwortung – und das ist genau das, was NIS2 fordert. Kein Drittanbieter-SLA steht zwischen Ihnen und Ihren Verpflichtungen.

Das Bereitstellungsmodell ist Kubernetes-nativ. Prositronic läuft auf jedem Kubernetes-Cluster – on-prem Bare Metal, EU-Cloud-VMs oder Hybridkonfigurationen. Helm-Charts und Ansible-Automatisierung bedeuten, dass eine Produktionsbereitstellung Wochen, nicht Quartale dauert. Infrastructure-as-Code stellt sicher, dass jede Umgebung reproduzierbar und prüfbar ist.

Multi-Modell-Unterstützung ermöglicht es Ihnen, das richtige Modell für jeden Anwendungsfall zu wählen. Ein leichtgewichtiges 8B-Parameter-Modell für den internen Chat. Ein 70B-Modell für komplexe Dokumentenanalyse. Ein auf Code spezialisiertes Modell für Entwickler-Tools. Siehe verfügbare Hardware-Profile für GPU-Dimensionierungshinweise. Alle laufen auf derselben Infrastruktur, verwaltet über dieselbe Oberfläche, geregelt durch dieselben Richtlinien.

Die Gesamtbetriebskosten entwickeln sich zu Ihren Gunsten, wenn die Nutzung skaliert. Es gibt keine Token-basierten API-Gebühren, keine Überraschungen bei nutzungsbasierter Preisgestaltung, kein Vendor-Lock-in. Sie investieren in Infrastruktur, die Ihnen gehört, betreiben Modelle, die Sie kontrollieren, und jeder Effizienzgewinn kommt Ihrer Organisation zugute – nicht einem Drittanbieter.

Das vollständige Regulierungs-Handbuch erhalten

Laden Sie die komplette 20-seitige Analyse herunter — mit regulatorischem Deep-Dive, Implementierungs-Checkliste und Risikobewertungsrahmen.