Souveräne RAG-Architektur für regulierte Schweizer Unternehmen
Whitepaper · Veröffentlicht 18.05.2026 · Aktualisiert 18.05.2026 · Joel Barmettler
Worum es geht
Retrieval-Augmented Generation (RAG) verbindet ein Sprachmodell mit Ihren eigenen Dokumenten: Statt zu raten, antwortet das System auf Basis belegter Quellen. Für regulierte und datensensible Schweizer Unternehmen ist RAG der pragmatischste Weg zu nützlicher KI — wenn die Architektur so gebaut ist, dass die Daten die eigene Kontrolle nicht verlassen.
Dieses Whitepaper beschreibt eine souveräne Referenzarchitektur, die typischen Stellen, an denen Pilotprojekte scheitern, und worauf die Geschäftsleitung achten muss, bevor investiert wird.
Die souveräne Referenzarchitektur
Ein RAG-System besteht aus fünf Stufen. Jede ist eine potenzielle Stelle für Datenabfluss — und genau deshalb wird sie einzeln souverän gestaltet, nicht das System als Ganzes.
Stufe 01
Ingestion
- Dokumente aus Quellsystemen einlesen.
- Souverän heisst: keine Verarbeitung über einen US-Dienstleister — auch nicht für OCR.
↓ Roh-Text
Stufe 02
Chunking & Embedding
- Text in Abschnitte teilen und in Vektoren überführen.
- Mit offenen Embedding-Modellen vollständig lokal möglich.
↓ Vektoren
Stufe 03
Vektorindex
- Vektoren speichern und durchsuchbar machen.
- On-premise-Vektordatenbanken sind ausgereift.
↓ Top-K Treffer
Stufe 04
Retrieval & Re-Ranking
- Die relevantesten Abschnitte finden — und neu ordnen.
- Hier entscheidet sich die Antwortqualität, nicht beim Modell.
↓ Kontext + Quellen
Stufe 05
Generierung
- Das LLM formuliert die Antwort, mit Quellenangabe.
- Open-Weight-Modelle laufen auf Schweizer Infrastruktur oder on-premise.
Wo Pilotprojekte kippen
Der Pilot überzeugt im Meeting und scheitert in Produktion — fast immer an denselben drei Stellen: unkontrollierter Datenabfluss in einem Nebenschritt (Logging, ein Drittdienst), Retrieval-Qualität, die bei echten Datenmengen einbricht, und fehlende Berechtigung auf Dokumentebene.
Souveränität ist kein Schalter am Ende, sondern ein Konstruktionsprinzip von Stufe 1 an.
Häufige Fragen
- Verlassen die Daten bei RAG die Schweiz?
- Nicht zwingend. Embedding, Vektorindex und Inferenz lassen sich vollständig on-premise oder mit Schweizer Hosting betreiben. Entscheidend ist, jeden Schritt der Pipeline auf Datenabfluss zu prüfen — auch Logging und Drittdienste.
- Ist RAG ohne US-Cloud praxistauglich?
- Ja. Offene Embedding-Modelle und Open-Weight-LLMs erreichen für die meisten Unternehmensaufgaben belastbare Qualität. Der Wert liegt in Retrieval-Qualität und Architektur, nicht im grössten Modell.
Für die Geschäftsleitung
Dieses Dossier als PDF
Den vollständigen Beitrag plus eine kompakte Management-Zusammenfassung und Checkliste — als sauberes PDF zum Speichern und Weiterleiten.
Sie erhalten das PDF sofort. Mit dem Absenden stimmen Sie zu, dass Souverana Sie zu diesem Thema kontaktieren darf. Verarbeitung in der Schweiz/EU, keine Weitergabe an Dritte, Widerruf jederzeit (revDSG).