Souveräne RAG-Architektur für regulierte Schweizer Unternehmen

Whitepaper · Veröffentlicht 18.05.2026 · Aktualisiert 18.05.2026 · Joel Barmettler

Worum es geht

Retrieval-Augmented Generation (RAG) verbindet ein Sprachmodell mit Ihren eigenen Dokumenten: Statt zu raten, antwortet das System auf Basis belegter Quellen. Für regulierte und datensensible Schweizer Unternehmen ist RAG der pragmatischste Weg zu nützlicher KI — wenn die Architektur so gebaut ist, dass die Daten die eigene Kontrolle nicht verlassen.

Dieses Whitepaper beschreibt eine souveräne Referenzarchitektur, die typischen Stellen, an denen Pilotprojekte scheitern, und worauf die Geschäftsleitung achten muss, bevor investiert wird.

Die souveräne Referenzarchitektur

Ein RAG-System besteht aus fünf Stufen. Jede ist eine potenzielle Stelle für Datenabfluss — und genau deshalb wird sie einzeln souverän gestaltet, nicht das System als Ganzes.

Stufe 01

Ingestion

  • Dokumente aus Quellsystemen einlesen.
  • Souverän heisst: keine Verarbeitung über einen US-Dienstleister — auch nicht für OCR.

↓   Roh-Text

Stufe 02

Chunking & Embedding

  • Text in Abschnitte teilen und in Vektoren überführen.
  • Mit offenen Embedding-Modellen vollständig lokal möglich.

↓   Vektoren

Stufe 03

Vektorindex

  • Vektoren speichern und durchsuchbar machen.
  • On-premise-Vektordatenbanken sind ausgereift.

↓   Top-K Treffer

Stufe 04

Retrieval & Re-Ranking

  • Die relevantesten Abschnitte finden — und neu ordnen.
  • Hier entscheidet sich die Antwortqualität, nicht beim Modell.

↓   Kontext + Quellen

Stufe 05

Generierung

  • Das LLM formuliert die Antwort, mit Quellenangabe.
  • Open-Weight-Modelle laufen auf Schweizer Infrastruktur oder on-premise.

Wo Pilotprojekte kippen

Der Pilot überzeugt im Meeting und scheitert in Produktion — fast immer an denselben drei Stellen: unkontrollierter Datenabfluss in einem Nebenschritt (Logging, ein Drittdienst), Retrieval-Qualität, die bei echten Datenmengen einbricht, und fehlende Berechtigung auf Dokumentebene.

Souveränität ist kein Schalter am Ende, sondern ein Konstruktionsprinzip von Stufe 1 an.

Häufige Fragen

Verlassen die Daten bei RAG die Schweiz?
Nicht zwingend. Embedding, Vektorindex und Inferenz lassen sich vollständig on-premise oder mit Schweizer Hosting betreiben. Entscheidend ist, jeden Schritt der Pipeline auf Datenabfluss zu prüfen — auch Logging und Drittdienste.
Ist RAG ohne US-Cloud praxistauglich?
Ja. Offene Embedding-Modelle und Open-Weight-LLMs erreichen für die meisten Unternehmensaufgaben belastbare Qualität. Der Wert liegt in Retrieval-Qualität und Architektur, nicht im grössten Modell.

Für die Geschäftsleitung

Dieses Dossier als PDF

Den vollständigen Beitrag plus eine kompakte Management-Zusammenfassung und Checkliste — als sauberes PDF zum Speichern und Weiterleiten.

Sie erhalten das PDF sofort. Mit dem Absenden stimmen Sie zu, dass Souverana Sie zu diesem Thema kontaktieren darf. Verarbeitung in der Schweiz/EU, keine Weitergabe an Dritte, Widerruf jederzeit (revDSG).