Verlassen die Daten bei RAG die Schweiz?

Nicht zwingend. Embedding, Vektorindex und Inferenz lassen sich vollständig on-premise oder mit Schweizer Hosting betreiben. Entscheidend ist, jeden Schritt der Pipeline auf Datenabfluss zu prüfen — auch Logging und Drittdienste.

Ist RAG ohne US-Cloud praxistauglich?

Ja. Offene Embedding-Modelle und Open-Weight-LLMs erreichen für die meisten Unternehmensaufgaben belastbare Qualität. Der Wert liegt in Retrieval-Qualität und Architektur, nicht im grössten Modell.

Souveräne RAG-Architektur für regulierte Schweizer Unternehmen

Whitepaper · Veröffentlicht 18.05.2026 · Aktualisiert 18.05.2026 · Joel Barmettler

Worum es geht

Retrieval-Augmented Generation (RAG) verbindet ein Sprachmodell mit Ihren eigenen Dokumenten: Statt zu raten, antwortet das System auf Basis belegter Quellen. Für regulierte und datensensible Schweizer Unternehmen ist RAG der pragmatischste Weg zu nützlicher KI — wenn die Architektur so gebaut ist, dass die Daten die eigene Kontrolle nicht verlassen.

Dieses Whitepaper beschreibt eine souveräne Referenzarchitektur, die typischen Stellen, an denen Pilotprojekte scheitern, und worauf die Geschäftsleitung achten muss, bevor investiert wird.

Die souveräne Referenzarchitektur

Ein RAG-System besteht aus fünf Stufen. Jede ist eine potenzielle Stelle für Datenabfluss — und genau deshalb wird sie einzeln souverän gestaltet, nicht das System als Ganzes.

Stufe 01

Ingestion

Dokumente aus Quellsystemen einlesen.
Souverän heisst: keine Verarbeitung über einen US-Dienstleister — auch nicht für OCR.

↓ Roh-Text

Stufe 02

Chunking & Embedding

Text in Abschnitte teilen und in Vektoren überführen.
Mit offenen Embedding-Modellen vollständig lokal möglich.

↓ Vektoren

Stufe 03

Vektorindex

Vektoren speichern und durchsuchbar machen.
On-premise-Vektordatenbanken sind ausgereift.

↓ Top-K Treffer

Stufe 04

Retrieval & Re-Ranking

Die relevantesten Abschnitte finden — und neu ordnen.
Hier entscheidet sich die Antwortqualität, nicht beim Modell.

↓ Kontext + Quellen

Stufe 05

Generierung

Das LLM formuliert die Antwort, mit Quellenangabe.
Open-Weight-Modelle laufen auf Schweizer Infrastruktur oder on-premise.

Wo Pilotprojekte kippen

Der Pilot überzeugt im Meeting und scheitert in Produktion — fast immer an denselben drei Stellen: unkontrollierter Datenabfluss in einem Nebenschritt (Logging, ein Drittdienst), Retrieval-Qualität, die bei echten Datenmengen einbricht, und fehlende Berechtigung auf Dokumentebene.

Souveränität ist kein Schalter am Ende, sondern ein Konstruktionsprinzip von Stufe 1 an.

Souveräne RAG-Architektur für regulierte Schweizer Unternehmen

Worum es geht

Die souveräne Referenzarchitektur

Wo Pilotprojekte kippen

Häufige Fragen

Dieses Dossier als PDF