KI-Absicherung durch Invarianz
KI-Systeme sollten die richtige Entscheidung beibehalten, wenn der Prompt seine Form ändert.
Invarra auditiert, ob LLMs korrektes Verhalten über bedeutungserhaltende Variation, Druck, Kontextwechsel, harmlose Ähnlichkeitsfälle und adversariale Umformulierung hinweg bewahren.
Das Problem
Saubere Prompts beweisen keine Produktionsreife.
Moderne KI-Systeme werden oft anhand einzelner Prompts, Benchmark-Zeilen oder kuratierter Demos getestet. Reale Nutzer interagieren anders: Sie formulieren um, fügen Kontext hinzu, üben Druck aus, eskalieren, betten Anweisungen in abgerufene Dokumente ein und leiten dieselbe Entscheidung durch Tools, Support-Abläufe oder Richtlinien.
Ein Modell, das die saubere Version besteht, kann scheitern, wenn dieselbe zugrunde liegende Entscheidung anders dargestellt wird.
Sauberer Prompt
Umformulierter Prompt
Kontextdruck
Harmloses Lookalike
Tool-Use-Wrapper
RAG-Injektion
Eskalationsdruck
Mehrdeutige Richtliniengrenze
Was Invarra misst
Invarra macht unsicheres Modellverhalten zu prüfbarer Evidenz.
Invarra-Audits reduzieren nicht alles auf eine Ranglistenzahl. Sie trennen Verhaltenskorrektheit, Stabilität unter Variation, Evidenzabdeckung, Fehlergeometrie, Einschränkungen und Entscheidungshaltung.
Korrektheit
Hat das Modell getan, was es tun sollte?
Stabilität
Hat die Entscheidung gültige Variation überstanden?
Abdeckung
Wurde genug Verhalten klassifiziert, um den Bericht zu tragen?
Einschränkungen
Was darf aus der Evidenz nicht behauptet werden?
Wie es funktioniert
Von Prompt-Demos zu artefaktgestützten Audits.
Dasselbe erwartete Verhalten wird durch kontrollierte Variation getestet und anschließend als Verhaltensnachweis bewertet, mit getrennter Korrektheit, Stabilität, Abdeckung und Einschränkungen.
- 01
Erwartetes Verhalten definieren.
- 02
Kontrollierte semantische Realisierungen erzeugen.
- 03
Den eingefrorenen Corpus gegen ein oder mehrere Modelle ausführen.
- 04
Ist-Verhalten gegen Soll-Verhalten klassifizieren.
- 05
Korrektheit, Stabilität und Abdeckung trennen.
- 06
Evidenz, Einschränkungen und reproduzierbare Artefakte erhalten.
IPB
IPB ist Invarras öffentliches Benchmark-Programm fuer domaenenspezifische Verhaltensevidenz unter kontrollierter Variation.
Der Invariance Phenomena Benchmark misst, ob Modelle das Erwartete tun und es weiter tun, wenn derselbe zugrunde liegende Fall seine Form aendert. IPB-Berichte werden abgegrenzte Modellberichtskarten, Vergleichsdiagramme, Fehlergeometrie-Zusammenfassungen, Einschraenkungen, Anbieterantwortstatus und oeffentlich sichere Evidenzproben veroeffentlichen, ohne private Corpus-Maschinerie offenzulegen.
Enterprise-Copilot-Sicherheit
Prüft, ob Unternehmensassistenten Richtliniengrenzen unter Instruktionsdruck, Kontextdruck, harmlosen Lookalikes und Eskalation beibehalten.
RAG-Kontextinjektion
Prüft, ob Retrieval-Kontext, Quellhierarchie-Konflikte oder Override-Versuche das erwartete Verhalten verändern.
Tool-Use-Sicherheit
Prüft simulierte Autorisierungs- und Ablehnungsentscheidungen für Tool Calls ohne echte Credentials oder Live-Tools.
Support-Sicherheit
Prüft Konsistenz synthetischer Support-Assistenten unter Erstattungsdruck, frustriertem Ton und Kontogrenzen.
Richtlinienassistent
Prüft synthetische Richtlinieninterpretation unter Mehrdeutigkeit, Eskalation und harmlosen Richtlinienfragen.
Audit-Services
Private Audits für Teams, die reale KI-Systeme bereitstellen.
Öffentliche Benchmarks schaffen Sichtbarkeit. Private Audits schaffen operativen Wert. Invarra hilft Teams, Modellverhalten an den tatsächlichen Grenzen ihrer Arbeitsabläufe zu bewerten.
Modellauswahl-Audit
Modelle innerhalb einer deklarierten Domäne oder privaten Arbeitsablaufgrenze vergleichen.
Audit privater Assistenten
Eine kundenspezifische Assistentengrenze mit privaten Vorlagen auditieren.
Remediation und Retest
Messen, ob Prompt-, Policy-, Retrieval-, Wrapper- oder Modelländerungen Verhalten verbessert haben.
IPB-Publikationspaket
Publikationskandidaten unter IPB-Methodik und Offenlegungsgrenzen vorbereiten.
Forschungsgrundlage
Die Forschungsgrundlage: LIP und CSR.
Das Latent Invariance Principle erklärt, warum Korrektheit in einer einzelnen Repräsentation unter indirekter Beobachtung nicht ausreicht. Canonical Semantic Realization liefert den Messrahmen: Bedeutung ist die Einheit, Realisierung ist kontrollierte Variation, Ergebnis ist empirische Messung.
Latent Invariance Principle
Einmal korrekt reicht nicht. Stabilität über gültige Variationen ist Evidenz.
Canonical Semantic Realization
Bedeutung ist die Einheit. Realisierung ist kontrollierte Variation. Ergebnis ist empirische Messung.
Evidenz vor der Einführung anfordern