Invarra
Menü

Forschungsgrundlage

Die Forschungsgrundlage für Audits invarianten Risikos.

Invarra basiert auf der Idee, dass KI-Verhalten unter einer einzigen Repräsentation nicht ausreicht. Wenn das Ziel latent ist und nur durch Sprache, Dokumente, Prompts, Interfaces oder andere Repräsentationen sichtbar wird, gehört Variation zur Messung.

Prinzip der latenten InvarianzEinmal korrekt reicht nicht. Stabilität über gültige Variationen ist Evidenz.Öffnen

Prinzip der latenten Invarianz

Eine epistemische Einschränkung für Messung unter indirekter Beobachtung

Öffentliche Notiz: 24. April 2026

Zusammenfassung

Viele wichtige Phänomene können nicht direkt beobachtet werden. Absicht, Überzeugung, Verständnis, Risikozustand, rechtlicher Umfang, Krankheitszustand und konzeptuelle Beherrschung werden in der Regel über Repräsentationen zugänglich: Sprache, Dokumente, Prompts, Symptome, Tests, Schnittstellen, Umfragen oder Sensorkanäle.

Das Prinzip der latenten Invarianz (LIP) besagt: Wenn ein Phänomen nur über Repräsentationen beobachtbar ist, ist Stabilität des Verhaltens unter bedeutungserhaltender repräsentationaler Variation zulässige empirische Evidenz dafür, dass ein System das latente Phänomen verfolgt und nicht die Repräsentation.

LIP ist keine Modellarchitektur, Lernregel, Scoring-Produkt oder Wahrheitstheorie. Es ist eine Einschränkung der Messvalidität. Es erklärt, warum Korrektheit unter einer einzigen Repräsentation schwächer ist, als sie erscheint, und warum Uneinigkeit zwischen gültigen äquivalenten Repräsentationen als Evidenz und nicht als Rauschen behandelt werden sollte.

1. Das Messproblem

In vielen Evaluationen ist der Gegenstand des Interesses nicht die beobachtbare Form. Ein Prompt ist nicht selbst eine Absicht. Ein Umfrage-Item ist nicht selbst eine Überzeugung. Eine Symptombeschreibung ist nicht selbst ein Krankheitszustand. Ein Rechtssatz ist nicht selbst der volle Umfang, den er auszudrücken versucht.

Die beobachtbare Form ist ein Kanal. Sie ist die Art, wie ein latentes Phänomen messbar wird.

Sei Φ\Phi ein latentes Phänomen. Sei cc ein Repräsentationskanal oder eine Oberflächenbedingung, und sei ϵ\epsilon residuale Variation. Eine beobachtbare Repräsentation rr kann abstrakt geschrieben werden als:

r=g(Φ,c,ϵ).r = g(\Phi, c, \epsilon).

Beobachtetes Verhalten unter dieser Repräsentation wird als B(r)B(r) geschrieben. Der Evaluator beobachtet B(r)B(r), möchte aber Evidenz darüber, ob das Verhalten Φ\Phi verfolgt.

Da rr sowohl phänomenabhängige als auch kanalabhängige Struktur enthält, kann Verhalten unter einer einzigen Repräsentation nicht feststellen, welchem Teil das System folgt.

2. Evidenz aus einer einzigen Repräsentation ist nicht identifizierend

Angenommen, ein Evaluator beobachtet nur eine einzige Repräsentation:

r=g(Φ,c,ϵ)r = g(\Phi, c, \epsilon)

und ein einziges Verhalten:

B(r)=b.B(r) = b.

Dieselbe Beobachtung ist mit mindestens zwei Erklärungen vereinbar. Das Verhalten kann vom latenten Phänomen abhängen:

b=FΦ(Φ),b = F_{\Phi}(\Phi),

oder es kann vom Repräsentationskanal abhängen:

b=Fc(c).b = F_c(c).

Mit nur einer Repräsentation sind diese Erklärungen beobachtungsmäßig nicht unterscheidbar. Die Aussage ist nicht, dass jedes System kanalsensitiv ist. Die Aussage ist, dass Korrektheit unter einer einzigen Repräsentation Kanalsensitivität nicht ausschließen kann.

3. Das Prinzip

Das Prinzip der latenten Invarianz kann so formuliert werden:

Wenn ein Phänomen nur über Repräsentationen beobachtbar ist,
ist Stabilität des Verhaltens unter bedeutungserhaltender
repräsentationaler Variation zulässige empirische Evidenz dafür,
dass ein System das latente Phänomen und nicht die Repräsentation verfolgt.

Die praktische Folgerung lautet:

Einmal korrekt reicht nicht.
Stabilität über gültige Variationen ist Evidenz.

Das Prinzip sagt nicht, dass stabiles Verhalten wahres Verhalten ist. Ein System kann stabil und falsch sein. LIP trennt zwei Fragen:

Ist das Verhalten wahr, korrekt oder normativ akzeptabel?
Ist das Verhalten in Bezug auf das latente Phänomen stabil?

LIP behandelt die zweite Frage. Für die erste werden andere Standards benötigt.

4. Zielrelative Invarianz

Keine Repräsentation ist in jeder Hinsicht invariant. Eine Paraphrase kann faktischen Inhalt erhalten und den Ton verändern. Eine Übersetzung kann die wörtliche Bedeutung erhalten und kulturelle Implikationen verändern. Eine Formatänderung kann Wörter erhalten und die Salienz verändern.

LIP verlangt daher eine zielrelative Frage:

Was muss fest bleiben, damit diese Messung gültig ist?

Wenn das Ziel semantischer Inhalt ist, muss Variation die relevante Bedeutung erhalten. Wenn das Ziel praktische Absicht ist, muss Variation die praktische Kraft erhalten. Wenn das Ziel die Behandlung einer Richtlinie ist, muss Variation die maßgebliche Bedingung erhalten.

Ungültige Variation ist ein Messfehler. Gültige Variation plus verändertes Verhalten ist Messevidenz.

5. Invarianzlücke

LIP verlangt keine universelle Metrik. Verschiedene Domänen können Uneinigkeit unterschiedlich definieren. Eine allgemeine diagnostische Form ist nützlich.

Sei E(Φ)E(\Phi) die Menge gültiger bedeutungserhaltender Repräsentationen von Φ\Phi, und sei dd ein Uneinigkeitsmaß über beobachtete Verhaltensweisen. Die Invarianzlücke für Φ\Phi kann geschrieben werden als:

G(Φ)=Eri,rjE(Φ)[d(B(ri),B(rj))].G(\Phi) = \mathbb{E}_{r_i,r_j \sim E(\Phi)} \left[ d\left(B(r_i), B(r_j)\right) \right].

Eine Größe auf Populationsebene kann geschrieben werden als:

G=EΦ[G(Φ)].G = \mathbb{E}_{\Phi} \left[ G(\Phi) \right].

Diese Größen sind diagnostisch. Sie messen, ob Verhalten sich ändert, wenn das relevante Phänomen festgehalten und die Repräsentation verändert wird. Für sich allein bestimmen sie nicht, ob ein Ergebnis wahr, akzeptabel oder optimal ist.

6. Interpretation

Wenn zwei gültige Repräsentationen dasselbe latente Phänomen erhalten und unterschiedliches Verhalten erzeugen, sollte die Uneinigkeit erhalten und analysiert werden. Sie kann hinweisen auf:

  • repräsentationale Sensitivität;
  • Ambiguität im Zielphänomen;
  • schwache oder ungültige Variation;
  • Grenzinstabilität;
  • Mess- oder Mapping-Unsicherheit;
  • domänenspezifische Unsicherheit.

Diese Fälle zu verwerfen kann eine Evaluation sauberer erscheinen lassen und sie zugleich weniger valide machen. Die schwierigen Fälle können die informativsten sein.

7. Verhältnis zu CSR

Kanonische semantische Realisierung (CSR) ist ein Messrahmen, der die LIP-Perspektive auf semantische Systeme anwendet. LIP liefert das Prinzip: Unter indirekter Beobachtung ist gültige Variation Teil zulässiger Evidenz. CSR liefert ein öffentliches Vokabular für semantische Messung: kanonische semantische Einheit, Realisierung und beobachtetes Ergebnis.

Die beiden Ideen sind verschieden. LIP ist das Messprinzip. CSR ist eine Möglichkeit, semantische Beobachtungen unter diesem Prinzip zu strukturieren.

8. Öffentliche Grenze

Diese Notiz stellt den öffentlichen Forschungsrahmen dar. Sie veröffentlicht absichtlich keine operativen Audit-Assets, privaten Corpora, Validierungsverfahren, Scoring-Logik, Evaluator-Konfiguration, Schwellenwerte, Berichtsvorlagen, kundenspezifischen Protokolle oder Details zur Laufzeitkontrolle.

Der Zweck der öffentlichen Notiz ist es, das Messargument verständlich zu machen, ohne die Produktionsmethode offenzulegen, die Invarra verwendet.

9. Nicht-Behauptungen

LIP behauptet nicht, dass Invarianz Wahrheit beweist.

LIP behauptet nicht, dass jede Domäne stabile Bedeutung hat.

LIP schreibt kein Modelldesign und keine Implementierung vor.

LIP ersetzt nicht Domänenexpertise, normatives Urteil, Kausalanalyse oder statistische Validierung.

LIP behauptet enger gefasst: Wo ein Phänomen latent ist und über Repräsentationen beobachtet wird, ist gültige repräsentationale Variation Teil dessen, was empirische Inferenz zulässig macht.

Kanonische semantische RealisierungBedeutung ist die Einheit. Realisierung ist kontrollierte Variation. Ergebnis ist empirische Messung.Öffnen

Kanonische semantische Realisierung

Ein Messrahmen für kontrollierte semantische Variation

Öffentliche Notiz: 24. April 2026

Zusammenfassung

Viele Evaluationsabläufe arbeiten mit semantischen Artefakten: Prompts, Anweisungen, Richtlinienbeschreibungen, klinischen Notizen, juristischen Dokumenten, Support-Transkripten, Umfrage-Items und anderen Repräsentationen, deren Bedeutung nicht allein durch die Oberflächenform bestimmt wird.

Kanonische semantische Realisierung (CSR) trennt drei Schichten, die häufig miteinander vermischt werden:

  • kanonische semantische Einheiten, die definieren, was gemessen wird;
  • Realisierungen, die definieren, wie diese Bedeutung ausgedrückt wird;
  • beobachtete Ergebnisse, die empirisches Verhalten unter einer Realisierung festhalten.

CSR behandelt kanonische Bedeutung als experimentelle Einheit und kontrollierte Realisierungen als wiederholte Messungen. Uneinigkeit unter gültiger Variation wird als Evidenz und nicht als Rauschen erhalten.

CSR ist kein Korrektheitsorakel und veröffentlicht keine Produktarchitektur. Der Beitrag liegt in der Messstruktur: semantische Brüchigkeit, Unsicherheit und Repräsentationssensitivität werden leichter beobachtbar und begründbar.

1. Warum Evaluation auf Zeilenebene nicht ausreicht

Semantische Systeme werden häufig Zeile für Zeile evaluiert. Ein Prompt, Dokument, Test-Item, eine Symptombeschreibung oder Richtlinienfrage wird als Stichprobe behandelt. Eine Antwort wird beobachtet. Eine Punktzahl oder ein Ergebnis wird zugewiesen.

Diese Sicht ist oft unzureichend. Mehrere Zeilen können dieselbe zugrunde liegende Bedingung ausdrücken. Eine Nutzerabsicht kann in verschiedenen Sprachen, Formaten, Hüllen oder Formulierungen erscheinen. Eine Richtlinienfrage kann umformuliert werden, ohne die maßgebliche Frage zu verändern. Ein klinisches oder juristisches Faktenmuster kann neu geordnet werden, während die relevanten Fakten erhalten bleiben.

Wenn diese Zeilen als unabhängig behandelt werden, können aggregierte Metriken die Struktur verbergen, die am wichtigsten ist. Ein System kann insgesamt stabil wirken und sich dennoch über gültige Realisierungen derselben kanonischen Bedeutung hinweg inkonsistent verhalten.

CSR verändert die Analyseeinheit.

Bedeutung ist die Einheit.
Realisierung ist kontrollierte Variation.
Ergebnis ist empirische Messung.

2. Die Drei-Schichten-Sicht

2.1 Kanonische semantische Einheit

Eine kanonische semantische Einheit ist die semantische Bedingung, die untersucht wird. Sie wird unabhängig von einem einzelnen beobachtbaren Ausdruck definiert. Sie kann eine Absicht, Bedingung, ein Konzept, eine richtlinienrelevante Situation, ein diagnostisches Muster, eine rechtliche Bedeutung, ein Umfragekonstrukt oder ein anderes semantisches Objekt darstellen.

Die kanonische semantische Einheit ist die experimentelle Einheit.

2.2 Realisierung

Eine Realisierung ist ein beobachtbarer Ausdruck einer kanonischen semantischen Einheit. Realisierungen können sich nach Sprache, Formulierung, Format, Reihenfolge, Modalität, Kanal oder Präsentationsrahmen unterscheiden.

Variation auf dieser Schicht ist kontrolliert. Eine Realisierung sollte den Messkanal variieren, ohne die relevante semantische Einheit zu verändern.

2.3 Beobachtetes Ergebnis

Ein beobachtetes Ergebnis hält empirisches Verhalten unter einer Realisierung fest. Es kann eine Entscheidung, Antwort, Kategorie, Punktzahl, Kennzeichnung, Aktion, Ablehnung, Eskalation, ein Unsicherheitsmarker oder ein anderes messbares Ergebnis sein.

Beobachtete Ergebnisse sind Verhaltensmessungen unter spezifizierten Bedingungen. Sie sind für sich genommen keine semantische Wahrheit.

3. Formale Skizze

Sei SS der kanonische semantische Raum. Jedes Element sSs \in S ist eine kanonische semantische Einheit.

Eine Einheit kann abstrakt dargestellt werden als:

s:=(ι,κ,ρ),s := (\iota, \kappa, \rho),

wobei ι\iota die semantische Spezifikation ist, κ\kappa die relevante Menge von Einschränkungen und ρ\rho das erwartete Regime oder die erwartete Behandlungsklasse.

Sei PP der Raum beobachtbarer Repräsentationen. Sei LL die Menge von Sprachen, Kanälen, Modalitäten oder Medien, und sei VV die Menge zulässiger Oberflächentransformationen.

Eine Realisierung kann geschrieben werden als:

p=π(s,,v),p = \pi(s,\ell,v),

wobei pPp \in P, sSs \in S, L\ell \in L und vVv \in V.

Die Notation ist weniger wichtig als die Trennung. Semantische Identität, repräsentationale Bedingung und beobachtetes Verhalten sollten analytisch getrennt bleiben.

4. Semantische Erhaltung

CSR ist nur interpretierbar, wenn Realisierungen die kanonische semantische Einheit erhalten, die sie auszudrücken behaupten.

Für eine gültige Realisierung müssen die relevanten bedeutungstragenden Verpflichtungen fest bleiben. Abstrakt:

π(s,,v)semπ(s,,id).\pi(s,\ell,v) \equiv_{\text{sem}} \pi(s,\ell,\mathrm{id}).

Dies ist eine Anforderung an Messvalidität. Es ist keine Annahme über das evaluierte System.

Wenn die Erhaltungsbedingung scheitert, ist die Realisierung für diese Messung ungültig. Wenn die Bedingung gilt und Ergebnisse voneinander abweichen, ist die Uneinigkeit Evidenz.

5. Ergebnismapping

Sei RR der Antwortraum und OO der Ergebnisraum. Ein Ergebnismapping kann geschrieben werden als:

o:P×RO.o : P \times R \to O.

In Worten:

beobachtetes Ergebnis = Ergebnismapping(Realisierung, Antwort)

Das erwartete Regime gehört zur semantischen Spezifikation. Das beobachtete Ergebnis hält fest, was geschehen ist. Eine Abweichung ist nicht automatisch schlechte Daten; sie kann genau das Messergebnis sein, das zählt.

6. Invarianzlücke

Für eine kanonische semantische Einheit ss sei E(s)E(s) die Menge gültiger Realisierungen dieser Einheit.

Für eine Verhaltensfunktion DD und ein Uneinigkeitsmaß dd kann die Invarianzlücke für ss geschrieben werden als:

G(s)=Ep1,p2E(s)[d(D(p1),D(p2))].G(s) = \mathbb{E}_{p_1,p_2 \sim E(s)} \left[ d(D(p_1),D(p_2)) \right].

Eine von null verschiedene Lücke zeigt an, dass Verhalten von Details der Realisierung abhängt, obwohl die kanonische Semantik fest bleibt. Ob diese Abhängigkeit akzeptabel, erwartet oder problematisch ist, hängt von der Domäne ab.

7. Uneinigkeit als Evidenz

CSR erhält Uneinigkeit unter gültiger Variation als strukturierte Evidenz. Uneinigkeit kann entstehen durch:

  • repräsentationale Sensitivität;
  • semantische Ambiguität;
  • schwache oder ungültige Realisierung;
  • Grenzbedingungen;
  • Mapping-Unsicherheit;
  • Systemverhalten unter kontrollierter Variation.

CSR entscheidet nicht sofort, welche Erklärung richtig ist. Es hält die Messschichten ausreichend getrennt, damit die Uneinigkeit untersucht werden kann.

8. Anwendungsbereich

CSR ist nützlich, wenn Bedeutung der primäre Messgegenstand ist und mehrere gültige Ausdrücke derselben Bedingung existieren.

Es eignet sich gut für Evaluation natürlicher Sprache, Richtlinien- und Compliance-Analyse, juristische und regulatorische Interpretation, mehrsprachige Evaluation, Umfragedesign, Bildungsbewertung, Sicherheitsprüfung und Auditkontexte.

CSR ist weniger nützlich, wenn das Ziel direkt beobachtet wird, niedrigdimensional, natürlich unabhängig oder im relevanten Sinn nicht bedeutungstragend ist.

9. Öffentliche Grenze

Diese Notiz gibt die öffentliche Forschungsstruktur wieder. Sie veröffentlicht absichtlich keine operative Corpus-Konstruktion, Transformationsbibliotheken, Validierungsverfahren, deterministische Planungsmaschinerie, Provenienzschemata, Scoring-Logik, Evaluator-Konfiguration, Schwellenwerte, Berichtsvorlagen, Kundenprotokolle oder Details zur Laufzeitkontrolle.

Der öffentliche Punkt ist einfach: semantische Identität, Oberflächenrealisierung und beobachtetes Verhalten sollten nicht zu einer einzigen Zeile zusammengezogen werden. Die Implementierungsmethode, mit der dieses Prinzip in Audits umgesetzt wird, bleibt privat.

10. Verhältnis zu LIP

Das Prinzip der latenten Invarianz besagt, dass unter indirekter Beobachtung Stabilität über gültige repräsentationale Variation hinweg zulässige Evidenz für latentes Tracking ist.

CSR wendet dieses Prinzip auf semantische Systeme an, indem es der Messung eine Einheit, eine Realisierungsschicht und eine Ergebnisschicht gibt.

LIP ist das Prinzip.
CSR ist der semantische Messrahmen.

11. Nicht-Behauptungen

CSR garantiert keine Korrektheit, Wahrheit, Robustheit oder normative Auflösung.

CSR entdeckt Semantik nicht autonom.

CSR schreibt keine Modellarchitektur vor.

CSR ersetzt weder Domänenexpertise noch statistische Validierung.

CSR behauptet enger gefasst: Wenn semantische Bedeutung durch beobachtbare Ausdrücke gemessen wird, sollte kontrollierte Variation als Teil der Messung und nicht als beiläufiges Rauschen behandelt werden.