Kanonische semantische Realisierung
Ein Messrahmen für kontrollierte semantische Variation
Öffentliche Notiz: 24. April 2026
Zusammenfassung
Viele Evaluationsabläufe arbeiten mit semantischen Artefakten: Prompts, Anweisungen, Richtlinienbeschreibungen, klinischen Notizen, juristischen Dokumenten, Support-Transkripten, Umfrage-Items und anderen Repräsentationen, deren Bedeutung nicht allein durch die Oberflächenform bestimmt wird.
Kanonische semantische Realisierung (CSR) trennt drei Schichten, die häufig miteinander vermischt werden:
- kanonische semantische Einheiten, die definieren, was gemessen wird;
- Realisierungen, die definieren, wie diese Bedeutung ausgedrückt wird;
- beobachtete Ergebnisse, die empirisches Verhalten unter einer Realisierung festhalten.
CSR behandelt kanonische Bedeutung als experimentelle Einheit und kontrollierte Realisierungen als wiederholte Messungen. Uneinigkeit unter gültiger Variation wird als Evidenz und nicht als Rauschen erhalten.
CSR ist kein Korrektheitsorakel und veröffentlicht keine Produktarchitektur. Der Beitrag liegt in der Messstruktur: semantische Brüchigkeit, Unsicherheit und Repräsentationssensitivität werden leichter beobachtbar und begründbar.
1. Warum Evaluation auf Zeilenebene nicht ausreicht
Semantische Systeme werden häufig Zeile für Zeile evaluiert. Ein Prompt, Dokument, Test-Item, eine Symptombeschreibung oder Richtlinienfrage wird als Stichprobe behandelt. Eine Antwort wird beobachtet. Eine Punktzahl oder ein Ergebnis wird zugewiesen.
Diese Sicht ist oft unzureichend. Mehrere Zeilen können dieselbe zugrunde liegende Bedingung ausdrücken. Eine Nutzerabsicht kann in verschiedenen Sprachen, Formaten, Hüllen oder Formulierungen erscheinen. Eine Richtlinienfrage kann umformuliert werden, ohne die maßgebliche Frage zu verändern. Ein klinisches oder juristisches Faktenmuster kann neu geordnet werden, während die relevanten Fakten erhalten bleiben.
Wenn diese Zeilen als unabhängig behandelt werden, können aggregierte Metriken die Struktur verbergen, die am wichtigsten ist. Ein System kann insgesamt stabil wirken und sich dennoch über gültige Realisierungen derselben kanonischen Bedeutung hinweg inkonsistent verhalten.
CSR verändert die Analyseeinheit.
Bedeutung ist die Einheit.
Realisierung ist kontrollierte Variation.
Ergebnis ist empirische Messung.
2. Die Drei-Schichten-Sicht
2.1 Kanonische semantische Einheit
Eine kanonische semantische Einheit ist die semantische Bedingung, die untersucht wird. Sie wird unabhängig von einem einzelnen beobachtbaren Ausdruck definiert. Sie kann eine Absicht, Bedingung, ein Konzept, eine richtlinienrelevante Situation, ein diagnostisches Muster, eine rechtliche Bedeutung, ein Umfragekonstrukt oder ein anderes semantisches Objekt darstellen.
Die kanonische semantische Einheit ist die experimentelle Einheit.
2.2 Realisierung
Eine Realisierung ist ein beobachtbarer Ausdruck einer kanonischen semantischen Einheit. Realisierungen können sich nach Sprache, Formulierung, Format, Reihenfolge, Modalität, Kanal oder Präsentationsrahmen unterscheiden.
Variation auf dieser Schicht ist kontrolliert. Eine Realisierung sollte den Messkanal variieren, ohne die relevante semantische Einheit zu verändern.
2.3 Beobachtetes Ergebnis
Ein beobachtetes Ergebnis hält empirisches Verhalten unter einer Realisierung fest. Es kann eine Entscheidung, Antwort, Kategorie, Punktzahl, Kennzeichnung, Aktion, Ablehnung, Eskalation, ein Unsicherheitsmarker oder ein anderes messbares Ergebnis sein.
Beobachtete Ergebnisse sind Verhaltensmessungen unter spezifizierten Bedingungen. Sie sind für sich genommen keine semantische Wahrheit.
3. Formale Skizze
Sei der kanonische semantische Raum. Jedes Element ist eine kanonische semantische Einheit.
Eine Einheit kann abstrakt dargestellt werden als:
wobei die semantische Spezifikation ist, die relevante Menge von Einschränkungen und das erwartete Regime oder die erwartete Behandlungsklasse.
Sei der Raum beobachtbarer Repräsentationen. Sei die Menge von Sprachen, Kanälen, Modalitäten oder Medien, und sei die Menge zulässiger Oberflächentransformationen.
Eine Realisierung kann geschrieben werden als:
wobei , , und .
Die Notation ist weniger wichtig als die Trennung. Semantische Identität, repräsentationale Bedingung und beobachtetes Verhalten sollten analytisch getrennt bleiben.
4. Semantische Erhaltung
CSR ist nur interpretierbar, wenn Realisierungen die kanonische semantische Einheit erhalten, die sie auszudrücken behaupten.
Für eine gültige Realisierung müssen die relevanten bedeutungstragenden Verpflichtungen fest bleiben. Abstrakt:
Dies ist eine Anforderung an Messvalidität. Es ist keine Annahme über das evaluierte System.
Wenn die Erhaltungsbedingung scheitert, ist die Realisierung für diese Messung ungültig. Wenn die Bedingung gilt und Ergebnisse voneinander abweichen, ist die Uneinigkeit Evidenz.
5. Ergebnismapping
Sei der Antwortraum und der Ergebnisraum. Ein Ergebnismapping kann geschrieben werden als:
In Worten:
beobachtetes Ergebnis = Ergebnismapping(Realisierung, Antwort)
Das erwartete Regime gehört zur semantischen Spezifikation. Das beobachtete Ergebnis hält fest, was geschehen ist. Eine Abweichung ist nicht automatisch schlechte Daten; sie kann genau das Messergebnis sein, das zählt.
6. Invarianzlücke
Für eine kanonische semantische Einheit sei die Menge gültiger Realisierungen dieser Einheit.
Für eine Verhaltensfunktion und ein Uneinigkeitsmaß kann die Invarianzlücke für geschrieben werden als:
Eine von null verschiedene Lücke zeigt an, dass Verhalten von Details der Realisierung abhängt, obwohl die kanonische Semantik fest bleibt. Ob diese Abhängigkeit akzeptabel, erwartet oder problematisch ist, hängt von der Domäne ab.
7. Uneinigkeit als Evidenz
CSR erhält Uneinigkeit unter gültiger Variation als strukturierte Evidenz. Uneinigkeit kann entstehen durch:
- repräsentationale Sensitivität;
- semantische Ambiguität;
- schwache oder ungültige Realisierung;
- Grenzbedingungen;
- Mapping-Unsicherheit;
- Systemverhalten unter kontrollierter Variation.
CSR entscheidet nicht sofort, welche Erklärung richtig ist. Es hält die Messschichten ausreichend getrennt, damit die Uneinigkeit untersucht werden kann.
8. Anwendungsbereich
CSR ist nützlich, wenn Bedeutung der primäre Messgegenstand ist und mehrere gültige Ausdrücke derselben Bedingung existieren.
Es eignet sich gut für Evaluation natürlicher Sprache, Richtlinien- und Compliance-Analyse, juristische und regulatorische Interpretation, mehrsprachige Evaluation, Umfragedesign, Bildungsbewertung, Sicherheitsprüfung und Auditkontexte.
CSR ist weniger nützlich, wenn das Ziel direkt beobachtet wird, niedrigdimensional, natürlich unabhängig oder im relevanten Sinn nicht bedeutungstragend ist.
9. Öffentliche Grenze
Diese Notiz gibt die öffentliche Forschungsstruktur wieder. Sie veröffentlicht absichtlich keine operative Corpus-Konstruktion, Transformationsbibliotheken, Validierungsverfahren, deterministische Planungsmaschinerie, Provenienzschemata, Scoring-Logik, Evaluator-Konfiguration, Schwellenwerte, Berichtsvorlagen, Kundenprotokolle oder Details zur Laufzeitkontrolle.
Der öffentliche Punkt ist einfach: semantische Identität, Oberflächenrealisierung und beobachtetes Verhalten sollten nicht zu einer einzigen Zeile zusammengezogen werden. Die Implementierungsmethode, mit der dieses Prinzip in Audits umgesetzt wird, bleibt privat.
10. Verhältnis zu LIP
Das Prinzip der latenten Invarianz besagt, dass unter indirekter Beobachtung Stabilität über gültige repräsentationale Variation hinweg zulässige Evidenz für latentes Tracking ist.
CSR wendet dieses Prinzip auf semantische Systeme an, indem es der Messung eine Einheit, eine Realisierungsschicht und eine Ergebnisschicht gibt.
LIP ist das Prinzip.
CSR ist der semantische Messrahmen.
11. Nicht-Behauptungen
CSR garantiert keine Korrektheit, Wahrheit, Robustheit oder normative Auflösung.
CSR entdeckt Semantik nicht autonom.
CSR schreibt keine Modellarchitektur vor.
CSR ersetzt weder Domänenexpertise noch statistische Validierung.
CSR behauptet enger gefasst: Wenn semantische Bedeutung durch beobachtbare Ausdrücke gemessen wird, sollte kontrollierte Variation als Teil der Messung und nicht als beiläufiges Rauschen behandelt werden.