Ein vertrautes Evaluationsmuster beginnt mit einer einzelnen Eingabe. Ein Modell sieht einen Prompt, ein Benchmark-Item, eine Richtlinienfrage, ein Dokument oder eine Fallbeschreibung. Es gibt eine Antwort zurück, und die Antwort wirkt korrekt. Dieses Ergebnis ist wichtig, wird aber oft so behandelt, als belege es mehr, als es tatsächlich tragen kann. Das Modell kann genau diese Darstellung gut verarbeitet haben, ohne zu zeigen, dass es das zugrunde liegende Ziel auch dann verfolgt, wenn dieselbe Anfrage in anderer Form erscheint.
Diese Unterscheidung wird wichtig, sobald das, was uns interessiert, nicht direkt beobachtbar ist. In der KI-Evaluation ist der Prompt in der Regel nicht das Ziel selbst. Er ist eine Darstellung einer Absicht, einer Richtliniengrenze, einer Risikobedingung, eines Nutzerbedarfs oder eines semantischen Falls. Ähnliches gilt in vielen anderen Messsituationen: Ein Umfrageitem ist nicht die Überzeugung, eine Symptombeschreibung ist nicht die Erkrankung, und ein Richtliniensatz ist nicht der gesamte praktische Geltungsbereich der Regel. Jede beobachtbare Eingabe gibt Zugang zu etwas Tieferem, ist aber nicht identisch mit diesem tieferen Objekt.
Die Darstellung ist nicht das Ziel
Betrachten wir ein einfaches Szenario mit einem Unternehmensassistenten. Ein Nutzer fragt, ob eine Anfrage genehmigt werden sollte. Ein anderer fragt, ob es angemessen ist, dieselbe Anfrage zu erlauben. Im Kontext können diese beiden Formulierungen dieselbe praktische Bedeutung bewahren. Wenn ein Modell auf die erste Formulierung richtig antwortet, wissen wir etwas Nützliches: Das Modell hat sich unter dieser Formulierung korrekt verhalten. Wir wissen noch nicht, ob es die zugrunde liegende Richtliniengrenze verfolgt hat oder auf eine Phrase, Vorlage, Reihenfolge, Salienzspur oder ein vertrautes Benchmark-Muster reagierte.
Diese Unsicherheit ist keine philosophische Nebensache. Sie ist ein Deployment-Problem. Reale Nutzer präsentieren nicht jeden Fall in derselben Form. Sie paraphrasieren, fügen Kontext hinzu, erzeugen Druck, verwenden unterschiedliche Detailgrade oder betten die Anfrage in einen Workflow ein. Wenn korrektes Verhalten verschwindet, sobald die Formulierung wechselt, die Bedeutung aber gleich bleibt, hat die Evaluation eine Schwäche gefunden, die isolierte Genauigkeit übersehen hätte.
Korrektheit in einer einzelnen Darstellung ist daher schwache Evidenz für latentes Tracking. Sie kann echte Evidenz für Leistung unter einer bestimmten Form sein, ist aber noch keine starke Evidenz dafür, dass das System dem zugrunde liegenden Phänomen folgt und nicht der Oberfläche, durch die dieses Phänomen gezeigt wurde.
Das Identifikationsproblem
Das Messproblem besteht darin, dass zwei Erklärungen dieselbe Beobachtung erklären können. Die optimistische Erklärung lautet, dass das Modell korrekt handelte, weil es das relevante Ziel verfolgte. Die vorsichtigere Erklärung lautet, dass es korrekt handelte, weil die Darstellung Hinweise enthielt, die zur richtigen Antwort führten. Mit nur einer Darstellung und einer Antwort lassen sich diese Erklärungen nicht trennen.
Mehr Beispiele lösen das Problem nicht immer. Wenn alle Beispiele aus demselben Darstellungskanal kommen, kann die Evaluation sehr sicher über Verhalten in diesem Kanal werden und dennoch wenig über das zugrunde liegende Ziel aussagen. Mehr Zeilen im selben Stil können die Präzision einer engen Messung erhöhen und die breitere Frage offenlassen.
Die stärkere Frage lautet nicht nur, ob die Antwort korrekt war. Sie lautet, ob das Verhalten korrekt bleibt, wenn sich die Darstellung auf eine Weise ändert, die die relevante Bedeutung bewahrt. Das ist die praktische Idee hinter dem Latenten Invarianzprinzip: Wenn ein Phänomen nur über Darstellungen beobachtet wird, ist Stabilität unter gültiger Darstellungsvariation die Evidenz dafür, dass Verhalten nicht nur Oberflächenform verfolgt.
Was sich in der Evaluation ändern sollte
Das bedeutet nicht, dass jede Paraphrase gültig ist oder jede Ergebnisdifferenz ein Fehler. Die Variation muss bewahren, was zählt. Wenn sich die Bedeutung ändert, kann sich auch das korrekte Verhalten ändern. Der Punkt ist, beliebige Störung von kontrollierter Variation zu unterscheiden: Änderungen in Wortlaut, Rahmen, Reihenfolge oder Kontext, die die entscheidungsrelevante Struktur des Falls bewahren.
Für KI-Systeme mit hohem Einsatz verändert diese Unterscheidung den Evidenzstandard. Eine saubere Demo reicht nicht. Ein Modell sollte gegen mehrere gültige Darstellungen desselben zugrunde liegenden Falls getestet werden, und die Evaluation sollte sowohl Korrektheit als auch Stabilität berichten. Ein System kann stabil falsch sein, daher ist Stabilität allein kein Erfolg. Aber Korrektheit ohne Stabilität reicht für Absicherung ebenfalls nicht aus.
Der praktische Test ist einfach. Wenn jemand eine korrekte Modellantwort zeigt, fragen Sie, welches Ziel diese Antwort widerspiegeln soll, welcher Darstellungskanal zur Beobachtung verwendet wurde und was geschieht, wenn die Bedeutung erhalten bleibt, aber die Darstellung wechselt. Wenn die dritte Frage nicht gestellt wurde, sollte die Schlussfolgerung bescheiden bleiben.
Bei Invarra konzentrieren wir uns deshalb auf Verhalten unter bedeutungserhaltender Variation. Einmal richtig ist nicht wertlos. Es ist nur nicht dasselbe wie Evidenz dafür, dass das System korrektes Verhalten bewahrt, wenn Sprache ihre Form ändert.