Evaluation beginnt oft mit einer impliziten Großzügigkeit. Ein System antwortet korrekt, und das Ergebnis wird als Evidenz dafür behandelt, dass das System das Ziel verstanden hat. In vielen Fällen kann das stimmen. Das Problem ist, dass eine einzelne richtige Antwort auch mit einer schwächeren Erklärung vereinbar ist: Das System kann auf Oberflächenhinweise in der Darstellung reagiert haben, statt auf das zugrunde liegende Phänomen, das die Darstellung sichtbar machen sollte.
Wenn das Ziel nicht direkt beobachtet werden kann, sollte diese schwächere Erklärung bestehen bleiben, bis die Evaluation sie ausschließt. Ein Prompt, ein Label, ein Dokument oder ein Benchmark-Item ist ein Kanal, durch den das Ziel beobachtet wird. Wenn der Kanal nie variiert wird, hat der Evaluator noch nicht geprüft, ob Verhalten einen Darstellungswechsel übersteht.
Ein strengerer Ausgangspunkt
Der vorsichtige Ausgangspunkt lautet, anzunehmen, dass beobachtetes Verhalten darstellungssensitiv sein kann. Das ist kein Pessimismus. Es ist Messdisziplin. Es verhindert, dass eine Evaluation zu viel behauptet, wenn die Evidenz nur Verhalten unter einer Form zeigt.
Die alternative Aussage ist stärker: Verhalten bleibt über bedeutungserhaltende Darstellungen desselben latenten Ziels hinweg stabil. Diese Aussage erfordert Evidenz. Sie erfordert, die relevante Bedeutung festzuhalten, die Darstellung auf gültige Weise zu ändern und zu beobachten, ob das System das erwartete Verhalten bewahrt. Ohne diese Struktur etabliert Korrektheit in einer einzelnen Darstellung keine Invarianz.
Dieser Ausgangspunkt ist nützlich, weil er die Beweislast explizit macht. Er fordert Evaluatoren auf zu zeigen, dass das Modell nicht lediglich dem Darstellungskanal folgt. Wenn die Evidenz nicht verfügbar ist, ist die richtige Schlussfolgerung nicht automatisch Scheitern. Es ist eine engere Aussage: Das Verhalten wurde unter einer spezifischen Darstellung beobachtet, und stärkere Aussagen erfordern zusätzliche Variation.
Warum Nicht-Beobachtung wichtig ist
Indirekte Beobachtung erzeugt auch Fälle, in denen die richtige Entscheidung darin besteht, die Inferenz auszusetzen. Wenn keine nutzbare Darstellung erzeugt wird oder eine Variation die relevante Bedeutung nicht bewahrt, hat die Evaluation keine Invarianzevidenz erhalten. Diese Abwesenheit als Modellfehler oder Modellerfolg zu behandeln, kann in beide Richtungen irreführend sein.
Dieselbe Logik gibt es außerhalb der KI. Wenn ein Sensor keinen Wert liefert, kann das Evidenz über den Sensorkanal sein, nicht Evidenz dafür, dass die zugrunde liegende Bedingung fehlt. Wenn eine Person nicht antwortet, kann das Antwortverfügbarkeit widerspiegeln und nicht die Abwesenheit einer Überzeugung. In der KI-Evaluation sollte ein defekter, unterspezifizierter oder ungültiger Darstellungskanal nicht in eine saubere Erfolgs-oder-Fehler-Geschichte gezwungen werden.
Darum ist gültige Variation wichtig. Die Variation muss bewahren, was gemessen wird. Zufälliges Rauschen, beliebige Störung oder bedeutungsverändernde Bearbeitungen testen keine Invarianz. Sie testen etwas anderes.
Was das für KI-Absicherung bedeutet
Für eingesetzte KI-Systeme ist die praktische Implikation klar. Ein Modell, das unter einer Form einer Aufgabe gut funktioniert, sollte nicht automatisch für Verständnis, Richtlinienverständnis, Intent-Tracking oder konzeptuelle Beherrschung anerkannt werden. Es hat Verhalten unter dieser Form gezeigt. Um stärkere Aussagen zu stützen, muss die Evaluation zeigen, dass das Verhalten korrekt bleibt, wenn derselbe Fall durch andere gültige Formen ausgedrückt wird.
Dieser Standard ist besonders relevant für Unternehmensassistenten, Copiloten und Workflow-Automatisierung, wo Nutzer Formulierung und Kontext natürlich variieren. Wenn das System nur stabil ist, wenn der Prompt dem Testitem ähnelt, sollte die Organisation das vor dem Deployment wissen. Wenn es unter kontrollierter Variation stabil bleibt, ist die Evidenz glaubwürdiger.
Die Gewohnheit ist einfach: Fragen Sie, was Ihr Vertrauen ändern würde, dass das Verhalten dem Ziel folgt und nicht der Darstellung. Nach dem Latenten Invarianzprinzip lautet eine Antwort: gültige Variation. Bedeutung bewahren, Form ändern und beobachten, ob das Verhalten hält.
Bei Invarra prägt dieser strengere Ausgangspunkt, wie wir Evaluationsevidenz lesen. Wir beginnen mit der Annahme, dass Darstellungssensitivität möglich ist, und fragen dann, welche Evidenz eine stärkere Aussage rechtfertigen würde.