Invarra Blog
Notizen zur KI-Absicherung.
Kurze Forschungsnotizen zu Invarianz, semantischer Evaluation und dazu, warum verlässliche KI-Systeme korrektes Verhalten bewahren müssen, wenn Sprache ihre Form ändert.
Einmal richtig reicht nicht
Eine richtige Antwort auf einen Prompt beweist nicht, dass ein Modell das zugrunde liegende Ziel verfolgt hat. Die stärkere Frage ist, was geschieht, wenn die Bedeutung gleich bleibt und die Darstellung wechselt.
Artikel lesen
Aktuelle Notizen
Forschungsnotizen
Die Zeile ist oft die falsche Einheit
Semantische Evaluation beginnt oft mit einer Zeile. Kanonische semantische Einheiten liefern eine bessere Analyseeinheit, wenn dieselbe Bedeutung mehrere Oberflächenformen hat.
Uneinigkeit ist ein Datum
Wenn gültige Darstellungen desselben zugrunde liegenden Falls unterschiedliche Ergebnisse erzeugen, ist Uneinigkeit nicht zwingend Rauschen. Sie kann das Messsignal sein.
Gültige Variation braucht einen Vertrag
Semantische Erhaltungsverträge machen Variation interpretierbar, indem sie festlegen, was gleich bleiben muss, was sich ändern darf und wie Gültigkeit geprüft wird.
Die richtige Nullhypothese für indirekte Beobachtung
Wenn ein Ziel nicht direkt beobachtet werden kann, sollten Evaluatoren annehmen, dass beobachtetes Verhalten darstellungssensitiv sein kann, bis gültige Variation eine stärkere Aussage stützt.
Semantische Fragilität sollte zuordenbar sein
Eine nützliche Evaluation sollte nicht nur sagen, dass ein semantisches System fragil ist. Sie sollte zeigen, wo die Fragilität in die Messstruktur eintritt.