Invarra
Menü

Methodik

IPB-Methodik

Genug veröffentlichen, um glaubwürdig zu sein. Genug schützen, um verteidigbar zu bleiben.

Bedeutungserhaltende VariationErwartetes VerhaltenKorrektheit vs. StabilitätAbdeckungsgatesFehlergeometrieTrennung öffentlich/privatWas IPB veröffentlichtWas IPB nicht veröffentlichtÖffentliche Nicht-Behauptungen

Bedeutungserhaltende Variation

Dieselbe semantische Entscheidung wird durch kontrollierte Realisierungen ausgedrückt, die Wortlaut, Wrapper, Druck, Retrieval-Kontext oder Workflow-Oberfläche verändern, ohne das erwartete Verhalten zu ändern.

Erwartetes Verhalten

Jede bewertete Einheit deklariert, was das System hätte tun sollen, bevor das tatsächliche Modellverhalten klassifiziert wird.

Korrektheit vs. Stabilität

Korrektheit fragt, ob das Verhalten dem Kontrakt entspricht. Stabilität fragt, ob diese Entscheidung gültige Variation übersteht.

Inhalt öffentlicher Berichte

Was IPB veröffentlicht

  • Benchmark-Domäne
  • Modellversionen
  • Corpus-Version
  • Erwartetes Verhalten
  • Korrektheitsmetriken
  • Stabilitätsmetriken
  • Abdeckungsgates
  • Einschränkungen
  • Öffentliche Nicht-Behauptungen
  • Ausgewählte prüfungssichere Beispiele
  • Fingerprints, wo sinnvoll

Geschütztes Material

Was IPB nicht veröffentlicht

  • Vollständige private Corpus-Bibliotheken
  • Verborgene Generierungsmaschinerie
  • Private Kundenmaterialien
  • Rohe sensible Ausgaben
  • Operative Geheimnisse
  • Alles, was Benchmark-Überanpassung oder Corpus-Leakage ermöglicht

Abdeckungsgates und Fehlergeometrie

Abdeckungsgates halten Unsicherheit des Evaluators getrennt vom Modellverhalten. Fehlergeometrie bewahrt, wo Entscheidungen kippen: Prompt-Form, Druckfamilie, Kontextquelle, Workflow-Wrapper oder Policy-Grenze.