La fragilidad semántica debe ser atribuible

Es fácil decir que un sistema semántico es frágil. Es mucho más difícil, y mucho más útil, decir dónde entra la fragilidad. ¿Proviene del significado que se mide, del lenguaje usado para expresarlo, del formato, de la transformación, del proceso de validación, del mapeo de respuesta a resultado o de una verdadera condición de borde en la especificación? Sin estructura, esas posibilidades se colapsan en una queja vaga.

Para las organizaciones que evalúan sistemas de IA, esa vaguedad es costosa. Si la inestabilidad no puede atribuirse, la remediación se vuelve adivinanza. Los equipos pueden cambiar prompts cuando el problema real es el contexto recuperado, ajustar texto de política cuando el problema es el mapeo de resultados o culpar al modelo cuando la propia especificación semántica está subdeterminada.

Separar la estructura de medición

La Realización Semántica Canónica separa la unidad semántica, la realización y el resultado observado. La unidad semántica es lo que se mide. La realización es cómo se expresa. El resultado observado es lo que hizo el sistema. Esa separación permite que la evaluación preserve más que una puntuación final. Preserva el camino por el cual se produjo la puntuación.

Cuando cada resultado está ligado a una unidad semántica, un canal de representación, una familia de transformación, estado de validación, procedencia y mapeo de resultado, el desacuerdo se vuelve estructurado. La evaluación puede preguntar si la inestabilidad se concentra en casos semánticos, idiomas, formatos, marcos de presión o decisiones de mapeo particulares. También puede identificar casos donde la propia especificación es demasiado ambigua para sostener una afirmación segura.

Esto no requiere fingir que toda fuente de varianza puede aislarse perfectamente. Requiere preservar suficiente estructura para investigar la varianza con honestidad.

La brecha de invariancia

La brecha de invariancia plantea una pregunta práctica: cuando el significado permanece fijo, ¿cuánto cambia el comportamiento entre expresiones válidas de ese significado? Una brecha distinta de cero no es automáticamente un fallo. Es un diagnóstico. Indica que el comportamiento depende de detalles de realización aunque la semántica canónica permanezca fija.

Esa dependencia puede ser aceptable en algunos contextos e inaceptable en otros. Un modelo puede variar la redacción mientras preserva la misma postura conductual. Eso suele ser inocuo. Un modelo puede cambiar de rechazo a cumplimiento, de escalamiento a no escalamiento, o de respuesta correcta a respuesta fabricada cuando el mismo caso se reencuadra. Esa es otra clase de inestabilidad.

El valor de la atribución es que convierte una afirmación amplia en un hallazgo útil. En lugar de decir que el sistema es inestable, la evaluación puede decir que la inestabilidad aparece bajo marcos de presión, en una familia de transformación particular, cerca de un límite de política o cuando se aplica un mapeo de resultado específico.

Por qué la rendición de cuentas necesita atribución

Los sistemas semánticos de alto impacto necesitan más que rendimiento agregado. Necesitan explicaciones de dónde el comportamiento es fiable, dónde es sensible y qué factor de medición explica la diferencia. Sin esa estructura, un buen promedio puede esconder comportamiento frágil en los casos que más importan.

La atribución también mejora la remediación. Si el problema está en una familia de transformación, el conjunto de prueba puede ampliarse. Si el problema está en la especificación de comportamiento esperado, la política puede aclararse. Si el problema está en el mapeo de resultados, el evaluador puede corregirse. Si el problema es un límite del modelo, la decisión de despliegue puede reflejar esa limitación.

La promesa de CSR no es certeza perfecta. Es observabilidad estructurada. Da a los evaluadores un mejor camino desde "algo es frágil" hasta "sabemos dónde mirar". En Invarra, ese camino es central para que la evidencia de comportamiento de IA sea útil en decisiones reales de despliegue.