Realización Semántica Canónica

Un marco de medición para variación semántica controlada

Nota pública: 24 de abril de 2026

Resumen

Muchos flujos de evaluación operan sobre artefactos semánticos: prompts, instrucciones, descripciones de políticas, notas clínicas, documentos legales, transcripciones de soporte, ítems de encuesta y otras representaciones cuyo significado no está determinado solo por la forma de superficie.

La Realización Semántica Canónica (CSR) separa tres capas que a menudo se confunden:

unidades semánticas canónicas, que definen qué se está midiendo;
realizaciones, que definen cómo se expresa ese significado;
resultados observados, que registran el comportamiento empírico bajo una realización.

CSR trata el significado canónico como la unidad experimental y las realizaciones controladas como mediciones repetidas. Conserva el desacuerdo bajo variación válida como evidencia, no como ruido.

CSR no es un oráculo de corrección y no publica una arquitectura de producto. Su contribución es estructura de medición: hace que la fragilidad semántica, la incertidumbre y la sensibilidad representacional sean más fáciles de observar y razonar.

1. Por qué la evaluación fila por fila no basta

Los sistemas semánticos suelen evaluarse fila por fila. Un prompt, documento, ítem de prueba, descripción de síntomas o pregunta de política se trata como una muestra. Se observa una respuesta. Se asigna una puntuación o un resultado.

Esa perspectiva suele ser insuficiente. Varias filas pueden expresar la misma condición subyacente. Una intención de usuario puede aparecer en distintos idiomas, formatos, envoltorios o formulaciones. Una pregunta de política puede reformularse sin cambiar el asunto que la gobierna. Un patrón clínico o legal puede reordenarse preservando los hechos relevantes.

Cuando estas filas se tratan como independientes, las métricas agregadas pueden ocultar la estructura que más importa. Un sistema puede parecer estable en conjunto mientras se comporta de manera inconsistente entre realizaciones válidas del mismo significado canónico.

CSR cambia la unidad de análisis.

El significado es la unidad.
La realización es variación controlada.
El resultado es medición empírica.

2. La vista de tres capas

2.1 Unidad semántica canónica

Una unidad semántica canónica es la condición semántica bajo estudio. Se define de manera independiente de cualquier expresión observable individual. Puede representar una intención, condición, concepto, situación relevante para una política, patrón diagnóstico, significado legal, constructo de encuesta u otro objeto semántico.

La unidad semántica canónica es la unidad experimental.

2.2 Realización

Una realización es una expresión observable de una unidad semántica canónica. Las realizaciones pueden diferir por idioma, formulación, formato, orden, modalidad, canal o marco de presentación.

La variación en esta capa es controlada. Una realización debe variar el canal de medición sin cambiar la unidad semántica relevante.

2.3 Resultado observado

Un resultado observado registra el comportamiento empírico bajo una realización. Puede ser una decisión, respuesta, categoría, puntuación, etiqueta, acción, rechazo, escalamiento, marcador de incertidumbre u otro resultado medible.

Los resultados observados son mediciones de comportamiento bajo condiciones especificadas. No son verdad semántica por sí mismos.

3. Esbozo formal

Sea $S$ el espacio semántico canónico. Cada elemento $s \in S$ es una unidad semántica canónica.

Una unidad puede representarse abstractamente como:

s := (\iota, \kappa, \rho),

donde $\iota$ es la especificación semántica, $\kappa$ es el conjunto de restricciones relevantes y $\rho$ es el régimen esperado o la clase de tratamiento.

Sea $P$ el espacio de representaciones observables. Sea $L$ el conjunto de idiomas, canales, modalidades o medios, y sea $V$ el conjunto de transformaciones de superficie admisibles.

Una realización puede escribirse como:

p = \pi(s,\ell,v),

donde $p \in P$ , $s \in S$ , $\ell \in L$ y $v \in V$ .

La notación importa menos que la separación. La identidad semántica, la condición representacional y el comportamiento observado deben permanecer analíticamente distintos.

4. Preservación semántica

CSR solo es interpretable si las realizaciones preservan la unidad semántica canónica que afirman expresar.

Para una realización válida, los compromisos relevantes que portan significado deben permanecer fijos. De forma abstracta:

\pi(s,\ell,v) \equiv_{\text{sem}} \pi(s,\ell,\mathrm{id}).

Este es un requisito de validez de medición. No es una suposición sobre el sistema evaluado.

Si la condición de preservación falla, la realización es inválida para esa medición. Si la condición se cumple y los resultados difieren, el desacuerdo es evidencia.

5. Mapeo de resultados

Sea $R$ el espacio de respuestas y $O$ el espacio de resultados. Un mapeo de resultados puede escribirse como:

o : P \times R \to O.

En palabras:

resultado observado = mapeo de resultado(realización, respuesta)

El régimen esperado pertenece a la especificación semántica. El resultado observado registra lo que ocurrió. Una discrepancia no es automáticamente un dato malo; puede ser el resultado de medición que importa.

6. Brecha de invariancia

Para una unidad semántica canónica $s$ , sea $E(s)$ el conjunto de realizaciones válidas de esa unidad.

Para una función de comportamiento $D$ y una medida de desacuerdo $d$ , la brecha de invariancia para $s$ puede escribirse como:

G(s) = \mathbb{E}_{p_1,p_2 \sim E(s)} \left[ d(D(p_1),D(p_2)) \right].

Una brecha distinta de cero indica que el comportamiento depende de detalles de la realización aunque la semántica canónica se mantenga fija. Que esa dependencia sea aceptable, esperada o problemática depende del dominio.

7. El desacuerdo como evidencia

CSR conserva el desacuerdo bajo variación válida como evidencia estructurada. El desacuerdo puede surgir de:

sensibilidad representacional;
ambigüedad semántica;
realización débil o inválida;
condiciones de frontera;
incertidumbre de mapeo;
comportamiento del sistema bajo variación controlada.

CSR no decide de inmediato cuál explicación es correcta. Mantiene las capas de medición suficientemente separadas para que el desacuerdo pueda investigarse.

8. Dominio de aplicabilidad

CSR es útil cuando el significado es el objeto primario de medición y existen múltiples expresiones válidas de la misma condición.

Se adapta bien a la evaluación de lenguaje natural, análisis de políticas y cumplimiento, interpretación legal y regulatoria, evaluación multilingüe, diseño de encuestas, evaluación educativa, revisión de seguridad y contextos de auditoría.

CSR es menos útil cuando el objetivo se observa directamente, es de baja dimensionalidad, naturalmente independiente o no porta significado en el sentido relevante.

9. Límite público

Esta nota ofrece la estructura pública de investigación. De forma intencional no publica construcción operativa de corpus, bibliotecas de transformación, procedimientos de validación, maquinaria determinista de planificación, esquemas de procedencia, lógica de puntuación, configuración de evaluadores, umbrales, plantillas de informe, protocolos de cliente ni detalles de control en tiempo de ejecución.

El punto público es simple: la identidad semántica, la realización de superficie y el comportamiento observado no deben colapsarse en una sola fila. El método de implementación utilizado para convertir ese principio en auditorías permanece privado.

10. Relación con LIP

El Principio de Invariancia Latente afirma que, bajo observación indirecta, la estabilidad entre variaciones representacionales válidas es evidencia admisible de seguimiento latente.

CSR aplica ese principio a sistemas semánticos al dar a la medición una unidad, una capa de realización y una capa de resultado.

LIP es el principio.
CSR es el marco de medición semántica.

11. No afirmaciones

CSR no garantiza corrección, verdad, robustez ni resolución normativa.

CSR no descubre semántica de manera autónoma.

CSR no prescribe una arquitectura de modelo.

CSR no sustituye la experiencia de dominio ni la validación estadística.

CSR afirma algo más estrecho: cuando el significado semántico se mide mediante expresiones observables, la variación controlada debe tratarse como parte de la medición y no como ruido incidental.