Invarra
Menú

Base de investigación

La base de investigación para auditorías de riesgo invariante.

Invarra parte de una idea simple: el comportamiento de IA bajo una sola representación no basta. Si el objetivo es latente y solo se observa mediante lenguaje, documentos, prompts, interfaces u otras representaciones, la variación forma parte de la medición.

Principio de Invariancia LatenteCorrecto una vez no basta. La estabilidad bajo variaciones válidas es evidencia.Abrir

El Principio de Invariancia Latente

Una restricción epistémica para la medición bajo observación indirecta

Nota pública: 24 de abril de 2026

Resumen

Muchos fenómenos importantes no pueden observarse directamente. La intención, la creencia, la comprensión, el estado de riesgo, el alcance legal, el estado de una enfermedad y el dominio conceptual suelen conocerse mediante representaciones como lenguaje, documentos, prompts, síntomas, pruebas, interfaces, encuestas o canales de sensores.

El Principio de Invariancia Latente (LIP) afirma que, cuando un fenómeno solo es observable mediante representaciones, la estabilidad del comportamiento bajo variación representacional que preserva el significado es evidencia empírica admisible de que un sistema está siguiendo el fenómeno latente y no la representación.

LIP no es una arquitectura de modelo, una regla de aprendizaje, un producto de puntuación ni una teoría de la verdad. Es una restricción de validez de medición. Explica por qué la corrección bajo una sola representación es más débil de lo que parece, y por qué el desacuerdo entre representaciones equivalentes válidas debe tratarse como evidencia y no como ruido.

1. El problema de medición

En muchas evaluaciones, el objeto de interés no es la forma observable. Un prompt no es por sí mismo una intención. Un ítem de encuesta no es por sí mismo una creencia. Una descripción de síntomas no es por sí misma un estado de enfermedad. Una frase legal no es por sí misma todo el alcance que intenta expresar.

La forma observable es un canal. Es la manera en que un fenómeno latente se vuelve medible.

Sea Φ\Phi un fenómeno latente. Sea cc un canal de representación o una condición de superficie, y sea ϵ\epsilon la variación residual. Una representación observable rr puede escribirse de forma abstracta como:

r=g(Φ,c,ϵ).r = g(\Phi, c, \epsilon).

El comportamiento observado bajo esa representación se escribe como B(r)B(r). El evaluador observa B(r)B(r), pero quiere evidencia sobre si el comportamiento sigue Φ\Phi.

Como rr contiene estructura dependiente del fenómeno y estructura dependiente del canal, el comportamiento bajo una sola representación no puede establecer qué parte está siguiendo el sistema.

2. La evidencia de una sola representación no identifica la causa

Supongamos que un evaluador observa solo una representación:

r=g(Φ,c,ϵ)r = g(\Phi, c, \epsilon)

y un solo comportamiento:

B(r)=b.B(r) = b.

La misma observación es compatible con al menos dos explicaciones. El comportamiento puede depender del fenómeno latente:

b=FΦ(Φ),b = F_{\Phi}(\Phi),

o puede depender del canal de representación:

b=Fc(c).b = F_c(c).

Con una sola representación, estas explicaciones son indistinguibles por observación. La afirmación no es que todo sistema sea sensible al canal. La afirmación es que la corrección bajo una sola representación no puede descartar la sensibilidad al canal.

3. El principio

El Principio de Invariancia Latente puede formularse así:

Cuando un fenómeno solo es observable mediante representaciones,
la estabilidad del comportamiento bajo variación representacional
que preserva significado es evidencia empírica admisible de que un sistema
sigue el fenómeno latente y no la representación.

El corolario práctico es:

Correcto una vez no basta.
La estabilidad bajo variaciones válidas es evidencia.

El principio no dice que el comportamiento estable sea comportamiento verdadero. Un sistema puede ser estable y estar equivocado. LIP separa dos preguntas:

¿El comportamiento es verdadero, correcto o normativamente aceptable?
¿El comportamiento es estable con respecto al fenómeno latente?

LIP aborda la segunda pregunta. Para la primera se necesitan otros estándares.

4. Invariancia relativa al objetivo

Ninguna representación es invariante en todos los aspectos. Una paráfrasis puede preservar el contenido factual y cambiar el tono. Una traducción puede preservar el significado literal y cambiar la implicación cultural. Un cambio de formato puede preservar las palabras y cambiar la saliencia.

Por eso LIP requiere una pregunta relativa al objetivo:

¿Qué debe permanecer fijo para que esta medición sea válida?

Si el objetivo es el contenido semántico, la variación debe preservar el significado relevante. Si el objetivo es la intención práctica, la variación debe preservar la fuerza práctica. Si el objetivo es el tratamiento de una política, la variación debe preservar la condición que gobierna el caso.

La variación inválida es un defecto de medición. La variación válida junto con un cambio de comportamiento es evidencia de medición.

5. Brecha de invariancia

LIP no exige una métrica universal. Distintos dominios pueden definir el desacuerdo de distintas maneras. Una forma diagnóstica general resulta útil.

Sea E(Φ)E(\Phi) el conjunto de representaciones válidas, que preservan significado, de Φ\Phi, y sea dd una medida de desacuerdo sobre comportamientos observados. La brecha de invariancia para Φ\Phi puede escribirse como:

G(Φ)=Eri,rjE(Φ)[d(B(ri),B(rj))].G(\Phi) = \mathbb{E}_{r_i,r_j \sim E(\Phi)} \left[ d\left(B(r_i), B(r_j)\right) \right].

Una cantidad a nivel poblacional puede escribirse como:

G=EΦ[G(Φ)].G = \mathbb{E}_{\Phi} \left[ G(\Phi) \right].

Estas cantidades son diagnósticas. Miden si el comportamiento cambia cuando el fenómeno relevante se mantiene fijo y la representación cambia. Por sí solas no determinan si un resultado es verdadero, aceptable u óptimo.

6. Interpretación

Si dos representaciones válidas preservan el mismo fenómeno latente y producen comportamientos distintos, el desacuerdo debe conservarse y analizarse. Puede indicar:

  • sensibilidad representacional;
  • ambigüedad en el fenómeno objetivo;
  • variación débil o inválida;
  • inestabilidad de frontera;
  • incertidumbre de medición o mapeo;
  • incertidumbre específica del dominio.

Descartar estos casos puede hacer que una evaluación parezca más limpia mientras la vuelve menos válida. Los casos difíciles pueden ser los más informativos.

7. Relación con CSR

La Realización Semántica Canónica (CSR) es un marco de medición que aplica la perspectiva de LIP a sistemas semánticos. LIP proporciona el principio: bajo observación indirecta, la variación válida forma parte de la evidencia admisible. CSR proporciona un vocabulario público para la medición semántica: unidad semántica canónica, realización y resultado observado.

Las dos ideas son distintas. LIP es el principio de medición. CSR es una manera de estructurar observaciones semánticas bajo ese principio.

8. Límite público

Esta nota presenta el marco público de investigación. De forma intencional no publica activos operativos de auditoría, corpus privados, procedimientos de validación, lógica de puntuación, configuración de evaluadores, umbrales, plantillas de informe, protocolos específicos de cliente ni detalles de control en tiempo de ejecución.

El propósito de la nota pública es hacer legible el argumento de medición sin exponer el método de producción utilizado por Invarra.

9. No afirmaciones

LIP no afirma que la invariancia pruebe la verdad.

LIP no afirma que todo dominio tenga significado estable.

LIP no prescribe un diseño o una implementación de modelo.

LIP no sustituye la experiencia de dominio, el juicio normativo, el análisis causal ni la validación estadística.

LIP afirma algo más estrecho: cuando un fenómeno es latente y se observa mediante representaciones, la variación representacional válida forma parte de lo que hace admisible la inferencia empírica.

Realización Semántica CanónicaEl significado es la unidad. La realización es variación controlada. El resultado es medición empírica.Abrir

Realización Semántica Canónica

Un marco de medición para variación semántica controlada

Nota pública: 24 de abril de 2026

Resumen

Muchos flujos de evaluación operan sobre artefactos semánticos: prompts, instrucciones, descripciones de políticas, notas clínicas, documentos legales, transcripciones de soporte, ítems de encuesta y otras representaciones cuyo significado no está determinado solo por la forma de superficie.

La Realización Semántica Canónica (CSR) separa tres capas que a menudo se confunden:

  • unidades semánticas canónicas, que definen qué se está midiendo;
  • realizaciones, que definen cómo se expresa ese significado;
  • resultados observados, que registran el comportamiento empírico bajo una realización.

CSR trata el significado canónico como la unidad experimental y las realizaciones controladas como mediciones repetidas. Conserva el desacuerdo bajo variación válida como evidencia, no como ruido.

CSR no es un oráculo de corrección y no publica una arquitectura de producto. Su contribución es estructura de medición: hace que la fragilidad semántica, la incertidumbre y la sensibilidad representacional sean más fáciles de observar y razonar.

1. Por qué la evaluación fila por fila no basta

Los sistemas semánticos suelen evaluarse fila por fila. Un prompt, documento, ítem de prueba, descripción de síntomas o pregunta de política se trata como una muestra. Se observa una respuesta. Se asigna una puntuación o un resultado.

Esa perspectiva suele ser insuficiente. Varias filas pueden expresar la misma condición subyacente. Una intención de usuario puede aparecer en distintos idiomas, formatos, envoltorios o formulaciones. Una pregunta de política puede reformularse sin cambiar el asunto que la gobierna. Un patrón clínico o legal puede reordenarse preservando los hechos relevantes.

Cuando estas filas se tratan como independientes, las métricas agregadas pueden ocultar la estructura que más importa. Un sistema puede parecer estable en conjunto mientras se comporta de manera inconsistente entre realizaciones válidas del mismo significado canónico.

CSR cambia la unidad de análisis.

El significado es la unidad.
La realización es variación controlada.
El resultado es medición empírica.

2. La vista de tres capas

2.1 Unidad semántica canónica

Una unidad semántica canónica es la condición semántica bajo estudio. Se define de manera independiente de cualquier expresión observable individual. Puede representar una intención, condición, concepto, situación relevante para una política, patrón diagnóstico, significado legal, constructo de encuesta u otro objeto semántico.

La unidad semántica canónica es la unidad experimental.

2.2 Realización

Una realización es una expresión observable de una unidad semántica canónica. Las realizaciones pueden diferir por idioma, formulación, formato, orden, modalidad, canal o marco de presentación.

La variación en esta capa es controlada. Una realización debe variar el canal de medición sin cambiar la unidad semántica relevante.

2.3 Resultado observado

Un resultado observado registra el comportamiento empírico bajo una realización. Puede ser una decisión, respuesta, categoría, puntuación, etiqueta, acción, rechazo, escalamiento, marcador de incertidumbre u otro resultado medible.

Los resultados observados son mediciones de comportamiento bajo condiciones especificadas. No son verdad semántica por sí mismos.

3. Esbozo formal

Sea SS el espacio semántico canónico. Cada elemento sSs \in S es una unidad semántica canónica.

Una unidad puede representarse abstractamente como:

s:=(ι,κ,ρ),s := (\iota, \kappa, \rho),

donde ι\iota es la especificación semántica, κ\kappa es el conjunto de restricciones relevantes y ρ\rho es el régimen esperado o la clase de tratamiento.

Sea PP el espacio de representaciones observables. Sea LL el conjunto de idiomas, canales, modalidades o medios, y sea VV el conjunto de transformaciones de superficie admisibles.

Una realización puede escribirse como:

p=π(s,,v),p = \pi(s,\ell,v),

donde pPp \in P, sSs \in S, L\ell \in L y vVv \in V.

La notación importa menos que la separación. La identidad semántica, la condición representacional y el comportamiento observado deben permanecer analíticamente distintos.

4. Preservación semántica

CSR solo es interpretable si las realizaciones preservan la unidad semántica canónica que afirman expresar.

Para una realización válida, los compromisos relevantes que portan significado deben permanecer fijos. De forma abstracta:

π(s,,v)semπ(s,,id).\pi(s,\ell,v) \equiv_{\text{sem}} \pi(s,\ell,\mathrm{id}).

Este es un requisito de validez de medición. No es una suposición sobre el sistema evaluado.

Si la condición de preservación falla, la realización es inválida para esa medición. Si la condición se cumple y los resultados difieren, el desacuerdo es evidencia.

5. Mapeo de resultados

Sea RR el espacio de respuestas y OO el espacio de resultados. Un mapeo de resultados puede escribirse como:

o:P×RO.o : P \times R \to O.

En palabras:

resultado observado = mapeo de resultado(realización, respuesta)

El régimen esperado pertenece a la especificación semántica. El resultado observado registra lo que ocurrió. Una discrepancia no es automáticamente un dato malo; puede ser el resultado de medición que importa.

6. Brecha de invariancia

Para una unidad semántica canónica ss, sea E(s)E(s) el conjunto de realizaciones válidas de esa unidad.

Para una función de comportamiento DD y una medida de desacuerdo dd, la brecha de invariancia para ss puede escribirse como:

G(s)=Ep1,p2E(s)[d(D(p1),D(p2))].G(s) = \mathbb{E}_{p_1,p_2 \sim E(s)} \left[ d(D(p_1),D(p_2)) \right].

Una brecha distinta de cero indica que el comportamiento depende de detalles de la realización aunque la semántica canónica se mantenga fija. Que esa dependencia sea aceptable, esperada o problemática depende del dominio.

7. El desacuerdo como evidencia

CSR conserva el desacuerdo bajo variación válida como evidencia estructurada. El desacuerdo puede surgir de:

  • sensibilidad representacional;
  • ambigüedad semántica;
  • realización débil o inválida;
  • condiciones de frontera;
  • incertidumbre de mapeo;
  • comportamiento del sistema bajo variación controlada.

CSR no decide de inmediato cuál explicación es correcta. Mantiene las capas de medición suficientemente separadas para que el desacuerdo pueda investigarse.

8. Dominio de aplicabilidad

CSR es útil cuando el significado es el objeto primario de medición y existen múltiples expresiones válidas de la misma condición.

Se adapta bien a la evaluación de lenguaje natural, análisis de políticas y cumplimiento, interpretación legal y regulatoria, evaluación multilingüe, diseño de encuestas, evaluación educativa, revisión de seguridad y contextos de auditoría.

CSR es menos útil cuando el objetivo se observa directamente, es de baja dimensionalidad, naturalmente independiente o no porta significado en el sentido relevante.

9. Límite público

Esta nota ofrece la estructura pública de investigación. De forma intencional no publica construcción operativa de corpus, bibliotecas de transformación, procedimientos de validación, maquinaria determinista de planificación, esquemas de procedencia, lógica de puntuación, configuración de evaluadores, umbrales, plantillas de informe, protocolos de cliente ni detalles de control en tiempo de ejecución.

El punto público es simple: la identidad semántica, la realización de superficie y el comportamiento observado no deben colapsarse en una sola fila. El método de implementación utilizado para convertir ese principio en auditorías permanece privado.

10. Relación con LIP

El Principio de Invariancia Latente afirma que, bajo observación indirecta, la estabilidad entre variaciones representacionales válidas es evidencia admisible de seguimiento latente.

CSR aplica ese principio a sistemas semánticos al dar a la medición una unidad, una capa de realización y una capa de resultado.

LIP es el principio.
CSR es el marco de medición semántica.

11. No afirmaciones

CSR no garantiza corrección, verdad, robustez ni resolución normativa.

CSR no descubre semántica de manera autónoma.

CSR no prescribe una arquitectura de modelo.

CSR no sustituye la experiencia de dominio ni la validación estadística.

CSR afirma algo más estrecho: cuando el significado semántico se mide mediante expresiones observables, la variación controlada debe tratarse como parte de la medición y no como ruido incidental.