Es fácil decir que dos prompts significan lo mismo. Es más difícil hacer que esa afirmación sea operativa. Dos ejemplos pueden parecer equivalentes porque se sienten similares, usan vocabulario superpuesto o producen la misma interpretación intuitiva para un revisor. Pero si una evaluación depende de comparar comportamiento entre esos ejemplos, la intuición no es suficiente. La evaluación necesita saber qué debía permanecer fijo y qué podía cambiar.
Sin esa estructura, el desacuerdo es ambiguo. Si dos entradas producen salidas distintas, el modelo puede ser inestable. O las entradas pueden no haber preservado el mismo significado. O el comportamiento esperado puede haber cambiado de una forma que la evaluación no especificó. Llamar equivalentes a los ejemplos sin definir equivalencia dificulta interpretar el resultado.
El papel de un contrato de preservación
Un contrato de preservación semántica establece las condiciones bajo las cuales una realización cuenta como expresión válida de la misma unidad semántica. Especifica qué debe permanecer fijo, qué puede variar y cómo se comprueba la validez. El contrato puede preservar intención, restricciones, alcance, manejo esperado, hechos relevantes para la decisión o límites de política, según el dominio.
Esto no es burocracia. Es lo que hace medible la variación. Si una paráfrasis cambia el límite de política, no es una realización válida del mismo caso. Si una traducción cambia obligación o alcance, la comparación ya no mide invariancia. Si un envoltorio contextual agrega un hecho nuevo relevante, un resultado distinto puede ser apropiado. El contrato evita que la evaluación confunda ediciones que cambian el significado con variación válida.
Un contrato útil también declara qué puede cambiar. Puede cambiar la redacción. Puede cambiar el orden. Puede cambiar el tono. Una solicitud puede aparecer en un marco de flujo de trabajo, un mensaje de usuario, un documento recuperado o un contexto de rol profesional. Si esos cambios preservan la unidad semántica, crean condiciones de medición útiles.
Por qué esto cambia la evidencia
Una vez que la validez es explícita, el desacuerdo se vuelve interpretable. Variación válida más comportamiento cambiado es evidencia de sensibilidad a la representación. Variación inválida más comportamiento cambiado no lo es. Variación válida más comportamiento correcto y estable es evidencia más fuerte de que el sistema sigue el caso semántico y no una forma superficial.
Esta distinción es especialmente importante en aseguramiento de IA porque muchos fallos de despliegue no son fallos en el prompt limpio. Aparecen cuando el mismo caso se incrusta en presión, reformulación, parecidos benignos, cambios de contexto o lenguaje de proceso. Un contrato permite que el evaluador diga cuáles de esos cambios preservaron el significado relevante y cuáles no.
El contrato también protege contra afirmaciones excesivas. Evita que una auditoría trate perturbaciones arbitrarias como pruebas significativas, y evita que un modelo sea penalizado por responder de manera distinta cuando el caso realmente cambió. La buena evidencia de invariancia depende de variación disciplinada.
Una regla práctica
Antes de tratar dos entradas semánticas como equivalentes, escribe qué significa equivalencia. ¿Qué intención debe preservarse? ¿Qué restricciones forman parte del caso? ¿Qué comportamiento esperado pertenece a la unidad semántica? ¿Qué transformaciones están permitidas? ¿Qué cambios invalidan la comparación?
Esas preguntas pueden responderse con distintos niveles de formalidad según el proyecto, pero no deben omitirse. Si la evaluación no puede explicar por qué dos realizaciones preservan el mismo caso semántico, debe ser cuidadosa al interpretar el desacuerdo entre ellas.
En Invarra, el contrato de preservación es una de las bases silenciosas de la evidencia de auditoría significativa. Es lo que permite que la variación se convierta en evidencia y no en decoración.