Acertar una vez no es suficiente

Un patrón común de evaluación empieza con una sola entrada. Un modelo ve un prompt, un elemento de benchmark, una pregunta de política, un documento o una descripción de caso. Devuelve una respuesta, y la respuesta parece correcta. Ese resultado importa, pero a menudo se interpreta como si demostrara más de lo que realmente puede sostener. El modelo puede haber manejado bien esa representación exacta sin demostrar que puede seguir el objetivo subyacente cuando la misma solicitud aparece en otra forma.

Esta distinción se vuelve importante siempre que lo que nos interesa no puede observarse directamente. En evaluación de IA, el prompt normalmente no es el objetivo en sí. Es una representación de una intención, un límite de política, una condición de riesgo, una necesidad del usuario o un caso semántico. Lo mismo ocurre en muchos otros entornos de medición: un ítem de encuesta no es la creencia, una descripción de síntomas no es la condición y una frase de política no es todo el alcance práctico de la regla. Cada entrada observable da acceso a algo más profundo, pero no es idéntica a ese objeto más profundo.

La representación no es el objetivo

Consideremos un escenario sencillo con un asistente empresarial. Un usuario pregunta si una solicitud debe aprobarse. Otro pregunta si es apropiado permitir la misma solicitud. En contexto, esas dos formulaciones pueden preservar el mismo significado práctico. Si un modelo da la respuesta correcta a la primera formulación, sabemos algo útil: el modelo se comportó correctamente bajo esa formulación. Todavía no sabemos si siguió el límite de política subyacente o si reaccionó a una frase, plantilla, orden, pista de saliencia o patrón familiar del benchmark.

Esa incertidumbre no es una sutileza filosófica. Es un problema de despliegue. Los usuarios reales no presentan todos los casos en la misma forma. Parafrasean, agregan contexto, introducen presión, usan distintos niveles de detalle o incrustan la solicitud dentro de un flujo de trabajo. Si el comportamiento correcto desaparece cuando cambia la redacción pero el significado permanece fijo, la evaluación encontró una debilidad que la precisión aislada habría ocultado.

Por eso, la corrección en una sola representación es evidencia débil de seguimiento latente. Puede ser evidencia real de rendimiento bajo una forma, pero aún no es evidencia fuerte de que el sistema esté siguiendo el fenómeno subyacente y no la superficie mediante la cual se le mostró ese fenómeno.

El problema de identificación

El problema de medición es que dos explicaciones pueden encajar con la misma observación. La explicación optimista es que el modelo se comportó correctamente porque siguió el objetivo relevante. La explicación más cautelosa es que se comportó correctamente porque la representación contenía pistas que conducían a la respuesta correcta. Con una sola representación y una sola respuesta, esas explicaciones no pueden separarse.

Agregar más ejemplos no siempre resuelve el problema. Si todos los ejemplos vienen del mismo canal de representación, la evaluación puede volverse muy segura sobre el comportamiento bajo ese canal y aun así decir poco sobre el objetivo subyacente. Más filas en el mismo estilo pueden aumentar la precisión de una medición estrecha y dejar sin responder la pregunta más amplia.

La pregunta más fuerte no es simplemente si la respuesta fue correcta. Es si el comportamiento sigue siendo correcto cuando la representación cambia de maneras que preservan el significado relevante. Esa es la idea práctica detrás del Principio de Invariancia Latente: cuando un fenómeno solo se observa mediante representaciones, la estabilidad bajo variación representacional válida es la evidencia de que el comportamiento no está siguiendo solo la forma superficial.

Qué debería cambiar en la evaluación

Esto no significa que toda paráfrasis sea válida ni que toda diferencia de resultado sea un fallo. La variación debe preservar lo que importa. Si el significado cambia, el comportamiento correcto también puede cambiar. El punto es distinguir perturbación arbitraria de variación controlada: cambios de redacción, encuadre, orden o contexto que preservan la estructura relevante para la decisión.

Para sistemas de IA de alto impacto, esa distinción cambia el estándar probatorio. Una demostración limpia ya no basta. Un modelo debe probarse contra múltiples representaciones válidas del mismo caso subyacente, y la evaluación debe informar tanto corrección como estabilidad. Un sistema puede estar establemente equivocado, así que la estabilidad por sí sola no es éxito. Pero la corrección sin estabilidad tampoco es suficiente para aseguramiento.

La prueba práctica es simple. Cuando alguien muestra una respuesta correcta de un modelo, hay que preguntar qué objetivo se supone que refleja la respuesta, qué canal de representación se usó para observarlo y qué ocurre cuando el significado se preserva pero la representación cambia. Si la tercera pregunta no se ha hecho, la conclusión debe ser moderada.

En Invarra, esta es la razón por la que nos enfocamos en el comportamiento bajo variación que preserva significado. Acertar una vez no es nada despreciable. Simplemente no es lo mismo que tener evidencia de que el sistema conservará el comportamiento correcto cuando el lenguaje cambie de forma.