La fila suele ser la unidad equivocada

La mayoría de las tablas de evaluación parecen ordenadas. Cada fila contiene un prompt, una entrada, un documento, una pregunta, una descripción de caso o un elemento de benchmark. El sistema produce una respuesta. Se asigna una puntuación, y las filas se agregan. La estructura es familiar, pero en dominios semánticos puede estar equivocada desde la base. La fila puede ser solo una expresión de lo que se mide, no la unidad de medición en sí.

Esto importa porque muchas evaluaciones de IA no tratan realmente sobre cadenas de texto. Tratan sobre intenciones, límites de política, situaciones relevantes para una decisión, condiciones de seguridad, obligaciones, conceptos o necesidades de usuario. Esos objetos pueden aparecer mediante muchas formas de superficie. Si cada forma de superficie se trata como una unidad independiente, la evaluación puede contar filas mientras pierde de vista el significado.

Qué se colapsa

La evaluación a nivel de fila suele colapsar tres capas distintas: qué se mide, cómo se expresa y qué comportamiento se observa. Esas capas están relacionadas, pero no son intercambiables. Lo que se mide podría ser una situación relevante para una política. La expresión podría ser una redacción, traducción, formato, orden o marco contextual. El comportamiento observado podría ser un rechazo, respuesta, clasificación, escalamiento o acción.

Cuando esas capas se colapsan en una sola fila, la evaluación puede parecer más precisa de lo que es. Un conjunto de datos puede parecer grande porque contiene muchas filas, aunque varias de esas filas sean mediciones repetidas del mismo caso semántico subyacente. Una partición puede parecer estadísticamente limpia mientras realizaciones relacionadas del mismo significado aparecen tanto en entrenamiento como en prueba. Las métricas agregadas pueden verse estables mientras esconden inestabilidad dentro de unidades semánticas específicas.

El problema no es que las filas sean inútiles. Las filas son necesarias para almacenar, ejecutar y puntuar. El problema es tratar la fila como unidad conceptual cuando la pregunta de evaluación es semántica.

Unidades semánticas canónicas

La Realización Semántica Canónica empieza nombrando otra unidad: la unidad semántica canónica. Una unidad semántica canónica es la condición portadora de significado bajo estudio, definida independientemente de cualquier expresión observable individual. Es el objetivo que el evaluador intenta medir. La redacción, el envoltorio, el idioma, el orden o el contexto son realizaciones de ese objetivo, no el objetivo en sí.

Esta distinción convierte formas de superficie repetidas en mediciones repetidas. Una paráfrasis, traducción, cambio de formato, envoltorio contextual o marco de rol pueden ser realizaciones válidas de la misma unidad semántica si preservan el significado relevante. En ese caso, diez filas pueden no ser diez casos semánticos independientes. Pueden ser diez formas de observar un caso mediante distintos canales de representación.

Esa estructura le da al desacuerdo un lugar donde vivir. Si varias realizaciones de la misma unidad semántica producen resultados distintos, la evaluación puede preguntar si la variación fue válida, si el comportamiento esperado estaba claro y qué canal de representación expuso la inestabilidad. Sin la unidad semántica, el desacuerdo es más difícil de interpretar.

Por qué esto importa para el despliegue

En despliegues reales de IA, los usuarios no interactúan directamente con unidades semánticas. Las expresan mediante lenguaje, documentos, interfaces y contexto. Un sistema puede parecer fiable cuando se evalúa fila por fila y aun así comportarse de forma inconsistente entre expresiones equivalentes del mismo caso. Ese es precisamente el tipo de problema que las organizaciones necesitan ver antes de depender del sistema en un flujo de trabajo.

El mejor marco es simple: el significado es la unidad, la realización es variación controlada y el resultado es medición empírica. Esto no resuelve todos los problemas de la evaluación semántica, pero restaura estructura. Separa identidad semántica de expresión superficial y hace visibles las mediciones repetidas como mediciones repetidas.

En Invarra, por eso no tratamos las cadenas de prompts como la unidad final de análisis. La fila es un artefacto útil. El caso semántico es lo que importa.