Los LLMs no entienden nada. Y aun así funcionan.

Un LLM predice el siguiente token más probable. No entiende. Entonces, ¿cómo produce outputs que parecen requerir comprensión real?

Colaboradores: Carlos Hernandez Prieto, Ivan Garcia Villar

Algo que no comprende el significado de ninguna palabra que produce escribe análisis jurídicos correctos, resuelve código que muchos desarrolladores no resolverían, y explica conceptos científicos con una precisión que sorprende. Si eso no te genera algo de vértigo, es que no lo has pensado del todo.

No hay respuesta limpia a esta contradicción. Pero el marco mental sí importa: condiciona cada decisión sobre cuándo confiar en el output del modelo y cuándo necesitas verificar.

Qué hace realmente un LLM

Un Large Language Model es, en su núcleo, un sistema entrenado para predecir cuál es el siguiente token más probable dada una secuencia previa de tokens. Eso es todo. No hay representación interna del mundo, no hay comprensión semántica, no hay intención.

Diagrama comparativo: el humano recibe una pregunta, activa su modelo causal del mundo, razona sobre situaciones nuevas y responde con incertidumbre explícita. El LLM recibe la misma pregunta, la convierte en tokens, busca patrones estadísticos del entrenamiento y predice el token más probable, produciendo siempre texto con el mismo tono de certeza.
El mismo input, dos mecanismos completamente distintos. El humano opera sobre un modelo del mundo; el LLM opera sobre patrones de co-ocurrencia en texto.

Durante el entrenamiento, el modelo procesa cantidades masivas de texto humano y aprende qué palabras, frases e ideas tienden a aparecer juntas. No aprende conceptos. Aprende patrones de co-ocurrencia estadística en el lenguaje, y la diferencia entre ambos es fundamental.

Cuando un humano aprende que el fuego quema, forma una representación causal: entiende que el calor transfiere energía a los tejidos y los daña. Si alguien le pregunta “¿qué pasa si metes la mano en un horno a 300°C con guante de cocina?”, puede razonar sobre la situación aunque nunca la haya vivido. Tiene un modelo del mundo.

Un LLM “sabe” que el fuego quema porque ha visto esa asociación miles de veces en texto. Predice la continuación correcta con alta probabilidad. Pero si la pregunta rompe el patrón de una forma que el modelo no ha visto durante el entrenamiento, el mecanismo empieza a fallar.

Considera un ejemplo más concreto: pídele a un LLM que cuente cuántas palabras tiene una frase específica que acabas de escribirle. Puede equivocarse, incluso en frases cortas. No porque sea incapaz aritméticamente, sino porque el conteo de elementos requiere operar sobre la representación real de los datos, no predecir qué texto estadísticamente sigue. Un humano que ha contado tiene el resultado. El LLM predice qué número parece más probable en ese contexto.

La diferencia queda clara en este esquema:

AspectoComprensión humanaPredicción estadística (LLM)
Modelo del mundoRepresentación causal, actualizableNo existe como estructura interna
Tipo de errorPredecible desde el modelo mentalDifícil de anticipar sin ejecutar
GeneralizaciónRazona sobre situaciones nuevas usando el modeloExtrapola patrones textuales del entrenamiento
IncertidumbreDetecta cuándo no sabe algoProduce texto confiado independientemente
CoherenciaMantiene creencias estables en el tiempoCada respuesta depende del contexto del momento

El debate que no tiene ganador (todavía)

Aquí es donde la cosa se complica académicamente. Hay investigadores serios en ambos lados, y llevan años sin resolverlo.

Una facción argumenta que la escala produce algo cualitativamente diferente de la mera estadística. Que cuando entrenas un modelo en suficiente texto, emergen capacidades que parecen genuinamente razonativas, no solo recuperación de patrones. Que los LLMs modernos muestran generalización que no se explica con memorización.

La otra posición tiene un nombre que se ha convertido en el término más provocador del debate: stochastic parrots [1]. Lo acuñaron Emily Bender, Timnit Gebru y colaboradoras en 2021 para la conferencia FAccT. La idea central: los LLMs son loros estocásticos, máquinas sofisticadas de completar secuencias que generan texto estadísticamente plausible sin comprensión real del significado. Un loro puede repetir “¿quieres una galleta?” sin entender qué es una galleta, quién eres, o qué significa querer algo. La escala no cambia eso cualitativamente. Solo hace la ilusión más convincente.

La ciencia no ha declarado un ganador. Los investigadores siguen debatiendo activamente qué significa “comprensión” y si los LLMs exhiben alguna forma de ella. Lo honesto es reconocerlo en lugar de pretender que hay consenso.

Los fallos que lo revelan

Donde el debate abstracto se vuelve concreto es en los tipos de errores que cometen los LLMs. Son errores que un humano con comprensión real no cometería de forma sistemática.

Aritmética en contextos no estándar. Un LLM puede resolver ecuaciones de álgebra lineal con fluidez. Pero si formulas un problema matemático simple en una forma que no ha visto en el entrenamiento, puede fallar. No porque la matemática cambie, sino porque el modelo opera sobre patrones textuales, no sobre los números como objetos matemáticos con propiedades reales.

Alucinaciones con total confianza. Este es el más revelador. Un LLM puede citarte una fuente bibliográfica con título, autor, año y DOI perfectamente formateados que simplemente no existe. No lo hace como estrategia deliberada. Lo hace porque está optimizado para producir la continuación más plausible del texto, y en el contexto de “dame una referencia académica sobre X”, producir un título bien formateado es estadísticamente plausible. No hay un mecanismo de “¿estoy seguro de esto?” porque ese mecanismo requeriría algo que no tiene: una representación del mundo contra la que comparar. La confianza del texto generado no refleja la confianza real del sistema.

Inconsistencias en la misma conversación. Pregunta a un LLM si una afirmación es verdadera al inicio de la sesión. Varios mensajes después, formula la misma pregunta de forma diferente. Puedes obtener respuestas contradictorias. Un humano con comprensión mantiene sus creencias de forma coherente porque tiene un modelo mental que persiste. El LLM genera cada respuesta basándose en el contexto disponible en ese momento, sin un estado de “creencias” estable.

Seguimiento de estado. Pídele a un LLM que trace el valor de una variable a través de cinco transformaciones anidadas en código, paso a paso. En muchos casos llega al resultado correcto porque ha visto patrones similares en el entrenamiento. Pero si el código rompe el patrón esperado de una forma no estándar, puede perder el hilo. No porque el razonamiento sea difícil en abstracto, sino porque mantener estado a través de pasos requiere una representación interna que el modelo no tiene: solo tiene el contexto de texto disponible en ese momento.

Estos cuatro tipos de fallos tienen el mismo origen: no hay modelo del mundo. Solo hay predicción de texto plausible.

Por qué funciona a pesar de todo

La pregunta incómoda: dado todo lo anterior, ¿por qué los LLMs funcionan tan bien en tantas tareas?

La respuesta más honesta es que muchas tareas que creíamos requerir comprensión profunda resultan funcionar bien con reconocimiento sofisticado de patrones. Escribir un correo profesional, resumir un documento, explicar un concepto, traducir texto: todas tienen una estructura que, a suficiente escala, puede aproximarse estadísticamente con resultados útiles.

Eso no significa que los LLMs entiendan. Significa que nuestras intuiciones sobre qué requiere comprensión eran, en algunos casos, incorrectas.

Y eso abre algo todavía más incómodo: si algo que no comprende puede producir los mismos outputs que algo que sí comprende, en determinados contextos, ¿qué distingue realmente a uno del otro? Los filósofos llevan décadas con versiones de esta pregunta. Los LLMs la han convertido en urgente.

Lo que cambia en la práctica

El riesgo concreto no es usar LLMs. El riesgo es no calibrar bien la confianza.

Árbol de decisión para calibrar la verificación de outputs de LLM. Pregunta 1: ¿el output es texto estructurado con formato conocido? Sí → revisa resultado, no el proceso. No → Pregunta 2: ¿contiene claims factuales concretos (fechas, fuentes, nombres)? Sí → verifica con fuente externa. No → Pregunta 3: ¿tiene consecuencias reales si está mal? Sí → humano en el loop antes de ejecutar. No → usa con confianza estándar.
La calibración correcta no depende de lo convincente que suene la respuesta: depende del tipo de tarea y el coste del error.

Usar palabras como “entiende”, “sabe” o “razona” para describir lo que hace un LLM crea expectativas que el modelo no puede cumplir de forma consistente. Si crees que el modelo “entiende” tu código, le darás output sin verificar en contextos donde eso importa. Si crees que “sabe” si una fuente existe, no la verificarás.

La temperatura del modelo afecta directamente a este problema: una temperatura alta produce texto más creativo pero también más propenso a alejarse de la predicción estadísticamente más segura, lo que amplifica los fallos. Una temperatura baja no soluciona la falta de comprensión, solo la hace más predecible.

En la práctica, el criterio que acabo aplicando no tiene que ver con lo convincente que suene el output. Tiene que ver con el tipo de tarea. Para generación de texto estructurado con formato conocido, el LLM es fiable. Para claims factuales específicos, fuentes bibliográficas, o razonamiento en dominios con poca representación en el entrenamiento, verifico antes de usar. Para decisiones con consecuencias reales, el humano no puede estar fuera del loop.

Los guardarrailes en agentes IA existen exactamente porque la predicción de texto plausible y la acción correcta no son lo mismo. Un agente sin guardarrailes puede generar la acción que “parece más probable” en su contexto, que no es necesariamente la que necesitas.

Checklist de calibración

  • Para outputs de texto estructurado con formato conocido: revisa el resultado, no el proceso
  • Para claims factuales concretos (fechas, nombres, fuentes bibliográficas): verifica con una fuente externa antes de usar
  • Para código que va a producción: ejecuta los tests; no asumas que funciona porque parece correcto
  • Para razonamiento en dominios con poco contexto en el entrenamiento: cuestiona los pasos intermedios, no solo el resultado final
  • Para decisiones con consecuencias reales: el humano debe revisar antes de ejecutar
  • Calibra la temperatura según la tarea; mayor temperatura amplifica tanto la creatividad como los fallos

Fuentes

  1. On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? — Bender et al., FAccT 2021. Origen del término “stochastic parrot” y argumento central sobre la ausencia de comprensión semántica real en LLMs a escala.

Preguntas Frecuentes

¿Los LLMs razonan de verdad?

Depende de qué entiendes por razonar. Si razonar significa seguir pasos lógicos para llegar a una conclusión, los LLMs lo hacen de forma aproximada y muchas veces correcta. Si razonar significa tener una representación del mundo sobre la que operar, con coherencia garantizada y capacidad de detectar cuándo no sabes algo, la respuesta honesta es que no, al menos no de forma consistente. El debate académico sigue abierto. Lo que sí está claro es que el mecanismo es funcionalmente diferente del razonamiento humano, aunque los outputs a veces sean indistinguibles.

¿Por qué alucinan con tanta confianza?

Porque el mecanismo de generación no incluye un paso de “¿estoy seguro de esto?”. El modelo está entrenado para producir la continuación más plausible del texto. Si el contexto pide una cita bibliográfica, producir un título y un autor con formato correcto es estadísticamente plausible aunque la fuente no exista. No hay un mecanismo interno que compare la predicción contra la realidad, porque no hay representación de la realidad contra la que comparar. La confianza del texto generado no refleja el nivel de certeza real del sistema.

¿Los humanos también somos máquinas de predicción estadística?

En parte, sí. Una cantidad importante de lo que llamamos intuición, reconocimiento de patrones y comprensión social funciona de forma parecida: predecir qué viene a continuación basándose en experiencia previa. El neurocientífico Karl Friston lleva años argumentando que el cerebro es fundamentalmente una máquina de inferencia predictiva. No es una idea marginal.

La diferencia está en lo que rodea esa predicción. Los humanos tenemos representaciones causales del mundo, memoria episódica que persiste y se actualiza, un cuerpo que genera experiencias directas, y mecanismos para detectar cuándo algo no encaja con lo que sabemos. Un LLM tiene la capacidad predictiva sin el resto. Por eso puede acertar en patrones que conoce y fallar de forma impredecible cuando el patrón se rompe.

Pero lo que hace esta pregunta incómoda no es la respuesta técnica. Es lo que implica: si la distinción entre “predecir sofisticadamente” y “entender de verdad” no es tan clara como asumimos en los humanos, ¿qué estamos midiendo realmente cuando decimos que algo entiende? Los filósofos llevan décadas con esa pregunta. Los LLMs la han convertido en urgente.

¿Qué diferencia práctica tiene todo esto para usar un LLM cada día?

Calibra la verificación según el tipo de tarea, no según lo convincente que suene el output. El checklist de arriba es el criterio operativo: aplícalo.