Un nuevo estudio de Apple revela que los modelos de inteligencia artificial especializados en razonamiento, conocidos como Large Reasoning Models (LRMs), colapsan completamente cuando enfrentan problemas de complejidad creciente, desafiando la idea de que estos sistemas “piensan” de manera efectiva.
La investigación, publicada apenas días antes del evento WWDC de Apple, analizó el comportamiento de modelos como OpenAI o1 y o3, DeepSeek R1, Claude 3.7 Sonnet Thinking y Google Gemini Flash Thinking. Los resultados representan un jarro de agua fría para los optimistas de la inteligencia artificial general (AGI) y una confirmación para los escépticos, ya que muestran evidencia contundente sobre las limitaciones de la inteligencia de estos modelos.
Según informaron los investigadores de Apple, mientras los LRMs tienen un buen desempeño en matemáticas y programación, cuando se enfrentan a problemas más complejos solo proporcionan “La Ilusión del Pensamiento”.
Para evaluar los modelos de razonamiento, los investigadores de Apple utilizaron puzzles o rompecabezas lógicos clásicos como la Torre de Hanoi. Este puzzle consiste en discos apilados de mayor a menor en una de tres clavijas, y el objetivo es mover todos los discos a la tercera clavija sin colocar nunca un disco más grande sobre uno más pequeño.
Otros puzzles incluían el salto de fichas de damas a espacios vacíos, el problema de cruzar un río (habitualmente planteado con un zorro, una gallina y un saco de grano), y la configuración específica de bloques apilados.
Estos rompecabezas son reconocibles de clases de matemáticas o juegos en línea, ya que representan una forma simple de evaluar la capacidad humana para razonar y resolver problemas. Una vez que se comprende la lógica, solo hay que seguirla incluso cuando aumenta la complejidad, lo que en este caso significa más discos, fichas, animales o bloques. Sin embargo, los investigadores descubrieron que los LRMs comienzan a fallar después de cierto punto.
“Los resultados muestran que todos los modelos de razonamiento exhiben un patrón similar respecto a la complejidad: la precisión disminuye progresivamente a medida que aumenta la complejidad del problema hasta alcanzar un colapso completo (precisión cero) más allá de un umbral de complejidad específico para cada modelo”, escribieron los investigadores. En los resultados mostrados, Claude 3.7 Sonnet + thinking y DeepSeek R1 comienzan a fallar cuando se añade un quinto disco al problema de la Torre de Hanoi. Incluso cuando se aplica más potencia de cálculo a los LRMs, siguen fallando en los puzzles más complejos.
El estudio identificó tres regímenes de complejidad en el comportamiento de los modelos evaluados. En tareas de baja complejidad, los modelos de lenguaje estándar (LLMs), sin mecanismos de razonamiento explícito, superaron en eficiencia y precisión a los LRMs. Cuando la dificultad aumentó a un nivel medio, los LRMs demostraron una ventaja clara, gracias a su capacidad para generar cadenas de pensamiento más extensas.
Sin embargo, al enfrentar problemas de alta complejidad, ambos tipos de modelos experimentaron un colapso total en su desempeño. Además, los investigadores descubrieron que los modelos de razonamiento inicialmente aplican más “tokens de pensamiento” a medida que aumenta la complejidad, pero sorprendentemente abandonan el esfuerzo en cierto punto. Es decir, cuando los problemas se vuelven más difíciles, utilizan menos tokens o “piensan” menos.
Pero, ¿qué sucede cuando se les proporciona a los LRMs las respuestas? La precisión tampoco mejora. Incluso cuando los investigadores incluyeron el algoritmo en las instrucciones, de modo que los modelos solo necesitaban seguir los pasos, continuaron fallando.
Según detalla Apple en su estudio, en el caso de la Torre de Hanoi, los modelos podían ejecutar hasta 100 movimientos correctos en configuraciones de alta dificultad antes de cometer un error, mientras que en el problema de cruzar el río fallaban tras apenas cinco movimientos. Esta disparidad sugiere que la frecuencia con la que los modelos han sido expuestos a ciertos tipos de puzzles durante su entrenamiento puede influir en su desempeño, aunque no explica completamente las limitaciones observadas.
Aunque los resultados pueden parecer desalentadores para quienes esperan una IA capaz de razonar como los humanos, el estudio de Apple aclara que estos hallazgos no implican que los LRMs carezcan por completo de habilidades de razonamiento. Más bien, evidencian que, ante problemas de alta complejidad, su desempeño no supera —y en ocasiones iguala— las limitaciones humanas.
Más…fuente: https://www.infobae.com/tecno/2025/06/11/el-inesperado-talon-de-aquiles-de-la-inteligencia-artificial-segun-apple/