Donde dije "sentido común" digo "razonamiento" (#17 de 2024)
Cómo los avances en los LLMs han hecho cambiar el foco de las críticas.
Hoy toca un artículo casi de opinión. Vamos a reflexionar sobre cómo, en el debate sobre la inteligencia artificial, hemos pasado de hablar de “sentido común” a centrarnos en el “razonamiento”. Exploraremos esta evolución y discutiremos cómo los modelos de lenguaje actuales están desafiando las nociones tradicionales de comprensión y pensamiento.
¡Gracias por leerme!
Estos últimos días he estado leyendo dos libros muy recomendables sobre inteligencia artificial: Inteligencia Artificial: Guía para seres pensantes de Melanie Mitchell y Artificial Intelligence: 10 Things You Should Know de Tim Rocktäschel.
Son libros bastante distintos. El primero es más profundo y extenso, se publicó en 2020 y hace bastante énfasis en los problemas de los algoritmos de IA para alcanzar una compresión del mundo similar a la de los humanos. El segundo es más breve, está escrito en forma de pequeños ensayos, se ha publicado recientemente y presenta una visión muy optimista respecto a las posibilidades de los actuales LLMs para llegar a ser los elementos centrales de una futura IA con capacidades que excederán a las humanas.
Ambos libros están escritos por excelentes investigadores y se complementan estupendamente. El primer libro nos da una visión cautelosa y muy bien razonada sobre la dificultad de construir algoritmos inteligentes generales (lo que ahora llamamos AGI), mientras que el segundo nos muestra cómo los avances de los últimos años representan un avance importante que nos puede llevar en poco tiempo a sistemas con capacidades superiores a los humanos (y lo explica de una forma muy comprensible y razonada, no como lo hace algún otro).
Sentido común
Uno de los problemas que plantea Mitchell en su libro es el problema del sentido común. Es un problema que ha estado presente en el campo de la IA desde sus comienzos.
El problema del “sentido común” en inteligencia artificial, especialmente en el ámbito del procesamiento del lenguaje natural, se refiere a la dificultad que tienen las máquinas para interpretar y generar lenguaje de manera coherente con el conocimiento implícito que los humanos empleamos habitualmente. Este tipo de conocimiento incluye la capacidad de entender situaciones ambiguas, inferir significados ocultos, realizar suposiciones sobre el contexto o incluso captar intenciones y emociones implícitas.
En su libro, Mitchell pone un ejemplo de una descripción de una situación sobre una persona que va a un restaurante. Veamos otro ejemplo similar:
“Sara agitó la varita y tocó con ella el juguete del niño, que dejó de llorar al comprobar que volvía a funcionar. Cuando Sara llegó a casa y le contó a su padre lo que había pasado, este se enfadó muchísimo y la castigó sin salir de casa durante una semana.”
Para entender la situación planteada por la descripción anterior hay que comprender muchísimas cosas (además de haber leído los libros de Harry Potter): Sara lleva la varita en la mano, el juguete estaba roto y por eso el niño estaba llorando, Sara vio al niño llorar y quiso ayudarle, Sara hizo algo mágico con la varita, Sara estaba orgullosa por haber ayudado al niño, etc.
¿Puede una IA llegar a hacer estas suposiciones?
Mitchell dice:
Aunque el procesamiento automático del lenguaje natural ha avanzado mucho, no creo que las máquinas puedan llegar a comprender por completo el lenguaje humano hasta que tengan un sentido común similar al humano.
Y los sistemas que existían en 2020 (la fecha en la que publicó el libro) no tenían esa competencia:
Los humanos tienen una competencia fundamental de la que carecen los sistemas actuales de IA: el sentido común.
Llegan los LLMs
¿Cuál es la situación en la actualidad? ¿Han adquirido los LLMs este sentido común?
En los últimos años se han entrenado con todo internet estos gigantescos sistemas para predecir la siguiente palabra de un texto. La propia Mitchell explica el funcionamiento de los LLMs en un artículo reciente. El sencillo objetivo de predecir la siguiente palabra produce resultados sorprendentes y dota a estos sistemas de enormes capacidades.
La razón es que una IA que aprende a comprimir textos con el objetivo de predecir la siguiente palabra tiene que aprender una cantidad enorme de datos y de conceptos subyacentes en los textos originales. Por ejemplo, cuando el LLM aprende la palabra que sigue a la frase:
“Harry estaba de excursión fuera de Howarts y usó su varita mágica. Cuando los profesores se enteraron, decidieron ..... (castigarle)"
está aprendiendo al mismo tiempo una cantidad enorme de conceptos: existen reglas que limitan el uso de la magia, una regla es que la magia solo se puede usar en Howarts, si no se cumple una regla se debe castigar, los profesores son los que deciden sobre el comportamiento de los estudiantes, etc.
La famosa hipótesis de escalado argumenta que, cuanto mayores son los parámetros de los LLMs y más diversos son los datos de entrada, mayores abstracciones son capaces de aprender los sistemas. Al optimizar la función objetivo, los embeddings que representan los tokens del lenguaje se colocan en posiciones óptimas del espacio de parámetros y los pesos de la red neuronal del LLM se configuran para representar funciones de transformación que reflejan relaciones y abstracciones de mayor nivel.
Realmente, esto es solo una teoría y existen muchas incógnitas sobre hasta dónde es posible escalar y qué tipo de datos de entrada son necesarios para conseguir mayores abstracciones. Pero el nivel de comprensión del sentido común alcanzado por los sistemas actuales es sorprendente.
Por ejemplo, veamos qué responde ChatGPT (4o) cuando le pasamos el texto anterior, sobre Sara y la varita mágica, y le preguntamos por las razones por las que el padre le ha castigado.
Yo:
Lee el siguiente texto y contesta a la pregunta a continuación:
“Juan agitó la varita y tocó con ella el juguete del niño, que dejó de llorar al comprobar que volvía a funcionar. Cuando Juan llegó a casa y le contó a su padre lo que había pasado, este se enfadó muchísimo y lo castigó a no salir de casa durante una semana.”
Pregunta: ¿Por qué se enfadó el padre de Juan?
ChatGPT:
El padre de Juan se enfadó probablemente porque Juan usó la varita de una forma que su padre no aprobaba, lo que podría indicar que el uso de la varita estaba prohibido o era peligroso.
Yo:
Dime cuatro posibles razones distintas que expliquen el enfado el padre de Juan
ChatGPT:
Aquí tienes cuatro posibles razones alternativas que podrían explicar el enfado del padre de Juan:
1. Juan utilizó una habilidad prohibida: Es posible que el uso de la varita esté prohibido en su casa o que sea una habilidad mágica que Juan no debería haber utilizado fuera de ciertos contextos.
2. El padre teme las consecuencias: El padre podría estar preocupado de que el uso de la varita en público atraiga atención no deseada o peligros para la familia, como si fuese algo secreto o peligroso.
3. Juan rompió una regla familiar: Quizás en la familia hay una regla estricta sobre cuándo y cómo utilizar la magia o herramientas especiales, y Juan la desobedeció al arreglar el juguete del niño sin permiso.
4. El padre teme por la seguridad de Juan: El padre podría haberse enfadado porque, aunque el gesto de Juan fue bienintencionado, usar la varita podría poner en peligro la integridad de Juan, como si existiera un riesgo asociado a su uso.
Es mejorable, las explicaciones 1 y 3 son algo redundantes, pero da la sensación de que el sistema “entiende” perfectamente conceptos como prohibido, reglas, seguridad o riesgo.
Se ha avanzado muchísimo en estos últimos 4 años.
Ahora el término del debate es “razonamiento”
A pesar de estos avances, muchos investigadores del campo de la IA, la filosofía o la neurociencia niegan que lo que hacen los LLMs se pueda denominar “comprender”. Mitchell explica muy bien esta postura en su artículo de 2023, “The Debate Over Understanding in AI's Large Language Models”, en el que presenta con gran detalle los argumentos de los que están a favor y en contra.
Y termina aceptando que los LLMs han aprendido a manejar (alguna forma de) sentido común:
Podría argumentarse que, en los últimos años, el campo de la IA ha creado máquinas con nuevos modos de comprensión. Los problemas que requieren grandes cantidades de conocimiento seguirán favoreciendo a los modelos estadísticos a gran escala como los LLM.
Pero añade un detalle importante, la nueva gran crítica. Lo que no pueden hacer es razonar y planificar. Eso está limitado a la inteligencia humana:
Pero aquellos problemas para los que tenemos un conocimiento limitado y mecanismos causales sólidos favorecerán a la inteligencia humana.
Cuando Mitchell habla de “mecanismos causales sólidos” y “conocimiento limitado” se está refiriendo a nuestra capacidad de planificación y razonamiento. Por ejemplo, para planificar un viaje usando la web, una persona puede encontrar vuelos y hoteles, pero también debe considerar factores como la hora de llegada y la disponibilidad de transporte. Si llega tarde por la noche y no hay transporte público, buscará un hotel cerca del aeropuerto.
Este tipo de razonamiento causal, ajustando el plan según condiciones impredecibles, y realizando varios pasos de inferencia, para muchos autores no es posible de conseguir con los actuales LLMs basados en autorregresión.
La propia Mitchell incide en el tema en varios posts recientes:
Can Large Language Models Reason? (Sep, 2023)
The LLM Reasoning Debate Heats Up (Oct, 2024)
El debate se ha intensificado con el lanzamiento de o1, un modelo que, según OpenAI ha sido construido precisamente para razonar. Por ejemplo, se ha hablado mucho en los últimos días en X del artículo de unos investigadores de Apple en el que engañan a distintos LLMs añadiendo datos irrelevantes a enunciados de problemas de primaria. Estuve haciendo algún experimento rápido y me dio la sensación de que o1 no sufre este problema, pero habrá que investigar más.
Los LLMs todavía tienen mucho recorrido
La revolución que ha supuesto la aplicación del deep learning a los problemas del procesamiento del lenguaje plantea una gran incógnita de cara al futuro. ¿Hasta dónde se podrá escalar esta tecnología? ¿Podremos conseguir con ella agentes inteligentes capaces de interactuar con nuestros datos y con la web y ayudarnos en tareas relevantes? ¿Podrán construirse agentes a los que podamos encargar tareas que le ocupen horas o días, en las que tenga que ir obteniendo información paso a paso, realizando experimentos y obteniendo resultados?
Todavía es pronto para saberlo. El crecimiento de las capacidades de los LLMs ha sido hasta ahora exponencial, pero no sabemos si esta tendencia continuará o si estamos alcanzando un punto de inflexión, donde el crecimiento podría estabilizarse siguiendo una curva logística (una curva en forma de “S” que se aplana al llegar a un límite).
También puede ser que lo que se necesite sea combinar LLMs o afinar los datos de aprendizaje. OpenAI, con la construcción de o1 basado en un paradigma algo diferente (aunque no deja de ser un LLM), demuestra que es posible construir nuevos sistemas basados en los actuales. Investigadores como el anteriormente mencionado Tim Rocktäschel argumentan que las funcionalidades de los actuales LLMs de generar alternativas y validarlas pueden ser la base de sistemas capaces de mejorarse a sí mismos. El propio François Chollet, que hemos mencionado más de una vez en esta newsletter, dice que los LLMs, con su método basado en la memorización de patrones, todavía pueden conseguir muchas más cosas.
No te dediques a los LLMs
Otros investigadores son mucho más críticos con la tecnología actual. Por ejemplo Yann LeCun argumenta que es necesario ampliar los actuales tokens con elementos que combinen texto, vídeo, acciones y otros datos sensoriales tomados del mundo real. Propone una arquitectura también basada en aprendizaje de embeddings, pero de una forma radicalmente distinta a los actuales LLMs, denominada JEPA (Joint Embedding Predictive Architecture).
En esta última charla, incluso hace la recomendación a los jóvenes investigadores de que no se dediquen a los LLMs (si lo que quieren es descubrir cosas relevantes y no solo ganar dinero) y hace la siguiente predicción: en los próximos 2-3 años, los esfuerzos de los actuales centros de datos gigantes no van a dar resultados y se va a dejar de hablar de "escalado". Los LLMs serán un elemento de la solución, pero no el elemento fundamental.
Pero no nos equivoquemos con la posición de LeCun. No está en el lado de quienes piensan que los computadores nunca podrán pensar como los humanos, todo lo contrario, plantea que la AGI es posible, aunque sea con una tecnología distinta de la actual. Incluso en la charla anterior menciona un plazo de una década (supongo que para darle una respuesta a su jefe, Zuck).
Críticos y apocalípticos
Frente a esta posición, la corriente más crítica de la IA niega incluso que estemos viendo avances hacia la inteligencia humana. Parecen aplicar el “teorema Tesler” o el efecto IA:
La inteligencia es todo lo que las máquinas todavía no pueden hacer.
Según ellos, la inteligencia es compleja, multifuncional y está profundamente relacionada con otros elementos intrínsecamente humanos como el pensamiento, la cognición, las emociones y la consciencia.
A pesar de numerosas evidencias, siguen negando que estos modelos hayan conseguido ni siquiera un poco de comprensión. Da la sensación de que tienen miedo de que una máquina pueda llegar a ser inteligente.
La anécdota que recoge Mitchell al principio de su libro es muy reveladora. Douglas Hofstadter, el conocido investigador de IA, autor del célebre libro Gödel, Escher y Bach: Un Eterno y Grácil Bucle, terminó diciendo en una reunión en 2014 en Google:
Estoy aterrorizado. Me parece aterrador, muy preocupante, muy triste. Nos sustituirán. Seremos reliquias, nos dejarán tirados.
Mitchell explica después ese terror:
El terror de Hofstadter era que la inteligencia, la creatividad, las emociones e incluso la propia consciencia fueran demasiado fáciles de crear, que los aspectos de la humanidad que más valiosos le parecían acabaran siendo una mera “serie de trucos”, que un conjunto superficial de algoritmos de fuerza bruta pudiera explicar el espíritu humano.
Creo que versiones parecidas a esta idea son las que llevan a estos investigadores críticos a relativizar cualquier avance que se produce. Paradójicamente, creo que también son estas mismas ideas las que alarman a los “apocalípticos” como Geoffrey Hinton. En el fondo temen que nuestra humanidad no sea más que un algoritmo de fuerza bruta aprendido y capturado en miles de millones de parámetros.
Una inteligencia distinta
Cuando empecé a escribir este artículo, no quería hacerlo demasiado largo. Pero, como siempre pasa, una cosa me ha llevado a otra, y al final he terminado abriendo un melón que quería dejar para otro día, el de la consciencia o, por ser más específico, el de la “sentiencia” (traducción literal, creo que no aceptada, del término inglés “sentience”).
Dejo toda la argumentación para otro artículo, pero creo que la forma de escapar de este terror es considerar que lo que nos separa de los LLMs es exactamente lo mismo que nos relaciona con muchos otros seres vivos: la posibilidad de experimentar sensaciones, dolor, placer, miedo o alegría. Los algoritmos actuales (y, en mi opinión, cualquier algoritmo futuro) no son capaces de sentir.
Esto nos libera de muchísimos problemas éticos que sí tenemos con nuestros parientes, como mamíferos, vertebrados e incluso invertebrados más complejos. A diferencia de los algoritmos, estos seres poseen una capacidad de sentir dolor, placer y otros estados emocionales, lo que nos obliga a considerar su bienestar y sus derechos en nuestras decisiones éticas.
La falta de sentiencia en las máquinas nos permite considerarlas como meras “máquinas pensantes” no sintientes y nos permite aceptar una visión en la que “AGI” no equivale a “humano”.
Termino con la cita de Mitchell con la que también concluye su artículo sobre el debate acerca de la comprensión:
El desafío para el futuro es desarrollar nuevos métodos científicos que puedan revelar los mecanismos detallados de comprensión en formas de inteligencia distintas, discernir sus fortalezas y limitaciones, y aprender a integrar esos modos de cognición verdaderamente diversos.
¡Hasta la próxima quincena, nos leemos! 👋👋
James Lovelock (el de la teoría de Gaia) tenía una postura diferente sobre las IA que me parece bastante interesante. Él ve a la humanidad como una responsable de mantener un legado sobre la historia de la vida, y de esta forma, ve a la IA como el siguiente escalón evolutivo. Su enfoque no es una mirada de terror sino más bien con una mirada de inevitabilidad. No serán un peligro para nosotros, en tanto que no nos verán como una peligro para ellas. En sus palabras, "Nos verán como nosotros vemos a los árboles", en el sentido en que vivirán a una velocidad mucho mayor a la nuestra, pensarán mucho más rápido.