El muro
Para mi generación The Wall fue un doble álbum de Pink Floyd que nos hipnotizó a finales de los 70 y una película de Alan Parker que nos alucinó a principios de los 80. Recuerdo verla en el cine y salir abrumado por esas imágenes delirantes de martillos desfilando y niños convertidos en autómatas por un sistema educativo alienante. Era la época de Reagan y Thatcher y el muro representaba el autoritarismo, la opresión y el control. Vivíamos asustados porque en cualquier momento alguien podía pulsar el botón nuclear. El muro representaba todo eso, y debía ser derribado.
Esta última quincena se ha hablado mucho de un muro distinto, el muro en el escalado de los modelos de lenguaje. En el episodio de esta semana de monos estocásticos y en el artículo de Antonio Ortiz de Error500 se explica muy bien de qué se trata. Miradlo ahí para una información detallada.
Hoy solo voy a dar unas pinceladas rápidas, con algunos enlaces y con mi opinión personal.
El 9 de noviembre, The Information publicó el artículo OpenAI Shifts Strategy as Rate of ‘GPT’ AI Improvements Slows. No he podido leer el artículo porque es de pago, y no he encontrado ninguna versión libre. Unos días después Reuters publicó otro artículo que incluía algunas declaraciones de Ilya Sutskever en la línea de que hay que probar cosas nuevas, y no es suficiente con solo escalar. Y entre medias se conoció un paper, Scaling Laws for Precision, hilo en X que también evidencia problemas en el escalado de los modelos. Todo negativo, nada positivo.
A todo esto hay que sumar que llevamos un año y medio desde que se lanzó GPT-4 y todavía no se ha lanzado ningún modelo más grande. No ha aparecido ni GPT-5, ni Claude 3, ni Gemini 2. El siguiente paso en el escalado (un modelo con más de 10T parámetros) está tardando en llegar.
Todo esto ha empezado a arrojar sospechas sobre la gran hipótesis que está moviendo la industria en los últimos años. ¿Van a ser inútiles todos los grandes planes de las tecnológicas de construir enormes centros de datos en los próximos años? ¿Va a pinchar NVIDIA? ¿Va a explotar la burbuja?
Menos mal que todo se calmó al final de la quincena, cuando Altman nos dio una alegría, diciendo que todo esto no son más que inventos, que no hay muro.
¿Podemos creer lo que dice Altman? Vamos con mi opinión personal. Esta quincena he escuchando dos entrevistas muy interesantes. La primera ha sido la de Dwarkesh Patel a Gwern Branwen1, una de las primeras personas en proponer la hipótesis de escalado.
Aunque la hipótesis ya se había planteado en un paper de OpenAI de enero de 2020, Scaling Laws for Neural Language Models (y mucho antes, en 2015, Andrej Karpathy se había adelantado al futuro con su post The Unreasonable Effectiveness of Recurrent Neural Networks), fue el post de Gwern el que se hizo viral y el que dio a conocer esta idea al gran público.
La otra entrevista de la quincena ha sido en el podcast Machine Learning Street Talk con François Chollet.
Es una entrevista muy técnica, con detalles muy interesantes. Estoy estudiándola en profundidad y haré un comentario en un próximo artículo.
En las dos entrevistas se habla de cómo se puede explicar el funcionamiento de los LLMs. Lo que hacen estas redes neuronales es aprender un ingente número de programas (funciones) que predicen el siguiente token y construir a su vez nuevas funciones, explorando el enorme espacio de posibles combinaciones y quedándose con las mejores.
Aunque Chollet ha dicho muchas veces que los LLMs no pueden llegar a ser AGIs (y, de ahí, su competición de ARC), su crítica se basa en su incapacidad de enfrentarse a las novedades y la poca eficiencia del algoritmo de descenso por gradiente para recombinar la estructura del LLM a partir de unas pocas muestras. A diferencia de lo que muchos han entendido, Chollet no dice que los LLMs no son capaces de generalizar. De hecho dice explícitamente en la entrevista que los LLMs sí que construyen modelos a partir de los datos de entrenamiento. Y que esos modelos son funciones que definen curvas que permiten a los LLMs interpolar. Pero (y esta es mi interpretación) esas curvas pueden serlo en un espacio súper abstracto, como por ejemplo, el estilo literario o el análisis de opinion (positiva, negativa o neutra) de un texto.
Gwern habla también de lo mismo, aunque usa el término Máquinas de Turing (MT) para referirse a lo que aprenden los LLMs. Es lo mismo. Cuando hablamos de MTs estamos hablando de algoritmos. Los LLMs aprenden algoritmos que permiten predecir el siguiente token de una secuencia. Como decía Karpathy las redes neuronales son irrazonablemente efectivas en ello o como decía Sutskever los modelos solo quieren aprender.
Entonces, la versión de la tesis del escalado que ahora mismo tengo en la cabeza se podría formular de la siguientes forma:
Los LLMs crean una cantidad ingente de funciones que les sirven para predecir el siguiente token.
Cuanto más grandes son los LLMs (y se han entrenado como un número mayor de datos, y han estado más tiempo siendo entrenados) estas funciones tienen un nivel de abstracción mayor y pueden generalizar mejor los datos de entrenamiento. Por ejemplo, los LLMs más pequeños son capaces de detectar regularidades sintácticas (después de un artículo viene un nombre) y los más grandes detectan regularidades semánticas (“el mar es azul”, “una mesa puede tener objetos encima” o “un coche circula por una carretera”).
Sí que me creo lo que han dicho gente de la industria, que todavía se pueden escalar dos generaciones más los modelos actuales. Sé que todas estas personas tienen intereses comerciales, pero no veo razones que impidan este escalado. No creo, por ejemplo, que haya un muro en los datos de entrenamiento. Se pueden generar de forma artificial o por expertos que escriben libros de ejercicios. También queda por explorar el uso de secuencias reales de vídeo de 25 fps, no los 1 fps que se están usando ahora. Pero para eso hará falta mucha más potencia computacional.
Veremos. Como dice Antonio Ortiz en su artículo, lo bueno es que no tardaremos mucho en comprobar si esto es así o no. El año que viene debe ser el año en el que aparezca el próximo gran modelo, ya sea GPT-5, Gemini 2 o Grok 3. Pronto sabremos si el escalado sigue funcionando.
Como Mulder, yo quiero creer. Llegó Gorvachov. Reagan ganó la Guerra Fría y otro muro cayó en 1986. Pero ahora, 40 años después, estamos más o menos igual que en los 80, incluso peor.
Todos los de mi generación vimos también en esa época la película en la que el superordenador WOPR estuvo a punto de desencadenar la guerra nuclear definitiva2. El ordenador tenía una puerta trasera con la que se podía acceder a su verdadera personalidad. Se llamaba realmente Joshua y, al final, consigue generalizar correctamente y alinearse con los valores humanos:
Este es un juego extraño. La única forma de ganarlo es no empezarlo.
Stephen Falken había programado ese ordenador y le había llamado Joshua en honor a su hijo fallecido. Las razones que tienen los Falken de hoy en día son más prosaicas. Pero me gustaría creer que el resultado va a ser el mismo. Que Altman, Amodei, Sutskever, Karpathy, Chollet, Murati y demás residentes en San Francisco nos van a llevar a la tecno-utopía de GPT-2030, llena de máquinas de gracia compasiva.
¡Hasta la próxima, nos leemos! 👋👋
Gwern Branwen es un apodo. Es una figura anónima que lleva años construyendo Gwern.net, un ingente hipertexto en el que va anotando todas sus ideas. No solo escribe el contenido, sino que es el autor del software que lo gestiona, disponible en abierto en GitHub. La entrevista es excepcional. No solo por su contenido, sino por su valor como la primera aparición pública de un personaje brillante y enigmático. Aunque es una aparición pública parcial, porque la imagen de vídeo está generada por ordenador y la voz no es la del propio Gwern. Gwern declara en la entrevista que es sordo desde su infancia, y que tiene reparos a aparecer con su propia voz.
Parece que la entrevista va a ser un punto de inflexión en su vida y que va a dejar de vivir en una modesta casa con 12.000 dólares al año para pasar a mudarse a San Francisco.
Algunos quisimos ser Mathew Brodderick, nos compramos un Spectrum y nos enganchamos para siempre a esto de la informática y la programación.
Algo que me hace pensar que el muro existe, o que al menos está cerca, es que OpenAI haya sacado el modelo o1. No te pones a optimizar en la inferencia si tienes mucho margen de mejora en el entrenamiento. Sea como sea, lo que hay disponible ahora no se ha optimizado al máximo ni se está usando aún de forma general (en empresa al menos). O sea que bienvenido sea el muro.