Del 16 al 30 de junio (#12 de 2024)
Temperatura del planeta (otra vez), Gen-3 Alpha, François Chollet, nuevos LLMs y una reflexión sobre su evolución futura.
Un viernes más comentando lo sucedido en la quincena pasada, del 16 al 30 de junio. Una quincena con muchas novedades y reflexiones sobre los LLMs. Muchas novedades, y también muchas incertidumbres.
¡Gracias por leerme!
🗞 Noticias
1️⃣ Ahora que ha llegado el verano, es un buen momento de repasar la evolución de la temperatura global del planeta de la que hablamos en abril. Todos los datos están sacados, como en la anterior entrada, de la web https://climatereanalyzer.org/ del Climate Change Institute de la universidad de Maine. ¿Tendremos un verano tan caluroso como el del año pasado?
La temperatura del aire en el hemisferio norte nos da algo de esperanza.
La línea naranja muestra la temperatura del año pasado. A comienzos de julio fue de 21,7 ºC (+1,1 ºC sobre la media) y terminó el mes siendo 22,7 ºC (+1,4 ºC). La línea negra gruesa es la temperatura de este año. Parece que empieza a bajar, pero todavía es pronto para sacar conclusiones. Mejor verlo en un par de semanas, cuando estemos a mitad de mes.
La gráfica que más nos refresca es la temperatura del mar en el hemisferio norte, que por fin está más baja que la del año pasado.
¿Puede ser que ya haya terminado El Niño? ¿Que ya estén empezando a desaparecer los efectos del vapor de agua de la erupción del Hunga Tonga? Crucemos los dedos para que la línea negra siga avanzando en horizantal.
2️⃣ El 17 de junio, la empresa Runway presentó su nuevo modelo de generación de secuencias de vídeo Gen-3 Alpha. Los vídeos son secuencias de unos pocos segundos, con una gran calidad y consistencia, similares a los que ya vimos del modelo de OpenAI, Sora.
A diferencia de OpenAI, Runway ya ha abierto el acceso a la herramienta. Para generar vídeos con este último modelo debes suscribirte al plan de pago, de $12 al mes. Yo ya tengo bastante con pagar a OpenAI y este mes ya me he gastado el presupuesto para caprichos en Sonnet 3.5. Pero en X se pueden ver un montón de ejemplos de gente que lo está probando. Por ejemplo, los espaghettis danzarines de Javi López.
Hay alguien que incluso ha publicado en Reddit una comparativa entre los vídeos generados por Sora y los de Gen-3 Alpha, usando los prompts del vídeo de promoción de OpenAI.
Sigo diciendo lo que ya comenté en febrero. Me parecen avances impresionantes, pero tenemos muy poco control sobre el resultado y no creo que sea posible escalar su uso a producir un corto o una película. Ni tampoco me interesa. Cuando voy al cine quiero ver algo creado por personas e interpretado por personas. Y si es una película de animación, quiero ver una obra consistente, coherente, que me transmita sensaciones mediante secuencias diseñadas y dirigidas por autores humanos, que vuelcan toda su experiencia en una obra. No me interesa lo que genera una IA de forma aleatoria en el marco de un prompt de texto.
3️⃣ François Chollet ha aparecido en varios podcasts, como resultado de la repercusión de su competición ARC de la que hablamos la quincena pasada. Después de escuchar completas las entrevistas que le hacen Dwarkesh Patel y Sean Carroll, me he convertido en un fan total. Chollet lleva trabajando con redes neuronales y deep learning desde mediados de la década pasada y su librería Keras para redes neuronales es ampliamente usada en la comunidad. Se trata de una persona muy técnica, que sabe de lo que habla.
El podcast con Dwarkesh Patel ya lo referenciamos la quincena pasada. Pongo a continuación los enlaces a los podcasts mencionados, sus transcripciones y algunos comentarios y citas de sus transcripciones.
El podcast de Dwarkesh Patel:
Su transcripción se puede encontrar en substack.
Me ha parecido interesantísima la idea de Chollet de interpretar los LLMs como una “gran memoria interpolativa”, una enorme colección de programas que implementan patrones aprendidos durante el aprendizaje. Cuando a un LLM se le hace una consulta, realiza una interpolación entre los patrones que se ajustan mejor a la respuesta.
“La forma en que funcionan los LLM es que básicamente son una gran memoria interpolativa. La forma en que aumentas sus capacidades es tratando de meter la mayor cantidad posible de conocimiento y patrones en ellos.”
Según Chollet, esta forma de funcionar de un LLM solo le permite una inteligencia muy limitada, no es capaz de combinar los programas que ha aprendido para, en un proceso de búsqueda, inventar un nuevo "programa" que resuelva una situación novedosa, no incluida en su base de datos de aprendizaje. Para Chollet, la posibilidad de realizar búsquedas combinatoriales es un elemento fundamental de la inteligencia. Por ejemplo, cuando jugamos al ajedrez o al Rummikub, debemos buscar posibles combinaciones y escoger la mejor. Esto no lo puede hacer un LLM:
Para obtener novedades, necesitas búsqueda. Los LLMs no pueden realizar búsquedas, solo pueden realizar interpolación.
Para Chollet los LLMs son herramientas poderosas para la memorización y la aplicación de conocimientos y patrones conocidos, pero carecen de la capacidad de adaptarse y crear soluciones novedosas, lo cual es crucial para alcanzar una verdadera inteligencia general.
Chollet también es crítico con que el escalado de los modelos lleve a modelos que generalizan mejor. Para él, lo que pasa es que aumentan la cantidad de habilidades y de datos, pero eso no significan que sean más inteligentes:
“Si amplías tu base de datos y sigues añadiendo más conocimiento y plantillas de programas a ella, entonces, claro, se vuelve más y más hábil. Puedes aplicarlo a más y más tareas. Pero la inteligencia general no es una habilidad específica de tarea ampliada a muchas habilidades, porque existe un espacio infinito de posibles habilidades.”
A pesar de todo esto, Chollet defiende que los LLMs tienen su utilidad y su aplicación. Dice que los LLMs, como otros sistemas de deep learning, pueden reconocer y aplicar patrones de manera eficiente. Por ello son excelentes para la inteligencia de "tipo 1", inteligencia basada en la intuición, el reconocimiento de patrones y la memorización. Este tipo de inteligencia es rápido y automático, utilizado para tareas que no requieren un razonamiento profundo o deliberado. Sin embargo, existe otra forma de inteligencia humana, lenta y deliberada, basada en el razonamiento, la planificación y la síntesis de nuevos programas o soluciones.
François Chollet sugiere que, para avanzar hacia una verdadera inteligencia general, es necesario desarrollar sistemas híbridos que combinen el aprendizaje profundo con la búsqueda y exploración para generar nuevos programas, combinando los ya aprendidos. De esta forma se podría aprovechar las fortalezas de ambos tipos de inteligencia.
La entrevista con Sean Carroll en su Mindscape podcast está disponible en el siguiente enlace:
Y la transcripción está el blog de Sean Carroll.
La entrevista es muy interesante, más didáctica que la primera. Carroll pide más de una vez aclaraciones sobre aspectos que la audiencia puede que no entienda (algoritmos genéticos, transformers, espacios vectoriales, etc.) y Chollet se esfuerza en explicarlos.
Chollet se moja bastante en la entrevista y argumenta que hemos llegado a una especie de meseta en la mejora de los LLMs, debida a la falta de datos de entrenamiento:
“La curva [que representa la mejora de los LLMs] necesita ajustarse a algo. La curva es literalmente solo una representación de un conjunto de datos de entrenamiento. Si te has quedado sin datos, entonces, ¿cómo mejoras el modelo? Bueno, una forma es que puedes intentar curar mejor tus datos de entrenamiento. Así que no aumentas la escala de los datos de entrenamiento, pero puedes aumentar la calidad. Esa es realmente una forma muy prometedora de mejorar los modelos de lenguaje grande. Es en realidad la forma en que los modelos de lenguaje grande siguen mejorando hoy en día. Ya nos hemos quedado sin datos. Así que la siguiente etapa es que curamos mejor los datos. No estamos entrenando los modelos de lenguaje grande con más datos, en realidad los estamos curando. Técnicamente, todavía estamos recolectando nuevos datos de evaluadores humanos. Así que hay un poco de aumento, pero en balance, en realidad está disminuyendo. Pero no vas a encontrar mágicamente mil veces más datos nuevos y no redundantes para entrenar estos modelos. Simplemente no existen. Ni siquiera vas a encontrar el doble. Y esa es la causa de la meseta que hemos estado viendo.”
Y esta meseta va a causar una decepcion:
“Esa es la causa de la meseta que hemos estado viendo. Y algo como GPT-5 probablemente será lanzado a finales de este año. Va a ser una gran decepción porque no va a ser significativamente mejor que GPT-4.”
Por último, sobre los problemas que nos puede traer la IA, y sobre el riesgo existencial de la IA, Chollet tiene una postura muy similar a la que ya hemos comentado por aquí en otras ocasiones. Incluso en el caso de que llegue la AGI, no será más que una herramienta que podremos usar. El problema será en su uso, pero no en que la propia AGI nos quiera exterminar:
"La inteligencia en sí misma es solo una herramienta. Es solo una forma de lograr objetivos. Si no la conectas con la capacidad de establecer objetivos autónomos, entonces es bastante inofensiva. No es completamente inofensiva porque estará en manos de humanos y los humanos son peligrosos. Así que es peligrosa en ese sentido, ya que las personas podrían usarla potencialmente con malos propósitos, pero no es peligrosa en el sentido de que compita con la especie humana."
4️⃣ En la segunda quincena de junio se han lanzado dos nuevos LLMs interesantes: Anthropic ha lanzado Claude Sonnet 3.5 y Google ha lanzado el modelo open source de 27B Gemma-2.
Ambos lanzamientos siguen la tendencia de las últimas semanas de lanzar modelos pequeños mejor entrenados. El modelo de Anthropic es la siguiente versión del modelo mediano de la familia Claude y el modelo de Google es la siguiente versión de su modelo abierto Gemma.
Hace solo tres meses (numero 5 de 2024) comentábamos que Anthropic había lanzado su familia 3.0 de modelos: Haiku, Sonnet y Opus. El último era el más potente, en la liga de GPT-4. Los modelos Sonnet y Haiku son modelos más pequeños, más rápidos y más baratos en coste de inferencia.
Solo tres meses después Anthropic publica la siguiente figura:
Sonnet ahora es el modelo más potente de Antrhopic, superando a un modelo de mayor. Pasó lo mismo con Gemini 1.5 Pro (del que hablamos en el número 4 de 2024). Google sacó la siguiente versión del modelo mediano (el Pro), dejando para el futuro la del modelo más grande, el Ultra.
Anthropic muestra las siguientes puntuaciones de Sonnet 3.5 en los benchmarks más populares, superando a Opus 3 y, en muchos casos, a GPT-4o, el modelo líder de OpenAI en la actualidad.
Sonnet también es multimodal, capaz de interpretar imágenes. Y Anthropic lo ha lanzado junto con la funcionalidad llamada artifacts, una ventana junto a la conversación en la que el modelo puede ejecutar código.
Por ejemplo, la siguiente película es el resultado de una sesión en la he ido indicando a Sonnet cómo crear un juego. El planteamiento inicial era mover un cuadrado azul por la pantalla y hemos terminado haciendo una versión libre de Pong. Sonnet generaba el código y yo iba comentándole funcionalidades a añadir, del tipo de "Haz que aparezca una estrella que hay que evitar". O "El juego es un poco aburrido, haz que vayan aumentando el número de estrellas". El resultado final (y todo el proceso) es increíble.
5️⃣ Termino con una reflexión sobre la evolución de los LLMs. En un post en X Jim Fan publica la siguiente imagen:
Vemos que la imagen da respuesta a una de las preguntas que nos hacíamos a principios de año: ¿era replicable GPT-4?. Cuando GPT-4 se presentó en marzo de 2023 muchos nos preguntamos si el enorme salto con GPT-3.5 era debido a algún conocimiento exclusivo de OpenAI que sería difícil de replicar por otras empresas. Ha pasado ya un año y la figura anterior nos muestra que la respuesta es que no, que OpenAI no tiene una receta exclusiva para hacer LLMs y que otras empresas (Google, Anthropic, Meta) han alcanzado o van a alcanzar pronto a GPT-4, incluso con modelos más pequeños.
Había una segunda pregunta por responder. ¿Seguirá escalando la inteligencia de los modelos cuando se hagan más grandes? El número de parámetros de GPT-3.5 era de 175 mil millones (175B, billions en inglés). OpenAI nunca ha desvelado el número de parámetros de GPT-4, pero al CEO de Nvidia, Jensen Huang, se le escapó que era de 1,8T (1,8 billones en español). Poniéndolo en las mismas unidades, tenemos a GPT-3.5 con 0,175T parámetros y a GPT-4 1,8T parámetros. O sea, que GPT-4 es un orden de magnitud mayor que GPT-3.5.
Todos estamos esperando el lanzamiento de GPT-5, el próximo modelo grande de OpenAI. Presumiblemente, será un orden de magnitud mayor, con alrededor de 20T parámetros. Hay algunas estimaciones del tiempo necesario para realizar el entrenamiento de este modelo y de cómo va a evolucionar este tiempo con las nuevas GPUs de Nvidia:
OpenAI comenzó a entrenar GPT-5 a finales de diciembre de 2023 usando GPUs H100.
Se espera que el entrenamiento dure 3 meses y que se complete para finales de marzo de 2024.
Para GPT-5, se predice el uso de al menos 50,000 GPUs H100, en comparación con las 20,000 A100 usadas para GPT-4.
El modelo tendrá alrededor de 20T de parámetros.
El proceso de afinamiento y pruebas adicionales tomaría de 3 a 5 meses, con una posible fecha de lanzamiento en julio o agosto de 2024.
Microsoft podría tener acceso a 500,000 GPUs H100 para finales de 2024
OpenAI podría usar hasta 250,000 GPUs H100 para entrenar un modelo de 50T de parámetros en el tercer trimestre de 2024.
Existe la posibilidad de lanzar un modelo intermedio (GPT-4.5) con 10T de parámetros y retrasar GPT-5 hasta diciembre de 2024.
La llegada de GPUs B200 para finales de 2024 permitirá entrenar modelos con decenas de billones de parámetros (20T, 30T, 40T, ... parámetros).
Todas las grandes tecnológicas están en esta carrera y, por eso, Nvidia es actualmente la empresa tecnológica con mayor capitalización. No dan abasto vendiendo GPUs.
Dentro de poco, cuando se hagan públicos estos modelos que se están entrenando en la actualidad, veremos si el salto de magnitud en número de parámetros representa también un salto de magnitud en "inteligencia", y si se sigue cumpliendo la ley de escalado de los modelos de lenguaje.
Ya hay alguna diapositiva que está siendo usada por gente de OpenAI que pronostica que el salto va a ser enorme:
Y también van en esta línea las últimas declaraciones de personas que seguro que ha tenido contacto con los primeros resultados de estos nuevos modelos, como Bill Gates, Dario Amodei o Demis Hassabis.
Por ejemplo, Gates habla de las dos siguientes generaciones LLMs en el siguiente vídeo, sacado de una interesante conversación mucho más larga, disponible en YouTube. Es un vídeo editado y publicado en X por Tsarathustra (no os dejéis engañar por el título, publica vídeos y noticias muy interesantes).
Gates dice dos cosas importantes: primero, va a haber un salto importante en las dos siguientes generaciones de LLMs (llamémoslas GPT-5 y GPT-6). Para este salto se va a necesitar aumentar también en órdenes de magnitud los datos de entrenamiento y se va a tener que usar vídeo1.
Lo segundo que comenta es muy similar a lo que comentamos antes de Chollet (y lo que siempre ha mantenido LeCun): escalar los LLMs va a producir mejoras, pero no nos va a traer la AGI. Para eso va a ser necesario desarrollar otros algoritmos y estrategias que permitan implementar “meta-cognición” que permita a la IA reflexionar sobre los pensamientos que está generando.
¿Permitirá el escalado acercarse a la AGI? ¿O estamos viendo ya sus límites? Yo creo que todavía es pronto para sacar una conclusión definitiva. Creo que la idea de Chollet de que los LLMs aprenden patrones de programas permite argumentar que LLMs más grandes y mejor entrenados pueden generalizar mejor esos patrones, no solo aumentar su número. Y los problemas que siempre ha comentado LeCun de que el texto no es suficiente para aprender un modelo físico del mundo puede que sean superados cuando se entrene a los LLMs directamente con secuencias de vídeo, quizás dentro de un par de generaciones (GPT-6 o GPT-7). O quizás tienen razón LeCun y Chollet y ya hemos llegado al tope de lo que se puede hacer con la tecnología de los LLMs y los transformers.
Como siempre decimos por aquí, lo veremos. Todavía es pronto para saberlo, podremos decir algo más definitivo dentro de tres o cuatro años. Mientras tanto, siempre podemos hacer apuestas.
👷♂️Mis quince días
🍿Cine
Me decepcionó un poco Un lugar tranquilo: Día 1. La vi un poco lenta y aburrida y no terminé de conectar. Más floja que las anteriores. Y me divertí mucho con En las profundidades del Sena en Netflix. Una peli de tiburones, de las que les gustaría a Claire y Phil.
De todas las de la quincena, destaco The Greatest Hits, en Disney. Una bonita historia de amor, música y saltos temporales. Es la segunda película del director Ned Benson y tiene como intérpretes a un trío de chicos guapísimos: la estupenda Lucy Boynton (protagonista también de otra peli que vi hace poco y que también me encantó: Sing Street), el próximo Superman, David Corenswet, y Justin H. Min, que me sonaba de haberlo visto en The Unmbrella Academy.
Tengo que hacer una lista en Letterboxd con todas las películas y series de este tipo que me han encantado: Begin Again, Sing Street o Daisy Jones (y School of Rock, why not!). ¡Bueno, ya la he hecho! 😄
📺 TV
Muy entretenida la serie de Apple TV+ Materia Oscura. Nos ha gustado mucho.
Como siempre con Apple, una producción excelente. Y sobre la temática, a pesar de que el concepto de multiverso está ya demasiado gastado, no recuerdo muchas películas ni series que lo traten demasiado bien (lo siento, no he visto Fringe). Pero esta historia de Blake Crouch sí lo hace de una forma solvente. Es bastante original, tiene buenos giros que sorprenden y el multiverso no es una excusa, sino que es el elemento principal de la historia. Muy bien Joel Edgerton y Jimmi Simpson. Y correctas Jennifer Connelly y Alice Braga, tampoco daban para mucho más sus personajes.
¡Hasta la próxima quincena, nos leemos! 👋👋
Aunque los LLMs más avanzados son multimodales, no se han entrenado realmente con secuencias completas de vídeo, sino con instantáneas, imágenes estáticas extraídas del vídeo. El cine ha demostrado que necesitamos al menos 24 imágenes por segundo para percibir un movimiento como continuo. Seguro que no son necesarios tantos FPS (frames por segundo) para entrenar los LLM con vídeo. Pero incluso para un entrenamiento con 5 o 10 FPS se necesitaría una capacidad de cálculo dos o tres ordenes de magnitud mayor que en la actualidad.