El dogma del deep learning
¿Son las redes neuronales artificiales un buen modelo biológico?
El artículo de McCulloch y Pitts
El artículo de McCulloch y Pitts de 1943, A Logical Calculus of the Ideas Immanent in Nervous Activity, constituyó el trabajo fundacional del conexionismo y de las redes neuronales artificiales (ANNs, en inglés). El artículo parte de lo que se conocía en la época sobre el funcionamiento de las neuronas y establece, de una forma densa y muy matemática (tiene 19 páginas en las que se demuestran hasta diez teoremas) una equivalencia entre el funcionamiento de las neuronas y el de una red de proposiciones lógicas en las que las neuronas representan variables que solo pueden tener dos valores ("all-or-none") que los autores identifican con los valores booleanos TRUE o FALSE.
Cinco años antes, en 1938, Claude Shannon había publicado en el MIT su tesis de máster A Symbolic Analysis of Relay and Switching Circuits, en la que demostraba cómo diseñar circuitos eléctricos concretos que implementaran operaciones lógicas definidas por el álgebra de Boole. Este enfoque práctico permitió construir dispositivos capaces de realizar funciones lógicas básicas como AND, OR y NOT y fue el punto inicial de la vertiginosa década de los 40 en la que investigadores como Von Neumann o Alan Turing diseñaron los primeros ordenadores digitales.
Aunque McCulloch y Pitts no citaron en su artículo a Shannon1, es bastante probable que se inspiraran en su concepto de circuitos lógicos. Si esos circuitos podían ser la base del funcionamiento de los nuevos computadores digitales que se estaban empezando a desarrollar, ¿por qué no podían ser también la forma en la que las neuronas funcionaban? En cualquier caso, ambos artículos se convirtieron en fundacionales y sentaron las bases de la revolución de los computadores digitales de finales de los años 40 y de la revolución actual de la inteligencia artificial. Como curiosidad, ambos modelos estaban basados en el álgebra de Boole, un sistema teórico propuesto 100 años antes por el matemático inglés George Boole. Este es un ejemplo fascinante de cómo un trabajo matemático que en principio solo tiene importancia teórica es la base, un siglo después, de unos avances tecnológicos radicales: los computadores digitales y la Inteligencia Artificial.
El modelo de McCulloch y Pitts con el tiempo ha sufrido algunas modificaciones, siendo la más importante de ellas el modelo de Perceptron introducido por Frank Rosenblatt en 1958. En este modelo se añadían pesos a las conexiones entre las neuronas y se introducía un umbral de activación, que determinaba si una neurona “se activaba” o no (produciendo un 1 o un 0) en función de la suma ponderada de sus entradas. Si la suma superaba el umbral, la neurona se activaba.
En las redes neuronales modernas, este concepto ha evolucionado significativamente. Las funciones de activación actuales, como la sigmoide, la tangente hiperbólica (tanh) o la ReLU (Rectified Linear Unit), permiten que las neuronas tomen valores continuos en lugar de binarios. Por ejemplo, la función sigmoide produce valores en el rango [0, 1], mientras que la tangente hiperbólica los normaliza en el intervalo [-1, 1]. Esta evolución ha dotado a las redes neuronales modernas de mayor flexibilidad y capacidad de aprendizaje, facilitando la representación de relaciones complejas y la propagación eficiente de errores durante el entrenamiento.
Con estas modificaciones, con el descubrimiento de algoritmos eficientes de actualización de los pesos y con la multiplicación exponencial del número de neuronas2, se ha conseguido que las ANNs puedan hacer, en palabras de Ilya Sutskever en su charla en la conferencia NIPS 2024, cualquier cosa que un humano pueda hacer de forma intuitiva:
Pueden hacer cualquier cosa que un ser humano pueda hacer en una fracción de segundo.
El cerebro humano como una enorme red neuronal artificial
Hace más de 80 años, en las conclusiones de su artículo, McCulloch y Pitts realizaban afirmaciones rotundas en las que asimilaban el funcionamiento completo del cerebro al estado de su propuesta red de neuronas lógicas:
La especificación, en un momento dado, de la estimulación aferente y de la actividad de todas las neuronas constituyentes, cada una con un comportamiento de “todo o nada”, determina el estado [global del cerebro]. La especificación de la red nerviosa proporciona la ley de conexión necesaria, mediante la cual se puede calcular, a partir de la descripción de cualquier estado, el estado sucesivo.
Cada idea y cada sensación se realiza a través de la actividad dentro de esa red.
El nivel de autocomplacencia y falta de humildad es sorprendente. Estas afirmaciones no se planteaban como hipótesis o especulaciones futuras, sino como conclusiones definitivas. Sin embargo, carecían de evidencia experimental, ya que se basaban únicamente en una formulación matemática, sin referencias a investigaciones en fisiología neuronal o celular que respaldaran tales ideas.
Curiosamente, parece que el tiempo les ha dado la razón. La noción de que las ANNs representan una abstracción válida del funcionamiento de las neuronas naturales se ha consolidado como el dogma central del conexionismo, como lo describe Ilya Sutskever, quien en la mencionada conferencia NIPS 2024 afirmó:
Es la idea central del aprendizaje profundo: la idea del conexionismo. Es la creencia de que, si aceptas que una neurona artificial es en cierta medida análoga a una neurona biológica, entonces puedes confiar en que redes neuronales muy grandes —aunque no necesariamente tan grandes como el cerebro humano— pueden configurarse para realizar prácticamente todas las tareas que nosotros, como seres humanos, somos capaces de llevar a cabo.
Muchos científicos actuales de IA comparten este enfoque reduccionista. Por ejemplo Oriol Vinyals, investigador destacado de Google DeepMind, declaraba en una entrevista en el podcast de Deep Mind:
Puedes imaginar una neurona conectada a varias otras, y lo que haces esencialmente es sumar todas las activaciones de las neuronas entrantes, multiplicadas por sus respectivos pesos. Es, en esencia, cómo funciona un cerebro, con cierta libertad creativa.
Una de las principales ventajas de esta abstracción ha sido la eficacia en su computación. Las neuronas y sus pesos se pueden representar mediante enormes matrices de números reales, y son procesadas en paralelo por potentes GPUs diseñadas para realizar cálculos masivos de álgebra lineal. Esto ha permitido entrenar ANNs cada vez más grandes y complejas, logrando éxitos espectaculares en reconocimiento de patrones y regularidades, que imitan el desempeño de las redes neuronales biológicas.
Este enfoque reduccionista no es fruto del desconocimiento, sino que es una decisión deliberada de ignorar las complejidades biológicas que subyacen al comportamiento de las redes neuronales naturales. Por ejemplo, Demis Hassabis, tras varios años explorando el funcionamiento biológico de la inteligencia, considera en su artículo Neuroscience-Inspired Artificial Intelligence que es una cuestión de trabajar con el nivel de abstracción correcto, y que éste se sitúa por encima del sustrato neuronal real:
Desde un punto de vista práctico, no necesitamos adherirnos estrictamente a la plausibilidad biológica para construir sistemas de IA. Lo que funciona es, en última instancia, lo que importa. Por lo tanto, la plausibilidad biológica es solo una guía, no un requisito estricto. Nuestro interés radica en una comprensión a nivel algorítmico y computacional del cerebro, dejando de lado el nivel de implementación biológica.
Hassabis hace referencia explícita a los tres niveles de análisis propuestos por David Marr, y considera que el nivel más bajo, el de los mecanismos físicos del sustrato neuronal, es menos relevante:
Nuestro interés radica en los dos niveles superiores de los tres niveles de análisis que Marr estableció para comprender cualquier sistema biológico complejo: el nivel computacional (el objetivo del sistema y el problema que resuelve) y el nivel algorítmico (los procesos y algoritmos que permiten alcanzar ese objetivo). El nivel de implementación, que aborda los mecanismos físicos específicos, es menos relevante aquí.
Los ritmos de las neuronas
Lo que es poco relevante para los ingenieros e informáticos es el día a día de investigación de los neurocientíficos. Y la visión que ellos tienen es completamente distinta.
Por un lado, para simular de forma teórica el funcionamiento de una neurona, deben emplear complejas ecuaciones diferenciales que describen la evolución temporal de distintas concentraciones de iones a través de sus membranas celulares, incluyendo los cambios que ocurren en las sinapsis. Hay conexiones que refuerzan el potencial (excitadoras) y otras que lo inhiben (inhibidoras). Ambas interacciones ocurren como parte de patrones dinámicos de disparo en redes formadas por miles de neuronas conectadas. El resultado de toda esta interacción es una ráfaga de disparos (spikes) de la neurona que, a su vez, se convierte en la entrada para muchas otras neuronas.
Por otro lado, los avances experimentales han permitido observar directamente la actividad neuronal gracias a técnicas como el uso de micro-electrodos, que pueden registrar tanto la actividad de poblaciones completas como la de neuronas individuales. Estos registros han revelado que las neuronas se disparan en patrones temporales precisos, y que la frecuencia de estos disparos puede codificar información. Por ejemplo, en neuronas conectadas a músculos, la intensidad de los disparos puede reflejar la fuerza del movimiento que se requiere, mientras que en otras áreas del cerebro los patrones temporales están asociados con la transmisión de señales sensoriales o cognitivas.
La importancia de los ritmos del cerebro es un campo de creciente interés en la neurociencia actual. Además de los patrones de disparo individuales, se han identificado oscilaciones rítmicas en distintas frecuencias, como theta, gamma y delta, que organizan la actividad neuronal en escalas temporales más amplias.
Jeff Lichtman, destacado neurocientífico de Harvard y pionero en el mapeo del conectoma, destacó en una reciente entrevista en el podcast Mindscape de Sean Carroll que, aunque los avances en la neurociencia han permitido mapear con gran detalle las conexiones neuronales, estas no pueden capturar la complejidad dinámica del cerebro. Como él mismo señala:
Aunque es posible mapear con gran detalle la red de conexiones neuronales, estos mapas no revelan la fuerza de las sinapsis, las no linealidades en la respuesta de las células y, especialmente, el momento en que los diferentes estímulos activan la célula. Hay tanto entradas excitadoras como inhibidoras, además de entradas moduladoras de neurotransmisores. Y todo eso es latente, pero no alcanzable, en el diagrama de conexiones.
Esta dimensión temporal es un fenómeno físico exclusivo de las redes neuronales biológicas, que los modelos conexionistas de deep learning no pueden capturar. Su existencia en el cerebro real sugiere que desempeñan un papel fundamental que aún no comprendemos del todo. Como, según Lichtman, tampoco comprendemos la complejidad del cerebro:
Hay ciertas cosas en el mundo, quizá el cerebro sea un ejemplo, que no tienen simplificación posible. Si la hubiera, los cerebros habrían sido más simples.
¿Para qué sirven las oscilaciones rítmicas del cerebro? ¿Qué codifican? ¿Qué importancia tienen los distintos patrones de disparo de las neuronas?
En el próximo artículo revisaremos estas preguntas con más detalle y plantearé mi especulación favorita: la consciencia podría ser un fenómeno emergente de los patrones oscilatorios del cerebro. Más específicamente, la 'capacidad de sentir' (sentience, en inglés) sería el resultado de los patrones de disparo en las redes neuronales biológicas, presentes en la mayor parte de los seres vivos con sistemas neuronales complejos. Sin embargo, esta capacidad resulta inalcanzable para los sistemas artificiales basados en procesos secuenciales algorítmicos que, por su propia naturaleza, nunca tendrán la capacidad de experimentar sensaciones.
¡Hasta la próxima, nos leemos! 👋👋
En su artículo solo había tres referencias, una de ellas al Principia Mathematica de Russell. Un joven ingeniero de veintipocos años como Shannon, que acababa de graduarse con una tesis de máster, no tenía el pedigrí suficiente para aparecer junto a esos pocos gigantes referenciados.
Se ha pasado de los primeros modelos de decenas de neuronas distribuidas en una o dos capas de las ANNs multi-capa de los años 1980 a las decenas de millones de neuronas distribuida en alrededor de 100 capas de GPT-3 en los años 2020.