DeepMind resolvió 25 de 30 preguntas, en comparación con 26 para un medallista de oro humano
Un sistema desarrollado por DeepMind de Google estableció un nuevo récord de rendimiento de la IA en problemas de geometría. AlphaGeometry de DeepMind logró resolver 25 de los 30 problemas de geometría extraídos de la Olimpíada Internacional de Matemáticas (OIM) entre 2000 y 2022.
Eso coloca al software por delante de la gran mayoría de los jóvenes matemáticos y apenas por debajo de los medallistas de oro de la OIM. DeepMind estima que el medallista de oro promedio habría resuelto 26 de 30 problemas. Muchos ven la OIM como la competencia de matemáticas para estudiantes de secundaria más prestigiosa del mundo.
“Debido a que los modelos de lenguaje se destacan en la identificación de patrones y relaciones generales en los datos, pueden predecir rápidamente construcciones potencialmente útiles, pero a menudo carecen de la capacidad de razonar rigurosamente o explicar sus decisiones”, escribe DeepMind. Para superar esta dificultad, DeepMind combinó un modelo de lenguaje con un motor de deducción simbólica más tradicional que realiza razonamiento algebraico y geométrico.
La investigación fue dirigida por Trieu Trinh, un científico informático que recientemente obtuvo su doctorado en la Universidad de Nueva York. Fue residente de DeepMind entre 2021 y 2023.
Evan Chen, exmedallista de oro olímpico que evaluó algunos de los resultados de AlphaGeometry, lo elogió como “impresionante, porque es a la vez verificable y limpio”. Mientras que algunos programas anteriores generaban pruebas de geometría complejas que eran difíciles de entender para los revisores humanos, el resultado de AlphaGeometry es similar a lo que escribiría un matemático humano.
AlphaGeometry es parte del proyecto más amplio de DeepMind para mejorar las capacidades de razonamiento de grandes modelos de lenguaje, combinándolos con algoritmos de búsqueda tradicionales. DeepMind ha publicado varios artículos en esta área durante el último año.
Cómo funciona AlphaGeometry
Comencemos con un ejemplo simple que se muestra en el artículo de AlphaGeometry, publicado por Nature el miércoles:
El objetivo es demostrar que si un triángulo tiene dos lados iguales (AB y AC), entonces los ángulos opuestos a esos lados también serán iguales. Podemos hacer esto creando un nuevo punto D en el punto medio del tercer lado del triángulo (BC). Es fácil demostrar que los tres lados del triángulo ABD tienen la misma longitud que los lados correspondientes del triángulo ACD. Y dos triángulos de lados iguales siempre tienen ángulos iguales.
Los problemas de geometría de la OIM son mucho más complejos que este problema de juguete, pero fundamentalmente tienen la misma estructura. Todos comienzan con una figura geométrica y algunos datos sobre la figura, como “el lado AB tiene la misma longitud que el lado AC”. El objetivo es generar una secuencia de inferencias válidas que concluyan con una afirmación dada como “el ángulo ABC es igual al ángulo BCA”.
Durante muchos años, hemos tenido software capaz de generar listas de conclusiones válidas que pueden extraerse de un conjunto de suposiciones iniciales. Los problemas de geometría simples se pueden resolver mediante “fuerza bruta”: enumerar mecánicamente todos los hechos posibles que se pueden inferir a partir de la suposición dada, luego enumerar todas las inferencias posibles a partir de esos hechos, y así sucesivamente hasta llegar a la conclusión deseada.
Pero este tipo de búsqueda por fuerza bruta no es factible para un problema de geometría de nivel OIM, porque el espacio de búsqueda es demasiado grande. Los problemas más difíciles no solo requieren demostraciones más largas, sino que las demostraciones sofisticadas a menudo requieren la introducción de nuevos elementos en la figura inicial, como ocurre con el punto D en la demostración anterior. Una vez que se tienen en cuenta este tipo de “puntos auxiliares”, el espacio de posibles pruebas explota y los métodos de fuerza bruta se vuelven poco prácticos.
Por lo tanto, los matemáticos deben desarrollar una intuición sobre qué pasos de demostración probablemente conducirán a un resultado exitoso. El gran avance de DeepMind fue utilizar un modelo de lenguaje para proporcionar el mismo tipo de guía intuitiva a un proceso de búsqueda automatizado.
El problema con los grandes modelos de lenguaje
La desventaja de un modelo de lenguaje es que no es bueno en el razonamiento deductivo; los modelos de lenguaje a veces pueden “alucinar” y llegar a conclusiones que en realidad no se derivan de las premisas dadas. Entonces, el equipo de DeepMind desarrolló una arquitectura híbrida. Hay un motor de deducción simbólica que deriva mecánicamente conclusiones que se derivan lógicamente de las premisas dadas. Pero periódicamente, el control pasará a un modelo de lenguaje que dará un paso más “creativo”, como añadir un nuevo punto a la figura.
Lo que hace que esto sea complicado es que se necesitan muchos datos para entrenar un nuevo modelo de lenguaje y no hay suficientes ejemplos de problemas de geometría difíciles. Entonces, en lugar de depender de problemas de geometría diseñados por humanos, Trinh y sus colegas de DeepMind generaron una enorme base de datos de problemas de geometría desafiantes desde cero.
Para ello, el software generaría una serie de figuras geométricas aleatorias. Cada uno tenía un conjunto de suposiciones iniciales. El motor de deducción simbólica generaría una lista de hechos que se derivan lógicamente de los supuestos iniciales, luego más afirmaciones que se derivan de esas deducciones, y así sucesivamente. Una vez que hubiera una lista lo suficientemente larga, el software elegiría una de las conclusiones y “trabajaría hacia atrás” para encontrar el conjunto mínimo de pasos lógicos.
A veces, una prueba hacía referencia a un punto de la figura, pero la prueba no dependía de ninguna suposición inicial sobre ese punto. En esos casos, el software podría eliminar ese punto del planteamiento del problema pero luego introducirlo como parte de la prueba. En otras palabras, podría tratar este punto como un “punto auxiliar” que debía introducirse para completar la prueba. Estos ejemplos ayudaron al modelo de lenguaje a aprender cuándo y cómo era útil agregar nuevos puntos para completar una prueba.
En total, DeepMind generó 100 millones de pruebas de geometría sintética, incluidos casi 10 millones que requirieron la introducción de “puntos auxiliares” como parte de la solución. Durante el proceso de capacitación, DeepMind puso especial énfasis en ejemplos que involucraban puntos auxiliares para alentar al modelo a tomar estos pasos más creativos al resolver problemas reales.
Este es el manual de estrategias de DeepMind
Si has seguido el trabajo de DeepMind a lo largo de los años, gran parte de esto te resultará familiar. Uno de los resultados más famosos de DeepMind fue AlphaZero, un sistema de inteligencia artificial que aprendió a jugar Go y ajedrez jugando contra sí mismo. Go es tan complejo que no es práctico hacer una búsqueda por fuerza bruta de posibles secuencias de movimientos. Entonces DeepMind construyó una red neuronal para darle a su IA una “intuición” sobre los movimientos más prometedores. Esta red fue entrenada con datos sintéticos generados al hacer que AlphaZero jugara contra sí mismo.
Más recientemente, DeepMind ha estado experimentando formas de combinar modelos de lenguaje con una búsqueda de árbol estilo AlphaZero. En un artículo ampliamente citado en mayo pasado, los investigadores de DeepMind introdujeron la idea de modelos de lenguaje del “Árbol de los Pensamientos”. En lugar de generar una única cadena de razonamiento, un modelo de Árbol de Pensamientos explora sistemáticamente múltiples cadenas de razonamiento que se “bifurcan” en diferentes direcciones.
El mes pasado, DeepMind anunció FunSearch, que utilizó un modelo de lenguaje para generar programas informáticos para resolver problemas matemáticos difíciles, como el del embalaje de contenedores en línea. FunSearch utilizó un algoritmo genético en lugar de una búsqueda en árbol para explorar el espacio de posibles programas. Pero en un nivel más abstracto, utilizó el mismo enfoque básico que AlphaGeometry: usar un modelo de lenguaje como fuente de “creatividad” y luego usar un programa determinista más tradicional para medir la calidad de cada solución propuesta.
El cofundador y científico jefe de DeepMind, Shane Legg, explicó este enfoque básico en una entrevista en un podcast en octubre de 2023.
“Estos modelos básicos son una especie de modelos mundiales, y para resolver problemas realmente creativos, es necesario comenzar a buscar”, aclaró Legg. “Para lograr una verdadera creatividad es necesario buscar espacios de posibilidades y encontrar estas gemas escondidas”.
Tree of Thoughts, FunSearch y ahora AlphaGeometry son variantes de este tema básico. Los modelos de lenguaje son una buena fuente de ideas prometedoras, pero no son buenos para el razonamiento lógico. A veces cometen errores o se confunden. Por eso, DeepMind ha estado experimentando con la incorporación de modelos de lenguaje en sistemas más grandes que pueden participar en un razonamiento más sistemático.
Y hay rumores de que OpenAI está trabajando en enfoques similares. En noviembre pasado, tras el despido y la recontratación de Sam Altman como director ejecutivo de OpenAI, hubo informes de que OpenAI estaba construyendo un proyecto misterioso llamado Q*. Como escribí en ese momento, es probable que se tratara de un intento de combinar modelos de lenguaje con algoritmos de búsqueda más tradicionales.
No tengo ninguna duda de que este enfoque producirá algunos avances importantes. Pero no estoy convencido (como lo están algunas personas) de que éste sea un paso importante hacia una inteligencia verdaderamente general. Lo que FunSearch y AlphaGeometry tienen en común es que ambos se limitan a dominios en los que tenemos formas automatizadas de evaluar las soluciones propuestas. Y esto significa que los modelos de lenguaje no necesitan comprender en profundidad los problemas que están resolviendo; solo necesitan generar un montón de soluciones que suenen plausibles y luego pasar el resultado a otro algoritmo para comprobar si son buenas.
Pero este tipo de muleta no está disponible para la mayoría de los problemas intelectuales que la humanidad quisiera resolver. Para avanzar en la mayoría de los problemas difíciles es necesario dominar muchos hechos confusos y obtener conocimientos conceptuales profundos sobre cómo funciona el mundo. No es obvio cómo se podrían ampliar las técnicas de proyectos como FunSearch y AlphaGeometry para abordar estos problemas más difíciles.
Tim Lee formó parte del personal de Ars de 2017 a 2021. El año pasado lanzó un nuevo boletín, Understanding AI, que explora cómo funciona la IA y cómo está cambiando nuestro mundo.
(Lea también: Descubren mariposas mutantes en Fukushima
Fuente: es.wired.com
SÍGUENOS EN GOOGLE NEWS