domingo, 20 de enero de 2019

Sobre por qué las redes neuronales funcionan tan bien en machine learning

El vínculo extraordinario entre las redes neuronales profundas y la naturaleza del universo

Nadie entiende por qué las redes neuronales profundas son tan buenas para resolver problemas complejos. Ahora los físicos dicen que el secreto está enterrado en las leyes de la física.

por Emerging Technology from the arXiv


En los últimos años, las técnicas de aprendizaje profundo han transformado el mundo de la inteligencia artificial. Una por una, las habilidades y técnicas que los humanos alguna vez imaginaron eran únicamente nuestras, han comenzado a caer en el ataque de máquinas cada vez más poderosas. Las redes neuronales profundas son ahora mejores que los humanos en tareas como el reconocimiento facial y el reconocimiento de objetos. Han dominado el antiguo juego de Go y han golpeado a los mejores jugadores humanos.

Pero hay un problema. No hay una razón matemática por la que las redes organizadas en capas deban ser tan buenas para estos desafíos Los matemáticos están desconcertados. A pesar del gran éxito de las redes neuronales profundas, nadie está muy seguro de cómo logran su éxito.

Hoy eso cambia gracias al trabajo de Henry Lin en la Universidad de Harvard y Max Tegmark en el MIT. Estos chicos dicen que la razón por la que los matemáticos se han sentido tan avergonzados es que la respuesta depende de la naturaleza del universo. En otras palabras, la respuesta está en el régimen de la física en lugar de las matemáticas.

Primero, configuremos el problema utilizando el ejemplo de clasificación de una imagen en escala de grises de megabits para determinar si muestra un gato o un perro.

Dicha imagen consta de un millón de píxeles que pueden tomar cada uno uno de 256 valores de escala de grises. Entonces, en teoría, puede haber 2561000000 imágenes posibles, y para cada una es necesario calcular si muestra un gato o un perro. Y, sin embargo, las redes neuronales, con solo miles o millones de parámetros, administran de alguna manera esta tarea de clasificación con facilidad.

En el lenguaje de las matemáticas, las redes neuronales funcionan al aproximar funciones matemáticas complejas con otras más simples. Cuando se trata de clasificar imágenes de gatos y perros, la red neuronal debe implementar una función que toma como entrada un millón de píxeles en escala de grises y genera la distribución de probabilidad de lo que podría representar.




El problema es que hay órdenes de magnitud más funciones matemáticas que redes posibles para aproximarse a ellas. Y sin embargo, las redes neuronales profundas de alguna manera obtienen la respuesta correcta.

Ahora Lin y Tegmark dicen que han averiguado por qué. La respuesta es que el universo está gobernado por un pequeño subconjunto de todas las funciones posibles. En otras palabras, cuando las leyes de la física se escriben matemáticamente, todas pueden ser descritas por funciones que tienen un conjunto notable de propiedades simples.

Así que las redes neuronales profundas no tienen que aproximarse a ninguna función matemática posible, solo un pequeño subconjunto de ellas.

Para poner esto en perspectiva, considere el orden de una función polinomial, que es el tamaño de su máximo exponente. Entonces, una ecuación cuadrática como y = x2 tiene orden 2, la ecuación y = x24 tiene orden 24, y así sucesivamente.

Obviamente, el número de órdenes es infinito y, sin embargo, solo un pequeño subconjunto de polinomios aparece en las leyes de la física. "Por razones que aún no se comprenden del todo, nuestro universo puede ser descrito con precisión por los hamiltonianos polinomiales de bajo orden", dicen Lin y Tegmark. Normalmente, los polinomios que describen las leyes de la física tienen órdenes que van de 2 a 4.

Las leyes de la física tienen otras propiedades importantes. Por ejemplo, generalmente son simétricos cuando se trata de rotación y traslación. Gira un gato o un perro 360 grados y se ve igual; Si se traduce a 10 metros o 100 metros o un kilómetro, se verá igual. Eso también simplifica la tarea de aproximar el proceso de reconocimiento de perros o gatos.

Estas propiedades significan que las redes neuronales no necesitan aproximarse a una infinidad de posibles funciones matemáticas, sino a un pequeño subconjunto de las más simples.

Hay otra propiedad del universo que las redes neuronales explotan. Esta es la jerarquía de su estructura. "Las partículas elementales forman átomos que a su vez forman moléculas, células, organismos, planetas, sistemas solares, galaxias, etc.", dicen Lin y Tegmark. Y las estructuras complejas a menudo se forman a través de una secuencia de pasos más simples.

Esta es la razón por la cual la estructura de las redes neuronales también es importante: las capas en estas redes pueden aproximarse a cada paso en la secuencia causal.

Lin y Tegmark dan el ejemplo de la radiación cósmica de fondo de microondas, el eco del Big Bang que impregna el universo. En los últimos años, varias naves espaciales han mapeado esta radiación en una resolución cada vez mayor. Y, por supuesto, los físicos se han preguntado por qué estos mapas toman la forma que tienen.

Tegmark y Lin señalan que cualquiera sea la razón, es sin duda el resultado de una jerarquía causal. "Un conjunto de parámetros cosmológicos (la densidad de la materia oscura, etc.) determina el espectro de potencia de las fluctuaciones de densidad en nuestro universo, que a su vez determina el patrón de radiación de fondo de microondas cósmico que nos llega desde nuestro universo temprano, que se combina con el primer plano. "Ruido de radio de nuestra galaxia para producir los mapas del cielo dependientes de la frecuencia que son grabados por un telescopio basado en satélites", dicen.

Cada una de estas capas causales contiene progresivamente más datos. Solo hay unos pocos parámetros cosmológicos, pero los mapas y el ruido que contienen están compuestos por miles de millones de números. El objetivo de la física es analizar los grandes números de una manera que revele los más pequeños.

Y cuando los fenómenos tienen esta estructura jerárquica, las redes neuronales hacen que el proceso de análisis sea mucho más fácil.

"Hemos demostrado que el éxito del aprendizaje profundo y barato no solo depende de las matemáticas sino también de la física, lo que favorece a ciertas clases de distribuciones de probabilidad excepcionalmente simples que el aprendizaje profundo se adapta únicamente al modelo", concluyen Lin y Tegmark.

Ese es un trabajo interesante e importante con implicaciones significativas. Las redes neuronales artificiales están famosamente basadas en las biológicas. Así que las ideas de Lin y Tegmark no solo explican por qué las máquinas de aprendizaje profundo funcionan tan bien, sino que también explican por qué los cerebros humanos pueden dar sentido al universo. La evolución se ha asentado de alguna manera en una estructura cerebral que es ideal para separar la complejidad del universo.

Este trabajo abre el camino para un progreso significativo en inteligencia artificial. Ahora que finalmente comprendemos por qué las redes neuronales profundas funcionan tan bien, los matemáticos pueden comenzar a explorar las propiedades matemáticas específicas que les permiten rendir tan bien. "Fortalecer la comprensión analítica del aprendizaje profundo puede sugerir formas de mejorarlo", dicen Lin y Tegmark.

El aprendizaje profundo ha dado pasos gigantescos en los últimos años. Con esta comprensión mejorada, la velocidad de avance está destinada a acelerar.