Aprendizaje profundo

Los avances recientes brindan una visión teórica de por qué las redes de aprendizaje profundo son exitosas

Crédito: CC0 Public Domain

Los sistemas de aprendizaje profundo están revolucionando la tecnología que nos rodea, desde el reconocimiento de voz que lo conecta con su teléfono hasta los vehículos autónomos que son cada vez más capaces de ver y reconocer los obstáculos que se avecinan. Pero gran parte de este éxito implica prueba y error cuando se trata de las propias redes de aprendizaje profundo. Un grupo de investigadores del MIT revisó recientemente sus contribuciones para una mejor comprensión teórica de las redes de aprendizaje profundo, proporcionando una dirección para que el campo avance.

“El aprendizaje profundo fue en cierto modo un descubrimiento accidental”, explica Tommy Poggio, investigador del Instituto McGovern de Investigación del Cerebro, director del Centro de Cerebros, Mentes y Máquinas (CBMM) y profesor Eugene McDermott de Ciencias Cerebrales y Cognitivas. . “Todavía no entendemos por qué funciona. Se está formando un marco teórico y creo que ahora estamos cerca de una teoría satisfactoria. Es hora de dar un paso atrás y revisar los conocimientos recientes”.

Escalando montañas de datos

Nuestra era actual está marcada por una sobreabundancia de datos atados de sensores económicos de todo tipo, texto, Internet y grandes cantidades de datos genómicos que se generan en las ciencias de la vida. Hoy en día, las computadoras ingieren estos conjuntos de datos multidimensionales, creando un conjunto de problemas denominados “la maldición de la dimensionalidad” por el difunto matemático Richard Bellman.

Uno de estos problemas es que representar una función uniforme y de alta dimensión requiere una cantidad astronómicamente grande de parámetros. Sabemos que las redes neuronales profundas son particularmente buenas para aprender a representar o aproximar datos tan complejos, pero ¿por qué? Comprender por qué podría ayudar a impulsar las aplicaciones de aprendizaje profundo.

“El aprendizaje profundo es como la electricidad después de que Volta descubriera la batería, pero antes que Maxwell”, explica Poggio, quien es el asesor científico fundador de The Core, MIT Quest for Intelligence, e investigador en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) en MIT. “Las aplicaciones útiles fueron ciertamente posibles después de Volta, pero fue la teoría del electromagnetismo de Maxwell, esta comprensión más profunda la que abrió el camino a la radio, la televisión, el radar, el transistor, las computadoras e Internet”.

Cuestiones teóricas en redes profundas. Crédito: Instituto de Tecnología de Massachusetts

El tratamiento teórico de Poggio, Andrzej Banburski y Qianli Liao señala por qué el aprendizaje profundo podría superar problemas de datos como “la maldición de la dimensionalidad”. Su enfoque comienza con la observación de que muchas estructuras naturales son jerárquicas. Para modelar el crecimiento y desarrollo de un árbol no es necesario que especifiquemos la ubicación de cada ramita. En cambio, un modelo puede utilizar reglas locales para impulsar la ramificación jerárquicamente. El sistema visual de primates parece hacer algo similar cuando procesa datos complejos. Cuando miramos imágenes naturales, incluidos árboles, gatos y rostros, el cerebro integra sucesivamente parches de imágenes locales, luego pequeñas colecciones de parches y luego colecciones de conjuntos de parches.

“El mundo físico es composicional, en otras palabras, compuesto de muchas interacciones físicas locales”, explica Qianli Liao, autor del estudio, estudiante graduado del Departamento de Ingeniería Eléctrica e Informática y miembro del CBMM. “Esto va más allá de las imágenes. El lenguaje y nuestros pensamientos son compositivos, e incluso nuestro sistema nervioso es compositivo en términos de cómo las neuronas se conectan entre sí. Nuestra revisión explica teóricamente por qué las redes profundas son tan buenas para representar esta complejidad”.

La intuición es que una red neuronal jerárquica debería ser mejor para aproximar una función de composición que una sola “capa” de neuronas, incluso si el número total de neuronas es el mismo. La parte técnica de su trabajo identifica lo que significa “mejor en la aproximación” y demuestra que la intuición es correcta.

Rompecabezas de generalización

Existe un segundo enigma sobre lo que a veces se denomina la efectividad irrazonable de las redes profundas. Los modelos de redes profundas a menudo tienen muchos más parámetros que datos para ajustarse a ellos, a pesar de las montañas de datos que producimos en estos días. Esta situación debería llevar a lo que se denomina “sobreajuste”, donde los datos actuales se ajustan bien al modelo, pero cualquier dato nuevo se ajusta terriblemente al modelo. Esto se denomina mala generalización en los modelos convencionales. La solución convencional es restringir algún aspecto del procedimiento de ajuste. Sin embargo, las redes profundas no parecen requerir esta restricción. Poggio y sus colegas demuestran que, en muchos casos, el proceso de entrenamiento de una red profunda “regulariza” implícitamente la solución, proporcionando restricciones.

El trabajo tiene varias implicaciones en el futuro. Aunque el aprendizaje profundo se está aplicando activamente en el mundo, hasta ahora esto ha ocurrido sin una teoría subyacente integral. Una teoría del aprendizaje profundo que explique por qué y cómo funcionan las redes profundas, y cuáles son sus limitaciones, probablemente permitirá el desarrollo de enfoques de aprendizaje aún más poderosos.

“A largo plazo, la capacidad de desarrollar y construir mejores máquinas inteligentes será esencial para cualquier economía basada en la tecnología”, explica Poggio. “Después de todo, incluso en su estado actual, hasta muy imperfecto, el aprendizaje profundo está impactando, o está a punto de impactar, casi todos los aspectos de nuestra sociedad y nuestra vida”.


Similar Posts

Leave a Reply