Los principales documentos de investigación sobre la IA y el aprendizaje automático del 2020

A pesar de los desafíos del año 2020, la comunidad de investigación de la IA produjo una serie de importantes avances técnicos. El GPT-3 de OpenAI puede ser el más famoso, pero definitivamente hay muchos otros trabajos de investigación que merecen su atención. Por ejemplo, los equipos de Google introdujeron un revolucionario chatbot, Meena, y los detectores de objetos EfficientDet en el reconocimiento de imágenes. Los investigadores de Yale introdujeron un novedoso optimizador AdaBelief que combina muchos beneficios de los métodos de optimización existentes. Los investigadores de OpenAI demostraron cómo las técnicas de aprendizaje de refuerzo profundo pueden lograr un rendimiento sobrehumano en Dota 2. Para ayudarte a ponerte al día con las lecturas esenciales, hemos resumido 10 importantes trabajos de investigación sobre el aprendizaje automático del 2020. Estos artículos te darán una amplia visión de los avances en la investigación de la IA este año. Por supuesto, hay muchos más trabajos de avance que también vale la pena leer. También hemos publicado las 10 listas de los principales trabajos de investigación en procesamiento de lenguaje natural y visión por computador. Además, puedes leer nuestros resúmenes de investigación de primera clase, donde presentamos los 25 mejores trabajos de investigación de la IA en conversación introducidos recientemente. Suscríbete a nuestra lista de correo de Investigación de Inteligencia Artificial al final de este artículopara que te avisen cuando publiquemos nuevos resúmenes. ¿Está interesado en aplicaciones específicas de la IA? Echa un vistazo a nuestros resúmenes de investigaciónde primera calidad que se centran en la investigación de vanguardia de la IA y el ML en áreas de negocio de alto valor, como la IA conversacional y el marketing y la publicidad.

Los mejores trabajos de investigación de IA y ML 2020

1. Un enfoque distribuido de aprendizaje automático multisensorial para la alerta temprana

de terremotos, de Kévin Fauvel, Daniel Balouek-Thomert, Diego Melgar, Pedro Silva, Anthony Simonet, Gabriel Antoniu, Alexandru Costan, Véronique Masson, Manish Parashar, Ivan Rodero y Alexandre Termier

Resumen original

Nuestra investigación tiene como objetivo mejorar la precisión de los sistemas de alerta temprana de terremotos (EEW) por medio del aprendizaje automático. Los sistemas de EEW están diseñados para detectar y caracterizar terremotos medianos y grandes antes de que sus efectos dañinos alcancen una determinada ubicación. Los métodos tradicionales de EEW basados en sismógrafos no logran identificar con precisión los grandes terremotos debido a su sensibilidad a la velocidad del movimiento de la tierra. Por otra parte, las estaciones de GPS de alta precisión introducidas recientemente son ineficaces para identificar terremotos de mediana magnitud debido a su propensión a producir datos ruidosos. Además, las estaciones del SPG y los sismómetros pueden desplegarse en gran número en diferentes lugares y pueden producir un volumen significativo de datos, lo que afecta al tiempo de respuesta y a la solidez de los sistemas de alerta temprana. En la práctica, el EEW puede ser visto como un típico problema de clasificación en el campo del aprendizaje de la máquina: los datos de los multisensores se dan en la entrada, y la severidad del terremoto es el resultado de la clasificación. En este documento, presentamos el sistema distribuido de alerta temprana de terremotos multisensorial (DMSEEW), un novedoso enfoque basado en el aprendizaje automático que combina datos de ambos tipos de sensores (estaciones de GPS y sismómetros) para detectar terremotos medianos y grandes. El DMSEEW se basa en un nuevo método de conjunto de apilamiento que ha sido evaluado en un conjunto de datos del mundo real validado con geocientíficos. El sistema se basa en una infraestructura distribuida geográficamente, lo que garantiza un cálculo eficiente en cuanto a tiempo de respuesta y solidez ante fallos parciales de la infraestructura. Nuestros experimentos muestran que el DMSEEW es más preciso que el enfoque tradicional de sólo sismómetro y que el enfoque de sensores combinados (GPS y sismógrafos) que adopta la regla de la fuerza relativa.

Nuestro resumen

Los autores afirman que los sistemas tradicionales de alerta temprana de terremotos (EEW) que se basan en sismógrafos, así como los sistemas de GPS recientemente introducidos, tienen sus desventajas en lo que respecta a la predicción de terremotos grandes y medianos, respectivamente. Así pues, los investigadores sugieren que se aborde un problema de predicción temprana de terremotos con el aprendizaje automático utilizando los datos de los sismómetros y las estaciones del GPS como datos de entrada. En particular, introducen el sistema de alerta temprana de terremotos distribuidos con multisensores (DMSEEW), que está específicamente adaptado para el cálculo eficiente en ciberinfraestructuras distribuidas a gran escala. La evaluación demuestra que el sistema DMSEEW es más preciso que otros enfoques de referencia en lo que respecta a la detección de terremotos en tiempo real.

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Cuáles son las futuras áreas de investigación?

2. Efficiently Sampling Functions from Gaussian Process Posteriors

, por James T. Wilson, Viacheslav Borovitskiy, Alexander Terenin, Peter Mostowsky, Marc Peter Deisenroth

Resumen original

Los procesos gausianos son el patrón oro de muchos problemas de modelización del mundo real, especialmente en los casos en que el éxito de un modelo depende de su capacidad de representar fielmente la incertidumbre predictiva. Estos problemas suelen existir como partes de marcos más amplios, en los que las cantidades de interés se definen en última instancia mediante la integración de distribuciones posteriores. Estas cantidades son frecuentemente intratables, lo que motiva el uso de los métodos de Monte Carlo. A pesar de los considerables progresos realizados en la ampliación de los procesos gausianos a grandes conjuntos de capacitación, los métodos para generar con precisión las extracciones de sus distribuciones posteriores siguen escalando cúbicamente en el número de lugares de prueba. Identificamos una descomposición de los procesos gausianos que se presta naturalmente a un muestreo escalable al separar los datos anteriores de los datos. A partir de esta factorización, proponemos un enfoque fácil de usar y de uso general para el muestreo posterior rápido, que se combina perfectamente con aproximaciones escasas para permitir la escalabilidad tanto durante la formación como en el tiempo de la prueba. En una serie de experimentos diseñados para probar las propiedades estadísticas y las ramificaciones prácticas de los esquemas de muestreo en competencia, demostramos cómo las trayectorias de muestreo desacopladas representan con precisión los procesos posteriores gausianos a una fracción del costo habitual.

Nuestro resumen

En este trabajo, los autores exploran las técnicas para tomar muestras de manera eficiente de los posteriores del proceso Gaussiano (GP). Después de investigar los comportamientos de los enfoques ingenuos de muestreo y las estrategias de aproximación rápida utilizando las características de Fourier, encuentran que muchas de estas estrategias son complementarias. Por lo tanto, introducen un enfoque que incorpora lo mejor de los diferentes enfoques de muestreo. Primero, sugieren descomponer lo posterior como la suma de un anterior y una actualización. A continuación, combinan esta idea con técnicas de la literatura sobre GP aproximadas y obtienen un enfoque de propósito general fácil de usar para un muestreo posterior rápido. Los experimentos demuestran que las trayectorias de muestras desacopladas representan con precisión los GP posteriores a un coste mucho menor.

Quizás también te interese  ¿Qué podemos esperar de EMUI 12, la próxima gran actualización de Huawei?

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Dónde se puede conseguir el código de implementación?

3. Dota 2 con Aprendizaje de Refuerzo Profundo a Gran

Escala, de Christopher Berner, Greg Brockman, Brooke Chan, Vicki Cheung, Przemysław «Psyho» Dębiak, Christy Dennison, David Farhi, Quirin Fischer, Shariq Hashme, Chris Hesse, Rafal Józefowicz, Scott Gray, Catherine Olsson, Jakub Pachocki, Michael Petrov, Henrique Pondé de Oliveira Pinto, Jonathan Raiman, Tim Salimans, Jeremy Schlatter, Jonas Schneider, Szymon Sidor, Ilya Sutskever, Jie Tang, Filip Wolski, Susan Zhang

Resumen original

El 13 de abril de 2019, el OpenAI Five se convirtió en el primer sistema de IA en derrotar a los campeones mundiales en un partido de deportes. El juego de Dota 2 presenta novedosos desafíos para los sistemas de IA, tales como largos horizontes temporales, información imperfecta y espacios complejos y continuos de acción de estado, todos ellos desafíos que serán cada vez más centrales para los sistemas de IA más capaces. OpenAI Five aprovechó las técnicas de aprendizaje de refuerzo existentes, escaladas para aprender de lotes de aproximadamente 2 millones de fotogramas cada 2 segundos. Desarrollamos un sistema de entrenamiento distribuido y herramientas para el entrenamiento continuo que nos permitieron entrenar a OpenAI Five durante 10 meses. Al derrotar al campeón mundial de Dota 2 (Team OG), OpenAI Five demuestra que el aprendizaje de refuerzo de autojuegos puede lograr un rendimiento sobrehumano en una tarea difícil.

Nuestro resumen

El equipo de investigación de OpenAI demuestra que las modernas técnicas de aprendizaje de refuerzo pueden lograr un rendimiento sobrehumano en un juego de deportes tan desafiante como Dota 2. Los desafíos de esta tarea particular para el sistema de IA radican en los largos horizontes temporales, la observabilidad parcial y la alta dimensionalidad de los espacios de observación y acción. Para abordar este juego, los investigadores escalaron los sistemas de RL existentes a niveles sin precedentes con miles de GPU utilizadas durante 10 meses. El modelo resultante, OpenAI Five, fue capaz de derrotar a los campeones mundiales de Dota 2 y ganó el 99,4% de los más de 7.000 juegos jugados durante la muestra de varios días.

Los principales documentos de investigación sobre la IA y el aprendizaje automático del 2020, Cloud Pocket 365
Arquitectura simplificada del modelo OpenAI Cinco

¿Cuál es la idea central de este trabajo?

Los principales documentos de investigación sobre la IA y el aprendizaje automático del 2020, Cloud Pocket 365
Visión general del sistema de entrenamiento

¿Cuál es el logro clave?

¿Cuáles son las futuras áreas de investigación?

¿Cuáles son las posibles aplicaciones comerciales?

4. Towards a Human-like Open-Domain Chatbot

, de Daniel Adiwardana, Minh-Thang Luong, David R. So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, Quoc V. Le

Resumen original

Presentamos Meena, un chatbot multi-vuelta de dominio abierto entrenado de extremo a extremo en datos extraídos y filtrados de conversaciones de medios sociales de dominio público. Esta red neuronal de parámetros 2.6B está simplemente entrenada para minimizar la perplejidad del siguiente testigo. También proponemos una métrica de evaluación humana llamada Promedio de Sensibilidad y Especificidad (SSA), que captura los elementos clave de una conversación multi-vuelta similar a la humana. Nuestros experimentos muestran una fuerte correlación entre la perplejidad y el SSA. El hecho de que la mejor Meena entrenada en perplejidad de extremo a extremo tenga una puntuación alta en el SSA (72% en la evaluación de múltiples giros) sugiere que un SSA a nivel humano del 86% está potencialmente al alcance si podemos optimizar mejor la perplejidad. Además, la versión completa de Meena (con un mecanismo de filtrado y decodificación afinada) tiene una puntuación del 79% de SSA, un 23% más alto en SSA absoluto que los chatbots existentes que evaluamos.

Nuestro resumen

A diferencia de la mayoría de los agentes de conversación modernos, que son altamente especializados, el equipo de investigación de Google introduce un chatbot Meena que puede chatear sobre prácticamente cualquier cosa. Está construido en una gran red neural con parámetros de 2.6B entrenados en 341 GB de texto. Los investigadores también proponen una nueva métrica de evaluación humana para los chatbots de dominio abierto, llamada Sensibilidad y Especificidad Media (SSA), que puede capturar importantes atributos para la conversación humana. Demuestran que esta métrica se correlaciona altamente con la perplejidad, una métrica automática que está fácilmente disponible. Así pues, el chatbot Meena, que está capacitado para reducir al mínimo la perplejidad, puede llevar a cabo conversaciones más sensatas y específicas en comparación con otros chatbots. En particular, los experimentos demuestran que Meena supera a los actuales chatbots de última generación por un amplio margen en términos de la puntuación del SSA (79% frente a 56%) y está cerrando la brecha con el rendimiento humano (86%).

Los principales documentos de investigación sobre la IA y el aprendizaje automático del 2020, Cloud Pocket 365
Ejemplo de Meena generando una respuesta, «La próxima generación» (Blog de Google AI)

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Cuáles son las futuras áreas de investigación?

¿Cuáles son las posibles aplicaciones comerciales?

¿Dónde se puede obtener el código de implementación?

5. Language Models are Few-Shot

Learners, de Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei

Resumen original

Los trabajos recientes han demostrado que se han obtenido beneficios sustanciales en muchas tareas y puntos de referencia de la PNL mediante la capacitación previa en un gran corpus de texto seguida del ajuste de una tarea específica. Si bien este método es típicamente agnóstico en cuanto a tareas en arquitectura, aún requiere conjuntos de datos de ajuste fino de miles o decenas de miles de ejemplos específicos para cada tarea. Por el contrario, los humanos generalmente pueden realizar una tarea de un nuevo lenguaje a partir de sólo unos pocos ejemplos o de instrucciones simples, algo que los sistemas actuales de PNL todavía tienen dificultades para hacer. Aquí mostramos que la ampliación de los modelos lingüísticos mejora enormemente el rendimiento de las tareas agnósticas y de pocas tomas, llegando a veces incluso a la competitividad con los anteriores enfoques de ajuste de última generación. Concretamente, entrenamos el GPT-3, un modelo de lenguaje autorregresivo con 175.000 millones de parámetros, 10 veces más que cualquier modelo anterior de lenguaje no disperso, y probamos su rendimiento en el escenario de pocas tomas. Para todas las tareas, GPT-3 se aplica sin ninguna actualización de gradiente o ajuste fino, con tareas y demostraciones de pocas tomas especificadas puramente a través de la interacción de texto con el modelo. GPT-3 logra un buen rendimiento en muchos conjuntos de datos de PNL, incluidas las tareas de traducción, de respuesta a preguntas y de encubrimiento, así como varias tareas que requieren un razonamiento sobre la marcha o la adaptación del dominio, como descifrar palabras, utilizar una palabra nueva en una oración o realizar aritmética de tres dígitos. Al mismo tiempo, también identificamos algunos conjuntos de datos en los que el aprendizaje de las pocas tomas de GPT-3 todavía tiene dificultades, así como algunos conjuntos de datos en los que GPT-3 se enfrenta a problemas metodológicos relacionados con la formación en grandes corporaciones web. Por último, encontramos que GPT-3 puede generar muestras de artículos de noticias que los evaluadores humanos tienen dificultades para distinguir de los artículos escritos por humanos. Discutimos los impactos sociales más amplios de este hallazgo y de GPT-3 en general.

Quizás también te interese  Huawei venderá su marca Honor por 15.200M de dólares al gobierno chino y un consorcio

Nuestro resumen

El equipo de investigación de OpenAI llama la atención sobre el hecho de que la necesidad de un conjunto de datos etiquetados para cada nueva tarea de lenguaje limita la aplicabilidad de los modelos de lenguaje. Teniendo en cuenta que existe una amplia gama de posibles tareas y que a menudo es difícil recopilar un gran conjunto de datos etiquetados para la formación, los investigadores sugieren una solución alternativa, que consiste en ampliar los modelos de lenguaje para mejorar el rendimiento de las tareas agnósticas de pocas tomas. Prueban su solución entrenando un modelo de lenguaje autorregresivo de 175B parámetros, llamado GPT-3, y evaluando su rendimiento en más de dos docenas de tareas de PNL. La evaluación en el aprendizaje con pocas tomas, en el aprendizaje con una sola toma y en el aprendizaje con cero tomas demuestra que GPT-3 logra resultados prometedores e incluso supera ocasionalmente el estado de la técnica logrado por los modelos afinados.

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Cuáles son las futuras áreas de investigación?

¿Cuáles son las posibles aplicaciones comerciales?

¿Dónde se puede obtener el código de implementación?

6. Más allá de la precisión: Prueba de comportamiento de los modelos de PNL con CheckList

, por Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, Sameer Singh

Resumen original

Aunque la medición de la precisión de la retención ha sido el enfoque principal para evaluar la generalización, a menudo sobrestima el rendimiento de los modelos de PNL, mientras que los enfoques alternativos para evaluar los modelos se centran en tareas individuales o en comportamientos específicos. Inspirados por los principios de las pruebas de comportamiento en la ingeniería de software, introducimos CheckList, una metodología agnóstica de tareas para probar los modelos de PNL. CheckList incluye una matriz de capacidades lingüísticas generales y tipos de pruebas que facilitan la ideación de pruebas exhaustivas, así como una herramienta de software para generar un gran y diverso número de casos de prueba rápidamente. Ilustramos la utilidad de CheckList con pruebas para tres tareas, identificando fallos críticos en modelos comerciales y de última generación. En un estudio de usuario, un equipo responsable de un modelo de análisis de sentimiento comercial encontró fallos nuevos y procesables en un modelo ampliamente probado. En otro estudio de usuarios, los practicantes de PNL con CheckList crearon el doble de pruebas y encontraron casi tres veces más errores que los usuarios que no la tenían.

Nuestro resumen

Los autores señalan las deficiencias de los enfoques existentes para evaluar el rendimiento de los modelos de PNL. Una sola estadística agregada, como la precisión, dificulta la estimación de dónde está fallando el modelo y cómo arreglarlo. Los enfoques de evaluación alternativos suelen centrarse en tareas individuales o en capacidades específicas. Para hacer frente a la falta de enfoques de evaluación integrales, los investigadores introducen CheckList, una nueva metodología de evaluación para probar los modelos de PNL. El enfoque se inspira en los principios de las pruebas de comportamiento en la ingeniería de software. Básicamente, CheckList es una matriz de capacidades lingüísticas y tipos de pruebas que facilita la ideación de pruebas. Múltiples estudios de usuarios demuestran que CheckList es muy eficaz para descubrir errores procesables, incluso en modelos de PNL extensamente probados.

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Cuáles son las posibles aplicaciones comerciales?

¿Dónde se puede obtener el código de implementación?

7. EfficientDet: Detección de objetos escalable y eficiente

, por Mingxing Tan, Ruoming Pang, Quoc V. Le

Resumen original

La eficiencia de los modelos se ha vuelto cada vez más importante en la visión por computadora. En este trabajo, estudiamos sistemáticamente las opciones de diseño de la arquitectura de la red neuronal para la detección de objetos y proponemos varias optimizaciones clave para mejorar la eficiencia. En primer lugar, proponemos una red piramidal de características bidireccional ponderada (BiFPN), que permite una fusión fácil y rápida de características a múltiples escalas; en segundo lugar, proponemos un método de escalado compuesto que escala uniformemente la resolución, profundidad y anchura para todas las redes troncales, redes de características y redes de predicción de caja/clase al mismo tiempo. Basándonos en estas optimizaciones y en las redes troncales de EfficientNet, hemos desarrollado una nueva familia de detectores de objetos, llamada EfficientDet, que consistentemente logran una eficiencia mucho mejor que la del arte previo a través de un amplio espectro de restricciones de recursos. En particular, con un modelo y una escala únicos, nuestro EfficientDet-D7 alcanza el estado del arte de 52.2 AP en COCO test-dev con parámetros de 52M y 325B FLOPs, siendo 4×-9× más pequeño y usando 13×-42× menos FLOPs que los detectores anteriores. El código está disponible en https://github.com/google/automl/tree/master/efficientdet.

Nuestro resumen

El gran tamaño de los modelos de detección de objetos disuade su despliegue en aplicaciones del mundo real, como la auto-conducción de coches y la robótica. Para abordar este problema, el equipo de investigación de Google introduce dos optimizaciones, a saber: (1) una red piramidal de características bidireccional ponderada (BiFPN) para la fusión eficiente de características a múltiples escalas y (2) un novedoso método de escalado compuesto. Combinando estas optimizaciones con las redes troncales EfficientNet, los autores desarrollan una familia de detectores de objetos, llamada EfficientDet. Los experimentos demuestran que estos detectores de objetos consiguen sistemáticamente una mayor precisión con muchos menos parámetros y sumas múltiples (FLOPs).

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Cuáles son las posibles aplicaciones comerciales?

¿Dónde se puede obtener el código de implementación?

Resumen original

Proponemos un método para aprender categorías de objetos deformables en 3D a partir de imágenes crudas de una sola vista, sin supervisión externa. El método se basa en un autoencoder que factoriza cada imagen de entrada en profundidad, albedo, punto de vista e iluminación. Para desenredar estos componentes sin supervisión, utilizamos el hecho de que muchas categorías de objetos tienen, al menos en principio, una estructura simétrica. Mostramos que el razonamiento sobre la iluminación nos permite explotar la simetría del objeto subyacente, incluso si la apariencia no es simétrica debido al sombreado. Además, modelamos objetos que son probablemente, pero no ciertamente, simétricos, prediciendo un mapa de probabilidad de simetría, aprendido de principio a fin con los otros componentes del modelo. Nuestros experimentos muestran que este método puede recuperar con mucha precisión la forma 3D de los rostros humanos, de los gatos y de los coches a partir de imágenes de una sola vista, sin ninguna supervisión o un modelo de forma previo. En los puntos de referencia, demostramos una precisión superior en comparación con otro método que utiliza la supervisión a nivel de las correspondencias de las imágenes 2D.

Quizás también te interese  Mejores apps para aprender inglés en 2020 | Cursos online nnda nnlt | ECONOMIA | GESTIÓN

Nuestro resumen

El grupo de investigación de la Universidad de Oxford estudia el problema del aprendizaje de categorías de objetos 3D deformables a partir de imágenes RGB de una sola vista sin supervisión adicional. Para descomponer la imagen en profundidad, albedo, iluminación y punto de vista sin supervisión directa de estos factores, sugieren comenzar asumiendo que los objetos son simétricos. Luego, considerando que los objetos del mundo real nunca son completamente simétricos, al menos debido a las variaciones en la pose y la iluminación, los investigadores aumentan el modelo modelando explícitamente la iluminación y prediciendo un mapa denso con probabilidades de que cualquier píxel dado tenga una contraparte simétrica. Los experimentos demuestran que el enfoque introducido logra mejores resultados de reconstrucción que otros métodos no supervisados. Además, supera el reciente método de vanguardia que aprovecha la supervisión de puntos clave.

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Cuáles son las futuras áreas de investigación?

¿Dónde se puede obtener el código de implementación?

9. Una imagen vale 16×16 palabras: Transformers for Image Recognition at Sc

ale, de Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby

Resumen original

Aunque la arquitectura del Transformador se ha convertido en el estándar de facto para las tareas de procesamiento del lenguaje natural, sus aplicaciones a la visión por ordenador siguen siendo limitadas. En la visión, la atención se aplica conjuntamente con las redes convolucionales, o se utiliza para sustituir ciertos componentes de las redes convolucionales manteniendo su estructura general. Demostramos que esta dependencia de las redes convolucionales no es necesaria y que un transformador puro puede funcionar muy bien en las tareas de clasificación de imágenes cuando se aplica directamente a las secuencias de parches de imágenes. Cuando se lo entrena previamente en grandes cantidades de datos y se lo transfiere a múltiples puntos de referencia de reconocimiento (ImageNet, CIFAR-100, VTAB, etc.), el transformador de visión logra excelentes resultados en comparación con las redes convolucionales de última generación, al tiempo que requiere una cantidad sustancialmente menor de recursos computacionales para su entrenamiento.

Nuestro resumen

Los autores de este trabajo presentado anónimamente a ICLR 2021 muestran que un Transformador puro puede funcionar muy bien en las tareas de clasificación de imágenes. Introducen el Transformador de Visión (ViT), que se aplica directamente a las secuencias de parches de imágenes por analogía con las fichas (palabras) en PNL. Cuando se entrena en grandes conjuntos de datos de imágenes de 14M-300M, el Transformador de Visión se aproxima o supera a los modelos de última generación basados en CNN en las tareas de reconocimiento de imágenes. En particular, alcanza una precisión del 88,36% en ImageNet, 90,77% en ImageNet-ReaL, 94,55% en CIFAR-100, y 77,16% en el conjunto de 19 tareas de VTAB.

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Cuáles son las futuras áreas de investigación?

¿Cuáles son las posibles aplicaciones comerciales?

¿Dónde se puede obtener el código de implementación?

10. AdaBelief Optimizer: Adapting Stepsizes by the Belief in Observed Gradients

, por Juntang Zhuang, Tommy Tang, Sekhar Tatikonda, Nicha Dvornek, Yifan Ding, Xenophon Papademetris, James S. Duncan

Resumen original

Los optimizadores más populares para el aprendizaje profundo pueden clasificarse a grandes rasgos como métodos adaptativos (por ejemplo, Adán) o esquemas acelerados (por ejemplo, el descenso de gradiente estocástico (SGD) con impulso). En muchos modelos, como las redes neuronales convolucionales (CNN), los métodos adaptativos suelen converger más rápidamente pero se generalizan peor en comparación con el SGD; en los entornos complejos, como las redes adversas generativas (GAN), los métodos adaptativos suelen ser los predeterminados debido a su estabilidad. Proponemos que AdaBelief logre simultáneamente tres objetivos: una rápida convergencia como en los métodos adaptativos, una buena generalización como en las SGD, y la estabilidad del entrenamiento. La intuición de AdaBelief es adaptar el tamaño del paso según la «creencia» en la dirección del gradiente actual. Viendo la media móvil exponencial (EMA) del gradiente ruidoso como la predicción del gradiente en el siguiente paso temporal, si el gradiente observado se desvía mucho de la predicción, desconfiamos de la observación actual y damos un pequeño paso; si el gradiente observado se acerca a la predicción, confiamos en ella y damos un gran paso. Validamos AdaBelief en amplios experimentos, demostrando que supera a otros métodos con una rápida convergencia y una gran precisión en la clasificación de imágenes y en el modelado del lenguaje. Específicamente, en ImageNet, AdaBelief logra una precisión comparable a la del SGD. Además, en el entrenamiento de un GAN en Cifar10, AdaBelief demuestra una alta estabilidad y mejora la calidad de las muestras generadas en comparación con un optimizador Adam bien afinado. El código está disponible en https://github.com/juntang-zhuang/Adabelief-Optimizer.

Nuestro resumen

Los investigadores presentan AdaBelief, un nuevo optimizador que combina la alta velocidad de convergencia de los métodos de optimización adaptativa y las buenas capacidades de generalización de los esquemas de descenso de gradiente estocástico acelerado (SGD). La idea central del optimizador de AdaBelief es adaptar el tamaño del paso basándose en la diferencia entre el gradiente predicho y el observado: el paso es pequeño si el gradiente observado se desvía significativamente de la predicción, haciéndonos desconfiar de esta observación, y el paso es grande cuando la observación actual se acerca a la predicción, haciéndonos creer en esta observación. Los experimentos confirman que AdaBelief combina una rápida convergencia de métodos adaptativos, una buena generalizabilidad de la familia de los SGD y una alta estabilidad en el entrenamiento de los GAN.

¿Cuál es la idea central de este trabajo?

¿Cuál es el logro clave?

¿Qué piensa la comunidad de la IA?

¿Cuáles son las posibles aplicaciones comerciales?

¿Dónde se puede conseguir el código de implementación?

Ir al contenido