A Rényi Intézet rendszeres Deep Learning szemináriumot szervez. A szemináriumot elsősorban azoknak szánjuk, akik tisztában vannak a deep learning alapfogalmaival, és érdeklődnek a téma elméletibb (illetve kevésbé domén-specifikus) fejezetei iránt.
A szeminárium rögzített időpontja szerda 16:00-17:30, 2-3 hetente jelentkezik majd.
Az első alkalom október 21. 16:00-kor lesz.
Az előadó: Daróczy Bálint (SZTAKI).
Előadásának címe: Információ geometria, nagyméretű neuronhálók általánosítóképessége
ReLU hálózatok a bemeneti teret lineáris régiókra bontják, ezen területek számossága meglepő módon nem vagy alig változik a tanulás során (Hanin & Rolnick, ICML 2019). Kérdés, ha nem változik a lineáris régiók száma, mi változik és miért?
Miután a Fisher információ alapú másodrendű gradiens tanítás nem igazán lehetséges a gyakorlatban több technikai ok miatt, a K-FAC közelítés és módosításai (Martens & Grosse, ICML 2015) már alkalmasak, hogy a modellek generalizációs képességeit összeköthessük a jellemzően Riemann sokaságok tulajdonságaival.
Mindezek együttesen felvetnek érdekes kérdéseket az uniform konvergencia (Sontag, 1998) használhatóságával kapcsolatban komplex neurális hálózatok esetén (Nagarajan & Kolter, NeurIPS 2019). Kérdés, hogy amennyiben nem feltételezünk uniform konvergenciát, milyen formában érdemes a modellek generalizációs képességének vizsgálatát elkezdeni (pl. folytonos perturbáció vs. kép tükrözés → megszámlálható számosságú folytonos részhalmazok halmaza?)?
Hivatkozások:
Boris Hanin and David Rolnick. Complexity of linear regions in deep net- works. In International Conference on Machine Learning, pages 2596–2604, 2019.
James Martens and Roger Grosse. Optimizing neural networks with kronecker-factored approximate curvature. In International conference on machine learning, pages 2408–2417, 2015.
Tengyuan Liang, Tomaso Poggio, Alexander Rakhlin, and James Stokes. Fisher-rao metric, geometry, and complexity of neural networks. arXiv preprint arXiv:1711.01530, 2017.
Eduardo D Sontag. VC dimension of neural networks. NATO ASI Series F Computer and Systems Sciences, 168:69–96, 1998.
Vaishnavh Nagarajan and J. Zico Kolter. Uniform convergence may be unable to explain generalization in deep learning. In H. Wallach, H. Larochelle, A. Beygelzimer, F. d Alché-Buc, E. Fox, and R. Garnett, editors, Advances in Neural Information Processing Systems 32, pages 11615–11626. Curran Associates, Inc., 2019