You are here: University of Vienna PHAIDRA Detail o:1647383
Title (eng)
Mathematical analysis of deep learning with applications to Kolmogorov equations
Parallel title (deu)
Mathematische Analyse des tiefen Lernens mit Anwendungen zu Kolmogorov-Gleichungen
Author
Julius Konstantin Berner
Adviser
Philipp Grohs
Assessor
Siddhartha Mishra
Assessor
Christoph Reisinger
Abstract (deu)
Diese Arbeit umfasst eine Reihe an Publikationen, welche einen Beitrag zum aufkommenden Gebiet der mathematischen Analyse des tiefen Lernens leisten. Der Begriff „tiefes Lernen“ (engl. deep learning) bezeichnet Methoden des maschinellen Lernens, bei denen gradientenbasierte Optimierungsverfahren eingesetzt werden, um die Parameter von tiefen neuronalen Netzen an gegebene Daten anzupassen. In den letzten zehn Jahren haben solche Ansätze in einer Vielzahl von Anwendungen zu beispiellosen Fortschritten geführt. Während eine umfassende mathematische Erklärung für diesen Erfolg weiterhin aussteht, liefert die vorliegende Arbeit grundlegende Erkenntnisse, welche ein besseres theoretisches Verständnis des tiefen Lernens ermöglichen. Um eine rigorose Analyse zu ermöglichen, konzentrieren wir uns auf Lernprobleme mit bekannten Regularitätseigenschaften, wie sie oft im Kontext von Differentialgleichungen vorkommen. Insbesondere analysieren wir Algorithmen aus dem Bereich des tiefen Lernens für die numerische Lösung einer Klasse partieller Differentialgleichungen, bekannt als Kolmogorov-Gleichungen, unter Verwendung von Repräsentationen, welche auf stochastischen Differentialgleichungen basieren. Es wird gezeigt, dass empirische Risikominimierung über tiefe neuronale Netze die Lösungen von Familien von Kolmogorov-Gleichungen effizient approximiert, wobei sowohl die Größe der neuronalen Netze als auch die Anzahl an Datenpunkten nur polynomiell in der zugrunde liegenden Dimension skaliert. Darüber hinaus führen wir varianzreduzierte Verlustfunktionen ein und identifizieren Bedingungen, unter denen lokale Minima der entsprechenden Optimierungsprobleme nahezu optimal sind. Andererseits gehen wir auch auf die Unzulänglichkeiten des tiefen Lernens ein und stellen grundlegende Schranken für das Lernen neuronaler Netze aus Daten auf. Ausführliche numerische Experimente bestätigen das Potenzial des tiefen Lernens, den Fluch der Dimensionalität zu überwinden, wobei zugleich dessen inhärente Grenzen deutlich werden. Diese umfassende Untersuchung trägt zu fundierten und verlässlichen Anwendungen von tiefem Lernen in den Naturwissenschaften bei.
Abstract (eng)
This thesis comprises a series of publications that contribute to the emerging field of mathematical analysis of deep learning. The term deep learning refers to machine learning methods that use gradient-based optimization techniques to fit the parameters of deep neural networks to given data. Over the past decade, such approaches have catalyzed unprecedented advances across a wide range of applications. While a comprehensive mathematical explanation for their success remains elusive, this work provides fundamental insights that improve the theoretical understanding of deep learning. To facilitate a rigorous analysis, we focus on learning problems with known regularity properties, as frequently encountered in the context of differential equations. Specifically, we analyze deep learning algorithms for the numerical solution of a class of partial differential equations, known as Kolmogorov equations, employing representations based on stochastic differential equations. It is demonstrated that empirical risk minimization over deep neural networks efficiently approximates the solutions of families of Kolmogorov equations, with both the size of the neural networks and the number of samples scaling only polynomially in the underlying dimension. Furthermore, we introduce variance-reduced loss functions and identify settings in which local minima of corresponding optimization problems are nearly optimal. On the other hand, we also address the shortcomings of deep learning and establish fundamental constraints on learning neural networks from samples. Extensive numerical experiments corroborate the potential of deep learning to overcome the curse of dimensionality while revealing its inherent limitations. This comprehensive investigation contributes toward principled and reliable applications of deep learning in the natural sciences.
Keywords (deu)
Angewandte MathematikNumerikKünstliche IntelligenzMaschinelles LernenTiefes LernenNeuronale NetzeLerntheoriePartielle DifferentialgleichungenKolmogorov-Gleichungen
Keywords (eng)
Applied MathematicsNumerical AnalysisArtificial IntelligenceMachine LearningDeep LearningNeural NetworksLearning TheoryPartial Differential EquationsKolmogorov Equations
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1647383
rdau:P60550 (deu)
272 Seiten in verschiedenen Seitenzählungen : Illustrationen
Number of pages
272
Association (deu)
Members (1)
Title (eng)
Mathematical analysis of deep learning with applications to Kolmogorov equations
Parallel title (deu)
Mathematische Analyse des tiefen Lernens mit Anwendungen zu Kolmogorov-Gleichungen
Author
Julius Konstantin Berner
Abstract (deu)
Diese Arbeit umfasst eine Reihe an Publikationen, welche einen Beitrag zum aufkommenden Gebiet der mathematischen Analyse des tiefen Lernens leisten. Der Begriff „tiefes Lernen“ (engl. deep learning) bezeichnet Methoden des maschinellen Lernens, bei denen gradientenbasierte Optimierungsverfahren eingesetzt werden, um die Parameter von tiefen neuronalen Netzen an gegebene Daten anzupassen. In den letzten zehn Jahren haben solche Ansätze in einer Vielzahl von Anwendungen zu beispiellosen Fortschritten geführt. Während eine umfassende mathematische Erklärung für diesen Erfolg weiterhin aussteht, liefert die vorliegende Arbeit grundlegende Erkenntnisse, welche ein besseres theoretisches Verständnis des tiefen Lernens ermöglichen. Um eine rigorose Analyse zu ermöglichen, konzentrieren wir uns auf Lernprobleme mit bekannten Regularitätseigenschaften, wie sie oft im Kontext von Differentialgleichungen vorkommen. Insbesondere analysieren wir Algorithmen aus dem Bereich des tiefen Lernens für die numerische Lösung einer Klasse partieller Differentialgleichungen, bekannt als Kolmogorov-Gleichungen, unter Verwendung von Repräsentationen, welche auf stochastischen Differentialgleichungen basieren. Es wird gezeigt, dass empirische Risikominimierung über tiefe neuronale Netze die Lösungen von Familien von Kolmogorov-Gleichungen effizient approximiert, wobei sowohl die Größe der neuronalen Netze als auch die Anzahl an Datenpunkten nur polynomiell in der zugrunde liegenden Dimension skaliert. Darüber hinaus führen wir varianzreduzierte Verlustfunktionen ein und identifizieren Bedingungen, unter denen lokale Minima der entsprechenden Optimierungsprobleme nahezu optimal sind. Andererseits gehen wir auch auf die Unzulänglichkeiten des tiefen Lernens ein und stellen grundlegende Schranken für das Lernen neuronaler Netze aus Daten auf. Ausführliche numerische Experimente bestätigen das Potenzial des tiefen Lernens, den Fluch der Dimensionalität zu überwinden, wobei zugleich dessen inhärente Grenzen deutlich werden. Diese umfassende Untersuchung trägt zu fundierten und verlässlichen Anwendungen von tiefem Lernen in den Naturwissenschaften bei.
Abstract (eng)
This thesis comprises a series of publications that contribute to the emerging field of mathematical analysis of deep learning. The term deep learning refers to machine learning methods that use gradient-based optimization techniques to fit the parameters of deep neural networks to given data. Over the past decade, such approaches have catalyzed unprecedented advances across a wide range of applications. While a comprehensive mathematical explanation for their success remains elusive, this work provides fundamental insights that improve the theoretical understanding of deep learning. To facilitate a rigorous analysis, we focus on learning problems with known regularity properties, as frequently encountered in the context of differential equations. Specifically, we analyze deep learning algorithms for the numerical solution of a class of partial differential equations, known as Kolmogorov equations, employing representations based on stochastic differential equations. It is demonstrated that empirical risk minimization over deep neural networks efficiently approximates the solutions of families of Kolmogorov equations, with both the size of the neural networks and the number of samples scaling only polynomially in the underlying dimension. Furthermore, we introduce variance-reduced loss functions and identify settings in which local minima of corresponding optimization problems are nearly optimal. On the other hand, we also address the shortcomings of deep learning and establish fundamental constraints on learning neural networks from samples. Extensive numerical experiments corroborate the potential of deep learning to overcome the curse of dimensionality while revealing its inherent limitations. This comprehensive investigation contributes toward principled and reliable applications of deep learning in the natural sciences.
Keywords (deu)
Angewandte MathematikNumerikKünstliche IntelligenzMaschinelles LernenTiefes LernenNeuronale NetzeLerntheoriePartielle DifferentialgleichungenKolmogorov-Gleichungen
Keywords (eng)
Applied MathematicsNumerical AnalysisArtificial IntelligenceMachine LearningDeep LearningNeural NetworksLearning TheoryPartial Differential EquationsKolmogorov Equations
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1677603
Number of pages
272
Association (deu)