You are here: University of Vienna PHAIDRA Detail o:1800233
Title (eng)
Assumption-lean conditional predictive inference via the Jackknife
Parallel title (deu)
Annahmenarme konditionale prädiktive Inferenz mittels des Jackknifes
Author
Nicolai Amann
Advisor
Hannes Leeb
Advisor
Lukas Steinberger
Assessor
Angelika Rohde
Assessor
Arun Kumar Kuchibhotla
Abstract (deu)
Das Ziel der vorliegenden Arbeit ist die Konstruktion von Prognoseintervallen mithilfe eines Jackknife Ansatzes, deren tatsächliche Überdeckungswahrscheinlichkeit bedingt auf die Trainingsdaten in endlicher Stichprobe nahe an dem nominalen Wert liegt und asymptotisch valide sein kann im hochdimensionalen Fall. Die Hauptinnovation besteht in der Verallgemeinerung der Resultate von Steinberger and Leeb (2023, The Annals of Statistics 51.1, 290–311) auf unstetige Verteilungen der abhängigen Variable und den Fall von nicht-linearen Modellen. Genauer gesagt teilt sich diese Arbeit in vier Teile auf: Im ersten Teil stellen wir einen Zusammenhang zwischen der Überdeckungswahrscheinlichkeit eines Prognoseintervalls und der in verschiedenen Metriken gemessenen Genauigkeit der Schätzung der Verteilungsfunktion des Prognosefehlers auf. Während im Falle einer stetigen Verteilung die Kolmogorov Distanz eine geeignete Wahl ist, führen wir die "epsilon-variational divergence" ein um den nicht-stetigen Fall zu behandeln und diskutieren Vorteile gegenüber der Kolmogorov Distanz, der Lp-norm und der Lévy Metrik. Des Weiteren erstreckt sich die Verwendung der "epsilon-variational divergence" auch auf die Schätzung von anderen Funktionen des Prognosefehlers wie beispielsweise den mittleren quadratischen Prognosefehler oder den mittleren absoluten Prognosefehler. Im zweiten Teil der Arbeit definieren wir einen Jackknife Ansatz zur Schätzung der Verteilung des Prognosefehlers bedingt auf die Trainingsdaten. Drittens präsentieren wir obere Schranken für die auf verschiedene Arten gemessene Distanz zwischen der bedingten Verteilung des Prognosefehlers und deren Schätzung. Unsere Resultate werden sowohl in endlicher Stichprobe als auch asymptotisch angegeben und umfassen sowohl den niedrig-dimensionalen als auch den hoch-dimensionalen Fall. Des Weiteren zeigen wir, dass die Verteilung des Prognosefehlers konsistent geschätzt werden kann, wenn die folgenden zwei Bedingungen erfüllt sind: Der Prognosefehler sollte beschränkt in Wahrscheinlichkeit sein und der Prognosealgorithmus sollte eine Stabilitätsbedingung erfüllen. Im letzten Teil zeigen wir, dass unter schwachen Annahmen diese zwei Eigenschaften für den Kleinste-Quadrate-Schätzer und den James-Stein Schätzer im niedrig-dimensionalen Setting, für den Minimum-norm Interpolator im hoch-dimensionalen Fall und für den Ridge Schätzer unabhängig von der Anzahl der Regressoren erfüllt sind. Außerdem präsentieren wir ein Beispiel im Fall von binärer Klassifizierung, in dem der dazugehörige Prädiktor ebenfalls diese Eigenschaften erfüllt.
Abstract (eng)
The aim of the present work is to construct prediction intervals via a Jackknife-approach whose coverage probability conditional on the training data is close to its nominal level in finite samples and can be asymptotically valid in high-dimensions. The main innovation is to generalize the results of Steinberger and Leeb (2023, The Annals of Statistics 51.1, 290–311) to a non-continuous response distribution and to the case of non-linear models. More specifically, this work is split into four parts: in the first part we link the prediction interval's coverage probability to the accuracy of estimating the distribution of the prediction error in different metrics. While in the case of a continuous distribution the Kolmogorov distance is a suitable choice, we introduce the epsilon-variational divergence to deal with the non-continuous case and discuss advantages to the Kolmogorov distance, the Lp-norm and the Lévy metric. Moreover, the usability (i.e. the informativeness) of the epsilon-variational divergence extends to the estimation of other functions of the prediction error, such as the mean-squared prediction error or the mean-absolute prediction error. In the second part of the work, we define an approach based on the Jackknife for the estimation of the prediction error's distribution conditional on the training data. Thirdly, we present upper bounds for the distance between the conditional prediction error's distribution and its estimate measured in terms of different measurements of distance. We state our results both in finite sample and asymptotically. Our results include both the low-dimensional and the high-dimensional case. Moreover, we show that the prediction error's distribution can be estimated consistently if two conditions are fulfilled: the prediction error should be bounded in probability and the prediction algorithm should satisfy a stability condition. In the last part we show that under mild assumptions these two properties are fulfilled for the OLS estimator and the James-Stein estimator in a low-dimensional setting, for the minimum-norm interpolator in high-dimensions and for the ridge regression regardless of the number of regressors. Furthermore, we also present an example in the case of binary classification where the corresponding predictor fulfills these properties.
Keywords (deu)
konditionale prädiktive Inferenzhochdimensionale StatistikPrognoseintervalleJackknife
Keywords (eng)
conditional predictive inferencehigh-dimensional statisticsprediction intervalsJackknife
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1800233
rdau:P60550 (deu)
viii, 107 Seiten
Number of pages
116
Members (1)
Title (eng)
Assumption-lean conditional predictive inference via the Jackknife
Parallel title (deu)
Annahmenarme konditionale prädiktive Inferenz mittels des Jackknifes
Author
Nicolai Amann
Abstract (deu)
Das Ziel der vorliegenden Arbeit ist die Konstruktion von Prognoseintervallen mithilfe eines Jackknife Ansatzes, deren tatsächliche Überdeckungswahrscheinlichkeit bedingt auf die Trainingsdaten in endlicher Stichprobe nahe an dem nominalen Wert liegt und asymptotisch valide sein kann im hochdimensionalen Fall. Die Hauptinnovation besteht in der Verallgemeinerung der Resultate von Steinberger and Leeb (2023, The Annals of Statistics 51.1, 290–311) auf unstetige Verteilungen der abhängigen Variable und den Fall von nicht-linearen Modellen. Genauer gesagt teilt sich diese Arbeit in vier Teile auf: Im ersten Teil stellen wir einen Zusammenhang zwischen der Überdeckungswahrscheinlichkeit eines Prognoseintervalls und der in verschiedenen Metriken gemessenen Genauigkeit der Schätzung der Verteilungsfunktion des Prognosefehlers auf. Während im Falle einer stetigen Verteilung die Kolmogorov Distanz eine geeignete Wahl ist, führen wir die "epsilon-variational divergence" ein um den nicht-stetigen Fall zu behandeln und diskutieren Vorteile gegenüber der Kolmogorov Distanz, der Lp-norm und der Lévy Metrik. Des Weiteren erstreckt sich die Verwendung der "epsilon-variational divergence" auch auf die Schätzung von anderen Funktionen des Prognosefehlers wie beispielsweise den mittleren quadratischen Prognosefehler oder den mittleren absoluten Prognosefehler. Im zweiten Teil der Arbeit definieren wir einen Jackknife Ansatz zur Schätzung der Verteilung des Prognosefehlers bedingt auf die Trainingsdaten. Drittens präsentieren wir obere Schranken für die auf verschiedene Arten gemessene Distanz zwischen der bedingten Verteilung des Prognosefehlers und deren Schätzung. Unsere Resultate werden sowohl in endlicher Stichprobe als auch asymptotisch angegeben und umfassen sowohl den niedrig-dimensionalen als auch den hoch-dimensionalen Fall. Des Weiteren zeigen wir, dass die Verteilung des Prognosefehlers konsistent geschätzt werden kann, wenn die folgenden zwei Bedingungen erfüllt sind: Der Prognosefehler sollte beschränkt in Wahrscheinlichkeit sein und der Prognosealgorithmus sollte eine Stabilitätsbedingung erfüllen. Im letzten Teil zeigen wir, dass unter schwachen Annahmen diese zwei Eigenschaften für den Kleinste-Quadrate-Schätzer und den James-Stein Schätzer im niedrig-dimensionalen Setting, für den Minimum-norm Interpolator im hoch-dimensionalen Fall und für den Ridge Schätzer unabhängig von der Anzahl der Regressoren erfüllt sind. Außerdem präsentieren wir ein Beispiel im Fall von binärer Klassifizierung, in dem der dazugehörige Prädiktor ebenfalls diese Eigenschaften erfüllt.
Abstract (eng)
The aim of the present work is to construct prediction intervals via a Jackknife-approach whose coverage probability conditional on the training data is close to its nominal level in finite samples and can be asymptotically valid in high-dimensions. The main innovation is to generalize the results of Steinberger and Leeb (2023, The Annals of Statistics 51.1, 290–311) to a non-continuous response distribution and to the case of non-linear models. More specifically, this work is split into four parts: in the first part we link the prediction interval's coverage probability to the accuracy of estimating the distribution of the prediction error in different metrics. While in the case of a continuous distribution the Kolmogorov distance is a suitable choice, we introduce the epsilon-variational divergence to deal with the non-continuous case and discuss advantages to the Kolmogorov distance, the Lp-norm and the Lévy metric. Moreover, the usability (i.e. the informativeness) of the epsilon-variational divergence extends to the estimation of other functions of the prediction error, such as the mean-squared prediction error or the mean-absolute prediction error. In the second part of the work, we define an approach based on the Jackknife for the estimation of the prediction error's distribution conditional on the training data. Thirdly, we present upper bounds for the distance between the conditional prediction error's distribution and its estimate measured in terms of different measurements of distance. We state our results both in finite sample and asymptotically. Our results include both the low-dimensional and the high-dimensional case. Moreover, we show that the prediction error's distribution can be estimated consistently if two conditions are fulfilled: the prediction error should be bounded in probability and the prediction algorithm should satisfy a stability condition. In the last part we show that under mild assumptions these two properties are fulfilled for the OLS estimator and the James-Stein estimator in a low-dimensional setting, for the minimum-norm interpolator in high-dimensions and for the ridge regression regardless of the number of regressors. Furthermore, we also present an example in the case of binary classification where the corresponding predictor fulfills these properties.
Keywords (deu)
konditionale prädiktive Inferenzhochdimensionale StatistikPrognoseintervalleJackknife
Keywords (eng)
conditional predictive inferencehigh-dimensional statisticsprediction intervalsJackknife
Type (deu)
Persistent identifier
https://phaidra.univie.ac.at/o:1953844
Number of pages
116