Abstract (deu)
Im letzten Jahrzehnt gab es immensen Fortschritt und Wachstum in den Bereichen der Künstlichen Intelligenz, des Data Mining und des Maschinellen Lernens. Diese Entwicklung wurde durch spezialisierte neue Hardware, die immer größere Verfügbarkeit von Daten und Durchbrüche bei der Entwicklung von Algorithmen, die Muster in Daten finden und ausnutzen, ermöglicht. Obwohl wir uns in der Praxis täglich vom großen Erfolg dieser Algorithmen überzeugen können, ist unser theoretisches Verständnis von ihnen weiterhin eingeschränkt. Allerdings wären formale Garantien für diese Algorithmen höchst wünschenswert, weil sie wichtige Einblicke in die Stärken und die Grenzen dieser Algorithmen erlauben.
Das Ziel dieser Dissertation ist es, die Kluft zwischen Theorie und Praxis zu verkleinern. Dafür entwickeln wir Algorithmen, die beweisbar Muster in Daten finden und ausnutzen. Die Zusammenfassung der Ergebnisse ist wie folgt:
• Beweisbar Muster finden: Wir entwickeln Algorithmen, die beweisbar eine Menge von versteckten Clusterns aus bipartiten Zufallsgraphen extrahieren. Eine Anwendung von diesem Problem ist die Analyse von Onlineshopping-Daten, in denen Gruppen von Produkten gesucht werden, die häufig gemeinsam gekauft werden, und Gruppen von Kund⋅innen, die ähnliche Produkte kaufen. Wir präsentieren den ersten Algorithmus, der beweisbar winzige versteckte Cluster finden kann. Dieses Resultat liefert eine theoretische Begründung für den Erfolg bereits existierender heuristischer Methoden, die in der Praxis verwendet werden. Außerdem präsentieren wir den ersten Datenstromalgorithmus, der nur zwei Iterationen über die Knoten eines bipartiten Graphen vornimmt und anschließend eine Menge an versteckten Clustern ausgibt. Der Algorithmus skaliert auf viel größere Daten als bekannte Methoden.
• Verstehen der Komplexität des Musterfindens: Wir betrachten die Komplexität häufig verwendeten Subroutinen von Data Mining-Algorithmen und erhalten neue Härteresultate. Für die approximative Berechnung der Anzahl der Dreiecke in einem Graphen und für die Approximation der Häufigkeit von Itemsets in transaktionalen Datenbanken zeigen wir, dass existierende Algorithmen, die auf zufälligen Stichprobenverfahren beruhen, nicht signifikant verbessert werden können, außer gängige Hypothesen der Komplexitätstheorie sind falsch. Außerdem präsentieren wir eine Hierarchie der Enumerationskomplexität von mehreren Maximal Frequent Pattern Mining-Problemen und wir bestimmen eine Bedingung, unter der diese Hierarchie zusammenbricht.
• Beweisbar Muster ausnutzen: Wir formulieren ein theoretisches Modell, das die Struktur von Mustern in realen Kommunikationsnetzwerken abbildet. Wir entwickeln Algorithmen, die die Muster in den Daten ausnutzen und damit den Datenverkehr im Netzwerk reduzieren. Wir beweisen, dass der kompetitive Faktor unserer Algorithmen asymptotisch optimal ist.
Um unsere Resultate zu erhalten, verwenden wir die beyond worst-case Analyse: Anstatt von worst-case Eingaben für unsere Algorithmen auszugehen, nehmen wir an, dass die Eingabedaten die Eigenschaften von praktischen Datensätzen erfüllen.