Abstract (deu)
Anomalieerkennung, auch als Ausreißererkennung bekannt, ist der Prozess der Identifizierung von Datenpunkten, die keinem festgelegten Muster folgen. Sie wird seit langem angewendet, vor allem in der Statistik, doch im Laufe der Zeit hat sich ihre Anwendung auf verschiedene Bereiche ausgeweitet. Ein Anomalieereignis könnte auf einen möglichen Betrug, Netzwerkprobleme, Krankheiten oder fehlerhafte Geräte hinweisen. Eine der größten Herausforderungen beim Umgang mit Anomalien besteht darin, zu definieren, was ein normaler Punkt ist und welche Eigenschaften er besitzt. Forscher haben zahlreiche Studien durchgeführt, in denen eine große Anzahl von Anomalieerkennungsmodellen in verschiedenen Bereichen bewertet wurden. Diese Studien haben die Notwendigkeit der Anomalieerkennung insbesondere im Finanzsektor hervorgehoben. Die Entwicklungen in der Finanzbranche haben sie eng mit Technologie und Daten verknüpft, um den Entscheidungsprozess zu verbessern und die Effizienz zu steigern. Obwohl der technologische Fortschritt das Datenvolumen erhöht hat, mit dem das Unternehmen zu tun hat, ist ein wachsender Bedarf an Anomalieerkennung entstanden. Im Finanzwesen besteht die Aufgabe der Anomalieerkennung darin, ungewöhnliche Muster zu identifizieren, die zu Betrug, Identitätsdiebstahl, Geldwäsche usw. führen könnten. Ziel dieses Dokuments ist es, die Leistung von unbeaufsichtigten und überwachten Modellen des maschinellen Lernens bei der Anomalieerkennung anhand von Finanzdaten zu vergleichen. Es erweitert die bestehende Benchmarkforschung, indem sowohl klassische als auch fortgeschrittene Modelle bewertet werden. Darüber hinaus betont es die Bedeutung der Anomalieerkennung in der Finanzbranche, bietet Einblicke in die Modellwirksamkeit und bietet Finanzfachleuten Anleitung bei der Auswahl geeigneter Modelle basierend auf den Eigenschaften ihrer Datensätze oder anstehenden Aufgaben. Um unser Ziel zu erreichen, führen wir zwei Hauptexperimente durch. Experiment 1 verwendet vier reale Finanzdatensätze, um die Leistung der Algorithmen des maschinellen Lernens zu vergleichen, wobei ROC AUC, F1-Score und Laufzeit als Leistungsmetriken verwendet werden. Für Experiment 2 verwenden wir synthetische Datensätze, um die Skalierbarkeit des ausgewählten Modells zu testen. Den Ergebnissen der Experimente zufolge sind XGBoost, CatBoost und Random Forest Classifiers das beste Modell, was gute Genauigkeitswerte und eine angemessene Rechenlaufzeit betrifft. Andere Modelle mit guter Leistung sind KNN, Isolation Forest und DBSCAN.