Abstract (deu)
Die gesteigerte Leistungsfähigkeit von aktuellen, großen Sprachmodellen (Large Language Models, LLMs) für unterschiedliche Aufgaben in der natürlichen Sprachverarbeitung haben den Bereich der Künstlichen Intelligenz revolutioniert und die Einführung von LLM-basierten Anwendungen in vielen Domänen beschleunigt. Inmitten dieses Hypes rund um LLMs darf aber nicht auf sicherheitsrelevante Aspekte, wie potenzielle Risiken für Datenlecks, vergessen werden, da LLMs üblicherweise mit sehr großen Datenmengen, die unter anderem sensible Daten beinhalten könnten, trainiert werden. Betrachtet man die schnelle Verbreitung von LLMs, bereitet besonders das Risiko, dass sensible oder persönliche Daten offengelegt werden könnten, erhebliche Bedenken. Daher ist das Ziel dieser Arbeit, ein Risikoanalysekonzept für Datenlecks aus den Trainingsdaten von LLMs zu entwickeln. Dieses Konzept umfasst mehrere Black-Box Angriffsstrategien, um das Datenleakpotenzial eines Eigennamenerkennungs- (Named Entity Recognition, NER) Modelles abzuschätzen und basiert auf der Annahme, dass Dateninstanzen, die für das Training des Modells verwendet wurden, höhere numerische Vorhersagewerte erhalten als solche, die nicht im Trainingsdatensatz inkludiert waren. Die Erkenntnisse dieser Arbeit zeigen, dass Ausgabewerte eines neuronalen Taggers als zuverlässiger Indikator dienen können, um Datenlecks in einem LLM zu erkennen und zu bewerten. Darüberhinaus wurden weitere Forschungsfragen aufgeworfen, die den Einfluss von Modellskalierung und Prompt-Engineering auf Datenlecks in LLMs thematisieren, aber weitere Untersuchungen erfordern, die über den Rahmen dieser Arbeit hinausgehen würden.