Die weitverbreitete Einführung und Abhängigkeit von IT-Systemen hat zu einer signifikanten Zunahme von Cyber-Bedrohungen in Bezug auf Häufigkeit und Raffinesse geführt. Diese zunehmenden Schwierigkeiten machen Organisationen oft unbewusst von versuchten Angriffen und deren Auswirkungen. Viele Organisationen sind typischerweise nicht in der Lage, Sicherheitsvorfälle schnell zu identifizieren und deren Ursachen zu verstehen. Infolgedessen werden die Vertraulichkeit, Verfügbarkeit und Integrität ihrer sensiblen Informationen immer mehr bedroht. Ein Datenleck von sensiblen Daten kann schwerwiegende Folgen haben, einschließlich finanzieller Verluste, verringerter Vertrauenswürdigkeit und Reputationsschäden. Logdaten und Cybersicherheitsressourcen sind hochwertige Informationen, da sie Sicherheitsanalysten klare Sichtbarkeit und Verständnis ihrer Systemaktivitäten bieten, wie die Untersuchung von Sicherheitsvorfällen, die Identifizierung von Angriffen und die Überwachung der Systemgesundheit. Sie stellen jedoch weiterhin mehrere Herausforderungen in Bezug auf die Heterogenität der Daten und die inkonsistente Struktur aufgrund der Komplexität und Vielfalt von Systemen dar. Darüber hinaus macht die enorme Menge an generierten Logdaten, die über mehrere Hosts und Netzwerke verteilt sind, es komplizierter and schwieriger, diese zu verstehen. Es gibt mehrere bestehende Cybersecurity-Tools wie das Security Information and Event Management (SIEM) und Intrusion Detection-Systeme (IDS), die von Sicherheitsanalysten verwendet werden, um Logs zu analysieren und ihnen bei der Bekämpfung von Cyberangriffen zu helfen. Zudem wurden in jüngster Zeit von Forschern mehrere Methoden vorgeschlagen, um diese Herausforderungen anzugehen. Sie haben jedoch typischerweise keine formale Konzeptualisierung und kein Standarddatenmodell als Grundlage und nehmen die Heterogenität der Daten (Integration) nicht ausreichend in Betracht, unterstützen keine automatische Schlussfolgerung und Verknüpfung von Logereignissen (Schlussfolgerung) und berücksichtigen die Wiederverwendung und Verknüpfung von Cybersecurity-Informationen (Kontextualisierung) nicht. In dieser Dissertation schlagen wir neuartige Ansätze vor, die Semantic Web-Technologien und Knowledge Graphs für die semantische Log-Analyse und -Überwachung, Bedrohungserkennung und Angriffsrekonstruktion nutzen. Hierzu entwickeln wir: (i) Vokabulare und Ontologien, die eine einheitliche Darstellung bereitstellen, um heterogene, zerstreute Logdaten und Cybersecurity-Informationen zu integrieren; (ii) ständig aktualisierte Cybersecurity-Wissensgraphen, die aus verschiedenen hochwertigen CybersecurityRessourcen erstellt werden und Log-Ereigniserweiterung und -Kontextualisierung bieten; (iii) Frameworks und Tools auf der Basis von RDF Stream Processing-Engines (RSP), die (nahezu) echtzeitige semantische Log-Überwachung und -Analyse unterstützen; (iv) ein Framework für virtuelle Wissensgraphen, das einen skalierbaren Ansatz für die Log-Analyse und -Abfrage über mehrere verteilte Hosts/Netzwerke bereitstellt; (v) ein Framework für die Bedrohungserkennung und Angriffsrekonstruktion auf der Basis von Wissensgraphen. Wir beurteilen die Anwendbarkeit und Benutzerfreundlichkeit unserer Ansätze anhand einer Vielzahl von Anwendungsfällen und Anwendungsszenarien mithilfe von synthetischen Daten sowie bestehenden, gut etablierten Datensätzen. Darüber hinaus führen wir eine empirische Evaluation durch, um die Machbarkeit und Wirksamkeit unserer Ansätze hinsichtlich Leistung und Skalierbarkeit zu validieren. Aufgrund dieser Bewertungen haben wir festgestellt, dass unsere Ansätze die Sicherheitslog-Analyse, -Überwachung und -Angriffsrekonstruktion auf effiziente und skalierbare Weise erleichtern, aber auch Verknüpfung und Kontextualisierung bieten und somit die Alarmmüdigkeit verringern und das Situationsbewusstsein verbessern.
The widespread adoption and reliance on IT systems nowadays have led to a significant increase in the prevalence and sophistication of cyber-threats. These increasing difficulties often make organizations unaware of attempted attacks and their impacts. Many organizations are typically unable to quickly identify security incidents and understand their causes. As a result, the confidentiality, availability, and integrity of their sensitive information become more and more threatened. A sensitive data breach can have serious consequences, including financial losses, decreased trustworthiness, and reputational damages. Log data and cybersecurity resources are highly valuable information since they can provide security analysts with clear visibility and understanding of system activities and allow them to investigate security incidents, identify attacks, and monitor the system’s health. However, they remain to pose several challenges in terms of data heterogeneity and inconsistent structure due to the complexity and variety of systems. Furthermore, the vast amount of generated log data distributed across multiple hosts and networks makes it more complicated and difficult to comprehend. Several existing cybersecurity tools such as Security Information and Event Management (SIEM) and Intrusion Detection Systems (IDS) are widely used by security analysts to analyze log data and help them to contain cybersecurity attacks. Moreover, several methods have recently been proposed by researchers to tackle these challenges. Nevertheless, they typically lack grounding in a formal conceptualization and standard data model, do not adequately address data heterogeneity (integration), do not support automatic reasoning and linking between log events (inference), and do not consider reuse and linking to cybersecurity information (contextualization). In this thesis, we propose novel approaches that leverage Semantic Web technologies and Knowledge Graphs for semantic log monitoring & analysis, threat detection, and attack reconstruction. To this end, we develop: (i) vocabularies and ontologies that provide a uniform representation to integrate heterogeneous, dispersed log data and cybersecurity information; (ii) continuously updated cybersecurity knowledge graphs constructed from various highly valuable cybersecurity resources that provide log event enrichment and contextualization; (iii) frameworks and tools based on RDF Stream Processing engine (RSP) that support (near) real-time semantic log monitoring and analysis; (iv) a virtual knowledge graph framework that provides a scalable approach for log analysis and querying over multiple distributed hosts/networks; (v) a knowledge graph-based framework for threat detection and attack reconstruction. We assess the applicability and usability of our approaches on a variety of use cases and application scenarios using synthetic data as well as existing, well-established datasets. Furthermore, we perform an empirical evaluation to validate the feasibility and effectiveness of our approaches in terms of performance and scalability. Based on these evaluations, we found that our approaches facilitate security log monitoring, analysis and attack reconstruction in an efficient and scalable manner and facilitate effective linking and contextualization, therefore reducing alert fatigue and improving situational awareness.
Die weitverbreitete Einführung und Abhängigkeit von IT-Systemen hat zu einer signifikanten Zunahme von Cyber-Bedrohungen in Bezug auf Häufigkeit und Raffinesse geführt. Diese zunehmenden Schwierigkeiten machen Organisationen oft unbewusst von versuchten Angriffen und deren Auswirkungen. Viele Organisationen sind typischerweise nicht in der Lage, Sicherheitsvorfälle schnell zu identifizieren und deren Ursachen zu verstehen. Infolgedessen werden die Vertraulichkeit, Verfügbarkeit und Integrität ihrer sensiblen Informationen immer mehr bedroht. Ein Datenleck von sensiblen Daten kann schwerwiegende Folgen haben, einschließlich finanzieller Verluste, verringerter Vertrauenswürdigkeit und Reputationsschäden. Logdaten und Cybersicherheitsressourcen sind hochwertige Informationen, da sie Sicherheitsanalysten klare Sichtbarkeit und Verständnis ihrer Systemaktivitäten bieten, wie die Untersuchung von Sicherheitsvorfällen, die Identifizierung von Angriffen und die Überwachung der Systemgesundheit. Sie stellen jedoch weiterhin mehrere Herausforderungen in Bezug auf die Heterogenität der Daten und die inkonsistente Struktur aufgrund der Komplexität und Vielfalt von Systemen dar. Darüber hinaus macht die enorme Menge an generierten Logdaten, die über mehrere Hosts und Netzwerke verteilt sind, es komplizierter and schwieriger, diese zu verstehen. Es gibt mehrere bestehende Cybersecurity-Tools wie das Security Information and Event Management (SIEM) und Intrusion Detection-Systeme (IDS), die von Sicherheitsanalysten verwendet werden, um Logs zu analysieren und ihnen bei der Bekämpfung von Cyberangriffen zu helfen. Zudem wurden in jüngster Zeit von Forschern mehrere Methoden vorgeschlagen, um diese Herausforderungen anzugehen. Sie haben jedoch typischerweise keine formale Konzeptualisierung und kein Standarddatenmodell als Grundlage und nehmen die Heterogenität der Daten (Integration) nicht ausreichend in Betracht, unterstützen keine automatische Schlussfolgerung und Verknüpfung von Logereignissen (Schlussfolgerung) und berücksichtigen die Wiederverwendung und Verknüpfung von Cybersecurity-Informationen (Kontextualisierung) nicht. In dieser Dissertation schlagen wir neuartige Ansätze vor, die Semantic Web-Technologien und Knowledge Graphs für die semantische Log-Analyse und -Überwachung, Bedrohungserkennung und Angriffsrekonstruktion nutzen. Hierzu entwickeln wir: (i) Vokabulare und Ontologien, die eine einheitliche Darstellung bereitstellen, um heterogene, zerstreute Logdaten und Cybersecurity-Informationen zu integrieren; (ii) ständig aktualisierte Cybersecurity-Wissensgraphen, die aus verschiedenen hochwertigen CybersecurityRessourcen erstellt werden und Log-Ereigniserweiterung und -Kontextualisierung bieten; (iii) Frameworks und Tools auf der Basis von RDF Stream Processing-Engines (RSP), die (nahezu) echtzeitige semantische Log-Überwachung und -Analyse unterstützen; (iv) ein Framework für virtuelle Wissensgraphen, das einen skalierbaren Ansatz für die Log-Analyse und -Abfrage über mehrere verteilte Hosts/Netzwerke bereitstellt; (v) ein Framework für die Bedrohungserkennung und Angriffsrekonstruktion auf der Basis von Wissensgraphen. Wir beurteilen die Anwendbarkeit und Benutzerfreundlichkeit unserer Ansätze anhand einer Vielzahl von Anwendungsfällen und Anwendungsszenarien mithilfe von synthetischen Daten sowie bestehenden, gut etablierten Datensätzen. Darüber hinaus führen wir eine empirische Evaluation durch, um die Machbarkeit und Wirksamkeit unserer Ansätze hinsichtlich Leistung und Skalierbarkeit zu validieren. Aufgrund dieser Bewertungen haben wir festgestellt, dass unsere Ansätze die Sicherheitslog-Analyse, -Überwachung und -Angriffsrekonstruktion auf effiziente und skalierbare Weise erleichtern, aber auch Verknüpfung und Kontextualisierung bieten und somit die Alarmmüdigkeit verringern und das Situationsbewusstsein verbessern.
The widespread adoption and reliance on IT systems nowadays have led to a significant increase in the prevalence and sophistication of cyber-threats. These increasing difficulties often make organizations unaware of attempted attacks and their impacts. Many organizations are typically unable to quickly identify security incidents and understand their causes. As a result, the confidentiality, availability, and integrity of their sensitive information become more and more threatened. A sensitive data breach can have serious consequences, including financial losses, decreased trustworthiness, and reputational damages. Log data and cybersecurity resources are highly valuable information since they can provide security analysts with clear visibility and understanding of system activities and allow them to investigate security incidents, identify attacks, and monitor the system’s health. However, they remain to pose several challenges in terms of data heterogeneity and inconsistent structure due to the complexity and variety of systems. Furthermore, the vast amount of generated log data distributed across multiple hosts and networks makes it more complicated and difficult to comprehend. Several existing cybersecurity tools such as Security Information and Event Management (SIEM) and Intrusion Detection Systems (IDS) are widely used by security analysts to analyze log data and help them to contain cybersecurity attacks. Moreover, several methods have recently been proposed by researchers to tackle these challenges. Nevertheless, they typically lack grounding in a formal conceptualization and standard data model, do not adequately address data heterogeneity (integration), do not support automatic reasoning and linking between log events (inference), and do not consider reuse and linking to cybersecurity information (contextualization). In this thesis, we propose novel approaches that leverage Semantic Web technologies and Knowledge Graphs for semantic log monitoring & analysis, threat detection, and attack reconstruction. To this end, we develop: (i) vocabularies and ontologies that provide a uniform representation to integrate heterogeneous, dispersed log data and cybersecurity information; (ii) continuously updated cybersecurity knowledge graphs constructed from various highly valuable cybersecurity resources that provide log event enrichment and contextualization; (iii) frameworks and tools based on RDF Stream Processing engine (RSP) that support (near) real-time semantic log monitoring and analysis; (iv) a virtual knowledge graph framework that provides a scalable approach for log analysis and querying over multiple distributed hosts/networks; (v) a knowledge graph-based framework for threat detection and attack reconstruction. We assess the applicability and usability of our approaches on a variety of use cases and application scenarios using synthetic data as well as existing, well-established datasets. Furthermore, we perform an empirical evaluation to validate the feasibility and effectiveness of our approaches in terms of performance and scalability. Based on these evaluations, we found that our approaches facilitate security log monitoring, analysis and attack reconstruction in an efficient and scalable manner and facilitate effective linking and contextualization, therefore reducing alert fatigue and improving situational awareness.