Title (eng)
Autonomic management of virtual machines in cloud data centers using machine learning
Author
Seyed Saeid Masoumzadeh
Advisor
Helmut Hlavacs
Assessor
Ivona Brandic
Jean-Marc Pierson
Abstract (deu)
Cloud Computing ist ein neues Paradigma in der Informations- und Kommunikations- technologie. Mit dem steigenden Bedarf an Computerressourcen durch Kunden werden Cloud-Rechenzentren immer größer, was zu einem stetig steigenden Energieverbrauch und damit steigenden Betriebskosten führt. Eine Studie über den Stromverbrauch von Rechenzentrums-Arbeitslasten zeigt, dass die Leerlaufleistung in Servern immer mehr als 50% der Spitzenleistung beträgt. Daher ist es aus Sicht des Energieverbrauchs sehr inef- fizient, Server nicht voll auszulasten. Energieeffiziente Ressourcenmanagement-Strategien für Cloud-Rechenzentren sind Algorithmen, die Ressourcen auf der Grundlage des Res- sourcenbedarfs von Anwendungen so zuweisen, dass die Auslastung pro Server steigt und gleichzeitig die Anwendungsbedingungen im Sinne von Service Level Agreements (SLAs) erfüllt werden.
Energieeffiziente Ressourcenmanagement-Algorithmen lassen sich in zwei allgemeine Klassen einteilen: Die erste Klasse ist die Klasse der Algorithmen, die sich hauptsächlich auf die dynamische Re-Konsolidierung virtueller Maschinen durch Live-Migration in Rechenzentren konzentrieren. Die zweite Klasse ist die Klasse der Algorithmen, die sich auf Zugangskontroll- und/oder Planungsmechanismen konzentrieren. Beide Strategien stellen sich einer Reihe von Herausforderungen, wie z.B. der Optimierung während des dy- namischen Konsolidierungsprozesses virtueller Maschinen, den Skalierbarkeitsproblemen und dem Problem der "lauten Nachbarn", das durch VMs in einem überbuchten Rechen- zentrum hervorgerufen wird. Diese Arbeit untersucht Methoden des Machine Learnings, von Multi-Agenten-System-Paradigmen und naturinspirierte Algorithmen zur Bewälti- gung dieser Herausforderungen. Im Rahmen dieser Arbeit wird zunächst das Problem der verteilten dynamischen virtuellen Maschinen-Konsolidierung untersucht, wobei ein kooperativer Multi-Agent Reinforcement Learning Algorithmus zur Overload-Detection und VM Auswahl vorgeschlagen wird. Danach wird eine umfassende Architektur zum Ma- nagement virtueller Maschinen in Cloud-Rechenzentrem vorgeschlagen. Weiters werden Skalierungseigenschaften bei dynamischer Konsolidierung untersucht, und ein vollständig verteilten Algorithmus vorgeschlagen, der auf sogenannten Gossip-Algorithmen über P2P-Netzwerke beruht. Schließlich wird ein Fuzzy Q-Learning basierten Kapazitätsreg- ler in überbuchten Rechenzentren vorgeschlagen, um das Problem der gegenseitigen Beeinflussungen virtueller Maschinen zu lösen. Die präsentierte Lösung basiert auf Reinforcement Learning, und balanciert die beiden Aspekte Utilization und Performance gegeneinander aus.
Abstract (eng)
Cloud computing is a new paradigm in information and communication technology. The key advantage of cloud computing is to provide virtually unlimited resources for costumers based on a pay-as-you-go model. With the rise in demand of computing resources by costumers, cloud data centers evolve in size, resulting in ever-increasing energy consumption and consequently operating costs. An important source of energy waste in cloud data centers lies in the inefficient usage of computing resources. A study on power usage at the scale of data center workloads indicates idle power in servers is always above 50% of peak power. Therefore, keeping server underutilized is very inefficient from the energy consumption point of view. Energy efficient resource management strategies for cloud data centers are the type of algorithms trying to allocate the resources based on applications' resource demands in a way that increase utilization per server while fulfilling the application's constraints in terms of Service Level Agreements (SLAs).
Energy efficient resource management algorithms can be categorized in two general classes: The first one is the class of algorithms which mostly focus on dynamic re-consolidation of virtual machines by leveraging live migration in data center and the second one is the class of algorithms which focus on admission control and/or scheduling mechanisms. Both strategies raise several challenges such as optimality of the actions taken during the dynamic virtual machine consolidation process, the scalability issues and noisy neighbor problem which happens due to VMs interfering with each other in an overbooked data center. This thesis investigates the exploration of Machine Learning methods, Multi-Agent System paradigms and Nature-Inspired algorithms to tackle these challenges. In the scope of this thesis, we first address the problem of distributed dynamic virtual machine consolidation to tackle existing energy-performance trade-off in cloud data centers by proposing a Reinforcement Learning approach for overloading detection and virtual machine selection process as two main sub-problems of distributed dynamic virtual machine (VM) consolidation. We then propose a comprehensive solution to manage physical host nodes in dynamic virtual machine consolidation in a multi-agent system environment. In the next part of this thesis, we address the problem of scalability in dynamic virtual machine consolidation strategies and propose a novel fully distributed approach for dynamic virtual machine consolidation using a Gossip protocol over a P2P network of physical host nodes in data center. Finally, we address the problem of virtual machine interfering in overbooked data centers and propose a self-adaptive capacity controller by using a Reinforcement Learning approach to efficiently make a balance between utilization and the performance of the running applications inside a server.
Keywords (eng)
Machine LearningCloud ComputingReinforcement LearningVirtual Machine ManagementGossip Algorithm
Keywords (deu)
Gossip-AlgorithmenMachine LearningCloud ComputingReinforcement Learning
Subject (deu)
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
Extent (deu)
xv, 121 Seiten : Diagramme
Number of pages
139
Study plan
Dr.-Studium der technischen Wissenschaften (Dissertationsgebiet: Informatik)
[UA]
[786]
[880]
Association (deu)
Title (eng)
Autonomic management of virtual machines in cloud data centers using machine learning
Author
Seyed Saeid Masoumzadeh
Abstract (deu)
Cloud Computing ist ein neues Paradigma in der Informations- und Kommunikations- technologie. Mit dem steigenden Bedarf an Computerressourcen durch Kunden werden Cloud-Rechenzentren immer größer, was zu einem stetig steigenden Energieverbrauch und damit steigenden Betriebskosten führt. Eine Studie über den Stromverbrauch von Rechenzentrums-Arbeitslasten zeigt, dass die Leerlaufleistung in Servern immer mehr als 50% der Spitzenleistung beträgt. Daher ist es aus Sicht des Energieverbrauchs sehr inef- fizient, Server nicht voll auszulasten. Energieeffiziente Ressourcenmanagement-Strategien für Cloud-Rechenzentren sind Algorithmen, die Ressourcen auf der Grundlage des Res- sourcenbedarfs von Anwendungen so zuweisen, dass die Auslastung pro Server steigt und gleichzeitig die Anwendungsbedingungen im Sinne von Service Level Agreements (SLAs) erfüllt werden.
Energieeffiziente Ressourcenmanagement-Algorithmen lassen sich in zwei allgemeine Klassen einteilen: Die erste Klasse ist die Klasse der Algorithmen, die sich hauptsächlich auf die dynamische Re-Konsolidierung virtueller Maschinen durch Live-Migration in Rechenzentren konzentrieren. Die zweite Klasse ist die Klasse der Algorithmen, die sich auf Zugangskontroll- und/oder Planungsmechanismen konzentrieren. Beide Strategien stellen sich einer Reihe von Herausforderungen, wie z.B. der Optimierung während des dy- namischen Konsolidierungsprozesses virtueller Maschinen, den Skalierbarkeitsproblemen und dem Problem der "lauten Nachbarn", das durch VMs in einem überbuchten Rechen- zentrum hervorgerufen wird. Diese Arbeit untersucht Methoden des Machine Learnings, von Multi-Agenten-System-Paradigmen und naturinspirierte Algorithmen zur Bewälti- gung dieser Herausforderungen. Im Rahmen dieser Arbeit wird zunächst das Problem der verteilten dynamischen virtuellen Maschinen-Konsolidierung untersucht, wobei ein kooperativer Multi-Agent Reinforcement Learning Algorithmus zur Overload-Detection und VM Auswahl vorgeschlagen wird. Danach wird eine umfassende Architektur zum Ma- nagement virtueller Maschinen in Cloud-Rechenzentrem vorgeschlagen. Weiters werden Skalierungseigenschaften bei dynamischer Konsolidierung untersucht, und ein vollständig verteilten Algorithmus vorgeschlagen, der auf sogenannten Gossip-Algorithmen über P2P-Netzwerke beruht. Schließlich wird ein Fuzzy Q-Learning basierten Kapazitätsreg- ler in überbuchten Rechenzentren vorgeschlagen, um das Problem der gegenseitigen Beeinflussungen virtueller Maschinen zu lösen. Die präsentierte Lösung basiert auf Reinforcement Learning, und balanciert die beiden Aspekte Utilization und Performance gegeneinander aus.
Abstract (eng)
Cloud computing is a new paradigm in information and communication technology. The key advantage of cloud computing is to provide virtually unlimited resources for costumers based on a pay-as-you-go model. With the rise in demand of computing resources by costumers, cloud data centers evolve in size, resulting in ever-increasing energy consumption and consequently operating costs. An important source of energy waste in cloud data centers lies in the inefficient usage of computing resources. A study on power usage at the scale of data center workloads indicates idle power in servers is always above 50% of peak power. Therefore, keeping server underutilized is very inefficient from the energy consumption point of view. Energy efficient resource management strategies for cloud data centers are the type of algorithms trying to allocate the resources based on applications' resource demands in a way that increase utilization per server while fulfilling the application's constraints in terms of Service Level Agreements (SLAs).
Energy efficient resource management algorithms can be categorized in two general classes: The first one is the class of algorithms which mostly focus on dynamic re-consolidation of virtual machines by leveraging live migration in data center and the second one is the class of algorithms which focus on admission control and/or scheduling mechanisms. Both strategies raise several challenges such as optimality of the actions taken during the dynamic virtual machine consolidation process, the scalability issues and noisy neighbor problem which happens due to VMs interfering with each other in an overbooked data center. This thesis investigates the exploration of Machine Learning methods, Multi-Agent System paradigms and Nature-Inspired algorithms to tackle these challenges. In the scope of this thesis, we first address the problem of distributed dynamic virtual machine consolidation to tackle existing energy-performance trade-off in cloud data centers by proposing a Reinforcement Learning approach for overloading detection and virtual machine selection process as two main sub-problems of distributed dynamic virtual machine (VM) consolidation. We then propose a comprehensive solution to manage physical host nodes in dynamic virtual machine consolidation in a multi-agent system environment. In the next part of this thesis, we address the problem of scalability in dynamic virtual machine consolidation strategies and propose a novel fully distributed approach for dynamic virtual machine consolidation using a Gossip protocol over a P2P network of physical host nodes in data center. Finally, we address the problem of virtual machine interfering in overbooked data centers and propose a self-adaptive capacity controller by using a Reinforcement Learning approach to efficiently make a balance between utilization and the performance of the running applications inside a server.
Keywords (eng)
Machine LearningCloud ComputingReinforcement LearningVirtual Machine ManagementGossip Algorithm
Keywords (deu)
Gossip-AlgorithmenMachine LearningCloud ComputingReinforcement Learning
Subject (deu)
Subject (deu)
Subject (deu)
Type (deu)
Persistent identifier
Number of pages
139
Association (deu)
License
- Citable links
- Other links
- Managed by
- DetailsObject typeContainerCreated01.11.2021 03:10:22 UTC
- Usage statistics-
- Metadata
- Export formats
