Scalability of modern scatterplot visualizations for large image datasets

Sebastian Klaassen

doi:10.25365/thesis.49053

You are here:

University of Vienna
PHAIDRA
Detail o:1338470

Title (eng)

Scalability of modern scatterplot visualizations for large image datasets

Author

Sebastian Klaassen

Advisor

Torsten Möller

Assessor

Torsten Möller

Abstract (deu)

In dieser Arbeit befassen wir uns mit der Darstellung von großen hochdimensionalen Bilddatenbanken mit modernen Streudiagramm-basierten Visualisierungstechniken. Wir erforschen die Skalierbarkeit von Streudiagrammen sowohl in Bezug auf Machbarkeit (Performance-Skalierbarkeit), als auch in Bezug auf Sinnhaftigkeit (Informationsskalierbarkeit). Wir erstellen zwei interaktive Streudiagramm-basierte Visualisierungen für große Bilddatensätze, der Global View und der Interactive Cell Plot. Global View ist eine Desktopanwendung zur Visualisierung von Petascale-Simulationen durch in-situ generierte Bilddatenbanken, die in Zusammenarbeit mit dem Los Alamos National Laboratory entwickelt wurde. Global View liest Bilddatenbanken im Cinema Datenformat ein. Die geladenen Bilder werden durch geskriptete visuelle Zuordnungen, von unserer neuartigen Skriptsprache für visuelle Zuordnungen, visualisiert. Wir vergleichen verschiedene visuelle Zuordnungen für den MPAS-Ocean-Datensatz mittels Global View und schließen daraus, dass die verschiedenen visuellen Zuordnungen einen Kompromiss zwischen intuitiver Darstellung und der gleichzeitigen Darstellung mehrerer Bilder darstellen. Sobald eine visuelle Zuordnung definiert ist, kann die Bilddatenbank durch die Durchquerung einer dreidimensionalen virtuellen Umgebung von Bildern erforscht werden. Unser Texture-Streaming-Algorithmus lädt und entlädt Bilder dynamisch, während die Bilddatenbank erforscht wird, indem die zugewiesene Menge an Grafikspeicher überwacht wird. Der Interactive Cell Plot ist eine JavaScript-Bibliothek zum Rendern großer Streudiagramme mittels WebGL, die in Zusammenarbeit mit dem Allen Institute for Cell Science entwickelt wurde. Unsere effiziente Renderingtechnik ermöglicht es uns, eine Million zweidimensionale Datenpunkte mit 60 Bildern pro Sekunde und fünf Millionen Punkte mit 25 Bildern pro Sekunde zu rendern. Wir evaluieren Visualisierungsparameter des Interactive Cell Plot und fünf verschiedene Plazierungsstrategien für Vorschaubilder in einer qualitativen Anwenderstudie. Unsere neuartigen Algorithmen für rand- und dichtebasierte Beschriftung minimieren sowohl Überlappungen von Datenpunkten, als auch die Distanz zwischen Beschriftung und Referenz. Wir stellen Dichtekarten als Zwischenstruktur für schnelles Clustering und schnelle Beschriftung, Stichprobengenerierung und Erkennung Charakteristischer Datenpunkte vor. Durch die Laufzeitschätzung der Dichtekartengenerierung gibt unser Algorithmus dem Benutzer direkte Kontrolle über den Kompromiss zwischen Laufzeit und Genauigkeit der Dichtekartenerstellung.

Abstract (eng)

In this thesis we discuss the representation of large high dimensional image databases with modern scatterplot-based visualization techniques. We investigate scatterplot scalability both in terms of what is feasible (performance scalability) and what is reasonable (information scalability). We create two interactive scatterplot-based visualizations for large-scale image datasets, the Global View and the Interactive Cell Plot. The Global View is a desktop application for visualizing peta-scale simulations using in-situ generated image databases, developed in collaboration with the Los Alamos National Laboratory. Global View reads image databases in the Cinema database format. The loaded images are visualized by applying scripted visual mappings using our novel visual mapping scripting language. Using Global View, we compare different visual mappings for the MPAS Ocean dataset and conclude that the different mappings represent a trade-off between an intuitive viewing experience and showing multiple images simultaneously. Once a visual mapping is defined, the image database can be explored by traversing a three dimensional virtual environment of images. Our texture streaming algorithm dynamically loads and unloads images while the image database is explored, by monitoring the amount of allocated video memory. The Interactive Cell Plot is a JavaScript library for rendering large scatterplots with WebGL, developed in collaboration with the Allen Institute for Cell Science. Our efficient rendering technique enables us to render one million two dimensional data points at 60 frames per second and five million points at 25 frames per second. We evaluate visualization parameters of the Interactive Cell Plot and five different thumbnail placement strategies in a qualitative user study. Our novel algorithms for boundary- and density-based labeling minimize occlusions of data points while also minimizing the distance between label and site. We introduce density maps as an intermediate data structure for fast clustering, labeling, characteristic point detection and sample generation. By estimating density map generation runtime, our algorithm allows the user to directly control the performance-accuracy-trade-off of the density map creation algorithm.

Keywords (eng)

scatterplotimage databasevisualizationglobal viewvisual mappingdensity maplabeling

Keywords (deu)

StreudiagrammBilddatenbankVisualisierungGlobal Viewvisuelle ZuordnungBeschriftung

Subject (deu)

Computergraphik

Type (deu)

Masterarbeit

Persistent identifier

https://phaidra.univie.ac.at/o:1338470

DOI

10.25365/thesis.49053

URN

urn:nbn:at:at-ubw:1-20780.33590.188260-8

URI

https://utheses.univie.ac.at/detail/43356

Extent (deu)

vii, 47 Seiten : Illustrationen

Number of pages

55

Study plan

Masterstudium Medieninformatik

[UA]

[066]

[935]

Association (deu)

Fakultät für Informatik

Title (eng)

Scalability of modern scatterplot visualizations for large image datasets

Author

Sebastian Klaassen

Abstract (deu)

In dieser Arbeit befassen wir uns mit der Darstellung von großen hochdimensionalen Bilddatenbanken mit modernen Streudiagramm-basierten Visualisierungstechniken. Wir erforschen die Skalierbarkeit von Streudiagrammen sowohl in Bezug auf Machbarkeit (Performance-Skalierbarkeit), als auch in Bezug auf Sinnhaftigkeit (Informationsskalierbarkeit). Wir erstellen zwei interaktive Streudiagramm-basierte Visualisierungen für große Bilddatensätze, der Global View und der Interactive Cell Plot. Global View ist eine Desktopanwendung zur Visualisierung von Petascale-Simulationen durch in-situ generierte Bilddatenbanken, die in Zusammenarbeit mit dem Los Alamos National Laboratory entwickelt wurde. Global View liest Bilddatenbanken im Cinema Datenformat ein. Die geladenen Bilder werden durch geskriptete visuelle Zuordnungen, von unserer neuartigen Skriptsprache für visuelle Zuordnungen, visualisiert. Wir vergleichen verschiedene visuelle Zuordnungen für den MPAS-Ocean-Datensatz mittels Global View und schließen daraus, dass die verschiedenen visuellen Zuordnungen einen Kompromiss zwischen intuitiver Darstellung und der gleichzeitigen Darstellung mehrerer Bilder darstellen. Sobald eine visuelle Zuordnung definiert ist, kann die Bilddatenbank durch die Durchquerung einer dreidimensionalen virtuellen Umgebung von Bildern erforscht werden. Unser Texture-Streaming-Algorithmus lädt und entlädt Bilder dynamisch, während die Bilddatenbank erforscht wird, indem die zugewiesene Menge an Grafikspeicher überwacht wird. Der Interactive Cell Plot ist eine JavaScript-Bibliothek zum Rendern großer Streudiagramme mittels WebGL, die in Zusammenarbeit mit dem Allen Institute for Cell Science entwickelt wurde. Unsere effiziente Renderingtechnik ermöglicht es uns, eine Million zweidimensionale Datenpunkte mit 60 Bildern pro Sekunde und fünf Millionen Punkte mit 25 Bildern pro Sekunde zu rendern. Wir evaluieren Visualisierungsparameter des Interactive Cell Plot und fünf verschiedene Plazierungsstrategien für Vorschaubilder in einer qualitativen Anwenderstudie. Unsere neuartigen Algorithmen für rand- und dichtebasierte Beschriftung minimieren sowohl Überlappungen von Datenpunkten, als auch die Distanz zwischen Beschriftung und Referenz. Wir stellen Dichtekarten als Zwischenstruktur für schnelles Clustering und schnelle Beschriftung, Stichprobengenerierung und Erkennung Charakteristischer Datenpunkte vor. Durch die Laufzeitschätzung der Dichtekartengenerierung gibt unser Algorithmus dem Benutzer direkte Kontrolle über den Kompromiss zwischen Laufzeit und Genauigkeit der Dichtekartenerstellung.

Abstract (eng)

In this thesis we discuss the representation of large high dimensional image databases with modern scatterplot-based visualization techniques. We investigate scatterplot scalability both in terms of what is feasible (performance scalability) and what is reasonable (information scalability). We create two interactive scatterplot-based visualizations for large-scale image datasets, the Global View and the Interactive Cell Plot. The Global View is a desktop application for visualizing peta-scale simulations using in-situ generated image databases, developed in collaboration with the Los Alamos National Laboratory. Global View reads image databases in the Cinema database format. The loaded images are visualized by applying scripted visual mappings using our novel visual mapping scripting language. Using Global View, we compare different visual mappings for the MPAS Ocean dataset and conclude that the different mappings represent a trade-off between an intuitive viewing experience and showing multiple images simultaneously. Once a visual mapping is defined, the image database can be explored by traversing a three dimensional virtual environment of images. Our texture streaming algorithm dynamically loads and unloads images while the image database is explored, by monitoring the amount of allocated video memory. The Interactive Cell Plot is a JavaScript library for rendering large scatterplots with WebGL, developed in collaboration with the Allen Institute for Cell Science. Our efficient rendering technique enables us to render one million two dimensional data points at 60 frames per second and five million points at 25 frames per second. We evaluate visualization parameters of the Interactive Cell Plot and five different thumbnail placement strategies in a qualitative user study. Our novel algorithms for boundary- and density-based labeling minimize occlusions of data points while also minimizing the distance between label and site. We introduce density maps as an intermediate data structure for fast clustering, labeling, characteristic point detection and sample generation. By estimating density map generation runtime, our algorithm allows the user to directly control the performance-accuracy-trade-off of the density map creation algorithm.

Keywords (eng)

scatterplotimage databasevisualizationglobal viewvisual mappingdensity maplabeling

Keywords (deu)

StreudiagrammBilddatenbankVisualisierungGlobal Viewvisuelle ZuordnungBeschriftung

Subject (deu)

Computergraphik

Type (deu)

Masterarbeit

Persistent identifier

https://phaidra.univie.ac.at/o:1338471

Number of pages

55