Abschlussarbeiten

Anzahl der Treffer: 203
Erstellt: Mon, 18 Mar 2024 23:03:42 +0100 in 0.0749 sec


Ziegler, Sebastian;
Sensory evaluation of HDR videos. - Ilmenau. - 75 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2024

High Dynamic Range (HDR) hat in den letzten Jahren aufgrund der Digitalisierung und der Spezifikation von Ultra-High Definition Television (UHDTV) für den Rundfunk an Bedeutung gewonnen. Durch Erhöhung des Dynamikumfangs vergrößert HDR die Anzahl der Helligkeitswerte zwischen dem niedrigsten und dem höchsten Wert eines Videos, wodurch ein höherer Kontrast und eine allgemeine Verbesserung der Videoqualität erhofft wird. Die Wahrnehmbarkeit dieser potenziellen Verbesserungen wurde in dieser Bachelorarbeit mit Hilfe einer perzeptiven Analyse von HDR-Videos untersucht. Ziel war es, wahrnehmungsbezogene Eigenschaften (Attribute) von HDR-Videos zu analysieren und möglicherweise zu quantifizieren. Im Rahmen dessen wurde ein Experiment mit Nicht-Experten durchgeführt. Für die Umsetzung wurden eine Reihe sensorischer Methoden vorgestellt und in Erwägung gezogen. Schließlich wurde die Relaxed Forced Choice (RFC)-Methode erläutert und dann im Experiment angewendet. Die im Experiment gezeigten Sequenzen wurden aus 2 HDR-Datensätzen entnommen. Aus den HDR-Sequenzen wurden für jede Szene 2 verschiedene Versionen mit unterschiedlichem Dynamikumfang und geringerer maximaler Leuchtdichte erstellt, die dann im Experiment mit den HDR-Sequenzen verglichen wurden. Der Vergleich erfolgte anhand von Attributen, die zur Beschreibung von Videoqualität verwendet werden können. Diese wurden im Vorfeld anhand von geeigneter Literatur ausgewählt. Es wird gezeigt, dass Helligkeit, Kontrast und Schärfe am besten geeignet sind, um HDR-Videos zu beschreiben, während Attribute wie Dreidimensionalität und Natürlichkeit als weniger einflussreich wahrgenommen werden. Weiterhin wird gezeigt, dass die Wahrnehmung der Attribute auch vom Inhalt der Videos abhängig ist.



Frank, Paul Rudi;
High Frame Rate und deren Auswirkungen auf die wahrgenommene Videoqualität. - Ilmenau. - 55 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2024

Diese Arbeit beschäftigt sich mit dem Zusammenhang zwischen High Frame Rate (HFR) und der wahrgenommenen Videoqualität. HFR bedeutet eine Verdoppelung der Bildwiederholrate, beispielsweise von 24 Bildern pro Sekunde (Frames per second, fps) auf 48 fps. Dabei spielt HFR nicht nur technisch eine wichtige Rolle, da es die Lösung für auftretende Bewegungsartefakte wie großflächiges Flimmern, Bewegungsunschärfe oder Verwackeln im Video sein könnte, sondern ermöglicht auch eine flüssigere Wiedergabe von Bewegungen oder Animationen. Mit steigender Auflösung nehmen auch die Bewegungsartefakte zu, so dass es immer schwieriger wird, diese zu beseitigen. HFR ist in der Videowiedergabe bisher jedoch nicht stark verbreitet, da Filme nach wie vor mit 24 Bildern pro Sekunde und Fernsehprogramme mit 60 Bildern pro Sekunde wiedergegeben werden. Obwohl die Technologie es ermöglicht, Filme in HFR zu zeigen, wie z.B. Avatar 2: The Way of Water Ende 2022, gibt es kaum Filme, die in HFR produziert werden. Dies wirft die Frage auf, ob Menschen den Unterschied in der Framerate überhaupt wahrnehmen können und ob eine Erhöhung der Framerate gleichzeitig zu einer höheren Videoqualität führt. In dieser Arbeit wird ein subjektiver Test zur Beurteilung der Videoqualität durchgeführt, der diese Fragen beantworten soll und auch zur Klärung der Forschungsfrage dient, ob HFR zu einer signifikanten Qualitätsverbesserung führt. Für diesen Test wird ein Videodatensatz zusammengestellt, der von mehreren Testteilnehmern bewertet und anschließend in Form von Diagrammen und einem Videoqualitätsmodell ausgewertet wird. Das Qualitätsmodell zeigt eine starke Korrelation zwischen den vorhergesagten Daten und den tatsächlichen Bewertungen. Somit kann das entwickelte Modell zur Vorhersage der Videoqualität verwendet werden.



Din, Adeel Ud;
Assessment of QoE in open-source video conferencing solutions. - Ilmenau. - 110 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Die Zunahme von Videokonferenzen nach 2019 führte zur Erforschung von WebRTC als Werkzeug für Echtzeitkommunikation ohne zusätzliche Softwareinstallationen. Trotz der Beliebtheit wurde in der Forschung festgestellt, dass WebRTC anfällig für Netzwerkbeeinträchtigungen ist, die sich auf die Quality of Experience (QoE) auswirken. Diese Arbeit untersucht menschliche Faktoren und kontextuelle Einflüsse auf die QoE in WebRTC-Videokonferenzen. Ein subjektiver Test mit 18 Teilnehmern, Daten aus webbasierten Tests mit Netzwerkbeeinträchtigungen und maschinelles Lernen für QoE-Schätzung wurden durchgeführt. Ergebnisse zeigen Einflüsse auf die QoE, besonders unter höchsten Testbedingungen. Das XGBoosting-Modell erwies sich als effektiv für Echtzeitschätzungen.



Sanne, Julian;
Energieverbrauch von DASH-Videostreaming. - Ilmenau. - 61 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Bereits heute werden täglich 170g CO2-Äquivalente pro Einwohner in Deutschland für Videostreaming emittiert. Bei einem steigenden Datenverkehr im Internet und immer größer werdenden Popularität von Video-on-Demand Plattformen mit UHD-Inhalten, wird dieser Wert auch in Zukunft steigen. Ein steigender Energieverbrauch besitzt eine hohe Relevanz, da er sowohl negative Folgen für die Umwelt, als auch steigende Stromkosten mit sich bringt. In der Arbeit wurde der Stromverbrauch von DASH-basiertem Videostreaming für die Seite des Clients untersucht. Dabei wurde ein Fokus auf Faktoren gelegt, die den Stromverbrauch beeinflussen, wie z.B. die Videoauflösung, Bildwiederholrate, Videobitrate oder der verwendete Videocodec. Mit einer smarten Steckdose wurden für ein Laptop und einen Desktop-PC mit zwei unterschiedlichen Hardwarekonfigurationen die Stromverbräuche automatisiert gemessen. Dafür wurden von jedem Video für die ersten zehn Sekunden der Stromverbrauch erfasst und jede halbe Sekunde abgefragt. Insgesamt umfassten die Messungen für alle Endgeräte 350 Repräsentationen mit jeweils vier Videoparametern. In Abhängigkeit der jeweiligen Endgeräte und Videoparameter wurden die Messwerte evaluiert. Hierzu wurde festgestellt, dass der Stromverbrauch vom Endgerät abhängig ist und maßgeblich von der Unterstützung für Hardwaredecodierung für bestimmte Videocodecs beeinflusst wird. So konnten für Durchschnittswerte ein Unterschied von 37 % im Stromverbrauch zwischen Hardware- und Softwaredecodierung ausgemacht werden. Auch bei hardwaredecodierten Videos wurden Differenzen von bis zu 7,3 % im Verbrauch zwischen den Videocodecs erfasst. Durch eine richtige Wahl von Videoparametern, angepasst auf das Endgerät, können so mögliche Stromsparpotentiale durchgesetzt werden.



Ahmed, Munim;
Audio-driven lip-syncing talking head avatar generation. - Ilmenau. - 94 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Die audiogesteuerte Lippensynchronisation ist ein entscheidendes Element, um die Authentizität und das Engagement von virtuellen Charakteren in Mixed-Reality-Umgebungen zu verbessern. Diese Arbeit stellt einen innovativen Ansatz zur präzisen und dynamischen Lippensynchronisation für 3D-Avatare durch die Integration modernster Deep-Learning-Techniken und Echtzeit-Animation vor. Die vorgeschlagene Methodik nutzt ein bidirektionales Langzeitgedächtnismodell (BiLSTM), um Phoneme und Viseme aus Echtzeit-Spracheingaben vorherzusagen, was zu synchronen und genaue Lippenbewegungen führt. Die Forschung umfasst die Entwicklung und den Einsatz eines ganzheitlichen Systems, das drei Kernkomponenten umfasst: Audioanalyse, Deep Learning lernende Modellierung und Echtzeit-Animation. Die Phase der Audioanalyse umfasst die Vorverarbeitung der Spracheingabe, um sinnvolle phonetische Merkmale zu extrahieren. Anschließend wird ein BiLSTM-Modell sorgfältig trainiert, um sowohl Phoneme als auch Viseme vorherzusagen. Dabei wird der zeitliche Kontext der Sprachsignale genutzt, um die Präzision zu erhöhen. Die nahtlose Integration dieses Modells mit einem bereits vorhandenen 3D-Avatar wird in der Unity Echtzeit-Entwicklungsplattform realisiert, unterstützt durch ein UDP-Socket-basiertes Rahmenwerk. Dies ermöglicht die Echtzeit-Übertragung der vorhergesagten phonemischen und visemischen Informationen, die wiederum die Lippen des Avatars in einer Weise animieren, die der natürlichen Sprachsynchronisation sehr nahekommt. Das vorgeschlagene System hat vielversprechende Ergebnisse in verschiedenen Dimensionen erzielt und eine Genauigkeit von etwa 80% Echtzeitleistung und visuelle Wiedergabetreue. Es wurde ein umfangreicher subjektiver Test durchgeführt, um die Leistung des Frameworks bei verschiedenen Spracheingaben zu bewerten, was sein Potenzial bestätigt, die das Engagement und die Immersion des Benutzers erhöhen, indem lebensechte Avatare präsentiert werden, die eine bemerkenswerte Sprachpräzision aufweisen. Diese Forschung stellt eine innovative Lösung in der audio-gesteuerten Animation, bei der die Verschmelzung von Deep Learning, Echtzeit-Kommunikation und 3D-Animationstechnologien die Lücke zwischen Audio und visuellem Ausdruck schließt. Die Evaluierungsergebnisse zeigen die konsequente Überlegenheit des vorgeschlagenen Rahmens bei der Nutzerwahrnehmung, insbesondere in den Bereichen Avatar-Realismus, Lippensynchronisationsfähigkeiten und Verhaltensplausibilität. Während die statistische Analyse keine signifikanten Unterschiede zwischen den Frameworks aufzeigt, zeigen die individuellen Bewertungswerte, dass die Teilnehmer das vorgeschlagene Framework in Bezug auf die Lippensynchronisation und den Realismus des Avatars für plausibler und robuster halten.



Elmeligy, Bassem Tarek Mokhtar;
Evaluating the performance of JPEG XS in medical image compression. - Ilmenau. - 83 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Medizinische Bilder, die es medizinischen Fachleuten ermöglichen, in den menschlichen Körper zu sehen und Anomalien zu erkennen, sind für die Diagnose und Behandlung zahlreicher Erkrankungen von wesentlicher Bedeutung. Diese Masterarbeit befasst sich mit der Bedeutung der medizinischen Bildgebung und geht gleichzeitig auf die Herausforderung der großen Dateigrößen ein, die mit medizinischen Bildern verbunden sind. Sie zielt darauf ab, die Effektivität von JPEG XS bei der Komprimierung medizinischer Bilder zu bewerten, wobei die visuelle Qualität beibehalten und die Dateigrößen reduziert werden. Die Studie führt eine detaillierte vergleichende Analyse von JPEG XS mit anderen Komprimierungsstandards wie JPEG 2000, HEVC und AV1 durch und berücksichtigt dabei Komprimierungseffizienz, Codec- Komplexität und visuelle Wiedergabetreue in der medizinischen Bildgebung. Fortgeschrittene Bewertungsmethoden, einschließlich des AIC-2 Flicker-Tests, werden eingesetzt, um den visuell verlustfreien Schwellenwert zu bestimmen, der für die Erhaltung diagnostisch wichtiger Details unerlässlich ist. Darüber hinaus wird in der Studie das Potenzial von Crowd-Sourcing für die Bewertung der visuellen Qualität der medizinischen Bildkompression untersucht. Die Ergebnisse zeigen, dass AV1 andere Codecs in objektiven Metriken durchweg übertrifft, was seine Effizienz bei der Kompression unterstreicht. JPEG 2000 und HEVC schneiden ebenfalls gut ab, während JPEG XS bei niedrigeren Bitraten ins Hintertreffen gerät. Die Analyse der Kodierungszeiten zeigt, dass JPEG XS über verschiedene Komprimierungsstufen hinweg eine schnelle und konsistente Geschwindigkeit beibehält, wodurch es sich für medizinische Bildgebungsgeräte mit geringer Komplexität eignet. Subjektive Bewertungen in Labor- und Crowd-Sourcing-Tests zeigen unterschiedliche Anteile richtiger Bewertungen unter den Teilnehmern, und die Studie schlägt Methoden zur Erkennung von Ausreißern vor, um die Zuverlässigkeit der Bewertung zu erhöhen. Die Studie stellt eine starke Korrelation zwischen Labor- und Crowd-Sourcing-Bewertungen sowie zwischen subjektiven Bewertungen und objektiven Messwerten fest und bestätigt damit die Fähigkeit der letzteren, die menschliche Wahrnehmung der Bildqualität vorherzusagen. Es werden die visuell verlustfreien Schwellenwerte für verschiedene Codecs ermittelt, die wichtige Informationen für Diagnosezwecke liefern. Zusammenfassend bietet die Studie umfassende Einblicke in die Bewertung der medizinischen Bildkompression, die sowohl objektive als auch subjektive Beurteilungen umfasst, mit bedeutenden Auswirkungen auf die visuell verlustfreie Kompression in medizinischen Bildgebungsanwendungen.



García Romero, Ana;
Development and evaluation of different visualization approaches for interactable rooms in immersive virtual environments. - Ilmenau. - 57 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Im Bereich der virtuellen Realität gibt es ein wachsendes Interesse an immersiven virtuellen Umgebungen (IVEs) in verschiedenen Branchen, einschließlich Gaming, Bildung, Gesundheitswesen und Training, da sie den Nutzern ansprechende und realistische Erlebnisse bieten. Der Realismus dieser Umgebungen ist unerlässlich, da sie ein höheres Gefühl von Präsenz und Immersion bieten und es den Nutzern ermöglichen, mit digitalen Räumen und Objekten auf eine Weise zu interagieren, die die reale Welt nachahmt. Es wird angenommen, dass immersive virtuelle Umgebungen potenzielle Vorteile bei der Verbesserung des räumlichen Verständnisses und der Aufgabenleistung haben. Im Rahmen dieser Arbeit wurden zunächst mehrere Studien vorgestellt, die verschiedene Visualisierungstechniken für IVEs verglichen oder kombiniert haben. Anschließend wurden modernste Visualisierungsansätze für interaktive Räume untersucht, wie z.B. 360-Grad-Bilder, CGI-Modellierung, Photogrammetrie und 3D-Scannen. Darüber hinaus wurden in der Literatur vorhandene Ansätze zur Bewertung verschiedener Aspekte virtueller Umgebungen diskutiert. Dazu gehört der Einsatz von Fragebögen zur Bewertung verschiedener Faktoren wie Simulatorkrankheit, Präsenz, Messung der Aufgabenleistung oder Analyse von Interaktionstechniken. Diese Methoden helfen den Forschern, ein umfassendes Verständnis der Benutzerpräferenzen zu gewinnen, um das Design von IVEs zu verbessern. Darauf aufbauend wurden drei unterschiedliche Ansätze mit unterschiedlichen Visualisierungstechnologien wie 360˚-Bilder, CGI-Modellierung und 3D-Scannen entwickelt. Alle erstellten virtuellen Räume sind interaktiv, so dass sich die Nutzer in diesen Räumen bewegen und Aufgaben ausführen können, wie z.B. ein Spiel aus dem Regal nehmen und auf einen Tisch stellen, einen Liegestuhl zusammenstellen oder das Licht einschalten. Darüber hinaus wurde ein subjektiver Test mit insgesamt 31 Probanden entwickelt und durchgeführt. Dabei wurden die verschiedenen Raumvisualisierungstypen hinsichtlich Sehqualität, Aufgabenleistung, Präsenz, Interaktionsmöglichkeiten und weiterer relevanter Faktoren bewertet und miteinander verglichen.



Bhattacharya, Abhinav;
Frame rate vs resolution vs bitrate: subjective quality evaluation of 360-degree videos with an HMD. - Ilmenau. - 83 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Im Bereich der Virtuellen Realität (VR) gewinnt das Verständnis der Nutzerwahrnehmung von 360˚-Videoqualität erhebliche Bedeutung. Quantitative Messungen allein können die detaillierten Aspekte des immersiven Medienkonsums nicht vollständig erfassen, was Dimensionen umfasst, die über konventionelle numerische Bewertungen hinausgehen. Faktoren wie das Gefühl der Präsenz und die potenzielle Möglichkeit eines Videos, Simulator sickness zu induzieren, erfordern einen Ansatz, der über die technische Methodik hinausgeht. Die Auswirkungen individueller Video-Parameter und das Hinzufügen von räumlichem Audio wie 4th-Order Ambisonics (4OA)-Audio auf die Wahrnehmung der 360˚-Videoqualität durch die Benutzer müssen untersucht werden, um zukünftige Forschung zu unterstützen und ansprechendere und immersivere Inhalte zu produzieren. Um das Problem in dieser Masterarbeit anzugehen, wurden subjektive Tests an einer Gruppe von 26 Teilnehmern durchgeführt. Die Bewertungen für die Videoqualität, die Präsenz und die Simulator sickness für verschiedene Versionen von 360˚-Videos zu sammeln, die auf einem Head Mounted Display (HMD) angesehen wurden. Zusätzlich wurden ihre Kopfrotationsdaten gesammelt, um die Unterschiede im Erkundungsverhalten durch die Änderung von Videoparametern oder der Audio-Modalität zu untersuchen. Es ergaben sich signifikante Einflüsse von 4OA-Audio auf die Wahrnehmung der Videoqualität und der Präsenz, wobei deren Sensibilität für Bitratenänderungen hervorgehoben wurde. Die Probanden konnten zwischen Bitraten mit und ohne 4OA-Audio unterscheiden. Darüber hinaus wirkte sich das Vorhandensein von 4OA-Audio positiv auf das Erkundungsverhalten aus, während die Werte für die Simulator sickness eine wahrnehmbare Korrelation mit dem Vorhandensein von 4OA-Audio aufwiesen. Insgesamt betonen die Ergebnisse die komplexe Wechselwirkung zwischen Audio, visueller Qualität, Präsenz und Erkundungsverhalten in immersiven 360˚-Videoerlebnissen. Diese Erkenntnisse liefern wertvolle Einblicke zur Verbesserung des Designs und der Präsentation von 360˚-Videos und führen zu einer verbesserten Nutzererfahrung sowie einem besseren Verständnis der Einflussfaktoren auf die Wahrnehmung der in virtuellen Umgebungen.



Schulrath, Simon;
Detection of Multi JPEG Image Compression using Deep Learning. - Ilmenau. - 93 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Der Joint Photographic Experts Group (JPEG)-Kompressionsstandard ist einer der am häufigsten verwendeten Kompressionsalgorithmen für digitale Bilder. In den letzten 30 Jahren wurden die Möglichkeiten immer vielfältiger und die Kosten geringer, um Bilder zu bearbeiten. Es ist daher von Interesse, die Authentizität von Bildern zu verifizieren. Ein Ansatz dafür ist die Erkennung der Anzahl von durchgeführten Kompressionsschritten bei JPEG-komprimierten Bildern. Mehrere Kompressionen können darauf hinweisen, dass das Bild nicht mehr dem Original entspricht, wobei sich auch ein Verlust der Qualität ergibt. Voruntersuchungen in der Arbeit zeigten, dass, auch bei gleichbleibender Quantisierungsmatrix, mit jedem Kompressionsschritt Änderungen an den räumlichen Bildinformationen messbar sind. In dieser Arbeit wurde daher untersucht, ob verschiedene CNNs (Convolutional Neural Networks) in der Lage sind, bis zu fünf JPEG-Kompressionen mit derselben Quantisierungsmatrix zu erkennen. Als CNNs wurden VGG-19, DenseNet-201 und Inception-v3 untersucht, wobei RGB-Bilder als Eingabe dienten. Für die Arbeit wurde ein Datensatz aus den Bilderdatensätzen RAISE und MIT-Adobe FiveK zusammengestellt. Zusätzlich wurde Transfer Learning angewendet, um zu prüfen, ob gelernte Merkmale aus der ImageNet Challenge die Erkennung von mehreren Kompressionen verbessern können. Die besten Ergebnisse wurden mit dem VGG-19 erreicht. Im Vergleich jedoch zu schon vorgestellten Methoden führte das untersuchte Verfahren zu keiner Verbesserung der Detektion von mehreren JPEG-Kompressionen. In der Arbeit wurde gezeigt, dass die CNNs in der Lage sind zu einem bestimmten Grad die Anzahl an Kompressionen richtig zu bestimmen. Für eine genauere Erkennung muss vermutlich jedoch eine andere Eingabe als RGB-Bilder erfolgen.



Virtuelles Studio für HD/4K-Anwendungen. - Ilmenau. - 51 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Im Rahmen einer dieser Arbeit vorausgegangenen Masterarbeit wurde begonnen ein virtuelles Studio für HD- Und 4K-Anwendungen zu entwickeln. Darauf wird nun aufgebaut. Das Hauptaugenmerk liegt dabei auf dem Kameratracking. Dieses soll für das Optitrack-System genauso umgesetzt werden wir für den HTC Vive Tracker. Ziel ist es außerdem mit Hilfe von Genauigkeitsmessung und Videoverzögerung herauszufinden, ob unter bestimmten Bedingungen der deutliche preiswertere Gaming-Tracker genauso geeignet sein könnte, wie das wesentlich teurere, professionelle Trackingsystem. Rein nach den gemessenen Werten betrachtet, erzielt der Vive Tracker im Punkt Genauigkeit bessere Ergebnisse. Diese höhere Genauigkeit geht allerdings mit einer hohen Verzögerung einher.