Past theses

Instrumental timbre transfer based on disentangled representation of timbre and pitch. - Ilmenau. - 60 Seiten
Technische Universität Ilmenau, Masterarbeit 2024

Als wahrnehmbares Merkmal stellt instrumentales Timbre aufgrund seiner komplexen und vielfältigen Einflusskomponenten Herausforderungen dar. Um die Möglichkeit einer effektiven Darstellung für Tonhöhe durch Entflechten von Timbre und Tonhöhe zu erforschen, führen wir in dieser Arbeit einen mehrfachen Musik-Timbre-Transfer-Ansatz auf der Grundlage von Deep Learning ein, der das Beta-Variational Autoencoder (VAE)-Framework nutzt. Wir verwenden eine spezialisierte Trainingsmethode, bei der zwei Audiosegmente mit dem gleichen Timbre, aber unterschiedlichem Inhalt, separat in den Content-Encoder und den Style-Encoder eingespeist werden. Durch Rekonstruktion im Verlauf des Trainingsprozesses erzielt unsere Methode Inferenzen, die einen effektiven Timbre-Transfer ohne Annotation ermöglichen. Durch die Nutzung eines aus MIDI-Dateien generierten Datensatzes, der eine vielfältige Palette von Timbres umfasst, zeigt unser Ansatz die Fähigkeit zur selbstständigen Erkennung und Unterscheidung verschiedener, bisher ungesehener Timbres. Er erlernt präzise und effektive Style-Embeddings, was bequeme Anwendungen wie Timbre-Interpolation ermöglicht. In nachfolgenden Evaluierungen vergleichen wir die Timbre-Transfer-Performance unseres Modells und die Effektivität der Entflechtung mit anderen Methoden, um schließlich die hohe Genauigkeit des erreichten Timbre-Transfers und die genaue Klassifikation und Verallgemeinerungsfähigkeit des Modells zu demonstrieren.

Mahale, Priyanka;
Analysis of continuous learning audio classification using deep neural network. - Ilmenau. - 38 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Seit mehreren Jahren ermöglicht Lifelong Learning (LL) oder Continual Learning (CL) die Möglichkeit der lebenslangen Anpassung von Machine Learning (ML) oder Deep Learning (DL) Systemen. Kontinuierliches Lernen bietet zahlreiche Lösungen für Echtzeitanwendungen,bei denen dieDaten nicht auf einmal verfügbar sind. Allerdings führen Änderungen in der Verteilung der Eingabedaten und die Nichtverfügbarkeit früherer Daten zu Catastrophic Forgetting Effect, der die Leistung der alten Daten verschlechtert. Diese Arbeit konzentriert sich darauf, den Effekt von Catastrophic Forgetting bei der Audioklassifikation zu lindern und gleichzeitig kontinuierlich neue Sprachbefehle zu lernen. Ein vortrainiertes Convolutional Neural Network (CNN) wird für das kontinuierliche Multi-Task-Lernen verwendet. Task specific class increment wird verwendet, um das CNN-Netzwerk für neue Aufgaben zu erweitern. Später werden Learning without Forgetting (LwF) und Joint Training Algorithmen an einem Audio-Klassifizierungsnetz analysiert, bei dem ein Spoken Digit Recognizer als vortrainiertes CNN verwendet wurde, das für neue gesprochene Schlüsselwörter weiter trainiert wird. Ohne alte Daten hat der Algorithmus von Learning without Forgetting (LwF) die Fähigkeit bewiesen, die Effekte von Catastrophic Forgetting zu lösen. Der LwF-Algorithmus allein reicht jedoch nicht aus, um die Erweiterungsfähigkeit des Netzwerks zu berücksichtigen. Eine weitere in dieser Arbeit untersuchte Methode ist das Joint Training, das in dieser Hinsicht sehr gut abschneidet, aber alte Daten benötigt, um diese Leistung zu erreichen.

Agarwal, Mukul;
Bandwidth extension for audio data using a generative model. - Ilmenau. - 89 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die Fortschritte auf dem Gebiet des Deep Learning haben zu einigen bemerkenswerten Entdeckungen im Bereich der Audioverarbeitung geführt. Eine Fülle von Ressourcen macht es möglich, diese zu implementieren und bietet die Möglichkeit, eine bessere Version von bereits entwickelten Algorithmen und Methoden zu präsentieren. In dieser Arbeit stellen wir eine Implementierung der Bandbreitenerweiterung für Audio vor, die generativen Modellen mit Hilfe eines End-to-End-basierten Deep-Learning-Modells unter Verwendung der Pytorch Bibliothek für tiefes Lernen. Mit Hilfe der Deep-Learning-basierten Studie haben wir mehrere neuronale Netzwerkmodelle mit Variationen in den Eingabedaten für das Modell untersucht, um die zugrundeliegende Struktur in den Audiodaten besser zu verstehen und herauszufinden, wie die Struktur für beste Ergebnisse genutzt werden kann. Darüber hinaus wurden die Modelle mit verschiedenen Verlustfunktionen trainiert. Verlustfunktionen spielen eine große Rolle bei der Bereitstellung besserer Ergebnisse. Eine der von uns in Betracht gezogenen Verlustfunktionen basiert auf der Wahrnehmung von Klang durch das menschliche Ohr, bekannt als Weighted Mean Square Error (WMSE), da allgemeine Verlustfunktionen wie Mean Squared Error (MSE) für die Audiosynthese unzureichend sind. Die Einbeziehung einer wahrnehmungsbasierten Fehlerfunktion erweist sich daher als besser als MSE und liefert eine bessere Rekonstruktion der Hochfrequenzkomponenten als die MSE-basierte Rekonstruktion. Eine weitere Fehlerfunktion, die bessere Ergebnisse lieferte, war Log Spectral Distance (LSD). Sie wurde mit den anderen Verlustfunktionen für Polyphasen- und Nicht-Polyphasen-basierte RNN-Autoencoder verglichen. Bei den für diese Bewertung berücksichtigten Modellen handelt es sich um SampleRNN und einen RNN-Autoencoder, der Resnet verwendet. Es wurden mehrere Experimente zur Bandbreitenerweiterung für verschiedene Abtastraten durchgeführt. Die für diese Experimente berücksichtigten Abtastraten sind 4 kHz bis 8 kHz, 8 kHz bis 16 kHz und 16 kHz bis 32 kHz. Die Vorhersage höherer Frequenzkomponenten aus niederfrequenten Komponenten wurde durch Betrachtung der rekonstruierten Spektrogramme bestätigt. Darüber hinaus wurde ein Mushra-Test durchgeführt, um die Qualität der rekonstruierten Audio-Samples für 8 kHz als Eingang und 16 kHz als Ziel für die oben genannten Experimente zu bewerten.

Salaar, Hamza;
In-loop filtering for artificial intelligence-based video coding. - Ilmenau. - 65 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Der Einsatz von In-Loop-Filtern gilt bei der herkömmlichen Videokodierung als wichtiger Verarbeitungsschritt, um die Qualität der rekonstruierten Bilder zu verbessern. Diese Filter werden in Kodierungs- und Dekodierungsschleifen eingesetzt, um die Qualität der rekonstruierten Bilder zu verbessern, indem blockbasierte Kodierungsartefakte entfernt werden. Aufgrund der jüngsten Entwicklung von KI-basierten Bild- und Videokompressionsverfahren konzentriert sich diese Arbeit auf den Einsatz von KI-basierten In-Loop-Filtern in diesen Videokompressionstechniken. Ein KI-basierter In-Loop-Filter, der ursprünglich entworfen wurde, um den traditionellen In-Loop-Filterblock in VVC zu ersetzen, wird im ersten Ansatz verwendet und als Nachbearbeitungsschritt auf die rekonstruierten Frames eines KI-basierten Codecs (der derzeit am Fraunhofer IIS entwickelt wird) angewendet. Dies verbesserte die Qualität der rekonstruierten Frames, aber es wurde ein Unterschied in der Qualitätsverbesserung von intra- und inter-kodierten Frames (des KI-basierten Codecs) beobachtet. Beim zweiten Ansatz wurde der Filter so modifiziert, dass er die Residuen zusammen mit den rekonstruierten Bildern einbezog und sie durch separate Zweige geleitet wurden. Dies führte zu einer größeren Verbesserung bei inter-kodierten Bildern im Vergleich zum ersten Modell. Die erzielten Ergebnisse beweisen, dass KI-basierte In-Loop-Filterung auch bei der Entwicklung von KI-basierten Bild- und Videokodierungsmethoden von großer Bedeutung sein kann

Karna, Saurav;
Investigation of auto-encoder neural networks for efficiently representing subband domain audio signals. - Ilmenau. - 93 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Die Audiosignalverarbeitung umfasst viele Mannigfaltigkeiten der Audiosignalmanipulation, wobei eine solche eine Verringerung der Größe von Audiodaten, d.h. Kompression, ist. Die Komprimierung von Signalen, obwohl in vielen Fällen wünschenswert, ist keine einfache Aufgabe. Die Herausforderungen liegen darin, eine Signaldarstellung zu finden, die eine perzeptiv genaue Wiederherstellung des Originalsignals bei einer gewünschten Kompressionsrate ermöglicht. Fortgeschrittene Signalverarbeitungstechniken haben ähnliche Probleme unter Verwendung von Subband-Domain-Codierung behandelt. Auf der anderen Seite entwickelt sich der Stand der Technik dem maschinellen Lernen, hat robuste Alternativen für spärliche Kodierung und Dimensionalitätsreduktion, durch tiefes Lernen und speziell tiefe Auto-Encoder eingeführt. In dieser Arbeit wird eine Methodik vorgestellt, die die Idee der Subband-Domain-Codierung und der tiefen Auto-Encoder kombiniert. Diese These konzentriert sich auf die Darstellung von monauralen Musiksignalen mittels tiefer Auto-Codierung, zum Zwecke einer effizienten Codierung und Komprimierung. In dieser Arbeit untersuchen wir tiefe Vorwärts-Auto-Encoder, indem sie die Subband-Signaldomäne, die Regularisierungstechniken für die Spärlichkeit, die Tiefe des Auto-Encoders und die Anzahl der Einheiten, die die Dimensionalität der Codierungsschicht beeinflussen, variieren. Darüber hinaus stellen wir ein Verfahren zur Codierung und Speicherung der aus einer versteckten Codierungsschicht gewonnenen Einzelkanal-Audiodaten vor. Das vorgeschlagene Verfahren wird mittels objektiver Metriken wie Rausch-zu-Masken-Verhältnis (NMR), Spärlichkeit, Bitrate und Kompressionsverhältnis ausgewertet. Ziel-Metriken deuten darauf hin, dass Sparsity-Regularisierung zu einer wahrnehmbar besseren Rekonstruktion führen kann. Weiterhin beeinflusst die Menge an Codierungsschichten die Leistung der Rekonstruktion nicht signifikant, und schließlich können tiefe neuronale Netzwerke wünschenswerte Codierungs-Bitraten und Kompressionsraten bereitstellen. Auto-Encoder, die auf Feed-Forward-Neuronennetzwerken basieren, zeigen keine signifikanten Verbesserungen gegenüber vorhandenen Codierern, die in der Subband-Domäne implementiert sind. Dieser Nachteil könnte mit rekursiven neuronalen Netzwerkarchitekturen angegangen werden.

Sturm, Michael;
Transformation of unified speech and audio coding algorithms from the time domain to the MDCT domain. - 92 Seiten
Technische Universität Ilmenau, Bachelor-Arbeit 2016

Unified Speech and Audio Coding (USAC) vereint den Stand der Technik bezüglich Audio- und Sprachcodierung zu einem Codec, der Audiosignale, Sprachsignale und Signale mit gemischtem Inhalt bei niedrigsten Bitraten hochqualitativ wiedergibt. Durch die Signalverarbeitung in unterschiedlichen Domänen - der Audiocodec arbeitet in der Domäne der modifizierten diskreten Kosinustransformation (MDCT), der Sprachcodec im Zeitbereich - benötigt die Vereinigung beider Codec-Zweige zusätzliche Maßnahmen, um die Beseitigung von Alias-Artefakten bei der inversen MDCT im Decoder zu garantieren. Folglich wäre es sinnvoller, die Sprachcodierung in der MDCT-Domäne durchzuführen. Bisher konnte diesbezüglich noch keine Lösung entwickelt werden, da sie mit zeitvariablen Filtern mit unendlicher Impulsantwort (IIR) einhergeht. Diese Masterarbeit präsentiert einen Ansatz, der die auf IIR-Filtern basierenden Sprachcodierungs-Algorithmen Langzeitprädiktion und Kurzzeitprädiktion perfekt in die MDCT-Domäne transferiert. Ermöglicht wird dies durch Matrizen, die ganze Signalblöcke um einzelne Samples verschieben, und durch die Auflösung einer verzögerungsfreien Rekursion. Der Vergleich mit einem Code-Excited Linear Prediction (CELP) Referenzcodec im Zeitbereich bestätigte das Resultat. Da dieser Ansatz sehr rechenaufwändig ist, wurden Versuche mit dünn besetzten Versionen der Verschiebungs-Matrizen durchgeführt. Ein abschließender Hörtest zeigte, dass dieser Ansatz den Rechenaufwand auf 21% reduzieren kann, ohne die wahrgenommene Qualität auf ein inakzeptables Niveau zu verschlechtern. Weitere Hörtests, um einen Kompromiss zwischen wahrgenommener Qualität und Rechenaufwand zu finden, und Laufzeitmessungen mit einer effizienten Implementierung sind nötig. Von bestimmten dünn besetzten Matrizen verursachte Instabilitäten benötigen ebenfalls eine tiefere Einsicht.

Herold, Michaela;
Bump, Normal und Environment mapping in WebGL. - 70 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2014

Durch WebGL ist es möglich dreidimensionale Inhalte im Browser darzustellen, ohne zusätzliche Software installieren zu müssen. Wie in anderen 3D-Anwendungen wird auch hier viel Wert auf eine annähernd realistische Darstellung gelegt. Dies ist oft nur durch hochaufgelöste Geometrien möglich, was einen erhöhten Rechenaufwand und größeren Bedarf an Speicherplatz zur Folge hat. Aus diesem Grund wurden Verfahren wie das Bump- oder Environmentmapping einwickelt. Sie ermöglichen die Darstellung von Objekten mit geringer aufgelöster Geometrie aber annähernd gleichem Detailgrad. Diese Arbeit beschäftigt sich mit verschiedenen bekannten Ausführungen dieser beiden Verfahren und deren Implementierung in WebGL. Ziel war es einen bereits bestehenden Prototypen um diese Funktionen zu erweitern. Dazu werden werden zunächst verschieden Bump- und Environmentmapping-Verfahren erläutert. Anschließend wird die Implementierung dieser Verfahren in den Prototypen betrachtet. Zum Schluss wird der erweiterte Prototyp mit einer Spiele-Engine, in Bezug auf diese Erweiterungen verglichen. Dabei wurde eine Testszene entwickelt. Diese wurden in beiden Programmen auf möglichst gleichwertige Art und Weise zusammengestellt. Anschließend wurde untersucht, wie sich die implementierten Verfahren hinsichtlich ihrer Auswirkungen auf die Performance von der Spiele-Engine unterscheiden. Dazu wurde u.a. getestet, welchen Einfluss die gewählte Auflösung auf die Framerate, d.h. die Anzahl der berechneten Bilder pro Sekunde, hat. Diese Untersuchung dient dazu, den Prototypen im Vergleich mit existierenden Lösungen bewerten zu können.

Brocks, Tobias;
Motion compensation for Time-of-Flight depth maps using high-resolution RGB guided optical ow estimation. - 72 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2014

Die Firma ARRI hat eine hochauösende Kino-Digitalkamera mit einer sog. "Time-of-Flight" Tiefenkamera verbunden. In dieser Arbeit wird eine Methode vorgestellt um Bewegungsartefakte in den Tiefenkarten, die mit diesem Prototypen aufgenommen wurden, zu korrigieren. Die Tiefeninformationen werden durch vier zeitlich aufeinanderfolgende Messungen gewonnen. Durch Bewegungen während dieser Messungen verschieben sich die Messwerte untereinander und es kommt zu Fehlern in Größenordnungen von bis zu einem Messbereich. Fehler mit solchen Auswirkungen erschweren alle weiteren Bearbeitungsschritte. Die Messungen müssen, selbst bei Szenen die Bewegung enthalten, sehr verlässlich sein um in der professionellen Filmproduktion Anwendung nden zu können. Die vorgestellte Methode basiert auf Bewegungsschätzung mit "Optical Flow Estimation". Dazu werden hochauösende RGB Bilder genutzt. Die geschätzte Bewegung wird dann verwendet um die Messwerte der Time-of-Flight Kamera pixelweise mit den vorhergehenden Messungen anzugleichen. Einige Teile der vorgestellten Methode basieren auf den Ideen, die von Lindner und Kolb sowie Schmidt veröentlicht wurden. Die vorgestellte Korrekturmethode wird mithilfe von Testdaten aus realistischen, kontrollierten und synthetischen Umgebungen beurteilt. Es zeigt sich, dass Bewegungsartefakte erheblich verringert werden können. Dabei hängen die Ergebnisse stark von der Qualität der Bewegungsschätzung ab und enthalten ein erhöhtes Rauschen. Eine neuartige Sensor-Kalibrierung und höhere Bildwiderholraten könnten die Ergebnisse der Bewegungskorrektur noch weiter verbessern.

Stoll, Fabian;
Global Illumination in WebGL. - 71 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2014

Mit WebGL lassen sich direkt im Browser dreidimensionale Inhalte darstellen. Der Realismus einer virtuellen Szene hängt unter anderem von ihrer Beleuchtung ab. Wir können durch die Wahrnehmung von Wechselwirkungen zwischen Licht und Oberflächen leicht feststellen, ob ein Objekt real ist oder Teil einer virtuellen Darstellung. Die Annäherung naturgemäßer Beleuchtungsprinzipien in 3D-Anwendungen wird als globale Beleuchtung oder auch Global Illumination bezeichnet. In dieser Bachelorarbeit wird die Verwendung von Global Illumination Algorithmen in WebGL untersucht und die prototypischen Umsetzung eines globalen Beleuchtungsmodelles beschrieben. Nach einer grundlegenden Betrachtung von WebGL und virtueller Beleuchtung sollen bereits existierende Ansätze vorgestellt und bewertet werden. Es folgt die Beschreibung der Implementierung von Monte-Carlo Pathtracing in WebGL als Kernstück der Arbeit. Abschließend wird die eigene Umsetzung analysiert und Vergleiche zu den bereits vorgestellten Modellen gezogen.

Kehling, Christian;
Entwicklung eines parametrischen Instrumentencoders basierend auf Analyse und Re-Synthese von Gitarrenaufnahmen. - ca 130 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2013

In dieser Diplomarbeit wird ein Algorithmus vorgestellt, der eine parametrische Audiocodierung von monotimbralen Gitarrensignalen ermöglicht. Als Grundlage dient dabei einzig das Ausgangssignal einer handelsüblichen Elektrogitarre. Anhand des digitalisierten Audiosignals werden Parameter extrahiert, die zum einen die automatische Notation des gespielten Stückes realisieren und zum anderen eine Synthese des notierten Stückes mittels eines Physical Modeling Verfahrens ermöglichen. Betrachtet werden sowohl monophone als auch polyphone Stücke sowie gängige Spieltechniken auf einer Gitarre. Weitere Bestandteile der Arbeit sind die Aufnahme und Annotation eines für diese Arbeit benötigten Datensatzes aus 261 Audiofiles sowie die anschließende Evaluation des Codierungsalgorithmus mittels eines einfachen MUSHRA Hörtestverfahrens zur Beurteilung der generierten Ergebnisse. Außerdem wird eine Lösung für ein mögliches Datenformat zur speicherschonenden Notation und Archivierung der Parameter vorgestellt.

Page 1 of 4 (⋎ Show All )

Range of courses

Experience university

Start of studies

Student Life

Before the study

Range of courses

Study organization

Further offers

Information and Advice

In study

Career Start

Start-up Service

Further training

Alumni

After graduation

Contact