Abschluss- und Projektarbeiten

Das Fachgebiet bietet zahlreiche Themen für Bachelor- und Masterarbeiten an. Aktuell ausgeschriebene Themen

Sie können sich auch mit einem eigenen Thema an unsere Mitarbeiter:innen wenden. Nachstehend sind im Fachgebiet abgeschlossene, betreute Abschlussarbeiten aufgelistet. In vielen Fällen sind die Themen immernoch relevant. Zögern Sie also nicht mit uns in Kontakt zu treten, wenn  Sie dort für Sie interessant Themen finden.

Abgeschlossene Masterarbeiten
Anzahl der Treffer: 129
Erstellt: Thu, 25 Apr 2024 23:03:07 +0200 in 0.0944 sec


Applying per-instrument polyphony information in the automatic transcription of multitimbral polyphonic music. - Ilmenau. - 125 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die automatische Musiktranskription (AMT) im Bereich des Music Information Retrieval (MIR) ist eine sehr schwierige Aufgabe, die eine Reihe von Teilaufgaben wie Multi-Pitch Estimation (MPE) und Instrumentenklassifizierung umfasst. Unser Hauptziel ist es, die lokale Frame-basierte Polyphonie (Anzahl der Noten pro Instrument oder Gesamtzahl der Noten) zu untersuchen, um festzustellen, ob diese Information wirklich dazu beiträgt, die MPE-Genauigkeit f̈ ur klassische Ensemblemusik zu erhöhen. Wir verwenden Polyphonie-Informationen auf zwei Arten. Im ersten Szenario wenden wir die Polyphonie auf die MPE-Vorhersagen in der Nachbearbeitungsphase an, während wir im zweiten Szenario versuchen, einen Algorithmus zu entwickeln, der die Polyphonie als Anzahl der Instrumente und Noten in einem Zeitrahmen verwendet, um einen Instrumentenklassifikator während der Trainingszeit für die MPE-Aufgabe zu steuern. Wir wählen den MusicNet-Datensatz aufgrund seiner polyphonen und multitimbralen Eigenschaften. Unser Baseline-Modell stützt sich auf die Arbeit von Wu et al.[1], die ein U-Net-Modell für die MPE-Aufgabe verwendet. Wir verwenden diese Baseline auch als Benchmark für unser erweitertes Baseline-Modell, bei dem wir Polyphonie in der Nachbearbeitungsphase auf zwei verschiedene Arten anwenden, um MPE zu verbessern. Bei der ersten Technik wenden wir die Polyphonie-Informationen nach der Ermittlung der MPE-Vorhersagewahrscheinlichkeiten an, gefolgt von einem Schwellenwert, während wir bei der zweiten Technik zuerst den Schwellenwert und dann die Polyphonie-Informationen anwenden. Unser endgültiger Modellvorschlag sieht zusätzliche Verzweigungen zum Engpass des U-Netzes vor, um Polyphonie-Informationen in die Modellarchitektur zu integrieren. Um festzustellen, ob das vorgeschlagene Modell effektiv ist, führen wir 12 Experimente mit verschiedenen Kombinationen von Hyperparametern durch. Basierend auf dem Parameter, der zu den besten Lernfähigkeiten führt, vergleichen wir die Ergebnisse für die endgültige MPE-Bewertung. Schließlich vergleichen wir die Ergebnisse des vorgeschlagenen Modells und der erweiterten Baseline mit dem Baseline-Modell. Wir stellen fest, dass Polyphonie-Informationen die MPE-Vorhersagen verbessern können. Die Tatsache, dass beide Modelle, Extended Baseline und Proposed, die Ergebnisse des Baseline-Modells übertreffen, bestätigt unsere Hypothese.



Bhattacharya, Shruti;
Compressing neural network embeddings for fast inference in audio classification. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Das Erkennen von Mustern in Audiosignalen ist ein wichtiges Thema auf dem Gebiet des maschinellen Lernens. Es umfasst eine Vielzahl von Aufgaben, wie z.B. Audio-Tagging, Kategorisierung von akustischen Szenen, Musikklassifizierung Klassifizierung von Sprachemotionen und Erkennung von Klangereignissen. Hierbei ist der Mangel an annotierten Daten ein wesentliches Problem bei der Anwendung von Deep Learning auf die Audiokategorisierung. Eine etablierte Lösung dieses Problems ist die Verwendung von Embeddings. Dabei werden neuronale Netze auf unfangreichen Datensammlungen angelernt und anschließend auf den wenigen, gelabelten Daten des Zielproblem nachtrainiert. Dieses sogenannte Transfer Learning wird oft eingesetzt, um den Trainingsbedarf zu verringern. Bei dieser Methode werden vortrainierte neuronale Netze wie OpenL3 oder PANN für zuvor untrainierte Aufgaben verwendet. Oft sind solche Netze jedoch viel zu komplex, um auf kleinen eingebetteten Systemen mit begrenzter Rechenkapazität eingesetzt zu werden. Aktuelle Arbeiten konzentrieren sich daher auf Methoden zur Komprimierung neuronaler Netze wie etwas Knowledge Distillation zur Erstellung schnellerer Anwendungen mit geringeren Rechenaufwand. Diese Arbeit behandelt die Komprimierung eines bestehenden vortrainierten Netzes, in diesem Fall OpenL3, das tiefe Audio-Einbettungen, sogenannte Embeddings, erzeugt. Durch den Einsatz einer speziellen Form von Knowledge Distillation Techniken und der Reduzierung von Ebenen des OpenL3-Netzes wird ein kleineres und kompakteres Netz destilliert. Die Embeddings des destillierten Netzes werden final anhand verschiedener Audioklassifizierungsaufgaben bewertet und zeigen vergleichbare Ergebnisse zum ursprünglichen OpenL3-Netz bei einer um 66 % reduzierten Gesamtarchitektur und einer um 80 % verminderten Klassifikationszeit.



Stolz, Georg;
Entwicklung eines Systems für raumakustische Messungen unter Anwendung einer Robotikplattform. - Ilmenau. - 45 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Im Bereich der Auditive Augmented Reality (AAR) wird ein möglichst realitätsnahes Hörerlebnis angestrebt. Als Referenz für Simulationen dienen gemessene Room Impulse Response (RIR)-Datensätze. Die RIRs sind abhängig von den akustischen Eigenschaften des jeweiligen Raumes und der Schallquellen- und Senkenposition. Dadurch ist eine Messung sehr aufwendig, wenn alle Kombinationen von Quellen- und Senkenpositionen, an der sich eine Person in der AAR aufhalten kann, gemessen werden sollen. Ziel dieser Arbeit ist es, basierend auf einer fahrbaren Roboterplattform, ein automatisiertes Messsystem für RIRs zu entwickeln. Neben der Messung von räumlich hochaufgelösten Referenzdatensätzen soll auch das Auffinden von akustisch relevanten Stellen im Raum mit wenigen Messungen möglich sein. Im Rahmen dieser Arbeit wurde ein entsprechendes System implementiert. Es ist flexibel in unterschiedlichen Raumgrößen und -geometrien einsetzbar. Durch die beinhaltete Fehlerbehandlung und -vermeidung sind Messungen mit einer großen Zahl an Messpunkten über lange Zeiträume möglich. Auf Basis einer räumlich hochaufgelösten Referenzmessung wurde ein Particle Swarm Optimization (PSO)-Algorithmus angepasst, um akustisch relevante Stellen zu finden und in diesen Bereichen eine höhere räumliche Abtastung zu erzielen. Dadurch kann im Vergleich zu einer hochaufgelösten Referenzmessung ein Großteil der Messpunkte eingespart werden. Das Gesamtsystem wurde in verschiedenen Teil-Experimenten getestet und auftretende Fehler diskutiert.



Gope, Sayantan;
Room acoustic analysis and acoustic room classification using binaural recordings in real rooms. - Ilmenau. - 80 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Jeder Raum hat eine einzigartige akustische Signatur und Charakteristik. Sie spielen eine große Rolle f̈ ur die akustische Wahrnehmung des Zuḧ orers. Das Versẗ andnis der Raumakustik kann dabei helfen, R̈ aume effizient zu gestalten und sie f̈ ur die vorgesehenen Zwecke besser geeignet zu machen. Die akustischen Eigenschaften eines Raums k̈ onnen mit dem Room Impulse Response (RIR) oder Binaural Room Impulse Response (BRIR) gemessen werden und sind f̈ ur verschiedene R̈ aume sowie f̈ ur die Positionen der Lautsprecher und Empf̈ anger einzigartig. Ziel dieser Masterarbeit ist es, mit Hilfe von Deep Learning ein Convolutional Neural Network (CNN)-Modell zu erstellen, um R̈ aume anhand ihrer akustischen Eigenschaften durch BRIR-Aufnahmen zu klassifizieren. Durch Datenerweiterung werden die Eingabedaten auch verwendet, um reale Musik- und Sprachsignale zu emulieren. Solche Musik- und Sprachsignale sowie rein akustische Informationen in Form von Impulsaufzeichnungen werden vom Klassifikator als Eingabe verwendet. Ziel dieser Arbeit ist es auch, die Entscheidungen der CNN-Architektur zu bewerten und die Funktionsweise der CNN zu verstehen. Zu diesem Zweck wird auch Layer-wise Relevance Propagation (LRP) eingesetzt. Das trainierte neuronale Netzwerk zeigt vielversprechende Ergebnisse bei der Klassifizierung von R̈ aumen auf der Grundlage ihrer akustischen Eigenschaften. Es erreicht eine nahezu perfekte Genauigkeit von 99% bei Impulsaufnahmen und 100% bei emulierten Musik-/Sprach-Eingangssignalen nach weniger als 5 Stunden Trainingssitzung. Die Testergebnisse werden in Form einer Konfusionsmatrix visualisiert. Die wenigen ungenauen Klassifizierungen geben einen Einblick in die Denkweise des neuronalen Netzes. Es zeigt sich, dass die Ergebnisse des Klassifikators mit den Ergebnissen anderer Arbeiten̈ ubereinstimmen, die auf der menschlichen Wahrnehmung basieren.



Häußler, Jonathan;
Generierung von binauralen Raumimpulsantworten aus Messungen mit einem sphärischen Mikrofonarray. - Ilmenau. - 131 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die Strukturen und Verläufe in Audiosignalen sind komplex und enthalten in kürzesten Zeitabschnitten viele Variationen. Es ist bekannt, dass neuronale Netze in der Lage sind, Strukturen und Muster in solch komplexen Daten zu erfassen. Im Audiokontext lassen sich daher verschiedenste Klassifikations- und Regressionsprobleme durch den Einsatz neuronaler Netze bewältigen. Im Rahmen dieser Arbeit werden solche Netzwerke angewendet, um besondere Audiosignale zu generieren: Raumimpulsantworten (RIRs). RIRs bilden die akustischen Eigenschaften ihrer Aufnahmeumgebung ab und sind daher sehr nützlich zur Simulation und Repräsentation akustischer Szenen. Der Messaufwand für RIR-Datensätze ist hoch und die Interpolation vorhandener Datensätze durch neuronale Netze daher attraktiv. Es konnte im Rahmen dieser Masterarbeit gezeigt werden, dass für die RIR-Synthese und besonders im Bereich der Reverb-Synthese großes Potential im Machine Learning Ansatz steckt. Die Darstellung der frühen Reflexionsereignisse gilt es aber weiter zu verbessern.



Baum, Malte;
Environment classification of speech recordings. - Ilmenau. - 63 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Im Gebiet der Audio-Forensik ist Environment Classification eine Technik, mit deren Hilfe sich die Authentizität und Integrität von Audio-Aufnahmen überprüfen lässt. Hierbei wird versucht, die Räumlichkeit zu identifizieren, in der die Aufnahme entstanden ist. Da Räumlichkeiten über einen charakteristischen Nachhall verfügen und dieser in Audio-Aufnahmen enthalten ist, versuchen die meisten Klassifizierungs Ansätze, den Nachhall zu modellieren und aus ihm gewonnene Merkmale als Kriterien zur Unterscheidung zu verwenden. Diese Arbeit präsentiert einen neuen Algorithmus für Environment Classification von Sprachaufnahmen basierend auf der Berechnung einer Signatur der Aufnahmeräumlichkeit. Hierfür wird die Nachhallzeit (T60) für unterschiedliche Frequenzbänder mithilfe der Schroeder-Methode als Merkmal berechnet. Die eigentliche Klassifizierung erfolgt mithilfe einer Support-Vektor-Maschine (SVM) mit einem radial basis function (RBF) Kernel. Zur Rekonstruktion des für die Berechnung der T60-Werte benötigten Zeitsignals wurden zwei verschiedene Rekonstruktionsansätze evaluiert: Der Griffin-Lim-Algorithmus sowie eine Methode basierend auf inverser Filterung. Darüber hinaus wurden verschiedene Algorithmus-Parameter und der Einfluss unterschiedlicher Aufnahmepositionen auf die Klassifizierungsgenauigkeit untersucht. Für T60-Werte, die über inverse Filterung gewonnen wurden, erreichte der vorgestellte Algorithmus eine Genauigkeit von 94 % bei der Klassifizierung. Bei unterschiedlichen Aufnahmepositionen war eine signifikante Abnahme der Genauigkeit zu beobachten.



Doll, Oliver;
Creation and evaluation of an AAR scenario using an electro-acoustically transparent hearpiece. - Ilmenau. - 101 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Augmented Realities zielen darauf ab reale und virtuelle Objekte in einer Szene zu vereinen, ohne dass diese voneinander zu unterscheiden sind. Solche Augmented Realities lassen sich auch kreieren, indem virtuelle Schallquellen in die reale Umgebung eingefügt werden. Damit diese nicht unterscheidbar sind von der realen Umgebung, müssen die verursachten Sinnesreize einer realen Quelle bestmöglich imitiert werden. Zusätzlich ist die technische Herausforderung zu lösen, dass das reale Schallfeld erhalten bleibt, während gleichzeitig virtuelle Inhalte präsentiert werden. In dieser Arbeit wurde eine solche Augmented Auditory Reality umgesetzt, indem ein elektroakustisch-transparenter In-Ear-Kopfhörer und Binauralsynthese verwendet wurden. Mit Hilfe eines Hörversuchs sollte festgestellt werden, ob und aus welchen Gründen Anwender virtuelle Schallquellen enttarnen können. Etwas mehr als die Hälfte der Hörversuchteilnehmer konnte die beiden Quellen eher auseinanderhalten. Allerdings ist diese Unterscheidungsfähigkeit bei den meisten Teilnehmern unbeständig gewesen. Die Mehrheit gab an, dass die Szenen plausibel und die Quellen nur schwer auseinander zu halten waren. Am häufigsten wurden die virtuellen Quellen aufgrund von Lokalisationsproblemen enttarnt. Als zweithäufigste Begründung wurden Unterschiede in der Klangfarbe zwischen der elektroakustischen Transparenz und der Binauralsynthese genannt. Das durch die elektroakustische Transparenz reproduzierte reale Schallfeld wurde überwiegend auch als solches erkannt.



Raza, Muhammad Jami;
Spatial data augmentation techniques for improved machine listening. - Ilmenau. - 73 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die Nachhallzeit (Reverberation Time, RT60) und das Verhältnis von Direktschall zu Nachhall (Direct to Reverberant Energy Ratio, DRR) werden üblicherweise zur Charakterisierung der akustischen Umgebung eines Raums verwendet. Beide Parameter können aus einer akustischen Impulsantwort (Acoustic Impulse Response, AIR) berechnet werden. Wenn neuronale Netze (Neural Networks, NN) zur Schätzung dieser beiden Parameter verwendet werden, ist jedoch ein umfangreicher realistischer Datensatz erforderlich, dessen Erfassung teuer und zeitaufwändig ist. Um dieses Problem zu lösen, wurden Experimente mit verschiedenen Augmentierungsmethoden durchgeführt, sowohl mit konventioneller Audio-Augmentierung als auch mit speziellen Augmentierungstechniken, die es uns ermöglichen, einen kleinen Datensatz realer akustischer Impulsantworten (Acoustic Impulse Response, AIR) zu erweitern. Eine neue Impulsantwort-Augmentationstechnik wurde auch für die DRR vorgeschlagen. Zunächst wurden die verschiedenen neuronalen Netze mit dem realen Datensatz getestet und dann wurden verschiedene Augmentierungsverfahren eingesetzt. Dabei wurden sowohl die Zeitreihen als auch die Spektrogramme berücksichtigt. Als Bewertungsmaßstab wurde der mittlere quadratische Fehler (Mean Squared Error, MSE) herangezogen. Im Fall von RT60 wurden deutliche Verbesserungen mit den herkömmlichen Techniken beobachtet. Bei DRR hingegen sind Verbesserungen nur mit der speziellen AIR-Augmentationstechnik und einer neu vorgeschlagenen Technik zu beobachten.



Deep learning based drum transcription. - Ilmenau. - 52 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

In dieser Studie wurde nach einer Literaturrecherche das theoretische Wissen genutzt, um einen hochmodernen Algorithmus zur automatischen Transkription von Trommeln mit Hilfe von Deep Learning-Methoden zu implementieren. Es wurden ähnliche Ergebnisse erzielt wie die von den Entwicklern der Architektur erzielten. Im zweiten Kapitel wurde eine detaillierte Zusammenfassung der Konzepte und Grundlagen für ADT erstellt. Außerdem wurde eine Verbesserung der Trainingsdatenzeit durch die Entwicklung einer Variante der Datenerweiterung erreicht.



Automatisierte Identifikation mechanischer Belastungsvorgänge bei In-Ear-Kopfhörern. - Ilmenau. - 56 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Diese Arbeit betrachtet die Entwicklung eines Systems zur automatischen Detektion von Ein- und Aussteckvorgängen von In-Ear-Kopfhörern (IEK). Hierfür wird ein System gesucht, das mit jedem elektrodynamischen IEK kompatibel sein und ohne zusätzliche Sensorik auskommen soll. Das in dieser Arbeit beschriebene System basiert auf der Erkennung und Zuordnung des Spannungssignals, das ein elektrodynamischer IEK induziert, wenn er in ein Ohr oder einen Ohrsimulator ein- oder ausgesteckt wird. Dafür wurde ein Messdatensatz bestehend aus den Spannungssignalen der IEK und den dazugehörigen Annotationen erstellt und zum Training mehrerer Klassifikatoren genutzt. Es konnte gezeigt werden, dass eine Spannungsmessung der IEK während getätigter Interaktionen für eine Klassifikation geeignet ist. Auch konnte gezeigt werden, dass das System zur Klassifikation der Interaktionen imstande ist, wenngleich die Generalisationsfähigkeit verbesserungswürdig ist.