Development and perceptual evaluation towards a Crosstalk Cancellation system for multiple listeners. - Ilmenau. - 77 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Die Realisierung von persönlichen Soundzonen ist ein aufstrebendes Forschungsgebiet in der Audiotechnik und eine konzeptionelle Entwicklungsstrategie für Audiosysteme in zukünftigen Automobilen. Theoretisch können Soundzonen mittels transauraler Wiedergabesysteme und Crosstalk Cancellation künstlich erzeugt werden. In dieser Arbeit wird die Realisierbarkeit von Soundzonen durch die Entwicklung eines prototypischen Audiosystems für mehrere Hörer untersucht. Zudem werden die damit verbundenen technischen Einschränkungen zum Erreichen von separierten Soundzonen, Spatial Audio und einem zufriedenstellenden Hörerlebnis für die individuellen Hörer aufgezeigt. Hierfür werden konzeptionelle Überlegungen und eine objektive Bewertung der Raumakustik, der entworfenen Lautsprecher und der Audiosignalverarbeitung miteinander verknüpft. Zudem wird die Klangqualität des Audiosystems mittels einer Kundenstudie und eines Hörtests bewertet. Die Ergebnisse dieser Arbeit unterstreichen die Anforderungen an ein ausgeklügeltes Lautsprecherdesign und eine wahrnehmungsbasierte Audiosignalverarbeitung, um das Erlebnis von persönlichen Soundzonen zu intensivieren. Darüber hinaus kann das entwickelte Audiosystem in zukünftigen Studien für die Integration von Spatial Audio oder personalisierten Audiosystemen einbezogen werden.
Technische Universität Ilmenau, Masterarbeit 2022
Die automatische Musiktranskription (AMT) im Bereich des Music Information Retrieval (MIR) ist eine anspruchsvolle Aufgabe, die mehrere Teilaufgaben wie Multi-Pitch Estimation (MPE) und Instrumentenklassifizierung umfasst. Unser Hauptziel ist es, die lokale Frame-basierte Polyphonie (Anzahl der Noten pro Instrument oder Gesamtzahl der Noten) zu untersuchen, um festzustellen, ob diese Information zur Erhöhung der MPE-Genauigkeit bei klassischer Ensemblemusik beiträgt. Wir verwenden Polyphonie-Informationen auf zwei Arten. Im ersten Szenario wenden wir die Polyphonie auf die MPE-Vorhersagen in der Nachbearbeitungsphase an. Im Gegensatz dazu zielen wir im zweiten Szenario darauf ab, einen Algorithmus zu entwickeln, der die Polyphonie als die Anzahl der Instrumente und Noten in einem Zeitrahmen verwendet, um einen Instrumentenklassifikator während der Trainingszeit für die MPE-Aufgabe anzuleiten. Wir wählen den MusicNet-Datensatz aufgrund seiner polyphonen und multitimbralen Eigenschaften. Unser Baseline-Modell stutzt sich auf die Arbeit von Wu et al. [1], die ein U-Net-Modell für die MPE-Aufgabe verwendet. Wir verwenden diese Baseline auch als Benchmark für unser erweitertes Baseline-Modell, bei dem wir Polyphonie in der Nachbearbeitungsphase auf zwei Arten anwenden, um MPE zu verbessern. Bei der ersten Technik wenden wir die Polyphonie-Informationen an, nachdem wir die MPE Vorhersagewahrscheinlichkeiten erhalten haben, gefolgt von der Schwelle, während wir bei der zweiten Technik zuerst die Schwelle und dann die Polyphonie-Informationen anwenden. In unserem endgültigen Modellvorschlag werden zusätzliche Verzweigungen zum Engpass des U-Netzes implementiert, um Polyphonie-Informationen in die Modellarchitektur zu integrieren. Um festzustellen, ob das vorgeschlagene Modell angemessen ist, haben wir 12 Experimente mit verschiedenen Kombinationen von Hyperparametern durchgeführt. Wir vergleichen die Ergebnisse für die abschließende MPE-Bewertung auf der Grundlage des Parameters, der zu den besten Lernfähigkeiten führt. Schließlich vergleichen wir die Ergebnisse des vorgeschlagenen und des erweiterten Basismodells mit dem Basismodell. Wir stellen fest, dass Polyphonie-Informationen die MPE-Vorhersagen verbessern können. Die Tatsache, dass beide Modelle, das erweiterte Baseline- und das vorgeschlagene Modell, die Ergebnisse des Baseline-Modells übertreffen, bestätigt unsere Hypothese.
Acoustic room classification using binaural recordings in real rooms. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Die Klassifizierung von akustischen Räumen ist in den sich entwickelnden Bereichen wie kontextabhängigen Mobiltelefonen, Mobiltelefonen, Hilfsrobotern und der Analyse von Multimedia-Inhalten. Akustische Szenenklassifizierung versucht das Audiosignal in die Umgebung zu kategorisieren, in der es aufgetreten ist. Auch Anwendungsmöglichkeiten der akustischen Szenen-klassifizierung gibt es zahlreiche Herausforderungen, um die entsprechenden Daten aus dem Audiosignal zu sammeln. Die Entwicklung des maschinellen Lernens hat Forscher dazu veranlasst, diesen Bereich weiter zu erforschen. Um ein virtuelles Audioobjekt in einen einem Raum so einzuführen, dass es für einen Beobachter ein plausibler Teil der natürlichen Umgebung ist, erfordert ausreichende BRIRs (binaurale Raumimpulsantworten). Das Ziel ist es akustische Räume zu klassifizieren basierend auf gemessenen BRIRs mit einem maschinellen Lernansatz. Zwei moderne Deep-Learning Modelle mit sechs verschiedenen Datenrepräsentationen werden verwendet. Beide Deep-Learning-Modelle und Datenrepräsentation werden miteinander verglichen. Die Ergebnisse zeigen ihre Praxistauglichkeit im Vergleich zueinander.
Technische Universität Ilmenau, Masterarbeit 2022
Die automatische Musiktranskription (AMT) im Bereich des Music Information Retrieval (MIR) ist eine sehr schwierige Aufgabe, die eine Reihe von Teilaufgaben wie Multi-Pitch Estimation (MPE) und Instrumentenklassifizierung umfasst. Unser Hauptziel ist es, die lokale Frame-basierte Polyphonie (Anzahl der Noten pro Instrument oder Gesamtzahl der Noten) zu untersuchen, um festzustellen, ob diese Information wirklich dazu beiträgt, die MPE-Genauigkeit f̈ ur klassische Ensemblemusik zu erhöhen. Wir verwenden Polyphonie-Informationen auf zwei Arten. Im ersten Szenario wenden wir die Polyphonie auf die MPE-Vorhersagen in der Nachbearbeitungsphase an, während wir im zweiten Szenario versuchen, einen Algorithmus zu entwickeln, der die Polyphonie als Anzahl der Instrumente und Noten in einem Zeitrahmen verwendet, um einen Instrumentenklassifikator während der Trainingszeit für die MPE-Aufgabe zu steuern. Wir wählen den MusicNet-Datensatz aufgrund seiner polyphonen und multitimbralen Eigenschaften. Unser Baseline-Modell stützt sich auf die Arbeit von Wu et al.[1], die ein U-Net-Modell für die MPE-Aufgabe verwendet. Wir verwenden diese Baseline auch als Benchmark für unser erweitertes Baseline-Modell, bei dem wir Polyphonie in der Nachbearbeitungsphase auf zwei verschiedene Arten anwenden, um MPE zu verbessern. Bei der ersten Technik wenden wir die Polyphonie-Informationen nach der Ermittlung der MPE-Vorhersagewahrscheinlichkeiten an, gefolgt von einem Schwellenwert, während wir bei der zweiten Technik zuerst den Schwellenwert und dann die Polyphonie-Informationen anwenden. Unser endgültiger Modellvorschlag sieht zusätzliche Verzweigungen zum Engpass des U-Netzes vor, um Polyphonie-Informationen in die Modellarchitektur zu integrieren. Um festzustellen, ob das vorgeschlagene Modell effektiv ist, führen wir 12 Experimente mit verschiedenen Kombinationen von Hyperparametern durch. Basierend auf dem Parameter, der zu den besten Lernfähigkeiten führt, vergleichen wir die Ergebnisse für die endgültige MPE-Bewertung. Schließlich vergleichen wir die Ergebnisse des vorgeschlagenen Modells und der erweiterten Baseline mit dem Baseline-Modell. Wir stellen fest, dass Polyphonie-Informationen die MPE-Vorhersagen verbessern können. Die Tatsache, dass beide Modelle, Extended Baseline und Proposed, die Ergebnisse des Baseline-Modells übertreffen, bestätigt unsere Hypothese.
Compressing Neural Network Embeddings for Fast Inference in Audio Classification. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Das Erkennen von Mustern in Audiosignalen ist ein wichtiges Thema auf dem Gebiet des maschinellen Lernens. Es umfasst eine Vielzahl von Aufgaben, wie z.B. Audio-Tagging, Kategorisierung von akustischen Szenen, Musikklassifizierung Klassifizierung von Sprachemotionen und Erkennung von Klangereignissen. Hierbei ist der Mangel an annotierten Daten ein wesentliches Problem bei der Anwendung von Deep Learning auf die Audiokategorisierung. Eine etablierte Lösung dieses Problems ist die Verwendung von Embeddings. Dabei werden neuronale Netze auf unfangreichen Datensammlungen angelernt und anschließend auf den wenigen, gelabelten Daten des Zielproblem nachtrainiert. Dieses sogenannte Transfer Learning wird oft eingesetzt, um den Trainingsbedarf zu verringern. Bei dieser Methode werden vortrainierte neuronale Netze wie OpenL3 oder PANN für zuvor untrainierte Aufgaben verwendet. Oft sind solche Netze jedoch viel zu komplex, um auf kleinen eingebetteten Systemen mit begrenzter Rechenkapazität eingesetzt zu werden. Aktuelle Arbeiten konzentrieren sich daher auf Methoden zur Komprimierung neuronaler Netze wie etwas Knowledge Distillation zur Erstellung schnellerer Anwendungen mit geringeren Rechenaufwand. Diese Arbeit behandelt die Komprimierung eines bestehenden vortrainierten Netzes, in diesem Fall OpenL3, das tiefe Audio-Einbettungen, sogenannte Embeddings, erzeugt. Durch den Einsatz einer speziellen Form von Knowledge Distillation Techniken und der Reduzierung von Ebenen des OpenL3-Netzes wird ein kleineres und kompakteres Netz destilliert. Die Embeddings des destillierten Netzes werden final anhand verschiedener Audioklassifizierungsaufgaben bewertet und zeigen vergleichbare Ergebnisse zum ursprünglichen OpenL3-Netz bei einer um 66 % reduzierten Gesamtarchitektur und einer um 80 % verminderten Klassifikationszeit.
Entwicklung eines Systems für raumakustische Messungen unter Anwendung einer Robotikplattform. - Ilmenau. - 45 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Im Bereich der Auditive Augmented Reality (AAR) wird ein möglichst realitätsnahes Hörerlebnis angestrebt. Als Referenz für Simulationen dienen gemessene Room Impulse Response (RIR)-Datensätze. Die RIRs sind abhängig von den akustischen Eigenschaften des jeweiligen Raumes und der Schallquellen- und Senkenposition. Dadurch ist eine Messung sehr aufwendig, wenn alle Kombinationen von Quellen- und Senkenpositionen, an der sich eine Person in der AAR aufhalten kann, gemessen werden sollen. Ziel dieser Arbeit ist es, basierend auf einer fahrbaren Roboterplattform, ein automatisiertes Messsystem für RIRs zu entwickeln. Neben der Messung von räumlich hochaufgelösten Referenzdatensätzen soll auch das Auffinden von akustisch relevanten Stellen im Raum mit wenigen Messungen möglich sein. Im Rahmen dieser Arbeit wurde ein entsprechendes System implementiert. Es ist flexibel in unterschiedlichen Raumgrößen und -geometrien einsetzbar. Durch die beinhaltete Fehlerbehandlung und -vermeidung sind Messungen mit einer großen Zahl an Messpunkten über lange Zeiträume möglich. Auf Basis einer räumlich hochaufgelösten Referenzmessung wurde ein Particle Swarm Optimization (PSO)-Algorithmus angepasst, um akustisch relevante Stellen zu finden und in diesen Bereichen eine höhere räumliche Abtastung zu erzielen. Dadurch kann im Vergleich zu einer hochaufgelösten Referenzmessung ein Großteil der Messpunkte eingespart werden. Das Gesamtsystem wurde in verschiedenen Teil-Experimenten getestet und auftretende Fehler diskutiert.
Room acoustic analysis and acoustic room classification using binaural recordings in real rooms. - Ilmenau. - 80 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Jeder Raum hat eine einzigartige akustische Signatur und Charakteristik. Sie spielen eine große Rolle f̈ ur die akustische Wahrnehmung des Zuḧ orers. Das Versẗ andnis der Raumakustik kann dabei helfen, R̈ aume effizient zu gestalten und sie f̈ ur die vorgesehenen Zwecke besser geeignet zu machen. Die akustischen Eigenschaften eines Raums k̈ onnen mit dem Room Impulse Response (RIR) oder Binaural Room Impulse Response (BRIR) gemessen werden und sind f̈ ur verschiedene R̈ aume sowie f̈ ur die Positionen der Lautsprecher und Empf̈ anger einzigartig. Ziel dieser Masterarbeit ist es, mit Hilfe von Deep Learning ein Convolutional Neural Network (CNN)-Modell zu erstellen, um R̈ aume anhand ihrer akustischen Eigenschaften durch BRIR-Aufnahmen zu klassifizieren. Durch Datenerweiterung werden die Eingabedaten auch verwendet, um reale Musik- und Sprachsignale zu emulieren. Solche Musik- und Sprachsignale sowie rein akustische Informationen in Form von Impulsaufzeichnungen werden vom Klassifikator als Eingabe verwendet. Ziel dieser Arbeit ist es auch, die Entscheidungen der CNN-Architektur zu bewerten und die Funktionsweise der CNN zu verstehen. Zu diesem Zweck wird auch Layer-wise Relevance Propagation (LRP) eingesetzt. Das trainierte neuronale Netzwerk zeigt vielversprechende Ergebnisse bei der Klassifizierung von R̈ aumen auf der Grundlage ihrer akustischen Eigenschaften. Es erreicht eine nahezu perfekte Genauigkeit von 99% bei Impulsaufnahmen und 100% bei emulierten Musik-/Sprach-Eingangssignalen nach weniger als 5 Stunden Trainingssitzung. Die Testergebnisse werden in Form einer Konfusionsmatrix visualisiert. Die wenigen ungenauen Klassifizierungen geben einen Einblick in die Denkweise des neuronalen Netzes. Es zeigt sich, dass die Ergebnisse des Klassifikators mit den Ergebnissen anderer Arbeiten̈ ubereinstimmen, die auf der menschlichen Wahrnehmung basieren.
Generierung von binauralen Raumimpulsantworten aus Messungen mit einem sphärischen Mikrofonarray. - Ilmenau. - 131 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Die Strukturen und Verläufe in Audiosignalen sind komplex und enthalten in kürzesten Zeitabschnitten viele Variationen. Es ist bekannt, dass neuronale Netze in der Lage sind, Strukturen und Muster in solch komplexen Daten zu erfassen. Im Audiokontext lassen sich daher verschiedenste Klassifikations- und Regressionsprobleme durch den Einsatz neuronaler Netze bewältigen. Im Rahmen dieser Arbeit werden solche Netzwerke angewendet, um besondere Audiosignale zu generieren: Raumimpulsantworten (RIRs). RIRs bilden die akustischen Eigenschaften ihrer Aufnahmeumgebung ab und sind daher sehr nützlich zur Simulation und Repräsentation akustischer Szenen. Der Messaufwand für RIR-Datensätze ist hoch und die Interpolation vorhandener Datensätze durch neuronale Netze daher attraktiv. Es konnte im Rahmen dieser Masterarbeit gezeigt werden, dass für die RIR-Synthese und besonders im Bereich der Reverb-Synthese großes Potential im Machine Learning Ansatz steckt. Die Darstellung der frühen Reflexionsereignisse gilt es aber weiter zu verbessern.
Environment classification of speech recordings. - Ilmenau. - 63 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Im Gebiet der Audio-Forensik ist Environment Classification eine Technik, mit deren Hilfe sich die Authentizität und Integrität von Audio-Aufnahmen überprüfen lässt. Hierbei wird versucht, die Räumlichkeit zu identifizieren, in der die Aufnahme entstanden ist. Da Räumlichkeiten über einen charakteristischen Nachhall verfügen und dieser in Audio-Aufnahmen enthalten ist, versuchen die meisten Klassifizierungs Ansätze, den Nachhall zu modellieren und aus ihm gewonnene Merkmale als Kriterien zur Unterscheidung zu verwenden. Diese Arbeit präsentiert einen neuen Algorithmus für Environment Classification von Sprachaufnahmen basierend auf der Berechnung einer Signatur der Aufnahmeräumlichkeit. Hierfür wird die Nachhallzeit (T60) für unterschiedliche Frequenzbänder mithilfe der Schroeder-Methode als Merkmal berechnet. Die eigentliche Klassifizierung erfolgt mithilfe einer Support-Vektor-Maschine (SVM) mit einem radial basis function (RBF) Kernel. Zur Rekonstruktion des für die Berechnung der T60-Werte benötigten Zeitsignals wurden zwei verschiedene Rekonstruktionsansätze evaluiert: Der Griffin-Lim-Algorithmus sowie eine Methode basierend auf inverser Filterung. Darüber hinaus wurden verschiedene Algorithmus-Parameter und der Einfluss unterschiedlicher Aufnahmepositionen auf die Klassifizierungsgenauigkeit untersucht. Für T60-Werte, die über inverse Filterung gewonnen wurden, erreichte der vorgestellte Algorithmus eine Genauigkeit von 94 % bei der Klassifizierung. Bei unterschiedlichen Aufnahmepositionen war eine signifikante Abnahme der Genauigkeit zu beobachten.
Creation and evaluation of an AAR scenario using an electro-acoustically transparent hearpiece. - Ilmenau. - 101 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Augmented Realities zielen darauf ab reale und virtuelle Objekte in einer Szene zu vereinen, ohne dass diese voneinander zu unterscheiden sind. Solche Augmented Realities lassen sich auch kreieren, indem virtuelle Schallquellen in die reale Umgebung eingefügt werden. Damit diese nicht unterscheidbar sind von der realen Umgebung, müssen die verursachten Sinnesreize einer realen Quelle bestmöglich imitiert werden. Zusätzlich ist die technische Herausforderung zu lösen, dass das reale Schallfeld erhalten bleibt, während gleichzeitig virtuelle Inhalte präsentiert werden. In dieser Arbeit wurde eine solche Augmented Auditory Reality umgesetzt, indem ein elektroakustisch-transparenter In-Ear-Kopfhörer und Binauralsynthese verwendet wurden. Mit Hilfe eines Hörversuchs sollte festgestellt werden, ob und aus welchen Gründen Anwender virtuelle Schallquellen enttarnen können. Etwas mehr als die Hälfte der Hörversuchteilnehmer konnte die beiden Quellen eher auseinanderhalten. Allerdings ist diese Unterscheidungsfähigkeit bei den meisten Teilnehmern unbeständig gewesen. Die Mehrheit gab an, dass die Szenen plausibel und die Quellen nur schwer auseinander zu halten waren. Am häufigsten wurden die virtuellen Quellen aufgrund von Lokalisationsproblemen enttarnt. Als zweithäufigste Begründung wurden Unterschiede in der Klangfarbe zwischen der elektroakustischen Transparenz und der Binauralsynthese genannt. Das durch die elektroakustische Transparenz reproduzierte reale Schallfeld wurde überwiegend auch als solches erkannt.