Investigating the Image Shift Caused by Early Reflections. - Ilmenau. - 148 Seiten
Technische Universität Ilmenau, Masterarbeit 2023
Mit heutiger Technologie ist es möglich, realistische akustische Illusionen für Anwendungen in Augmented und Virtual Reality zu erzeugen. Da eine hohe Präzision eine erhebliche Menge an Rechenressourcen erfordert, haben sich Forscher darauf konzentriert, die psychoakustischen Aspekte der Raumsimulation zu optimieren. Die präsentierte Arbeit beschreibt ein psychoakustisches Experiment mit Reflexionen in einem simulierten Raum, um das Bildverschiebungsphänomen durch frühe Reflexionen zu untersuchen. Das genannte Experiment besteht aus zwei Aufgaben. Einerseits geht es bei Aufgabe 1 darum, simulierte Schallquellen zu lokalisieren, indem der Kopf nur in der Azimut-Ebene gedreht wird. Andererseits beinhaltet Aufgabe 2 die Beschreibung der scheinbaren Quellenbreite. Die Simulationen basieren auf binauralen Raumimpulsantworten in einem Schuhkarton-artigen Raum, die die direkte Wiedergabe eines Weißrauschensignals - in verschiedenen Filtervarianten - und einer Reflektion erster Ordnung von einer Seitenwand enthalten, deren Absorptionskoeffizient in jeder Simulation variiert. Die restlichen Oberflächen verursachen keine Reflexionen. Es wurde festgestellt, dass die Bildverschiebung bei niedrigerem Absorptionskoeffizienten zunimmt. Diese kann z.B. zwischen 5˚ und 20˚ in Bezug auf den Direktschall für Signale wie das Weißrauschen bei der 1-Oktav-Bandbreite von 2000 Hz (1412,2 Hz - 2828,4 Hz) liegen. Testfälle mit niedrigen Frequenzen - wie beim Weißrauschen bei der 1-Oktav-Bandbreite von 500 Hz (353,6 Hz - 707,1 Hz) - neigen dazu, die höchste Variabilität zwischen den Teilnehmern ufzuweisen.Stichworte: auditive Illusionen, Bildverschiebungsphänomen, frühe Reflexionen, scheinbare Quellbreite, binaurale Raumimpulsantworten, Absorptionskoeffizienten, Direktschall.
The Influence of Binaural Room Impulse Response Modification on the Spatial Perception of Virtual Sounds in an Auditory Augmented Reality Scenario. - Ilmenau. - 60 Seiten
Technische Universität Ilmenau, Masterarbeit 2023
Moderne binaurale Synthesesysteme ermöglichen die Auralisierung virtueller Schallquellen, welche in Bezug auf das menschliche Wahrnehmungsempfinden nicht von der Realität zu unterscheiden sind, durch den Einsatz binauraler Raumimpulsantworten (BRIR). Auf diese Weise können Anwendungen der Augmented Audio Reality (AAR) erstellt werden, in welchen reale und virtuelle Klänge simultan existieren. Zur Verbesserung der Sprachversẗ andlichkeit, Reduktion der Hörermüdung oder zur Darstellung eines aufgrund künstlerischer Aspekte gewollt veränderten Klangbildes, kann es bezüglich mancher Augmented Reality Anwendung jedoch wünschenswert sein, dass diese Syntheseysteme eine gewisse akustische Modifizierbarkeit ermöglichen. Forschungen haben gezeigt, dass die auditive Illusion einer virtuellen Schallquelle zusammenbricht, wenn die virtuelle Akustik zu weit von der Referenzakustik abweicht. Dies wird als Raumdivergenzeffekt bezeichnet. Diese Arbeit untersucht, ob und inwieweit eine Modifikation der auditiven Ästhetik einer Raumumgebung dennoch ohne Beeinträchtigung der Plausibilität eines Schallerlebnisses erreichbar ist. Hierfür wird ein Modifikationsalgorithmus entwickelt, der den späten Nachhall einer BRIR manipuliert und somit den wahrgenommenen Raumklang beeinflusst. Die derart modifizierten BRIRs werden dann in der Testumgebung eines Seminarraums zur Auralisation von AR Szenen herangezogen. In einem perzeptuellen Hörtest erfolgt schließlich die Bewertung der wahrgenommenen Qualität simpler AR-Szenen mit unterschiedlicher Nachhallzeitmodifikation.
Design and Implementation of Distorted/Non-Distorted Cocktail-Party Scenes using Binaural Synthesis with Headphones for Psychoacoustic Investigations.. - Ilmenau. - VII, 63 Seiten
Technische Universität Ilmenau, Masterarbeit 2023
Cocktail-Party-Situationen erfordern von Normalhörenden eine hohe Anstrengung und Aufmerksamkeit, um Sprache zu erkennen und zu verstehen. Für Hörbehinderte sind diese Situationen noch schwieriger. In diesen anspruchsvollen Szenarien bieten Hörgeräte keine nennenswerten Vorteile, da sie monaurale und binaurale Signale verzerren, die zur Lokalisierung von Geräuschen im Raum verwendet werden. Zusätzlich wird der Dynamikbereich der Signale verringert, wodurch es schwieriger wird, in die Lücken hineinzuhören. In dieser Studie wird untersucht, wie sich diese Verzerrungen auf die Fähigkeit des Hörers auswirken, das Cocktail-Party-Problem zu lösen. Dazu wurde eine virtuelle Cocktail-Party-Szene mit Hilfe von vier Prozessen, die in Hörgeräten auftreten könnten, erzeugt und verzerrt. Die Auswirkungen auf die Wahrnehmung von Klarheit und räumlichen Klangeigenschaften wurde in einem Hörtest mit 15 normalhörenden Testpersonen bewertet. Die Ergebnisse deuten darauf hin, dass eine asymmetrische Komprimierung des Dynamikbereichs des Signals auf beiden Ohren die Klarheit verringert und die scheinbare Quellenbreite sowie den wahrgenommenen Nachhall erhöht. Wenn die interauralen Pegeldifferenzen (ILDs) in die Mitte oder auf die gegenüberliegende Seite gerichtet werden, während die interauralen Laufzeitdifferenzen (ITDs) in der ursprünglichen Position beibehalten werden, werden die Quellen in die Richtung der ILDs verschoben und die scheinbare Quellenbreite erhöht. Die Verschmierung der ILDs in verschiedenen Winkeln für verschiedene Frequenzbänder verringert diese Effekte. Die Einbeziehung einer Belüftungsbohrung korrigiert teilweise, die durch die Verzerrungen der ILDs verursachten Verschiebungen der Quellenposition verringern, verschlechtert jedoch die Klarheit und erhöht die scheinbare Quellenbreite.
Development and perceptual evaluation towards a Crosstalk Cancellation system for multiple listeners. - Ilmenau. - 77 Seiten
Technische Universität Ilmenau, Masterarbeit 2023
Die Realisierung von persönlichen Soundzonen ist ein aufstrebendes Forschungsgebiet in der Audiotechnik und eine konzeptionelle Entwicklungsstrategie für Audiosysteme in zukünftigen Automobilen. Theoretisch können Soundzonen mittels transauraler Wiedergabesysteme und Crosstalk Cancellation künstlich erzeugt werden. In dieser Arbeit wird die Realisierbarkeit von Soundzonen durch die Entwicklung eines prototypischen Audiosystems für mehrere Hörer untersucht. Zudem werden die damit verbundenen technischen Einschränkungen zum Erreichen von separierten Soundzonen, Spatial Audio und einem zufriedenstellenden Hörerlebnis für die individuellen Hörer aufgezeigt. Hierfür werden konzeptionelle Überlegungen und eine objektive Bewertung der Raumakustik, der entworfenen Lautsprecher und der Audiosignalverarbeitung miteinander verknüpft. Zudem wird die Klangqualität des Audiosystems mittels einer Kundenstudie und eines Hörtests bewertet. Die Ergebnisse dieser Arbeit unterstreichen die Anforderungen an ein ausgeklügeltes Lautsprecherdesign und eine wahrnehmungsbasierte Audiosignalverarbeitung, um das Erlebnis von persönlichen Soundzonen zu intensivieren. Darüber hinaus kann das entwickelte Audiosystem in zukünftigen Studien für die Integration von Spatial Audio oder personalisierten Audiosystemen einbezogen werden.
Technische Universität Ilmenau, Masterarbeit 2022
Die automatische Musiktranskription (AMT) im Bereich des Music Information Retrieval (MIR) ist eine anspruchsvolle Aufgabe, die mehrere Teilaufgaben wie Multi-Pitch Estimation (MPE) und Instrumentenklassifizierung umfasst. Unser Hauptziel ist es, die lokale Frame-basierte Polyphonie (Anzahl der Noten pro Instrument oder Gesamtzahl der Noten) zu untersuchen, um festzustellen, ob diese Information zur Erhöhung der MPE-Genauigkeit bei klassischer Ensemblemusik beiträgt. Wir verwenden Polyphonie-Informationen auf zwei Arten. Im ersten Szenario wenden wir die Polyphonie auf die MPE-Vorhersagen in der Nachbearbeitungsphase an. Im Gegensatz dazu zielen wir im zweiten Szenario darauf ab, einen Algorithmus zu entwickeln, der die Polyphonie als die Anzahl der Instrumente und Noten in einem Zeitrahmen verwendet, um einen Instrumentenklassifikator während der Trainingszeit für die MPE-Aufgabe anzuleiten. Wir wählen den MusicNet-Datensatz aufgrund seiner polyphonen und multitimbralen Eigenschaften. Unser Baseline-Modell stutzt sich auf die Arbeit von Wu et al. [1], die ein U-Net-Modell für die MPE-Aufgabe verwendet. Wir verwenden diese Baseline auch als Benchmark für unser erweitertes Baseline-Modell, bei dem wir Polyphonie in der Nachbearbeitungsphase auf zwei Arten anwenden, um MPE zu verbessern. Bei der ersten Technik wenden wir die Polyphonie-Informationen an, nachdem wir die MPE Vorhersagewahrscheinlichkeiten erhalten haben, gefolgt von der Schwelle, während wir bei der zweiten Technik zuerst die Schwelle und dann die Polyphonie-Informationen anwenden. In unserem endgültigen Modellvorschlag werden zusätzliche Verzweigungen zum Engpass des U-Netzes implementiert, um Polyphonie-Informationen in die Modellarchitektur zu integrieren. Um festzustellen, ob das vorgeschlagene Modell angemessen ist, haben wir 12 Experimente mit verschiedenen Kombinationen von Hyperparametern durchgeführt. Wir vergleichen die Ergebnisse für die abschließende MPE-Bewertung auf der Grundlage des Parameters, der zu den besten Lernfähigkeiten führt. Schließlich vergleichen wir die Ergebnisse des vorgeschlagenen und des erweiterten Basismodells mit dem Basismodell. Wir stellen fest, dass Polyphonie-Informationen die MPE-Vorhersagen verbessern können. Die Tatsache, dass beide Modelle, das erweiterte Baseline- und das vorgeschlagene Modell, die Ergebnisse des Baseline-Modells übertreffen, bestätigt unsere Hypothese.
Acoustic room classification using binaural recordings in real rooms. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Die Klassifizierung von akustischen Räumen ist in den sich entwickelnden Bereichen wie kontextabhängigen Mobiltelefonen, Mobiltelefonen, Hilfsrobotern und der Analyse von Multimedia-Inhalten. Akustische Szenenklassifizierung versucht das Audiosignal in die Umgebung zu kategorisieren, in der es aufgetreten ist. Auch Anwendungsmöglichkeiten der akustischen Szenen-klassifizierung gibt es zahlreiche Herausforderungen, um die entsprechenden Daten aus dem Audiosignal zu sammeln. Die Entwicklung des maschinellen Lernens hat Forscher dazu veranlasst, diesen Bereich weiter zu erforschen. Um ein virtuelles Audioobjekt in einen einem Raum so einzuführen, dass es für einen Beobachter ein plausibler Teil der natürlichen Umgebung ist, erfordert ausreichende BRIRs (binaurale Raumimpulsantworten). Das Ziel ist es akustische Räume zu klassifizieren basierend auf gemessenen BRIRs mit einem maschinellen Lernansatz. Zwei moderne Deep-Learning Modelle mit sechs verschiedenen Datenrepräsentationen werden verwendet. Beide Deep-Learning-Modelle und Datenrepräsentation werden miteinander verglichen. Die Ergebnisse zeigen ihre Praxistauglichkeit im Vergleich zueinander.
Technische Universität Ilmenau, Masterarbeit 2022
Die automatische Musiktranskription (AMT) im Bereich des Music Information Retrieval (MIR) ist eine sehr schwierige Aufgabe, die eine Reihe von Teilaufgaben wie Multi-Pitch Estimation (MPE) und Instrumentenklassifizierung umfasst. Unser Hauptziel ist es, die lokale Frame-basierte Polyphonie (Anzahl der Noten pro Instrument oder Gesamtzahl der Noten) zu untersuchen, um festzustellen, ob diese Information wirklich dazu beiträgt, die MPE-Genauigkeit f̈ ur klassische Ensemblemusik zu erhöhen. Wir verwenden Polyphonie-Informationen auf zwei Arten. Im ersten Szenario wenden wir die Polyphonie auf die MPE-Vorhersagen in der Nachbearbeitungsphase an, während wir im zweiten Szenario versuchen, einen Algorithmus zu entwickeln, der die Polyphonie als Anzahl der Instrumente und Noten in einem Zeitrahmen verwendet, um einen Instrumentenklassifikator während der Trainingszeit für die MPE-Aufgabe zu steuern. Wir wählen den MusicNet-Datensatz aufgrund seiner polyphonen und multitimbralen Eigenschaften. Unser Baseline-Modell stützt sich auf die Arbeit von Wu et al.[1], die ein U-Net-Modell für die MPE-Aufgabe verwendet. Wir verwenden diese Baseline auch als Benchmark für unser erweitertes Baseline-Modell, bei dem wir Polyphonie in der Nachbearbeitungsphase auf zwei verschiedene Arten anwenden, um MPE zu verbessern. Bei der ersten Technik wenden wir die Polyphonie-Informationen nach der Ermittlung der MPE-Vorhersagewahrscheinlichkeiten an, gefolgt von einem Schwellenwert, während wir bei der zweiten Technik zuerst den Schwellenwert und dann die Polyphonie-Informationen anwenden. Unser endgültiger Modellvorschlag sieht zusätzliche Verzweigungen zum Engpass des U-Netzes vor, um Polyphonie-Informationen in die Modellarchitektur zu integrieren. Um festzustellen, ob das vorgeschlagene Modell effektiv ist, führen wir 12 Experimente mit verschiedenen Kombinationen von Hyperparametern durch. Basierend auf dem Parameter, der zu den besten Lernfähigkeiten führt, vergleichen wir die Ergebnisse für die endgültige MPE-Bewertung. Schließlich vergleichen wir die Ergebnisse des vorgeschlagenen Modells und der erweiterten Baseline mit dem Baseline-Modell. Wir stellen fest, dass Polyphonie-Informationen die MPE-Vorhersagen verbessern können. Die Tatsache, dass beide Modelle, Extended Baseline und Proposed, die Ergebnisse des Baseline-Modells übertreffen, bestätigt unsere Hypothese.
Compressing Neural Network Embeddings for Fast Inference in Audio Classification. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Das Erkennen von Mustern in Audiosignalen ist ein wichtiges Thema auf dem Gebiet des maschinellen Lernens. Es umfasst eine Vielzahl von Aufgaben, wie z.B. Audio-Tagging, Kategorisierung von akustischen Szenen, Musikklassifizierung Klassifizierung von Sprachemotionen und Erkennung von Klangereignissen. Hierbei ist der Mangel an annotierten Daten ein wesentliches Problem bei der Anwendung von Deep Learning auf die Audiokategorisierung. Eine etablierte Lösung dieses Problems ist die Verwendung von Embeddings. Dabei werden neuronale Netze auf unfangreichen Datensammlungen angelernt und anschließend auf den wenigen, gelabelten Daten des Zielproblem nachtrainiert. Dieses sogenannte Transfer Learning wird oft eingesetzt, um den Trainingsbedarf zu verringern. Bei dieser Methode werden vortrainierte neuronale Netze wie OpenL3 oder PANN für zuvor untrainierte Aufgaben verwendet. Oft sind solche Netze jedoch viel zu komplex, um auf kleinen eingebetteten Systemen mit begrenzter Rechenkapazität eingesetzt zu werden. Aktuelle Arbeiten konzentrieren sich daher auf Methoden zur Komprimierung neuronaler Netze wie etwas Knowledge Distillation zur Erstellung schnellerer Anwendungen mit geringeren Rechenaufwand. Diese Arbeit behandelt die Komprimierung eines bestehenden vortrainierten Netzes, in diesem Fall OpenL3, das tiefe Audio-Einbettungen, sogenannte Embeddings, erzeugt. Durch den Einsatz einer speziellen Form von Knowledge Distillation Techniken und der Reduzierung von Ebenen des OpenL3-Netzes wird ein kleineres und kompakteres Netz destilliert. Die Embeddings des destillierten Netzes werden final anhand verschiedener Audioklassifizierungsaufgaben bewertet und zeigen vergleichbare Ergebnisse zum ursprünglichen OpenL3-Netz bei einer um 66 % reduzierten Gesamtarchitektur und einer um 80 % verminderten Klassifikationszeit.
Entwicklung eines Systems für raumakustische Messungen unter Anwendung einer Robotikplattform. - Ilmenau. - 45 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Im Bereich der Auditive Augmented Reality (AAR) wird ein möglichst realitätsnahes Hörerlebnis angestrebt. Als Referenz für Simulationen dienen gemessene Room Impulse Response (RIR)-Datensätze. Die RIRs sind abhängig von den akustischen Eigenschaften des jeweiligen Raumes und der Schallquellen- und Senkenposition. Dadurch ist eine Messung sehr aufwendig, wenn alle Kombinationen von Quellen- und Senkenpositionen, an der sich eine Person in der AAR aufhalten kann, gemessen werden sollen. Ziel dieser Arbeit ist es, basierend auf einer fahrbaren Roboterplattform, ein automatisiertes Messsystem für RIRs zu entwickeln. Neben der Messung von räumlich hochaufgelösten Referenzdatensätzen soll auch das Auffinden von akustisch relevanten Stellen im Raum mit wenigen Messungen möglich sein. Im Rahmen dieser Arbeit wurde ein entsprechendes System implementiert. Es ist flexibel in unterschiedlichen Raumgrößen und -geometrien einsetzbar. Durch die beinhaltete Fehlerbehandlung und -vermeidung sind Messungen mit einer großen Zahl an Messpunkten über lange Zeiträume möglich. Auf Basis einer räumlich hochaufgelösten Referenzmessung wurde ein Particle Swarm Optimization (PSO)-Algorithmus angepasst, um akustisch relevante Stellen zu finden und in diesen Bereichen eine höhere räumliche Abtastung zu erzielen. Dadurch kann im Vergleich zu einer hochaufgelösten Referenzmessung ein Großteil der Messpunkte eingespart werden. Das Gesamtsystem wurde in verschiedenen Teil-Experimenten getestet und auftretende Fehler diskutiert.
Room acoustic analysis and acoustic room classification using binaural recordings in real rooms. - Ilmenau. - 80 Seiten
Technische Universität Ilmenau, Masterarbeit 2022
Jeder Raum hat eine einzigartige akustische Signatur und Charakteristik. Sie spielen eine große Rolle f̈ ur die akustische Wahrnehmung des Zuḧ orers. Das Versẗ andnis der Raumakustik kann dabei helfen, R̈ aume effizient zu gestalten und sie f̈ ur die vorgesehenen Zwecke besser geeignet zu machen. Die akustischen Eigenschaften eines Raums k̈ onnen mit dem Room Impulse Response (RIR) oder Binaural Room Impulse Response (BRIR) gemessen werden und sind f̈ ur verschiedene R̈ aume sowie f̈ ur die Positionen der Lautsprecher und Empf̈ anger einzigartig. Ziel dieser Masterarbeit ist es, mit Hilfe von Deep Learning ein Convolutional Neural Network (CNN)-Modell zu erstellen, um R̈ aume anhand ihrer akustischen Eigenschaften durch BRIR-Aufnahmen zu klassifizieren. Durch Datenerweiterung werden die Eingabedaten auch verwendet, um reale Musik- und Sprachsignale zu emulieren. Solche Musik- und Sprachsignale sowie rein akustische Informationen in Form von Impulsaufzeichnungen werden vom Klassifikator als Eingabe verwendet. Ziel dieser Arbeit ist es auch, die Entscheidungen der CNN-Architektur zu bewerten und die Funktionsweise der CNN zu verstehen. Zu diesem Zweck wird auch Layer-wise Relevance Propagation (LRP) eingesetzt. Das trainierte neuronale Netzwerk zeigt vielversprechende Ergebnisse bei der Klassifizierung von R̈ aumen auf der Grundlage ihrer akustischen Eigenschaften. Es erreicht eine nahezu perfekte Genauigkeit von 99% bei Impulsaufnahmen und 100% bei emulierten Musik-/Sprach-Eingangssignalen nach weniger als 5 Stunden Trainingssitzung. Die Testergebnisse werden in Form einer Konfusionsmatrix visualisiert. Die wenigen ungenauen Klassifizierungen geben einen Einblick in die Denkweise des neuronalen Netzes. Es zeigt sich, dass die Ergebnisse des Klassifikators mit den Ergebnissen anderer Arbeiten̈ ubereinstimmen, die auf der menschlichen Wahrnehmung basieren.