Teaching under the responsibility of the group

The group is responsible for teaching in the Bachelor's and Master's degree programs in Media Technology as well as in other degree programs at the TU Ilmenau. Below you will find an overview of the teaching including the offer of currently advertised theses.

Bachelor

Master

Theses

The group offers numerous topics for bachelor and master theses. Currently advertised topics can be found under the following link: Topics.

You can also contact ourstaff members with your own topic. Below is a list of completed, supervised theses in the department. In many cases the topics are still relevant. So please do not hesitate to contact us if you find topics of interest to you.

Bachelor theses

Anzahl der Treffer: 119
Erstellt: Mon, 26 Sep 2022 23:02:32 +0200 in 0.0574 sec


Popp, Paul;
Extrapolation of microphone array recordings for arbitrary positions in the room. - Ilmenau. - 65 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2022

Im Laufe des letzten Jahrzehnts hat das Interesse an virtueller bzw. erweiterter Realität (VR / AR) stark zugenommen. Für ein immersives Erlebnis ist es notwendig, virtuelle Schallquellen an beliebige Positionen im Raum platzieren zu können. Eine Möglichkeit zur Auralisierung von virtuellen Quellen ist es, Signale mit binauralen Raumimpulsantworten (BRIRs) zu falten und diese über Kopfhörer wiederzugeben. Die Aufnahme von BRIRs mit einem Kunstkopf zur Wiedergabe mit sechs Freiheitsgraden (6-DoF) über Kopfhörer führt zu einem hohen Aufwand, da für unterschiedlichste Kopfdrehungen und Positionen im Raum BRIRs gemessen werden müssen. Außerdem lassen sich vertikale Drehungen des Kopfes nur schwer damit umsetzen. Eine Möglichkeit, den Messaufwand zu reduzieren und Änderungen der Elevation zuzulassen, ist die Spatial Decomposition Method (SDM). Damit muss an jeder Position lediglich eine Messung durchgeführt werden. In der Vergangenheit wurde von Füg ein Algorithmus entwickelt, der Impulsantworten (IRs) so manipuliert, dass die Distanzwahrnehmung verändert wird. Ziel dieser Arbeit ist es, diesen Algorithmus auf die SDM zu übertragen und zu erweitern, sodass Entfernungsänderungen auch für elevierte Quellen möglich sind. Dadurch muss nur noch eine Messung mit der SDM durchgeführt werden, um BRIRs für den gesamten Raum zu synthetisieren. Der entwickelte Algorithmus manipuliert systematisch die Anfangszeitlücke, die Direction-Of-Arrival Matrix und die Energie der IR. Die Evaluation erfolgt mithilfe von distanzabhängigen Raumakustikparametern sowie durch einen informellen subjektiven Wahrnehmungstest. Die Auswertung der Raumakustikparameter zeigt, dass gute Ergebnisse für Quellen erzielt werden, welche oberhalb oder in der Ebene des Empfängers liegen. Für Quellen unterhalb des Empfängers entstehen starke Abweichungen bei der Direct-to-Reverberant-Ratio (DRR). Hinsichtlich der subjektiven Wahrnehmung bleiben die Ergebnisse hinter den Erwartungen zurück. Die Richtungs- und Entfernungswahrnehmung der Synthese weicht nicht stark von den Messungen ab, aber die Klangfarbe der Synthese ist sehr deutlich verändert. Die Übertragung von Fügs Manipulationsalgorithmus auf die SDM ist nur teilweise gelungen bzw. untauglich für einen praktischen Einsatz. Anhand von weiteren zukünftigen Untersuchungen für andere Räume soll die Leistungsfähigkeit des Algorithmus verbessert werden.



Untersuchung zur Charakterisierung nichtlinearer Verzerrungen mittels verschiedener Messprozeduren. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2022

Für die Qualitätsbewertung von Audiosystemen werden häufig nichtlineare Verzerrungen genutzt. Diese können mit einer Vielzahl von Methoden bestimmt werden. Die Auswahl der richtigen Messmethode ist ein grundlegendes Problem beim Vermessen von Systemen. Aus diesem Grund vergleicht die vorliegende Arbeit verschiedene Messmethoden zur Charakterisierung von nichtlinearen Verzerrungen. Für den Vergleich werden Methoden zur Bestimmung von THD, IMD, NCD und MTND betrachtet. Hierzu werden mehrere Messungen an verschiedenen Audiosystemen durchgeführt. Zudem wird die Reaktion der Messmethoden auf Parameterveränderungen in einem künstlichen System untersucht. In der Evaluation werden die Vor- und Nachteile der einzelnen Methoden aufgezeigt. Hierzu wird auch das Verhalten der Methoden bei schmalbandigen Verzerrungen und bei "Off-Axis"-Messungen betrachtet. Zudem werden die Verzerrungensangaben von Herstellern kritisch diskutiert. Zum Schluss wird eine Empfehlung für die Anwendungsgebiete der Methoden bzw. Kennzahlen gegeben.



Stelzenmüller, Max;
Untersuchung zum Lautstärkeverhalten gerichteter Schallquellen in objektbasierter Auralisation. - Ilmenau. - 90 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2022

Die Richtwirkung ist eine wichtige akustische Eigenschaft von Schallquellen. Diese kann in objektbasierten 3D-Audiowiedergabesystemen durch verschiedene Methoden reproduziert werden. Diese Arbeit untersucht das Lautstärkeverhalten virtueller gerichteter Schallquellen bei deren Rotation im kopfhörerbasierten 3D-Audiowiedergabesystem VIPRA, welches auf der Wellenfeldsynthese basiert. Die Reproduktion der Richtwirkung erfolgt in der VIPRA-Portalmethode durch eine Lautstärkeinterpolation zwischen Punktschallquellen. Auf Basis der vorhandenen Implementierung wird eine angepasste Berechnungsmethode erarbeitet und implementiert. Diese hat das Ziel, den Lautstärkeverlauf bei Rotation zu homogenisieren. Zur Evaluation der Methoden werden reale Schallerzeuger mit einem Mikrofonarray aufgenommen und in das System eingebunden. Anschließend werden die Methoden anhand Klangfärbung, Reproduktion der Richtcharakteristik und dem Lautstärkeverlauf bei Rotation verglichen. In einem informellen Hörtest wird die minimale Wiedergabeauflösung der neuen Implementierung untersucht. Die Untersuchungen zeigen, dass die neue Implementierung die bisher auftretenden Sprünge im Lautstärkeverlauf minimiert. Dadurch wird eine bessere Reproduktion der Richtcharakteristik ermöglicht. Der Hörtest gibt Hinweise darauf, dass virtuelle gerichtete Schallquellen, unabhängig von der Richtungsauflösung der Wiedergabe, als natürlich wahrgenommen werden können. Die minimale Richtungsauflösung hängt von der Art der Schallquelle sowie der Anwendung ab. Die VIPRA-Portalmethode sollte in weiterführenden Forschungsarbeiten mit anderen Verfahren zur Reproduktion der Richtwirkung verglichen werden. Diese Vergleiche sollten sowohl analytisch als auch in formellen Hörtests durchgeführt werden.



Patt, Steven;
Evaluation des Standes der Technik zum transparent Schalten von In-Ear-Kopfhörern. - Ilmenau. - 89 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2021

Moderne Kopfhörer und Hearables können immer mehr Funktionen erfüllen, die dem Träger mehr Komfort oder Unterstützung im Alltag bieten sollen. Bei offenen oder halboffenen Kopfhörern wird zum Beispiel der von außen auftretende Schall mit Active Noise Cancellation unterdrückt. Bei geschlossenen Kopfhörern ist aber genau dieser Schall manchmal erwünscht, um wichtige Signale von außen, trotz der geschlossenen Bauweise, wahrnehmen zu können. Diese Funktion, Schall durch die Kopfhörer wahrzunehmen, wird durch sogenannte Hear-Through Algorithmen ermöglicht. Der Fokus dieser Arbeit liegt darauf, einen Überblick über den aktuellen Stand der Technik zu In-Ear Hearables mit Hear-Through Funktionalität zu geben, wie diese konstruiert sein sollten und wie Übertragungsfunktionen zwischen den Mikrofonpositionen und dem Trommelfell definiert werden. Aufgrund der geringen Distanz zwischen dem Lautsprecher und den Mikrofon eines Hearables können vermehrt Rückkopplungen auftreten. Drei Rückkopplungsfilterverfahren werden vorgestellt, von denen zwei, die Prediction Error Methode und ein differentielles Mikrofon Array, auf ihren Einfluss auf die räumliche Wahrnehmung mittels einer Simulation untersucht werden. Diese verändern das auditive Ereignis unterschiedlich stark und können somit die auditive Richtungs- und Umgebungswahrnehmung negativ beeinflussen.



Meyer, Dominik;
Einfluss des Kopfhörermodells auf reale und virtuelle Schallquellen in Augmented Acoustics Anwendungen. - Ilmenau. - 37 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2020

In dieser Arbeit wird der Einfluss des Kopfhörermodells auf reale und virtuelle Schallquellen in Augmented Acoustics Anwendungen untersucht. Dazu wurden binaurale Impulsantwortmessungen mit einem Kunstkopf durchgeführt. Acht Modelle wurden physikalisch und perzeptiv untersucht. Die physikalische Analyse zeigt die Eigenschaften des Kopfhörers und ihre Auswirkungen auf das reale Schallfeld. Auch der Effekt der Neupositionierung wurde berücksichtigt. Um den Einfluss auf das externe Schallfeld perzeptiv zu untersuchen, wurde ein Multi-Stimulus Test mit versteckter Referenz- und Anker mit 15 Testpersonen durchgeführt. Die Ergebnisse zeigen, dass verschiedene Arten von Kopfhörern unterschiedliche Auswirkungen auf reale und virtuelle Schallquellen haben und dass die Neupositionierung Variationen im Frequenzspektrum verursacht.



Doll, Oliver;
Extraktion akustischer Umgebungsmerkmaleaus binauralen Audiostreams. - Ilmenau. - 64 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2020

Um die Position einer Person in einem Raum zu ermitteln, werden CNNs und binauralen Daten verwendet. Ein funktionierendes Lokalisationssystem auf Basis binauraler Daten kann einexternes Trackingsystem ergänzen. In einem systematischem Testverfahren werden zwei Ansätze verglichen. Ein Ansatz baut den interauralen Merkmalen IPD und ILD auf, während der zweite Ansatz auf den reinen binauralen Aufnahmen aufbaut. Bei dem Testverfahren wird das Netzwerk schrittweise um Schichten erweitert und einige Parameter getestet. Um die Positionder Person zu bestimmen, wird die DOA und die Distanz zur Quelle geschätzt. Zusätzlichwird der aktive Lautsprecher klassifiziert, der als Bezugspunkt dient, um die Position im Raumzu bestimmen. Für diese Aufgabe wird ein Datensatz aufgenommen, der vier verschiedene Lautsprecherpositionen beinhaltet. Bei den Aufnahmen wird keine Beschränkung der DOA vorgenommen und die Distanz variiert im Bereich zwischen 0,5 m und 4,0 m. Aufgrund der COVID-19-Pandemie konnte die Datensatzaufnahme nicht beendet werden. Die Ergebnisse zeigen, dass der vorgestellte Ansatz keine verwertbaren Ergebnisse liefert und wesentlicher Verbesserung bedarf. Das systematische Testverfahren konnte aufgrund mangelnder Ergebnisse nicht bewertet werden. Während des Testverfahrens konnte die Genauigkeit auf dem Testdatensatz kaum gesteigert werden. Auf Basis der wenigen Ergebnisse lässt sich vermuten, dass sich die interauralen Merkmale besser für die DOA-Bestimmung eignen und die reinenbinauralen Audiodaten sich besser für die Distanzbestimmung eignen.



Menz, William;
Vergleich von Ansätzen zur akustischen Anomalie Erkennung auf Basis vorhandener Testdatensätze. - Ilmenau. - 56 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2020

Audioanalysen sollen in verschiedenen Industriezweigen Überwachungen von Produktionsprozessen und die Überprüfung der fertigen Bauteile vollziehen. Ein Ansatz ist es, mit Luft als Übertragungsmedium des Schalls zu arbeiten und Luftschallaufnahmen zu generieren, welche anschließend für die Überprüfung von der Produkt- oder Produktionsprozessqualität genutzt werden können. Neben einer zuverlässigen Überprüfung wird die Verwendung maschineller Unterstützungsverfahren angestrebt. Diese Verfahren sind dazu konzipiert, Anomalien in den Audiodaten zu erkennen. Dies geschieht in der vorliegenden Arbeit mit Hilfe von neuronalen Netzen. In der Anomalieerkennung wird angestrebt, mit möglichst wenig anormalen Daten zu arbeiten. da diese in der Erzeugung sehr aufwendig und teuer sind. Diese Herausforderung kann durch sogenannte Autoencoder (AE) bewältigt werden, da sie Daten in die wichtigsten Bestandteile zerlegen und anschließend rekonstruieren. Wird angenommen, dass normale und anormale Daten unterschiedliche Bestandteile haben und das Netz darauf trainiert wird die normalen Daten zu rekonstruieren, so ergibt sich eine schlechtere Rekonstruktion anormaler Daten. Es wurden unterschiedliche Ansätze und Varianten von Autoencodern. anhand eines vorhandenen Testdatensatzes, welcher aus Luftschallaufnahmen besteht, getestet. Dies geschieht, um festzustellen, welcher Ansatz eine vielversprechende Unterstützung in der Industrie sein könnte. Weiterhin wird der Einfluss der Datenvorverarbeitung auf die Ergebnisse der AE betrachtet. Dies wird durch mehrfaches Trainieren der AE auf unterschiedlich vorverarbeitete Daten erreicht. Die Ergebnisse dieser Arbeit zeigen, dass der Variational-Ansatz (VAE) die niedrigsten Werte liefert. Der Shared-Weights-Ansatz (SWAE) erzielte am häufigsten die höchsten Werte, dicht gefolgt vom Simple-Ansatz (SAE). Somit sind der SWAE und der SAE vielversprechend für den Einsatz in der Industrie. Bei der Vorverarbeitung stellte sich heraus, dass die "Fast Fourier Transform" Größe und die dazugehörige Hopsize, sowie die Concat-Anzahl der verwendeten Frames einen erheblichen Einfluss auf das Ergebnis haben und somit für jeden Anwendungszweck neu angepasst werden sollten. In weiterführenden Arbeiten könnten der Convolutional- sowie der Stacked-Denoising-Ansatz in einen Vergleich einbezogen werden, da diese in der Arbeit nicht betrachtet wurden.



Kirchhoff, Kilian;
Entwicklung eines Verfahrens zur parallelen Verwendung eines elektrodynamischen Schallwandlers als Schallquelle und Schallempfänger. - Ilmenau. - 66 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2020

Die vorliegende Arbeit beschäftigt sich mit der Fragestellung, inwiefern ein elektrodynamischer Schallwandler simultan als Schallquelle und Schallempfänger nutzbar ist. Es werden zunächst Testmessungen zur gleichzeitigen Nutzung vorgenommen. Dies dient der Findung geeigneter Messparameter und der Entwicklung eines Messaufbaus. Es folgt die Vorstellung eines Verfahrens mit entsprechender Hardwarekonfiguration sowie die Durchführung akustischer Messungen. Die Daten werden mittels digitaler Signalverarbeitung ausgewertet und anschließend evaluiert. In dieser Arbeit wird gezeigt, dass eine parallele Verwendung eines elektrodynamischen Wandlers als Quelle und Empfänger mit dem vorgestellten Verfahren in Grenzen möglich ist. Außerdem wird eine Aussage über die Qualität dieses Verfahrens bei unterschiedlichen Wandlern gegeben. Im Anschluss wird ein Verfahren auf Hardwarebasis gegeben und anhand eines Aufbaus sowie zugehöriger Simulation erläutert. Im Ausblick wird auf notwendige zukünftige Forschung eingegangen.



Häußler, Jonathan;
Automatische Erkennung der Raumgröße und -geometrie auf Basis binauraler Signale. - Ilmenau. - 51 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2019

Die Analyse der geometrischen Eigenschaften eines Raumes anhand von akustischen Aufnahmen ist für verschiedenste Anwendungen interessant. In dieser Arbeit wird untersucht, in wie weit sich Künstliche Neuronale Netze (KNNs) für eine solche Analyse eignen. Zuerst wird ein Überblick über Konzepte und Entwicklungen in der KNN-Forschung gegeben, anschließend wird das Erstellen und die Verarbeitung des verwendeten Datensatzes erläutert. Abschließend werden die Netzstrukturen der untersuchten KNNs sowie die Experimente beschrieben, die in dieser Arbeit durchgeführt wurden und die Ergebnisse ausgewertet.



Entwicklung eines Simulationsmodells zur akustischen Lautsprechervermessung eines Mehrwege-Lautsprechersystems. - Ilmenau. - 63 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2019

Die vorliegende Arbeit beschäftigt sich mit der Entwicklung eines Simulationsmodells bzw. Prädiktionsmodells, welches den Amplitudenfrequenzgang eines Mehrwege-Lautsprechersytems im akustischen Fernfeld basierend auf den im Nahfeld gemessenen Amplitudenfrequenzgängen der einzelnen Lautsprecherkomponenten prädiziert. Hierfür wurden vier Mehrwege-Lautsprechersysteme in unterschiedlichen Abständen akustisch vermessen. Es wurden verschiedene Prädiktionsansätze untersucht und auf die Nahfeldmessungen angewendet. Die Prädiktionsergebnisse wurden mit real gemessenen Frequenzgängen verglichen und somit evaluiert. Es konnte gezeigt werden, dass die Prädiktion für einen Frequenzbereich von 20 Hz bis 3 kHz möglich ist und bei den drei untersuchten Standlautsprechern im Durchschnitt nur um 0,5 dB von der Realmessung abweicht. Hierbei wurde der Ansatz nach Struck und Temme um eine Korrekturfunktion erweitert. Der untersuchte Kompaktlautsprecher Smart Soundbox 3 zeigte eine durchschnittliche Abweichung der Prädiktion von der Realmessung von 2,8 dB. Für Frequenzen oberhalb von 3 kHz ist eine Prädiktion auf Basis nach Struck und Temme aufgrund des Zusammenhangs zwischen Wellenlänge und Schallwandabmessungen nicht möglich. Ebenfalls wird in dieser Arbeit gezeigt das eine Prädiktion des Hochtonbereichs mithilfe des logarithmischen Abstandsgesetzes aufgrund der Limitierung im Grenzbereich des Abstandsgesetzes nicht möglich ist.




Master's theses

Anzahl der Treffer: 115
Erstellt: Mon, 26 Sep 2022 23:02:34 +0200 in 0.0740 sec


Häußler, Jonathan;
Generierung von binauralen Raumimpulsantworten aus Messungen mit einem sphärischen Mikrofonarray. - Ilmenau. - 131 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die Strukturen und Verläufe in Audiosignalen sind komplex und enthalten in kürzesten Zeitabschnitten viele Variationen. Es ist bekannt, dass neuronale Netze in der Lage sind, Strukturen und Muster in solch komplexen Daten zu erfassen. Im Audiokontext lassen sich daher verschiedenste Klassifikations- und Regressionsprobleme durch den Einsatz neuronaler Netze bewältigen. Im Rahmen dieser Arbeit werden solche Netzwerke angewendet, um besondere Audiosignale zu generieren: Raumimpulsantworten (RIRs). RIRs bilden die akustischen Eigenschaften ihrer Aufnahmeumgebung ab und sind daher sehr nützlich zur Simulation und Repräsentation akustischer Szenen. Der Messaufwand für RIR-Datensätze ist hoch und die Interpolation vorhandener Datensätze durch neuronale Netze daher attraktiv. Es konnte im Rahmen dieser Masterarbeit gezeigt werden, dass für die RIR-Synthese und besonders im Bereich der Reverb-Synthese großes Potential im Machine Learning Ansatz steckt. Die Darstellung der frühen Reflexionsereignisse gilt es aber weiter zu verbessern.



Baum, Malte;
Environment classification of speech recordings. - Ilmenau. - 63 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Im Gebiet der Audio-Forensik ist Environment Classification eine Technik, mit deren Hilfe sich die Authentizität und Integrität von Audio-Aufnahmen überprüfen lässt. Hierbei wird versucht, die Räumlichkeit zu identifizieren, in der die Aufnahme entstanden ist. Da Räumlichkeiten über einen charakteristischen Nachhall verfügen und dieser in Audio-Aufnahmen enthalten ist, versuchen die meisten Klassifizierungs Ansätze, den Nachhall zu modellieren und aus ihm gewonnene Merkmale als Kriterien zur Unterscheidung zu verwenden. Diese Arbeit präsentiert einen neuen Algorithmus für Environment Classification von Sprachaufnahmen basierend auf der Berechnung einer Signatur der Aufnahmeräumlichkeit. Hierfür wird die Nachhallzeit (T60) für unterschiedliche Frequenzbänder mithilfe der Schroeder-Methode als Merkmal berechnet. Die eigentliche Klassifizierung erfolgt mithilfe einer Support-Vektor-Maschine (SVM) mit einem radial basis function (RBF) Kernel. Zur Rekonstruktion des für die Berechnung der T60-Werte benötigten Zeitsignals wurden zwei verschiedene Rekonstruktionsansätze evaluiert: Der Griffin-Lim-Algorithmus sowie eine Methode basierend auf inverser Filterung. Darüber hinaus wurden verschiedene Algorithmus-Parameter und der Einfluss unterschiedlicher Aufnahmepositionen auf die Klassifizierungsgenauigkeit untersucht. Für T60-Werte, die über inverse Filterung gewonnen wurden, erreichte der vorgestellte Algorithmus eine Genauigkeit von 94 % bei der Klassifizierung. Bei unterschiedlichen Aufnahmepositionen war eine signifikante Abnahme der Genauigkeit zu beobachten.



Doll, Oliver;
Creation and evaluation of an AAR scenario using an electro-acoustically transparent hearpiece. - Ilmenau. - 101 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Augmented Realities zielen darauf ab reale und virtuelle Objekte in einer Szene zu vereinen, ohne dass diese voneinander zu unterscheiden sind. Solche Augmented Realities lassen sich auch kreieren, indem virtuelle Schallquellen in die reale Umgebung eingefügt werden. Damit diese nicht unterscheidbar sind von der realen Umgebung, müssen die verursachten Sinnesreize einer realen Quelle bestmöglich imitiert werden. Zusätzlich ist die technische Herausforderung zu lösen, dass das reale Schallfeld erhalten bleibt, während gleichzeitig virtuelle Inhalte präsentiert werden. In dieser Arbeit wurde eine solche Augmented Auditory Reality umgesetzt, indem ein elektroakustisch-transparenter In-Ear-Kopfhörer und Binauralsynthese verwendet wurden. Mit Hilfe eines Hörversuchs sollte festgestellt werden, ob und aus welchen Gründen Anwender virtuelle Schallquellen enttarnen können. Etwas mehr als die Hälfte der Hörversuchteilnehmer konnte die beiden Quellen eher auseinanderhalten. Allerdings ist diese Unterscheidungsfähigkeit bei den meisten Teilnehmern unbeständig gewesen. Die Mehrheit gab an, dass die Szenen plausibel und die Quellen nur schwer auseinander zu halten waren. Am häufigsten wurden die virtuellen Quellen aufgrund von Lokalisationsproblemen enttarnt. Als zweithäufigste Begründung wurden Unterschiede in der Klangfarbe zwischen der elektroakustischen Transparenz und der Binauralsynthese genannt. Das durch die elektroakustische Transparenz reproduzierte reale Schallfeld wurde überwiegend auch als solches erkannt.



Raza, Muhammad Jami;
Spatial data augmentation techniques for improved machine listening. - Ilmenau. - 73 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die Nachhallzeit (Reverberation Time, RT60) und das Verhältnis von Direktschall zu Nachhall (Direct to Reverberant Energy Ratio, DRR) werden üblicherweise zur Charakterisierung der akustischen Umgebung eines Raums verwendet. Beide Parameter können aus einer akustischen Impulsantwort (Acoustic Impulse Response, AIR) berechnet werden. Wenn neuronale Netze (Neural Networks, NN) zur Schätzung dieser beiden Parameter verwendet werden, ist jedoch ein umfangreicher realistischer Datensatz erforderlich, dessen Erfassung teuer und zeitaufwändig ist. Um dieses Problem zu lösen, wurden Experimente mit verschiedenen Augmentierungsmethoden durchgeführt, sowohl mit konventioneller Audio-Augmentierung als auch mit speziellen Augmentierungstechniken, die es uns ermöglichen, einen kleinen Datensatz realer akustischer Impulsantworten (Acoustic Impulse Response, AIR) zu erweitern. Eine neue Impulsantwort-Augmentationstechnik wurde auch für die DRR vorgeschlagen. Zunächst wurden die verschiedenen neuronalen Netze mit dem realen Datensatz getestet und dann wurden verschiedene Augmentierungsverfahren eingesetzt. Dabei wurden sowohl die Zeitreihen als auch die Spektrogramme berücksichtigt. Als Bewertungsmaßstab wurde der mittlere quadratische Fehler (Mean Squared Error, MSE) herangezogen. Im Fall von RT60 wurden deutliche Verbesserungen mit den herkömmlichen Techniken beobachtet. Bei DRR hingegen sind Verbesserungen nur mit der speziellen AIR-Augmentationstechnik und einer neu vorgeschlagenen Technik zu beobachten.



Deep learning based drum transcription. - Ilmenau. - 52 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

In dieser Studie wurde nach einer Literaturrecherche das theoretische Wissen genutzt, um einen hochmodernen Algorithmus zur automatischen Transkription von Trommeln mit Hilfe von Deep Learning-Methoden zu implementieren. Es wurden ähnliche Ergebnisse erzielt wie die von den Entwicklern der Architektur erzielten. Im zweiten Kapitel wurde eine detaillierte Zusammenfassung der Konzepte und Grundlagen für ADT erstellt. Außerdem wurde eine Verbesserung der Trainingsdatenzeit durch die Entwicklung einer Variante der Datenerweiterung erreicht.



Automatisierte Identifikation mechanischer Belastungsvorgänge bei In-Ear-Kopfhörern. - Ilmenau. - 56 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Diese Arbeit betrachtet die Entwicklung eines Systems zur automatischen Detektion von Ein- und Aussteckvorgängen von In-Ear-Kopfhörern (IEK). Hierfür wird ein System gesucht, das mit jedem elektrodynamischen IEK kompatibel sein und ohne zusätzliche Sensorik auskommen soll. Das in dieser Arbeit beschriebene System basiert auf der Erkennung und Zuordnung des Spannungssignals, das ein elektrodynamischer IEK induziert, wenn er in ein Ohr oder einen Ohrsimulator ein- oder ausgesteckt wird. Dafür wurde ein Messdatensatz bestehend aus den Spannungssignalen der IEK und den dazugehörigen Annotationen erstellt und zum Training mehrerer Klassifikatoren genutzt. Es konnte gezeigt werden, dass eine Spannungsmessung der IEK während getätigter Interaktionen für eine Klassifikation geeignet ist. Auch konnte gezeigt werden, dass das System zur Klassifikation der Interaktionen imstande ist, wenngleich die Generalisationsfähigkeit verbesserungswürdig ist.



Seyfferth, Constantin;
Automatisierte Charakterisierung der Wiedergabeumgebung von Lautsprechern mittels Hörschall. - Ilmenau. - 77 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die vorliegende Arbeit beschäftigt sich mit der Ermittlung von Raumgeometrie auf der Grundlage von Hörschallmessungen eines Lautsprecherpaares in einem Wohnraum über zwei verschiedene Ansätze. Der erste Ansatz untersucht die axialen Raummoden, da sie Aufschluss über die Abmessungen eines Raumes geben. Der zweite Ansatz erforscht die Ableitung von Raumgeometrien anhand der Ankunftszeiten von Raumreflexionen in der Impulsantwort. Es werden Methoden vorgestellt, um störende Faktoren wie Reflexionen an Objekten aus den Messungen weitestgehend zu entfernen und um die oberen, unteren, vorderen und hinteren Reflektoren sowie die Position der Lautsprecher in einem rechteckigen Raum zu lokalisieren. Die Ergebnisse beider Ansätze werden mittels eines Raummessdatensatzes bewertet, der sowohl virtuelle als auch reale Messungen enthält.



Warmuth, Kenneth;
Der Einfluss des Mikrofonarrays auf die Coloration und räumliche Audioqualität in einem Binauralsynthesesystem. - Ilmenau. - 77 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Das Ziel der vorliegenden Arbeit im Rahmen einer Masterarbeit war es, den Einfluss von verschiedenen Mikrofonarrays auf die Coloration und räumliche Audioqualität in einem Binauralsynthesesystem zu untersuchen. Nach der Aufnahme von Raumimpulsantworten mit je einem Kunstkopf-, Motion-Tracked Binaural- sowie Spatial Decomposition Method-Mikrofonarray wurde mit 19 Probanden ein Hörtest durchgeführt. Unter Verwendung des Py Binaural Simulators (PyBinSim) sowie eines Trackingsystems konnte die Binauralsynthese, beruhend auf KEMAR-HRTFs für den KEMAR und das SDM-Array, umgesetzt werden. Die MTB-Signale wurden ohne HRTFs verwendet. Auf dieser Basis wurde ein Colorations- und Lokalisationstest durchgeführt. In den Ergebnissen zeigt sich, dass die untersuchten Mikrofonarrays einen unterschiedlichen Einfluss auf die räumliche Audioqualität haben. In der Gesamtbetrachtung von Signalcoloration sowie Signallokalisation als Teil der räumlichen Audioqualität zeigte sich die geringste Beeinflussung beim KEMAR. Eben dieser ist für die Binauralsynthese angesichts der untersuchten Aspekte am besten geeignet. Die größte Wirkung auf die Auralisation wurde durch das MTB-Array erzeugt. Dieses nimmt einen starken Einfluss auf die Signalcoloration, überzeugt aber bei der Einschätzung der Externalisation. Der Elevationsaspekt stellt sich bei allen Mikrofonarrays als schwierig heraus. Die ermittelten Daten zeigen, dass die auf die horizontale Bewegung des Kopfes begrenzte dynamische Binauralsynthese die Elevation ermöglicht, jedoch nicht herausragend ist.



Möller, Fabian;
Konzept für eine minimale und flexible Messanordnung für die objektive Sicherung der Audioqualität von professioneller Beschallungstechnik. - Ilmenau. - 127 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Lautsprecher für anspruchsvolle Beschallungsaufgaben sind verschiedensten Beanspruchungen ausgesetzt, wodurch sie mechanische oder elektrische Beschädigungen erleiden können und somit die Wiedergabequalität nachlässt. Eine kritische Qualitätskontrolle nach jedem Einsatz findet allerdings nur selten statt, da die Hürden von objektiven Messsystemen für viele Veranstaltungstechnikbetriebe zu hoch sind. Die vorliegende Arbeit befasst sich daher mit der Konzeptionierung eines minimalen und universellen Messsystems für die Qualitätskontrolle von professionellen eschallungslautsprechern. Ziel ist ein praxisgerechtes und zuverlässiges Konzept, basierend auf dem Klippel QC System, welches durch robuste und effiziente Prüfsequenzen eine objektive Qualitätssicherung und Defekterkennung ermöglicht. Dafür wurden bisherige Verfahren der Qualitätssicherung in der Veranstaltungstechnik gesichtet, deren Stärken und Schwächen identifiziert, um darauf aufbauend Konzepte in unterschiedlichen Ausprägungen zu formulieren. Diese wurden unter Realbedingungen getestet und evaluiert, um daraus universelle und robuste Prüfgrenzen abzuleiten. Ausgelegt sind die Konzepte dabei sowohl auf akustische als auch auf elektrische Messungen im Klein- und Großsignalbereich, um über verschiedene Messmethoden eine möglichst breite Analyse von Defektcharakteristiken zu erzielen. Dabei werden stets die Anforderungen und Bedürfnisse von Veranstaltungstechnikbetrieben berücksichtigt, um ein praxisnahes und praktikables Messsystem zu konzeptionieren.



Chauhan, Jaydeep;
Multi-scale sound event detection. - Ilmenau. - 124 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Die Aufgabe der Erkennung von Schallereignissen (Sound Events Detection, SED) zielt darauf ab, Schallereignisse und ihre zeitliche Position in kontinuierlichen Audiosegmenten vorherzusagen. SED-Algorithmen werden in Anwendungen wie Audio-Tagging, Verkehrsüberwachung, Sicherheitsanwendungen usw. eingesetzt. Datenmangel und die Verschiedenartigkeit der Schallquellen machen die SED-Aufgabe zu einer großen Herausforderung. Auf der Grundlage des von Ding et al. vorgeschlagenen adaptive multiscale sound event detector (AdaMD) wird in dieser Arbeit eine modifizierte Version des Modells (AdaMD-M) untersucht. Dieses Modell verwendet ein neuronales hourglass Netzwerk und Gated Recurrent Unit Module. Darüber hinaus haben wir das AdaMD-M-Modell zur Unterstützung von Klassifizierungsaufgaben modifiziert und ein leichteres SED-Modell für Low-End-Geräte vorgeschlagen. Um das vorgeschlagene Modell mit anderen State-of-the-Art-Modellen (SOTA) zu vergleichen, verwenden wir die Detection and Classification of Acoustic Scenes and Events (DCASE) Herausforderung als Referenz. Wir untersuchten auch zwei Methoden zur Datenerweiterung (DA), d.h. MixUp und Random erase. Für die Bewertung verwendeten wir die F1-Score- und Fehlerraten (ER)-Metriken. Das AdaMD-M Modell zeigt eine geringere ER als die DCASE zweite und dritte rangierten Teilnehmer für DCASE 2016 Task 3 Herausforderung. In DCASE 2017 Task 3 zeigt AdaMD-M eine niedrigere ER als das DCASE-Basismodell bleibt aber knapp hinter den anderen SOTA-Ergebnissen zurück. Wenn AdaMD-M mit Standarddaten trainiert wird, bleibt es in der monophonen SED-Aufgabe deutlich hinter SOTA zurück. Wird jedoch mit einem benutzerdefinierten Datensatz trainiert, verbessern sich die Ergebnisse von AdaMD-M um etwa 50 %. Das Klassifikatormodell liefert einen durchschnittlichen F1-Wert von 0,229 bzw. 0,236 mit und ohne DA. Die leichtere Version des SED-Modells zeigt einen ER von 0,821 und übertrifft damit unsere Erwartungen.