Abschluss- und Projektarbeiten

Das Fachgebiet bietet zahlreiche Themen für Bachelor- und Masterarbeiten an. Aktuell ausgeschriebene Themen

Sie können sich auch mit einem eigenen Thema an unsere Mitarbeiter:innen wenden. Nachstehend sind im Fachgebiet abgeschlossene, betreute Abschlussarbeiten aufgelistet. In vielen Fällen sind die Themen immernoch relevant. Zögern Sie also nicht mit uns in Kontakt zu treten, wenn  Sie dort für Sie interessant Themen finden.

Abgeschlossene Masterarbeiten
Anzahl der Treffer: 130
Erstellt: Sun, 14 Jul 2024 13:50:18 +0200 in 0.0775 sec


Sharma, Pranav;
Estimation of acoustic decay time of live signals using neural networks. - Ilmenau. - 85 Seiten
Technische Universität Ilmenau, Masterarbeit 2024

Die Energy Decay Curve (EDC) bietet Einblicke in den zeitlichen Zerfall der Schallenergie in einem Raum sowie in die Verteilungs-, Reflexions- und Absorptionseigenschaften des Schalls für verschiedene Wandkonfigurationen. Die Messung des EDC in einem Raum erfordert in der Regel ressourcenintensive Techniken, die umfangreiche Installationen und unbelegte Räume erfordern und sowohl zeitaufwändig als auch kostspielig sind. Solche Messungen werden durch die im Raum vorhandenen Hintergrundgeräusche beeinflusst. Diese Studie schlägt einen neuartigen Blindschätzungsansatz vor, der die neuesten Entwicklungen im maschinellen Lernen nutzt, um die Einschränkungen traditioneller Methoden zu überwinden. Basierend auf Trainingszeit, Speicherbedarf und Verlustreduzierungsgenauigkeit wurde ein umfassender Vergleich verschiedener neuronaler Netzwerkarchitekturen durchgeführt, der zur Entwicklung des Reverberation to Decay Net (R2DNet)-Modells führte, das für die blinde Schätzung von Abklingparametern und dem Grundrauschen konzipiert ist von monokanaliger, nachhallender Sprache. Dieses Modell verwendet den Verlust der Energieabfallkurve als Zielfunktion für das Training. Es akzeptiert nachhallende Sprache als Eingabe und gibt Abklingparameter als Ausgabe aus und generiert eine Energieabklingkurve unter Verwendung des parametrischen Modells eines linearen Abklings plus Grundrauschen. Während des Trainings führt maschinelles Lernen umfassende Untersuchungen durch, um die optimalen Werte zu finden, die am besten zum generierten EDC aus dem parametrischen Modell mit Schroeders EDC passen. Der Trainings- und Testdatensatz umfasst nachhallende Sprachdateien, die aus der Faltung des Librispeech-ASR-Korpusdatensatzes und einem hochauflösenden Datensatz von Raumimpulsantworten für verschiedene akustische Raumkonfigurationen der TU-Ilmenau erstellt wurden. Gleichzeitig wurde die Validierung in zwei verschiedenen Räumen zusammen mit einem anderen räumlichen Raumimpulsantwortdatensatz namens R3VIVAL durchgeführt, um die Generalisierbarkeit, Robustheit und Genauigkeit bei der Vorhersage der Nachhallzeit und der Energieabfallkurve zu bewerten. R2DNet zeigt vielversprechende Ergebnisse bei der Vorhersage von Abklingparametern aus nur 1,024 Sekunden nachhallender Sprache. Allerdings besteht in einigen Bereichen noch Verbesserungsbedarf, insbesondere wenn das Signal-Rausch-Verhältnis sehr niedrig ist. Dies unterstreicht den kontinuierlichen Weg zur Erzielung einer perfekten blinden akustischen Schätzung. Die Ergebnisse dieser Forschung haben erhebliche Auswirkungen auf verschiedene Bereiche, darunter virtuelle und erweiterte Realität (VR/AR), binaurale Audiowiedergabe, Echtzeit-Audioverarbeitung, räumliches Audio und die Klassifizierung akustischer Umgebungen. Die Entwicklung blinder Schätztechniken stellt einen entscheidenden Fortschritt dar, da sie den Grundstein für eine effektivere und effizientere akustische Analyse legt. Dies wiederum eröffnet neue Möglichkeiten für zukünftige Innovationen in der immersiven Technologie und der Schaffung intelligenter akustischer Umgebungen.



Aslam, Muhammad Usman;
Design of a dataset generator for training acoustic neural networks. - Ilmenau. - 65 Seiten
Technische Universität Ilmenau, Masterarbeit 2024

Die effektive Klassifizierung akustischer Daten spielt eine zentrale Rolle bei der Weiterentwicklung kontextbezogener mobiler Technologien, assistiver Robotik und der Analyse von Multimedia-Inhalten. Die Nutzung klangbasierter Informationen bietet vielversprechende Anwendungen, doch die Erhebung geeigneter Daten stellt nach wie vor eine Herausforderung dar. Die Entwicklung des maschinellen Lernens hat zu umfangreichen Forschungen in diesem Bereich geführt und Wissenschaftler dazu motiviert, sich mit der Überwindung dieser Hürden zu befassen. Diese Studie konzentriert sich auf die Untersuchung von zwei hochmodernen Algorithmen zur Datengenerierung im Bereich der Klassifizierung akustischer Daten. Durch den Einsatz dieser Algorithmen sollen Daten synthetisiert werden, die akustische Informationen aus der realen Welt widerspiegeln. Anschließend wird dieser generierte Datensatz mit zwei verschiedenen neuronalen Netzwerkarchitekturen trainiert. Die vergleichende Analyse der Leistung dieser Netzwerke befasst sich nicht nur mit den Herausforderungen, die mit der Datenerfassung verbunden sind, sondern bietet auch wertvolle Einblicke in die Effizienz der Nutzung synthetischer Daten für eine genaue Klassifizierung akustischer Daten.



Munagala, Venkata Lokesh Reddy;
Assessing the localization accuracy and distance mapping of sound sources in the horizontal plane. - Ilmenau. - 58 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Die auditive Entfernungswahrnehmung ist ein komplexes Phänomen, das von einer Vielzahl von Faktoren beeinflusst wird, darunter die physische Entfernung, der Orientierungswinkel, das Alter und akustische Hinweise. In dieser Studie werden die Feinheiten der auditiven Entfernungswahrnehmung durch die Analyse von Sprach- und Schlagzeugsignalen erforscht. Die Ergebnisse bieten wichtige Einblicke in die Faktoren, die beeinflussen, wie Individuen Schallquellen in unterschiedlichen Entfernungen wahrnehmen. Bei Sprachsignalen erweisen sich die physische Entfernung, das Alter und die Bewertungen der Teilnehmer als Hauptfaktoren für die wahrgenommene Entfernung, während bei Schlagzeugsignalen vor allem die physische Entfernung eine wichtige Rolle spielt. Die Studie enthüllt auch die Rolle der Orientierung für die Genauigkeit der Entfernungswahrnehmung. Darüber hinaus unterstreicht der Vergleich zwischen Sprach- und Perkussionssignalen unterschiedliche Muster in der Wahrnehmung dieser beiden Klangarten. Diese Ergebnisse bereichern unser Verständnis der auditiven Entfernungswahrnehmung und können in Bereichen wie der virtuellen Realität, der Gestaltung von Klanglandschaften und der Mensch-Maschine-Interaktion Anwendung finden. Die Zukunft bietet spannende Perspektiven für die weitere Erforschung dieses komplexen Aspekts der menschlichen Wahrnehmung für reale Anwendungen.



Khisa, Priyam;
Directions of sound arrival estimation in reverberant rooms using machine learning methods. - Ilmenau. - 76 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

In dieser Arbeit wird eine Schätzung der Ankunftsrichtung (Direction of Arrival, DOA) mithilfe von Ansätzen des maschinellen Lernens vorgeschlagen. Die Time Differences of Arrival (TDOA ), die die sdmPar-Funktion für die DOA-Schätzung nutzt, wird hier verwendet. Der Ansatz für diese Masterarbeit beginnt mit dem richtigen Verständnis des Datensatzes, was zur Konvertierung der Daten in ein leichter zugängliches CSV-Format mit entsprechender Beschriftung führt. Diese Phase der Datenvorverarbeitung ist von entscheidender Bedeutung, um die Qualität des Datensatzes und seine Nützlichkeit für die weitere Analyse zu gewährleisten. Zu diesem Zweck werden auf der Grundlage des Einblicks in den Datensatz geeignete ML-Algorithmen ausgewählt. Die ausgewählten Modelle werden mit den Daten trainiert und die Hyperparameter werden für eine bessere Modellleistung angepasst. Bessere Ergebnisse werden erzielt, wenn die Daten als Zeitreihen verwendet werden. Traditionelle Algorithmen des maschinellen Lernens wie Random Forest (RF) und sequentielle Architekturen des maschinellen Lernens (ML) wie Recurrent-Neural-Network (RNN) und Long Short-Term Memory (LSTM) werden mit Zeitreihendaten trainiert, um eine bessere Leistung zu erzielen. Die Algorithmen werden dann auf der Grundlage der Bewertungsmetriken auf bessere Funktionalität hin verglichen, wobei LSTM besser abschneidet. Die bestehende sdmPar-Funktion wird mit Matlab entwickelt. Die vorgeschlagene Methode beinhaltet auch die Anpassung der sdmPar-Funktion an ein Python-Skript, um eine ähnliche DOA-Schätzung zu erzeugen. Es gibt jedoch einige Einschränkungen, wie zum Beispiel die plattformübergreifende Kompatibilität. Es ist eine sehr schwierige Aufgabe, die sdmPar-Funktion in Python zu konvertieren, da die Funktion in Matlab in die SDM-Toolbox für Matlab integriert ist, so dass die Fehlersuche sehr schwierig ist. Diese Arbeit ist ein einzigartiger Ansatz für die Vorhersage von DOA mit Hilfe eines ML-Algorithmus, der eine Merkmalsextraktion aus der sdmPar-Funktion beinhaltet. Die Studie liefert wertvolle Einblicke in DOA-Schätzverfahren und unterstreicht die Bedeutung einer angemessenen Vorverarbeitung der Daten und der Auswahl des Algorithmus um bessere Ergebnisse zu erzielen.



Ngamthipwatthana, Pitchapa;
Synthetic audio data generation with generative adversarial networks for overcoming data scarcity in deep learning. - Ilmenau. - 88 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Datenknappheit stellt eine große Herausforderung beim Deep Learning dar und beeinträchtigt die Leistung von Modellen. Es wurden mehrere Methoden untersucht, um dieses Problem anzugehen, wobei sich Generative Adversarial Networks (GANs) als eine vielversprechende Lösung herauskristallisiert haben. In dieser Arbeit wird das Potenzial von GANs bei der Erzeugung synthetischer Audiodaten untersucht, um die Datenknappheit bei Audioklassifizierungsaufgaben in den Bereichen Industrial Sound Analysis (ISA) und Musik zu beheben. Durch die Integration dieser synthetischen Daten mit realen Beispielen wird ein Audioklassifikationsmodell trainiert und in verschiedenen Szenarien bewertet. Das Ziel ist es, der Datenknappheit entgegenzuwirken und Vielfalt in den Datensatz zu bringen. Darüber hinaus werden die synthetisierten GAN-Daten mit der Synthetic Minority Oversampling Technique (SMOTE) und der Gaußschen Rauschinjektion zur Behandlung von Klassenungleichgewichten verglichen und mit Datenerweiterungstechniken wie Pitch Shift, Time Stretch, Mixup und Random Rotate verglichen, um ihre relative Effektivität zu ermitteln. Die Ergebnisse zeigen, dass die Einbeziehung von GAN-generierten synthetischen Daten die Klassifizierungsgenauigkeit erheblich verbessert, insbesondere in Szenarien mit begrenzten realen Trainingsdaten. Interessanterweise zeigen GANs die Fähigkeit, wertvolle synthetische Daten zu erzeugen, selbst wenn die realen Daten für das Training eingeschränkt sind. Insbesondere zeigen GAN-generierte synthetische Daten eine vergleichbare Leistung wie SMOTE, und die Datenerweiterung hilft bei der Behandlung von Klassenungleichgewichten und Datenknappheit. Darüber hinaus verbessern die synthetischen Daten die Klassifizierungsgenauigkeit erheblich, insbesondere für bestimmte Klassen. Durch die Kombination von synthetischen Daten mit Datenerweiterungstechniken wird die Klassifizierungsleistung weiter gesteigert. Diese Ergebnisse unterstreichen die vielfältigen Vorteile von GAN-generierten synthetischen Audiodaten. Zukünftige Arbeiten sollten die Bewältigung von Domänenverschiebungen, die Verfeinerung von GAN-Trainingsprozessen und die Erforschung robuster Bewertungsmetriken zur Beurteilung der Qualität und Vielfalt der generierten Daten umfassen.



Ullah, Asad;
Improving a System for Bio-acoustics Sound Event Detection based on Few-Shot Learning. - Ilmenau. - 68 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Die bio-akustische Schallereigniserkennung ist entscheidend für die Überwachung der biologischen Vielfalt, die Beurteilung der Gesundheit von ökosystemen und die Untersuchung tierischen Verhaltens. Die hohe Variabilität von Schallereignissen und die begrenzte Verfügbarkeit von beschrifteten Daten stellen erhebliche Herausforderungen für diese Erkennungsaufgaben dar. Diese Arbeit untersucht das wenige-Schuss-Lernen, eine vielversprechende Lösung zur Erstellung effektiver Modelle mit begrenzten Trainingsdaten für die bio-akustische Schallereigniserkennung. Das Hauptziel dieser Forschung ist es, die Leistung von Deformable CNNs im Vergleich zu regulären CNNs zu untersuchen. Dieser Vergleich wird im Rahmen von zwei wichtigen Strategien zur Erkennung von Schallereignissen durchgeführt: aktives Lernen und Prototypical Network. Im Szenario des aktiven Lernens wurde eine umfassende Reihe von Experimenten durchgeführt, in denen verschiedene Abtaststrategien und ihre Wechselwirkung mit verschiedenen Schwellenwerttechniken untersucht wurden, die in der Nachverarbeitung verwendet wurden. Die Strategie des Prototypical Network wurde ebenfalls gründlich getestet und ihre Leistung bewertet. Die effektivste Systemkonfiguration beinhaltete die Methode des aktiven Lernens mit einem regulären CNN, bei dem keine Schwellenwertbildung in der Nachverarbeitung angewendet wurde. Dieses Ergebnis unterstreicht das Potenzial des aktiven Lernens und regulärer CNNs für die bio-akustische Schallereigniserkennung und betont die bedeutende Rolle geeigneter Abtast- und Schwellenwerttechniken. Die Ergebnisse dieser Studie liefern wertvolle Erkenntnisse für Forscher und Praktiker in der bio-akustischen Schallereigniserkennung und betonen die Notwendigkeit, die Besonderheiten der Aufgabe bei der Auswahl der Lernmethode, des CNN-Typs, der Abtaststrategie und der Nachverarbeitungstechnik zu berücksichtigen. Die Arbeit schließt mit Empfehlungen für die zukünftige Forschung ab und schlägt vor, andere Lernmethoden und ausgefeiltere Abtast- und Schwellenwerttechniken zu erforschen. Darüber hinaus wird empfohlen, diese Methoden in verschiedenen Aufgaben zur Erkennung von Schallereignissen zu testen, um ihre Anwendbarkeit zu beurteilen.



Blanco Martinez, Alvaro de Jesus;
Investigating the Image Shift Caused by Early Reflections. - Ilmenau. - 148 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Mit heutiger Technologie ist es möglich, realistische akustische Illusionen für Anwendungen in Augmented und Virtual Reality zu erzeugen. Da eine hohe Präzision eine erhebliche Menge an Rechenressourcen erfordert, haben sich Forscher darauf konzentriert, die psychoakustischen Aspekte der Raumsimulation zu optimieren. Die präsentierte Arbeit beschreibt ein psychoakustisches Experiment mit Reflexionen in einem simulierten Raum, um das Bildverschiebungsphänomen durch frühe Reflexionen zu untersuchen. Das genannte Experiment besteht aus zwei Aufgaben. Einerseits geht es bei Aufgabe 1 darum, simulierte Schallquellen zu lokalisieren, indem der Kopf nur in der Azimut-Ebene gedreht wird. Andererseits beinhaltet Aufgabe 2 die Beschreibung der scheinbaren Quellenbreite. Die Simulationen basieren auf binauralen Raumimpulsantworten in einem Schuhkarton-artigen Raum, die die direkte Wiedergabe eines Weißrauschensignals - in verschiedenen Filtervarianten - und einer Reflektion erster Ordnung von einer Seitenwand enthalten, deren Absorptionskoeffizient in jeder Simulation variiert. Die restlichen Oberflächen verursachen keine Reflexionen. Es wurde festgestellt, dass die Bildverschiebung bei niedrigerem Absorptionskoeffizienten zunimmt. Diese kann z.B. zwischen 5˚ und 20˚ in Bezug auf den Direktschall für Signale wie das Weißrauschen bei der 1-Oktav-Bandbreite von 2000 Hz (1412,2 Hz - 2828,4 Hz) liegen. Testfälle mit niedrigen Frequenzen - wie beim Weißrauschen bei der 1-Oktav-Bandbreite von 500 Hz (353,6 Hz - 707,1 Hz) - neigen dazu, die höchste Variabilität zwischen den Teilnehmern ufzuweisen.Stichworte: auditive Illusionen, Bildverschiebungsphänomen, frühe Reflexionen, scheinbare Quellbreite, binaurale Raumimpulsantworten, Absorptionskoeffizienten, Direktschall.



Richter, Maike;
The influence of binaural room impulse response modification on the spatial perception of virtual sounds in an auditory augmented reality scenario. - Ilmenau. - 60 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Moderne binaurale Synthesesysteme ermöglichen die Auralisierung virtueller Schallquellen, welche in Bezug auf das menschliche Wahrnehmungsempfinden nicht von der Realität zu unterscheiden sind, durch den Einsatz binauraler Raumimpulsantworten (BRIR). Auf diese Weise können Anwendungen der Augmented Audio Reality (AAR) erstellt werden, in welchen reale und virtuelle Klänge simultan existieren. Zur Verbesserung der Sprachversẗ andlichkeit, Reduktion der Hörermüdung oder zur Darstellung eines aufgrund künstlerischer Aspekte gewollt veränderten Klangbildes, kann es bezüglich mancher Augmented Reality Anwendung jedoch wünschenswert sein, dass diese Syntheseysteme eine gewisse akustische Modifizierbarkeit ermöglichen. Forschungen haben gezeigt, dass die auditive Illusion einer virtuellen Schallquelle zusammenbricht, wenn die virtuelle Akustik zu weit von der Referenzakustik abweicht. Dies wird als Raumdivergenzeffekt bezeichnet. Diese Arbeit untersucht, ob und inwieweit eine Modifikation der auditiven Ästhetik einer Raumumgebung dennoch ohne Beeinträchtigung der Plausibilität eines Schallerlebnisses erreichbar ist. Hierfür wird ein Modifikationsalgorithmus entwickelt, der den späten Nachhall einer BRIR manipuliert und somit den wahrgenommenen Raumklang beeinflusst. Die derart modifizierten BRIRs werden dann in der Testumgebung eines Seminarraums zur Auralisation von AR Szenen herangezogen. In einem perzeptuellen Hörtest erfolgt schließlich die Bewertung der wahrgenommenen Qualität simpler AR-Szenen mit unterschiedlicher Nachhallzeitmodifikation.



Gonzalez, Marcel;
Design and implementation of distorted/non-distorted cocktail-party scenes using binaural synthesis with headphones for psychoacoustic investigations. - Ilmenau. - VII, 63 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Cocktail-Party-Situationen erfordern von Normalhörenden eine hohe Anstrengung und Aufmerksamkeit, um Sprache zu erkennen und zu verstehen. Für Hörbehinderte sind diese Situationen noch schwieriger. In diesen anspruchsvollen Szenarien bieten Hörgeräte keine nennenswerten Vorteile, da sie monaurale und binaurale Signale verzerren, die zur Lokalisierung von Geräuschen im Raum verwendet werden. Zusätzlich wird der Dynamikbereich der Signale verringert, wodurch es schwieriger wird, in die Lücken hineinzuhören. In dieser Studie wird untersucht, wie sich diese Verzerrungen auf die Fähigkeit des Hörers auswirken, das Cocktail-Party-Problem zu lösen. Dazu wurde eine virtuelle Cocktail-Party-Szene mit Hilfe von vier Prozessen, die in Hörgeräten auftreten könnten, erzeugt und verzerrt. Die Auswirkungen auf die Wahrnehmung von Klarheit und räumlichen Klangeigenschaften wurde in einem Hörtest mit 15 normalhörenden Testpersonen bewertet. Die Ergebnisse deuten darauf hin, dass eine asymmetrische Komprimierung des Dynamikbereichs des Signals auf beiden Ohren die Klarheit verringert und die scheinbare Quellenbreite sowie den wahrgenommenen Nachhall erhöht. Wenn die interauralen Pegeldifferenzen (ILDs) in die Mitte oder auf die gegenüberliegende Seite gerichtet werden, während die interauralen Laufzeitdifferenzen (ITDs) in der ursprünglichen Position beibehalten werden, werden die Quellen in die Richtung der ILDs verschoben und die scheinbare Quellenbreite erhöht. Die Verschmierung der ILDs in verschiedenen Winkeln für verschiedene Frequenzbänder verringert diese Effekte. Die Einbeziehung einer Belüftungsbohrung korrigiert teilweise, die durch die Verzerrungen der ILDs verursachten Verschiebungen der Quellenposition verringern, verschlechtert jedoch die Klarheit und erhöht die scheinbare Quellenbreite.



Bendick, Jan;
Development and perceptual evaluation towards a Crosstalk Cancellation system for multiple listeners. - Ilmenau. - 77 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Die Realisierung von persönlichen Soundzonen ist ein aufstrebendes Forschungsgebiet in der Audiotechnik und eine konzeptionelle Entwicklungsstrategie für Audiosysteme in zukünftigen Automobilen. Theoretisch können Soundzonen mittels transauraler Wiedergabesysteme und Crosstalk Cancellation künstlich erzeugt werden. In dieser Arbeit wird die Realisierbarkeit von Soundzonen durch die Entwicklung eines prototypischen Audiosystems für mehrere Hörer untersucht. Zudem werden die damit verbundenen technischen Einschränkungen zum Erreichen von separierten Soundzonen, Spatial Audio und einem zufriedenstellenden Hörerlebnis für die individuellen Hörer aufgezeigt. Hierfür werden konzeptionelle Überlegungen und eine objektive Bewertung der Raumakustik, der entworfenen Lautsprecher und der Audiosignalverarbeitung miteinander verknüpft. Zudem wird die Klangqualität des Audiosystems mittels einer Kundenstudie und eines Hörtests bewertet. Die Ergebnisse dieser Arbeit unterstreichen die Anforderungen an ein ausgeklügeltes Lautsprecherdesign und eine wahrnehmungsbasierte Audiosignalverarbeitung, um das Erlebnis von persönlichen Soundzonen zu intensivieren. Darüber hinaus kann das entwickelte Audiosystem in zukünftigen Studien für die Integration von Spatial Audio oder personalisierten Audiosystemen einbezogen werden.