Abschluss- und Projektarbeiten

Das Fachgebiet bietet zahlreiche Themen für Bachelor- und Masterarbeiten an. Aktuell ausgeschriebene Themen

Sie können sich auch mit einem eigenen Thema an unsere Mitarbeiter:innen wenden. Nachstehend sind im Fachgebiet abgeschlossene, betreute Abschlussarbeiten aufgelistet. In vielen Fällen sind die Themen immernoch relevant. Zögern Sie also nicht mit uns in Kontakt zu treten, wenn  Sie dort für Sie interessant Themen finden.

Abgeschlossene Masterarbeiten
Anzahl der Treffer: 129
Erstellt: Thu, 28 Mar 2024 23:02:53 +0100 in 0.3820 sec


Aslam, Muhammad Usman;
Design of a dataset generator for training acoustic neural networks. - Ilmenau. - 65 Seiten
Technische Universität Ilmenau, Masterarbeit 2024

Die effektive Klassifizierung akustischer Daten spielt eine zentrale Rolle bei der Weiterentwicklung kontextbezogener mobiler Technologien, assistiver Robotik und der Analyse von Multimedia-Inhalten. Die Nutzung klangbasierter Informationen bietet vielversprechende Anwendungen, doch die Erhebung geeigneter Daten stellt nach wie vor eine Herausforderung dar. Die Entwicklung des maschinellen Lernens hat zu umfangreichen Forschungen in diesem Bereich geführt und Wissenschaftler dazu motiviert, sich mit der Überwindung dieser Hürden zu befassen. Diese Studie konzentriert sich auf die Untersuchung von zwei hochmodernen Algorithmen zur Datengenerierung im Bereich der Klassifizierung akustischer Daten. Durch den Einsatz dieser Algorithmen sollen Daten synthetisiert werden, die akustische Informationen aus der realen Welt widerspiegeln. Anschließend wird dieser generierte Datensatz mit zwei verschiedenen neuronalen Netzwerkarchitekturen trainiert. Die vergleichende Analyse der Leistung dieser Netzwerke befasst sich nicht nur mit den Herausforderungen, die mit der Datenerfassung verbunden sind, sondern bietet auch wertvolle Einblicke in die Effizienz der Nutzung synthetischer Daten für eine genaue Klassifizierung akustischer Daten.



Munagala, Venkata Lokesh Reddy;
Assessing the localization accuracy and distance mapping of sound sources in the horizontal plane. - Ilmenau. - 58 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Die auditive Entfernungswahrnehmung ist ein komplexes Phänomen, das von einer Vielzahl von Faktoren beeinflusst wird, darunter die physische Entfernung, der Orientierungswinkel, das Alter und akustische Hinweise. In dieser Studie werden die Feinheiten der auditiven Entfernungswahrnehmung durch die Analyse von Sprach- und Schlagzeugsignalen erforscht. Die Ergebnisse bieten wichtige Einblicke in die Faktoren, die beeinflussen, wie Individuen Schallquellen in unterschiedlichen Entfernungen wahrnehmen. Bei Sprachsignalen erweisen sich die physische Entfernung, das Alter und die Bewertungen der Teilnehmer als Hauptfaktoren für die wahrgenommene Entfernung, während bei Schlagzeugsignalen vor allem die physische Entfernung eine wichtige Rolle spielt. Die Studie enthüllt auch die Rolle der Orientierung für die Genauigkeit der Entfernungswahrnehmung. Darüber hinaus unterstreicht der Vergleich zwischen Sprach- und Perkussionssignalen unterschiedliche Muster in der Wahrnehmung dieser beiden Klangarten. Diese Ergebnisse bereichern unser Verständnis der auditiven Entfernungswahrnehmung und können in Bereichen wie der virtuellen Realität, der Gestaltung von Klanglandschaften und der Mensch-Maschine-Interaktion Anwendung finden. Die Zukunft bietet spannende Perspektiven für die weitere Erforschung dieses komplexen Aspekts der menschlichen Wahrnehmung für reale Anwendungen.



Khisa, Priyam;
Directions of sound arrival estimation in reverberant rooms using machine learning methods. - Ilmenau. - 76 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

In dieser Arbeit wird eine Schätzung der Ankunftsrichtung (Direction of Arrival, DOA) mithilfe von Ansätzen des maschinellen Lernens vorgeschlagen. Die Time Differences of Arrival (TDOA ), die die sdmPar-Funktion für die DOA-Schätzung nutzt, wird hier verwendet. Der Ansatz für diese Masterarbeit beginnt mit dem richtigen Verständnis des Datensatzes, was zur Konvertierung der Daten in ein leichter zugängliches CSV-Format mit entsprechender Beschriftung führt. Diese Phase der Datenvorverarbeitung ist von entscheidender Bedeutung, um die Qualität des Datensatzes und seine Nützlichkeit für die weitere Analyse zu gewährleisten. Zu diesem Zweck werden auf der Grundlage des Einblicks in den Datensatz geeignete ML-Algorithmen ausgewählt. Die ausgewählten Modelle werden mit den Daten trainiert und die Hyperparameter werden für eine bessere Modellleistung angepasst. Bessere Ergebnisse werden erzielt, wenn die Daten als Zeitreihen verwendet werden. Traditionelle Algorithmen des maschinellen Lernens wie Random Forest (RF) und sequentielle Architekturen des maschinellen Lernens (ML) wie Recurrent-Neural-Network (RNN) und Long Short-Term Memory (LSTM) werden mit Zeitreihendaten trainiert, um eine bessere Leistung zu erzielen. Die Algorithmen werden dann auf der Grundlage der Bewertungsmetriken auf bessere Funktionalität hin verglichen, wobei LSTM besser abschneidet. Die bestehende sdmPar-Funktion wird mit Matlab entwickelt. Die vorgeschlagene Methode beinhaltet auch die Anpassung der sdmPar-Funktion an ein Python-Skript, um eine ähnliche DOA-Schätzung zu erzeugen. Es gibt jedoch einige Einschränkungen, wie zum Beispiel die plattformübergreifende Kompatibilität. Es ist eine sehr schwierige Aufgabe, die sdmPar-Funktion in Python zu konvertieren, da die Funktion in Matlab in die SDM-Toolbox für Matlab integriert ist, so dass die Fehlersuche sehr schwierig ist. Diese Arbeit ist ein einzigartiger Ansatz für die Vorhersage von DOA mit Hilfe eines ML-Algorithmus, der eine Merkmalsextraktion aus der sdmPar-Funktion beinhaltet. Die Studie liefert wertvolle Einblicke in DOA-Schätzverfahren und unterstreicht die Bedeutung einer angemessenen Vorverarbeitung der Daten und der Auswahl des Algorithmus um bessere Ergebnisse zu erzielen.



Ngamthipwatthana, Pitchapa;
Synthetic audio data generation with generative adversarial networks for overcoming data scarcity in deep learning. - Ilmenau. - 88 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Datenknappheit stellt eine große Herausforderung beim Deep Learning dar und beeinträchtigt die Leistung von Modellen. Es wurden mehrere Methoden untersucht, um dieses Problem anzugehen, wobei sich Generative Adversarial Networks (GANs) als eine vielversprechende Lösung herauskristallisiert haben. In dieser Arbeit wird das Potenzial von GANs bei der Erzeugung synthetischer Audiodaten untersucht, um die Datenknappheit bei Audioklassifizierungsaufgaben in den Bereichen Industrial Sound Analysis (ISA) und Musik zu beheben. Durch die Integration dieser synthetischen Daten mit realen Beispielen wird ein Audioklassifikationsmodell trainiert und in verschiedenen Szenarien bewertet. Das Ziel ist es, der Datenknappheit entgegenzuwirken und Vielfalt in den Datensatz zu bringen. Darüber hinaus werden die synthetisierten GAN-Daten mit der Synthetic Minority Oversampling Technique (SMOTE) und der Gaußschen Rauschinjektion zur Behandlung von Klassenungleichgewichten verglichen und mit Datenerweiterungstechniken wie Pitch Shift, Time Stretch, Mixup und Random Rotate verglichen, um ihre relative Effektivität zu ermitteln. Die Ergebnisse zeigen, dass die Einbeziehung von GAN-generierten synthetischen Daten die Klassifizierungsgenauigkeit erheblich verbessert, insbesondere in Szenarien mit begrenzten realen Trainingsdaten. Interessanterweise zeigen GANs die Fähigkeit, wertvolle synthetische Daten zu erzeugen, selbst wenn die realen Daten für das Training eingeschränkt sind. Insbesondere zeigen GAN-generierte synthetische Daten eine vergleichbare Leistung wie SMOTE, und die Datenerweiterung hilft bei der Behandlung von Klassenungleichgewichten und Datenknappheit. Darüber hinaus verbessern die synthetischen Daten die Klassifizierungsgenauigkeit erheblich, insbesondere für bestimmte Klassen. Durch die Kombination von synthetischen Daten mit Datenerweiterungstechniken wird die Klassifizierungsleistung weiter gesteigert. Diese Ergebnisse unterstreichen die vielfältigen Vorteile von GAN-generierten synthetischen Audiodaten. Zukünftige Arbeiten sollten die Bewältigung von Domänenverschiebungen, die Verfeinerung von GAN-Trainingsprozessen und die Erforschung robuster Bewertungsmetriken zur Beurteilung der Qualität und Vielfalt der generierten Daten umfassen.



Ullah, Asad;
Improving a System for Bio-acoustics Sound Event Detection based on Few-Shot Learning. - Ilmenau. - 68 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Die bio-akustische Schallereigniserkennung ist entscheidend für die Überwachung der biologischen Vielfalt, die Beurteilung der Gesundheit von ökosystemen und die Untersuchung tierischen Verhaltens. Die hohe Variabilität von Schallereignissen und die begrenzte Verfügbarkeit von beschrifteten Daten stellen erhebliche Herausforderungen für diese Erkennungsaufgaben dar. Diese Arbeit untersucht das wenige-Schuss-Lernen, eine vielversprechende Lösung zur Erstellung effektiver Modelle mit begrenzten Trainingsdaten für die bio-akustische Schallereigniserkennung. Das Hauptziel dieser Forschung ist es, die Leistung von Deformable CNNs im Vergleich zu regulären CNNs zu untersuchen. Dieser Vergleich wird im Rahmen von zwei wichtigen Strategien zur Erkennung von Schallereignissen durchgeführt: aktives Lernen und Prototypical Network. Im Szenario des aktiven Lernens wurde eine umfassende Reihe von Experimenten durchgeführt, in denen verschiedene Abtaststrategien und ihre Wechselwirkung mit verschiedenen Schwellenwerttechniken untersucht wurden, die in der Nachverarbeitung verwendet wurden. Die Strategie des Prototypical Network wurde ebenfalls gründlich getestet und ihre Leistung bewertet. Die effektivste Systemkonfiguration beinhaltete die Methode des aktiven Lernens mit einem regulären CNN, bei dem keine Schwellenwertbildung in der Nachverarbeitung angewendet wurde. Dieses Ergebnis unterstreicht das Potenzial des aktiven Lernens und regulärer CNNs für die bio-akustische Schallereigniserkennung und betont die bedeutende Rolle geeigneter Abtast- und Schwellenwerttechniken. Die Ergebnisse dieser Studie liefern wertvolle Erkenntnisse für Forscher und Praktiker in der bio-akustischen Schallereigniserkennung und betonen die Notwendigkeit, die Besonderheiten der Aufgabe bei der Auswahl der Lernmethode, des CNN-Typs, der Abtaststrategie und der Nachverarbeitungstechnik zu berücksichtigen. Die Arbeit schließt mit Empfehlungen für die zukünftige Forschung ab und schlägt vor, andere Lernmethoden und ausgefeiltere Abtast- und Schwellenwerttechniken zu erforschen. Darüber hinaus wird empfohlen, diese Methoden in verschiedenen Aufgaben zur Erkennung von Schallereignissen zu testen, um ihre Anwendbarkeit zu beurteilen.



Blanco Martinez, Alvaro de Jesus;
Investigating the Image Shift Caused by Early Reflections. - Ilmenau. - 148 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Mit heutiger Technologie ist es möglich, realistische akustische Illusionen für Anwendungen in Augmented und Virtual Reality zu erzeugen. Da eine hohe Präzision eine erhebliche Menge an Rechenressourcen erfordert, haben sich Forscher darauf konzentriert, die psychoakustischen Aspekte der Raumsimulation zu optimieren. Die präsentierte Arbeit beschreibt ein psychoakustisches Experiment mit Reflexionen in einem simulierten Raum, um das Bildverschiebungsphänomen durch frühe Reflexionen zu untersuchen. Das genannte Experiment besteht aus zwei Aufgaben. Einerseits geht es bei Aufgabe 1 darum, simulierte Schallquellen zu lokalisieren, indem der Kopf nur in der Azimut-Ebene gedreht wird. Andererseits beinhaltet Aufgabe 2 die Beschreibung der scheinbaren Quellenbreite. Die Simulationen basieren auf binauralen Raumimpulsantworten in einem Schuhkarton-artigen Raum, die die direkte Wiedergabe eines Weißrauschensignals - in verschiedenen Filtervarianten - und einer Reflektion erster Ordnung von einer Seitenwand enthalten, deren Absorptionskoeffizient in jeder Simulation variiert. Die restlichen Oberflächen verursachen keine Reflexionen. Es wurde festgestellt, dass die Bildverschiebung bei niedrigerem Absorptionskoeffizienten zunimmt. Diese kann z.B. zwischen 5˚ und 20˚ in Bezug auf den Direktschall für Signale wie das Weißrauschen bei der 1-Oktav-Bandbreite von 2000 Hz (1412,2 Hz - 2828,4 Hz) liegen. Testfälle mit niedrigen Frequenzen - wie beim Weißrauschen bei der 1-Oktav-Bandbreite von 500 Hz (353,6 Hz - 707,1 Hz) - neigen dazu, die höchste Variabilität zwischen den Teilnehmern ufzuweisen.Stichworte: auditive Illusionen, Bildverschiebungsphänomen, frühe Reflexionen, scheinbare Quellbreite, binaurale Raumimpulsantworten, Absorptionskoeffizienten, Direktschall.



Richter, Maike;
The influence of binaural room impulse response modification on the spatial perception of virtual sounds in an auditory augmented reality scenario. - Ilmenau. - 60 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Moderne binaurale Synthesesysteme ermöglichen die Auralisierung virtueller Schallquellen, welche in Bezug auf das menschliche Wahrnehmungsempfinden nicht von der Realität zu unterscheiden sind, durch den Einsatz binauraler Raumimpulsantworten (BRIR). Auf diese Weise können Anwendungen der Augmented Audio Reality (AAR) erstellt werden, in welchen reale und virtuelle Klänge simultan existieren. Zur Verbesserung der Sprachversẗ andlichkeit, Reduktion der Hörermüdung oder zur Darstellung eines aufgrund künstlerischer Aspekte gewollt veränderten Klangbildes, kann es bezüglich mancher Augmented Reality Anwendung jedoch wünschenswert sein, dass diese Syntheseysteme eine gewisse akustische Modifizierbarkeit ermöglichen. Forschungen haben gezeigt, dass die auditive Illusion einer virtuellen Schallquelle zusammenbricht, wenn die virtuelle Akustik zu weit von der Referenzakustik abweicht. Dies wird als Raumdivergenzeffekt bezeichnet. Diese Arbeit untersucht, ob und inwieweit eine Modifikation der auditiven Ästhetik einer Raumumgebung dennoch ohne Beeinträchtigung der Plausibilität eines Schallerlebnisses erreichbar ist. Hierfür wird ein Modifikationsalgorithmus entwickelt, der den späten Nachhall einer BRIR manipuliert und somit den wahrgenommenen Raumklang beeinflusst. Die derart modifizierten BRIRs werden dann in der Testumgebung eines Seminarraums zur Auralisation von AR Szenen herangezogen. In einem perzeptuellen Hörtest erfolgt schließlich die Bewertung der wahrgenommenen Qualität simpler AR-Szenen mit unterschiedlicher Nachhallzeitmodifikation.



Gonzalez, Marcel;
Design and implementation of distorted/non-distorted cocktail-party scenes using binaural synthesis with headphones for psychoacoustic investigations. - Ilmenau. - VII, 63 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Cocktail-Party-Situationen erfordern von Normalhörenden eine hohe Anstrengung und Aufmerksamkeit, um Sprache zu erkennen und zu verstehen. Für Hörbehinderte sind diese Situationen noch schwieriger. In diesen anspruchsvollen Szenarien bieten Hörgeräte keine nennenswerten Vorteile, da sie monaurale und binaurale Signale verzerren, die zur Lokalisierung von Geräuschen im Raum verwendet werden. Zusätzlich wird der Dynamikbereich der Signale verringert, wodurch es schwieriger wird, in die Lücken hineinzuhören. In dieser Studie wird untersucht, wie sich diese Verzerrungen auf die Fähigkeit des Hörers auswirken, das Cocktail-Party-Problem zu lösen. Dazu wurde eine virtuelle Cocktail-Party-Szene mit Hilfe von vier Prozessen, die in Hörgeräten auftreten könnten, erzeugt und verzerrt. Die Auswirkungen auf die Wahrnehmung von Klarheit und räumlichen Klangeigenschaften wurde in einem Hörtest mit 15 normalhörenden Testpersonen bewertet. Die Ergebnisse deuten darauf hin, dass eine asymmetrische Komprimierung des Dynamikbereichs des Signals auf beiden Ohren die Klarheit verringert und die scheinbare Quellenbreite sowie den wahrgenommenen Nachhall erhöht. Wenn die interauralen Pegeldifferenzen (ILDs) in die Mitte oder auf die gegenüberliegende Seite gerichtet werden, während die interauralen Laufzeitdifferenzen (ITDs) in der ursprünglichen Position beibehalten werden, werden die Quellen in die Richtung der ILDs verschoben und die scheinbare Quellenbreite erhöht. Die Verschmierung der ILDs in verschiedenen Winkeln für verschiedene Frequenzbänder verringert diese Effekte. Die Einbeziehung einer Belüftungsbohrung korrigiert teilweise, die durch die Verzerrungen der ILDs verursachten Verschiebungen der Quellenposition verringern, verschlechtert jedoch die Klarheit und erhöht die scheinbare Quellenbreite.



Bendick, Jan;
Development and perceptual evaluation towards a Crosstalk Cancellation system for multiple listeners. - Ilmenau. - 77 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Die Realisierung von persönlichen Soundzonen ist ein aufstrebendes Forschungsgebiet in der Audiotechnik und eine konzeptionelle Entwicklungsstrategie für Audiosysteme in zukünftigen Automobilen. Theoretisch können Soundzonen mittels transauraler Wiedergabesysteme und Crosstalk Cancellation künstlich erzeugt werden. In dieser Arbeit wird die Realisierbarkeit von Soundzonen durch die Entwicklung eines prototypischen Audiosystems für mehrere Hörer untersucht. Zudem werden die damit verbundenen technischen Einschränkungen zum Erreichen von separierten Soundzonen, Spatial Audio und einem zufriedenstellenden Hörerlebnis für die individuellen Hörer aufgezeigt. Hierfür werden konzeptionelle Überlegungen und eine objektive Bewertung der Raumakustik, der entworfenen Lautsprecher und der Audiosignalverarbeitung miteinander verknüpft. Zudem wird die Klangqualität des Audiosystems mittels einer Kundenstudie und eines Hörtests bewertet. Die Ergebnisse dieser Arbeit unterstreichen die Anforderungen an ein ausgeklügeltes Lautsprecherdesign und eine wahrnehmungsbasierte Audiosignalverarbeitung, um das Erlebnis von persönlichen Soundzonen zu intensivieren. Darüber hinaus kann das entwickelte Audiosystem in zukünftigen Studien für die Integration von Spatial Audio oder personalisierten Audiosystemen einbezogen werden.



Reif, Boris;
Room geometry estimation from continuous audio signals using neural networks. - Ilmenau. - 49 Seiten
Technische Universität Ilmenau, Masterarbeit 2023

Diese Arbeit untersucht in wie weit es möglich ist von einem in einem Raum aufgenommenen Audiosignal die Dimensionen dieses Raumes abzuschätzen. In dieser Arbeit wird diese Schätzung der Raumgeometrie nicht einfach von einer Raumimpulsantwort durchgeführt sondern von einem kontinuierlichem Audiosignal. Die Ergebnisse dieser Arbeit zeigen, dass es möglich ist eine solche Raumschätzung bei einfachen rechteckigen Räumen relativ präzise durchzuführen.



Applying per-instrument polyphony information in the automatic transcription of multitimbral polyphonic music. - Ilmenau. - 125 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die automatische Musiktranskription (AMT) im Bereich des Music Information Retrieval (MIR) ist eine sehr schwierige Aufgabe, die eine Reihe von Teilaufgaben wie Multi-Pitch Estimation (MPE) und Instrumentenklassifizierung umfasst. Unser Hauptziel ist es, die lokale Frame-basierte Polyphonie (Anzahl der Noten pro Instrument oder Gesamtzahl der Noten) zu untersuchen, um festzustellen, ob diese Information wirklich dazu beiträgt, die MPE-Genauigkeit f̈ ur klassische Ensemblemusik zu erhöhen. Wir verwenden Polyphonie-Informationen auf zwei Arten. Im ersten Szenario wenden wir die Polyphonie auf die MPE-Vorhersagen in der Nachbearbeitungsphase an, während wir im zweiten Szenario versuchen, einen Algorithmus zu entwickeln, der die Polyphonie als Anzahl der Instrumente und Noten in einem Zeitrahmen verwendet, um einen Instrumentenklassifikator während der Trainingszeit für die MPE-Aufgabe zu steuern. Wir wählen den MusicNet-Datensatz aufgrund seiner polyphonen und multitimbralen Eigenschaften. Unser Baseline-Modell stützt sich auf die Arbeit von Wu et al.[1], die ein U-Net-Modell für die MPE-Aufgabe verwendet. Wir verwenden diese Baseline auch als Benchmark für unser erweitertes Baseline-Modell, bei dem wir Polyphonie in der Nachbearbeitungsphase auf zwei verschiedene Arten anwenden, um MPE zu verbessern. Bei der ersten Technik wenden wir die Polyphonie-Informationen nach der Ermittlung der MPE-Vorhersagewahrscheinlichkeiten an, gefolgt von einem Schwellenwert, während wir bei der zweiten Technik zuerst den Schwellenwert und dann die Polyphonie-Informationen anwenden. Unser endgültiger Modellvorschlag sieht zusätzliche Verzweigungen zum Engpass des U-Netzes vor, um Polyphonie-Informationen in die Modellarchitektur zu integrieren. Um festzustellen, ob das vorgeschlagene Modell effektiv ist, führen wir 12 Experimente mit verschiedenen Kombinationen von Hyperparametern durch. Basierend auf dem Parameter, der zu den besten Lernfähigkeiten führt, vergleichen wir die Ergebnisse für die endgültige MPE-Bewertung. Schließlich vergleichen wir die Ergebnisse des vorgeschlagenen Modells und der erweiterten Baseline mit dem Baseline-Modell. Wir stellen fest, dass Polyphonie-Informationen die MPE-Vorhersagen verbessern können. Die Tatsache, dass beide Modelle, Extended Baseline und Proposed, die Ergebnisse des Baseline-Modells übertreffen, bestätigt unsere Hypothese.



Bhattacharya, Shruti;
Compressing neural network embeddings for fast inference in audio classification. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Das Erkennen von Mustern in Audiosignalen ist ein wichtiges Thema auf dem Gebiet des maschinellen Lernens. Es umfasst eine Vielzahl von Aufgaben, wie z.B. Audio-Tagging, Kategorisierung von akustischen Szenen, Musikklassifizierung Klassifizierung von Sprachemotionen und Erkennung von Klangereignissen. Hierbei ist der Mangel an annotierten Daten ein wesentliches Problem bei der Anwendung von Deep Learning auf die Audiokategorisierung. Eine etablierte Lösung dieses Problems ist die Verwendung von Embeddings. Dabei werden neuronale Netze auf unfangreichen Datensammlungen angelernt und anschließend auf den wenigen, gelabelten Daten des Zielproblem nachtrainiert. Dieses sogenannte Transfer Learning wird oft eingesetzt, um den Trainingsbedarf zu verringern. Bei dieser Methode werden vortrainierte neuronale Netze wie OpenL3 oder PANN für zuvor untrainierte Aufgaben verwendet. Oft sind solche Netze jedoch viel zu komplex, um auf kleinen eingebetteten Systemen mit begrenzter Rechenkapazität eingesetzt zu werden. Aktuelle Arbeiten konzentrieren sich daher auf Methoden zur Komprimierung neuronaler Netze wie etwas Knowledge Distillation zur Erstellung schnellerer Anwendungen mit geringeren Rechenaufwand. Diese Arbeit behandelt die Komprimierung eines bestehenden vortrainierten Netzes, in diesem Fall OpenL3, das tiefe Audio-Einbettungen, sogenannte Embeddings, erzeugt. Durch den Einsatz einer speziellen Form von Knowledge Distillation Techniken und der Reduzierung von Ebenen des OpenL3-Netzes wird ein kleineres und kompakteres Netz destilliert. Die Embeddings des destillierten Netzes werden final anhand verschiedener Audioklassifizierungsaufgaben bewertet und zeigen vergleichbare Ergebnisse zum ursprünglichen OpenL3-Netz bei einer um 66 % reduzierten Gesamtarchitektur und einer um 80 % verminderten Klassifikationszeit.



Stolz, Georg;
Entwicklung eines Systems für raumakustische Messungen unter Anwendung einer Robotikplattform. - Ilmenau. - 45 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Im Bereich der Auditive Augmented Reality (AAR) wird ein möglichst realitätsnahes Hörerlebnis angestrebt. Als Referenz für Simulationen dienen gemessene Room Impulse Response (RIR)-Datensätze. Die RIRs sind abhängig von den akustischen Eigenschaften des jeweiligen Raumes und der Schallquellen- und Senkenposition. Dadurch ist eine Messung sehr aufwendig, wenn alle Kombinationen von Quellen- und Senkenpositionen, an der sich eine Person in der AAR aufhalten kann, gemessen werden sollen. Ziel dieser Arbeit ist es, basierend auf einer fahrbaren Roboterplattform, ein automatisiertes Messsystem für RIRs zu entwickeln. Neben der Messung von räumlich hochaufgelösten Referenzdatensätzen soll auch das Auffinden von akustisch relevanten Stellen im Raum mit wenigen Messungen möglich sein. Im Rahmen dieser Arbeit wurde ein entsprechendes System implementiert. Es ist flexibel in unterschiedlichen Raumgrößen und -geometrien einsetzbar. Durch die beinhaltete Fehlerbehandlung und -vermeidung sind Messungen mit einer großen Zahl an Messpunkten über lange Zeiträume möglich. Auf Basis einer räumlich hochaufgelösten Referenzmessung wurde ein Particle Swarm Optimization (PSO)-Algorithmus angepasst, um akustisch relevante Stellen zu finden und in diesen Bereichen eine höhere räumliche Abtastung zu erzielen. Dadurch kann im Vergleich zu einer hochaufgelösten Referenzmessung ein Großteil der Messpunkte eingespart werden. Das Gesamtsystem wurde in verschiedenen Teil-Experimenten getestet und auftretende Fehler diskutiert.



Gope, Sayantan;
Room acoustic analysis and acoustic room classification using binaural recordings in real rooms. - Ilmenau. - 80 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Jeder Raum hat eine einzigartige akustische Signatur und Charakteristik. Sie spielen eine große Rolle f̈ ur die akustische Wahrnehmung des Zuḧ orers. Das Versẗ andnis der Raumakustik kann dabei helfen, R̈ aume effizient zu gestalten und sie f̈ ur die vorgesehenen Zwecke besser geeignet zu machen. Die akustischen Eigenschaften eines Raums k̈ onnen mit dem Room Impulse Response (RIR) oder Binaural Room Impulse Response (BRIR) gemessen werden und sind f̈ ur verschiedene R̈ aume sowie f̈ ur die Positionen der Lautsprecher und Empf̈ anger einzigartig. Ziel dieser Masterarbeit ist es, mit Hilfe von Deep Learning ein Convolutional Neural Network (CNN)-Modell zu erstellen, um R̈ aume anhand ihrer akustischen Eigenschaften durch BRIR-Aufnahmen zu klassifizieren. Durch Datenerweiterung werden die Eingabedaten auch verwendet, um reale Musik- und Sprachsignale zu emulieren. Solche Musik- und Sprachsignale sowie rein akustische Informationen in Form von Impulsaufzeichnungen werden vom Klassifikator als Eingabe verwendet. Ziel dieser Arbeit ist es auch, die Entscheidungen der CNN-Architektur zu bewerten und die Funktionsweise der CNN zu verstehen. Zu diesem Zweck wird auch Layer-wise Relevance Propagation (LRP) eingesetzt. Das trainierte neuronale Netzwerk zeigt vielversprechende Ergebnisse bei der Klassifizierung von R̈ aumen auf der Grundlage ihrer akustischen Eigenschaften. Es erreicht eine nahezu perfekte Genauigkeit von 99% bei Impulsaufnahmen und 100% bei emulierten Musik-/Sprach-Eingangssignalen nach weniger als 5 Stunden Trainingssitzung. Die Testergebnisse werden in Form einer Konfusionsmatrix visualisiert. Die wenigen ungenauen Klassifizierungen geben einen Einblick in die Denkweise des neuronalen Netzes. Es zeigt sich, dass die Ergebnisse des Klassifikators mit den Ergebnissen anderer Arbeiten̈ ubereinstimmen, die auf der menschlichen Wahrnehmung basieren.



Häußler, Jonathan;
Generierung von binauralen Raumimpulsantworten aus Messungen mit einem sphärischen Mikrofonarray. - Ilmenau. - 131 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die Strukturen und Verläufe in Audiosignalen sind komplex und enthalten in kürzesten Zeitabschnitten viele Variationen. Es ist bekannt, dass neuronale Netze in der Lage sind, Strukturen und Muster in solch komplexen Daten zu erfassen. Im Audiokontext lassen sich daher verschiedenste Klassifikations- und Regressionsprobleme durch den Einsatz neuronaler Netze bewältigen. Im Rahmen dieser Arbeit werden solche Netzwerke angewendet, um besondere Audiosignale zu generieren: Raumimpulsantworten (RIRs). RIRs bilden die akustischen Eigenschaften ihrer Aufnahmeumgebung ab und sind daher sehr nützlich zur Simulation und Repräsentation akustischer Szenen. Der Messaufwand für RIR-Datensätze ist hoch und die Interpolation vorhandener Datensätze durch neuronale Netze daher attraktiv. Es konnte im Rahmen dieser Masterarbeit gezeigt werden, dass für die RIR-Synthese und besonders im Bereich der Reverb-Synthese großes Potential im Machine Learning Ansatz steckt. Die Darstellung der frühen Reflexionsereignisse gilt es aber weiter zu verbessern.



Baum, Malte;
Environment classification of speech recordings. - Ilmenau. - 63 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Im Gebiet der Audio-Forensik ist Environment Classification eine Technik, mit deren Hilfe sich die Authentizität und Integrität von Audio-Aufnahmen überprüfen lässt. Hierbei wird versucht, die Räumlichkeit zu identifizieren, in der die Aufnahme entstanden ist. Da Räumlichkeiten über einen charakteristischen Nachhall verfügen und dieser in Audio-Aufnahmen enthalten ist, versuchen die meisten Klassifizierungs Ansätze, den Nachhall zu modellieren und aus ihm gewonnene Merkmale als Kriterien zur Unterscheidung zu verwenden. Diese Arbeit präsentiert einen neuen Algorithmus für Environment Classification von Sprachaufnahmen basierend auf der Berechnung einer Signatur der Aufnahmeräumlichkeit. Hierfür wird die Nachhallzeit (T60) für unterschiedliche Frequenzbänder mithilfe der Schroeder-Methode als Merkmal berechnet. Die eigentliche Klassifizierung erfolgt mithilfe einer Support-Vektor-Maschine (SVM) mit einem radial basis function (RBF) Kernel. Zur Rekonstruktion des für die Berechnung der T60-Werte benötigten Zeitsignals wurden zwei verschiedene Rekonstruktionsansätze evaluiert: Der Griffin-Lim-Algorithmus sowie eine Methode basierend auf inverser Filterung. Darüber hinaus wurden verschiedene Algorithmus-Parameter und der Einfluss unterschiedlicher Aufnahmepositionen auf die Klassifizierungsgenauigkeit untersucht. Für T60-Werte, die über inverse Filterung gewonnen wurden, erreichte der vorgestellte Algorithmus eine Genauigkeit von 94 % bei der Klassifizierung. Bei unterschiedlichen Aufnahmepositionen war eine signifikante Abnahme der Genauigkeit zu beobachten.



Doll, Oliver;
Creation and evaluation of an AAR scenario using an electro-acoustically transparent hearpiece. - Ilmenau. - 101 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Augmented Realities zielen darauf ab reale und virtuelle Objekte in einer Szene zu vereinen, ohne dass diese voneinander zu unterscheiden sind. Solche Augmented Realities lassen sich auch kreieren, indem virtuelle Schallquellen in die reale Umgebung eingefügt werden. Damit diese nicht unterscheidbar sind von der realen Umgebung, müssen die verursachten Sinnesreize einer realen Quelle bestmöglich imitiert werden. Zusätzlich ist die technische Herausforderung zu lösen, dass das reale Schallfeld erhalten bleibt, während gleichzeitig virtuelle Inhalte präsentiert werden. In dieser Arbeit wurde eine solche Augmented Auditory Reality umgesetzt, indem ein elektroakustisch-transparenter In-Ear-Kopfhörer und Binauralsynthese verwendet wurden. Mit Hilfe eines Hörversuchs sollte festgestellt werden, ob und aus welchen Gründen Anwender virtuelle Schallquellen enttarnen können. Etwas mehr als die Hälfte der Hörversuchteilnehmer konnte die beiden Quellen eher auseinanderhalten. Allerdings ist diese Unterscheidungsfähigkeit bei den meisten Teilnehmern unbeständig gewesen. Die Mehrheit gab an, dass die Szenen plausibel und die Quellen nur schwer auseinander zu halten waren. Am häufigsten wurden die virtuellen Quellen aufgrund von Lokalisationsproblemen enttarnt. Als zweithäufigste Begründung wurden Unterschiede in der Klangfarbe zwischen der elektroakustischen Transparenz und der Binauralsynthese genannt. Das durch die elektroakustische Transparenz reproduzierte reale Schallfeld wurde überwiegend auch als solches erkannt.



Raza, Muhammad Jami;
Spatial data augmentation techniques for improved machine listening. - Ilmenau. - 73 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die Nachhallzeit (Reverberation Time, RT60) und das Verhältnis von Direktschall zu Nachhall (Direct to Reverberant Energy Ratio, DRR) werden üblicherweise zur Charakterisierung der akustischen Umgebung eines Raums verwendet. Beide Parameter können aus einer akustischen Impulsantwort (Acoustic Impulse Response, AIR) berechnet werden. Wenn neuronale Netze (Neural Networks, NN) zur Schätzung dieser beiden Parameter verwendet werden, ist jedoch ein umfangreicher realistischer Datensatz erforderlich, dessen Erfassung teuer und zeitaufwändig ist. Um dieses Problem zu lösen, wurden Experimente mit verschiedenen Augmentierungsmethoden durchgeführt, sowohl mit konventioneller Audio-Augmentierung als auch mit speziellen Augmentierungstechniken, die es uns ermöglichen, einen kleinen Datensatz realer akustischer Impulsantworten (Acoustic Impulse Response, AIR) zu erweitern. Eine neue Impulsantwort-Augmentationstechnik wurde auch für die DRR vorgeschlagen. Zunächst wurden die verschiedenen neuronalen Netze mit dem realen Datensatz getestet und dann wurden verschiedene Augmentierungsverfahren eingesetzt. Dabei wurden sowohl die Zeitreihen als auch die Spektrogramme berücksichtigt. Als Bewertungsmaßstab wurde der mittlere quadratische Fehler (Mean Squared Error, MSE) herangezogen. Im Fall von RT60 wurden deutliche Verbesserungen mit den herkömmlichen Techniken beobachtet. Bei DRR hingegen sind Verbesserungen nur mit der speziellen AIR-Augmentationstechnik und einer neu vorgeschlagenen Technik zu beobachten.



Deep learning based drum transcription. - Ilmenau. - 52 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

In dieser Studie wurde nach einer Literaturrecherche das theoretische Wissen genutzt, um einen hochmodernen Algorithmus zur automatischen Transkription von Trommeln mit Hilfe von Deep Learning-Methoden zu implementieren. Es wurden ähnliche Ergebnisse erzielt wie die von den Entwicklern der Architektur erzielten. Im zweiten Kapitel wurde eine detaillierte Zusammenfassung der Konzepte und Grundlagen für ADT erstellt. Außerdem wurde eine Verbesserung der Trainingsdatenzeit durch die Entwicklung einer Variante der Datenerweiterung erreicht.



Automatisierte Identifikation mechanischer Belastungsvorgänge bei In-Ear-Kopfhörern. - Ilmenau. - 56 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Diese Arbeit betrachtet die Entwicklung eines Systems zur automatischen Detektion von Ein- und Aussteckvorgängen von In-Ear-Kopfhörern (IEK). Hierfür wird ein System gesucht, das mit jedem elektrodynamischen IEK kompatibel sein und ohne zusätzliche Sensorik auskommen soll. Das in dieser Arbeit beschriebene System basiert auf der Erkennung und Zuordnung des Spannungssignals, das ein elektrodynamischer IEK induziert, wenn er in ein Ohr oder einen Ohrsimulator ein- oder ausgesteckt wird. Dafür wurde ein Messdatensatz bestehend aus den Spannungssignalen der IEK und den dazugehörigen Annotationen erstellt und zum Training mehrerer Klassifikatoren genutzt. Es konnte gezeigt werden, dass eine Spannungsmessung der IEK während getätigter Interaktionen für eine Klassifikation geeignet ist. Auch konnte gezeigt werden, dass das System zur Klassifikation der Interaktionen imstande ist, wenngleich die Generalisationsfähigkeit verbesserungswürdig ist.



Seyfferth, Constantin;
Automatisierte Charakterisierung der Wiedergabeumgebung von Lautsprechern mittels Hörschall. - Ilmenau. - 77 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die vorliegende Arbeit beschäftigt sich mit der Ermittlung von Raumgeometrie auf der Grundlage von Hörschallmessungen eines Lautsprecherpaares in einem Wohnraum über zwei verschiedene Ansätze. Der erste Ansatz untersucht die axialen Raummoden, da sie Aufschluss über die Abmessungen eines Raumes geben. Der zweite Ansatz erforscht die Ableitung von Raumgeometrien anhand der Ankunftszeiten von Raumreflexionen in der Impulsantwort. Es werden Methoden vorgestellt, um störende Faktoren wie Reflexionen an Objekten aus den Messungen weitestgehend zu entfernen und um die oberen, unteren, vorderen und hinteren Reflektoren sowie die Position der Lautsprecher in einem rechteckigen Raum zu lokalisieren. Die Ergebnisse beider Ansätze werden mittels eines Raummessdatensatzes bewertet, der sowohl virtuelle als auch reale Messungen enthält.



Warmuth, Kenneth;
Der Einfluss des Mikrofonarrays auf die Coloration und räumliche Audioqualität in einem Binauralsynthesesystem. - Ilmenau. - 77 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Das Ziel der vorliegenden Arbeit im Rahmen einer Masterarbeit war es, den Einfluss von verschiedenen Mikrofonarrays auf die Coloration und räumliche Audioqualität in einem Binauralsynthesesystem zu untersuchen. Nach der Aufnahme von Raumimpulsantworten mit je einem Kunstkopf-, Motion-Tracked Binaural- sowie Spatial Decomposition Method-Mikrofonarray wurde mit 19 Probanden ein Hörtest durchgeführt. Unter Verwendung des Py Binaural Simulators (PyBinSim) sowie eines Trackingsystems konnte die Binauralsynthese, beruhend auf KEMAR-HRTFs für den KEMAR und das SDM-Array, umgesetzt werden. Die MTB-Signale wurden ohne HRTFs verwendet. Auf dieser Basis wurde ein Colorations- und Lokalisationstest durchgeführt. In den Ergebnissen zeigt sich, dass die untersuchten Mikrofonarrays einen unterschiedlichen Einfluss auf die räumliche Audioqualität haben. In der Gesamtbetrachtung von Signalcoloration sowie Signallokalisation als Teil der räumlichen Audioqualität zeigte sich die geringste Beeinflussung beim KEMAR. Eben dieser ist für die Binauralsynthese angesichts der untersuchten Aspekte am besten geeignet. Die größte Wirkung auf die Auralisation wurde durch das MTB-Array erzeugt. Dieses nimmt einen starken Einfluss auf die Signalcoloration, überzeugt aber bei der Einschätzung der Externalisation. Der Elevationsaspekt stellt sich bei allen Mikrofonarrays als schwierig heraus. Die ermittelten Daten zeigen, dass die auf die horizontale Bewegung des Kopfes begrenzte dynamische Binauralsynthese die Elevation ermöglicht, jedoch nicht herausragend ist.



Möller, Fabian;
Konzept für eine minimale und flexible Messanordnung für die objektive Sicherung der Audioqualität von professioneller Beschallungstechnik. - Ilmenau. - 127 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Lautsprecher für anspruchsvolle Beschallungsaufgaben sind verschiedensten Beanspruchungen ausgesetzt, wodurch sie mechanische oder elektrische Beschädigungen erleiden können und somit die Wiedergabequalität nachlässt. Eine kritische Qualitätskontrolle nach jedem Einsatz findet allerdings nur selten statt, da die Hürden von objektiven Messsystemen für viele Veranstaltungstechnikbetriebe zu hoch sind. Die vorliegende Arbeit befasst sich daher mit der Konzeptionierung eines minimalen und universellen Messsystems für die Qualitätskontrolle von professionellen eschallungslautsprechern. Ziel ist ein praxisgerechtes und zuverlässiges Konzept, basierend auf dem Klippel QC System, welches durch robuste und effiziente Prüfsequenzen eine objektive Qualitätssicherung und Defekterkennung ermöglicht. Dafür wurden bisherige Verfahren der Qualitätssicherung in der Veranstaltungstechnik gesichtet, deren Stärken und Schwächen identifiziert, um darauf aufbauend Konzepte in unterschiedlichen Ausprägungen zu formulieren. Diese wurden unter Realbedingungen getestet und evaluiert, um daraus universelle und robuste Prüfgrenzen abzuleiten. Ausgelegt sind die Konzepte dabei sowohl auf akustische als auch auf elektrische Messungen im Klein- und Großsignalbereich, um über verschiedene Messmethoden eine möglichst breite Analyse von Defektcharakteristiken zu erzielen. Dabei werden stets die Anforderungen und Bedürfnisse von Veranstaltungstechnikbetrieben berücksichtigt, um ein praxisnahes und praktikables Messsystem zu konzeptionieren.



Chauhan, Jaydeep;
Multi-scale sound event detection. - Ilmenau. - 124 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Die Aufgabe der Erkennung von Schallereignissen (Sound Events Detection, SED) zielt darauf ab, Schallereignisse und ihre zeitliche Position in kontinuierlichen Audiosegmenten vorherzusagen. SED-Algorithmen werden in Anwendungen wie Audio-Tagging, Verkehrsüberwachung, Sicherheitsanwendungen usw. eingesetzt. Datenmangel und die Verschiedenartigkeit der Schallquellen machen die SED-Aufgabe zu einer großen Herausforderung. Auf der Grundlage des von Ding et al. vorgeschlagenen adaptive multiscale sound event detector (AdaMD) wird in dieser Arbeit eine modifizierte Version des Modells (AdaMD-M) untersucht. Dieses Modell verwendet ein neuronales hourglass Netzwerk und Gated Recurrent Unit Module. Darüber hinaus haben wir das AdaMD-M-Modell zur Unterstützung von Klassifizierungsaufgaben modifiziert und ein leichteres SED-Modell für Low-End-Geräte vorgeschlagen. Um das vorgeschlagene Modell mit anderen State-of-the-Art-Modellen (SOTA) zu vergleichen, verwenden wir die Detection and Classification of Acoustic Scenes and Events (DCASE) Herausforderung als Referenz. Wir untersuchten auch zwei Methoden zur Datenerweiterung (DA), d.h. MixUp und Random erase. Für die Bewertung verwendeten wir die F1-Score- und Fehlerraten (ER)-Metriken. Das AdaMD-M Modell zeigt eine geringere ER als die DCASE zweite und dritte rangierten Teilnehmer für DCASE 2016 Task 3 Herausforderung. In DCASE 2017 Task 3 zeigt AdaMD-M eine niedrigere ER als das DCASE-Basismodell bleibt aber knapp hinter den anderen SOTA-Ergebnissen zurück. Wenn AdaMD-M mit Standarddaten trainiert wird, bleibt es in der monophonen SED-Aufgabe deutlich hinter SOTA zurück. Wird jedoch mit einem benutzerdefinierten Datensatz trainiert, verbessern sich die Ergebnisse von AdaMD-M um etwa 50 %. Das Klassifikatormodell liefert einen durchschnittlichen F1-Wert von 0,229 bzw. 0,236 mit und ohne DA. Die leichtere Version des SED-Modells zeigt einen ER von 0,821 und übertrifft damit unsere Erwartungen.



Flemming, Sebastian;
Erweiterung eines Systems zur automatischen Evaluation von A/V-Analysekomponenten. - Ilmenau. - 60 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Im Fraunhofer-Institut für Digitale Medientechnologie (IDMT) wurde ein Framework zur automatischen, verteilten und vergleichenden Evaluation von Audio/Video-Analysekomponenten entwickelt. Dessen letzter Status setzte jedoch das Vorhandensein von anwendungsspezifisch annotiertem Content voraus, wobei die Datenhaltung in der Form von XML-Dokumenten erfolgte. Ziel dieser Arbeit ist die Erarbeitung von Möglichkeiten, wie das Framework um anwendungsübergreifende Annotationen, eine flexiblere Datenhaltung und mitunter die gezielte Erstellung von Test-Content erweitert werden könnte. Dafür wird sich hinführend mit dem Konzept der Evaluation beschäftigt und auf das vorhandene Framework und eine existierende Weiterentwicklung eingegangen. Der Schwerpunkt richtet sich anschließend auf die Untersuchung des Resource Description Frameworks (RDF) und möglicher, darauf aufbauender Schemasprachen. Diese werden als plausible Basis für die Bereitstellung flexibler Daten- und Annotationsstrukturen gesehen. Im Rahmen dessen erfolgt die Beschreibung möglicher Modell-Strukturen und eine Sammlung von für die Bearbeitung, Speicherung und Verwendung von RDF ausgelegter Software. Des Weiteren wird eine theoretische Herangehensweise an automatische Test-Content-Generierung diskutiert. Der abschließende Teil beschreibt die Durchführung zweier Testfälle unter Nutzung von Content-Annotationen im RDF-Format mittels des dementsprechend angepassten Frameworks.



Ribecky Arroyo, Sebastian;
Disentanglement representation learning for music annotation and music similarity. - Ilmenau. - 122 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Die Automatisierung von Musikannotationen und ähnlichkeitsbasierte Suchabrufen ist in den letzten Jahren im Zentrum der Musikinformatik-Forschung platziert. Die Entwicklung solcher Systeme ermöglicht die Strukturierung der ständig wachsenden digitalen Sammlungen, sowie die Entwicklung von Anwendungen, die den Benutzern helfen, sich darin zurechtzufinden. Moderne Ansätze verwenden tiefe neuronale Netzwerken: miteinander verbundener Recheneinheiten, die in Schichten organisiert sind, und Architekturen zur hierarchisch Verarbeitung von Daten bilden. Die schichtweise Verarbeitung durch diese Systeme führt zu komprimierten codierten Darstellungen der Eingabedaten, die einen abstrakten latenten Netzwerksraum widerspiegeln, in dem die semantischen Einflussfaktoren des Systems verteilt sind. Gleich wie viele andere Bereiche unserer Welt kann Musik in eine Reihe von semantisch bedeutsamen Variationsfaktoren zerlegt werden. Normalerweise werden diese Faktoren vom Netzwerk ohne Überwachung aus den Eingabedaten abgeleitet, was zu einer geringen Interpretierbarkeit beziehungsweise eine "Black-Box"-Behandlung führt. Aktuelle Repräsentationslernstrategien versuchen, die in tiefen Repräsentationen vorhandenen Variationsfaktoren zu entwirren, und zielen darauf ab, die Leistung modernster Ansätze der künstlichen Intelligenz zu verbessern. In dieser Arbeit wird eine umfangreiche Studie zum Repräsentationslernen vorgestellt, die auf die Entwirrung musikalischer Konzepte fokussiert wird. Dafür wurde einen Tiefenmodell implementiert, das Ähnlichkeiten zwischen Proben innerhalb jedes entwirrten Konzepts lernt. Es wird mit eine Vielfalt von Konfigurationen des implementierten Modells experimentiert, einschließlich einer in dieser Arbeit vorgeschlagenen neuartigen tiefen Architektur, die mehrere Eingabedarstellungen parallel verarbeitet. Um die erzeugten entwirrten Darstellungen zu bewerten, wird ein perzeptueller Musiähnlichkeitsansatz verwendet, wobei gezeigt wird, dass die vorgeschlagene Architektur den Stand der Technik für die Triplett-Vorhersageaufgabe übertrifft. Um den Einfluss jedes entwirrten Konzepts auf die Wahrnehmung von Musikähnlichkeit weiter zu untersuchen, wird eine neuartige multi-dimensionale Analyse vorgestellt. Die Darstellungen werden auch in einem Musikannotationskontext für die "Auto-Tagging"-Aufgabe getestet. Anhand der Ergebnisse werden zukünftige Optimierungs- und Entwicklungsvorschläge präsentiert und diskutiert.



Surdu, Ileana-Tatiana;
Influence of different room properties on distance perception. - Ilmenau. - 82 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Ein Ziel für Augmented-Reality-Audiosysteme besteht darin, durch die Kombination virtueller Elemente mit der Realität, authentische Hörszenarien zu erzeugen. Für ein erfolgreiches Ergebnis sollte die gewählte Technologie entsprechend angepasst werden, um die notwendigen Anforderungen des menschlichen Hörsystems zu erfüllen. Dazu gehört ein Verständnis dafür, wie sich unterschiedliche Umgebungen und ihre entsprechenden beschreibenden Parameter konkret auf die Wahrnehmung des Hörers auswirken. Im Rahmen von Augmented Reality soll dem Nutzer eine plausible und externalisierte virtuelle Schallquelle zur Verfügung gestellt werden, die in der reellen Umgebung passend platziert werden kann. Dies erfordert die Einbeziehung von ausreichenden Informationen, damit die Richtungs- und Entfernungsschätzungen genau durchgeführt werden können. Das Ziel dieser Arbeit ist es zu untersuchen, wie und in welchem Ausmaß akustische Parameter die Distanzwahrnehmung in Räumen beeinflussen. Zu diesem Zweck wurde ein Reshaping-Algorithmus auf eine Reihe von binauralen Raumimpulsantworten (BRIRs) angewendet, die in verschiedenen Räumen im gleichen Abstand gemessen wurden. Für die Signalanpassung wurde ein akustisches Referenzmuster eines anderen Raumes verwendet, das über den BRIR-Datensatz unter Verwendung einer Manipulation der Energieabfallkurven angewandt wurde. Die Signale wurden, sowohl einer Breitband-, als auch einer Subband-Anpassung unterzogen. Außerdem wurden zwei verschiedene Anfangszeitpunkte für die Signalanpassung ausgewählt. Ein Ansatz umfasste das gesamte Signal nach dem Direktschall. Die Alternative bezieht sich auf dem späten Nachhall, wobei die Komponente des Signals 50 ms nach dem Direktschall berücksichtigt wurde. Der Bewertungsprozess ergab eine starke Korrelation zwischen dem Anfangszeitpunkt der Signalmanipulation und der Wahrnehmung der nachgebildeten Hörszene. Eine Anpassung der Nachhallkomponente lieferte als Endergebnis eine bessere räumliche Darstellung für die virtuelle Schallquelle. Die Rolle der Filterbankverwendung konnte auch beobachtet werden. Die Umsetzung hat dazu beigetragen, die Wahrnehmung des BRIR-Sets, in gewissem Maße zu verbessern.



Hock, Kevin;
Konzeption und prototypische Umsetzung akustischer Eventdetektion mittels Drohnentechnologie. - Ilmenau. - 111 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Dank verschiedener Drohnensysteme ist es möglich, komplexe Aufgaben unterschiedlichster Bereiche deutlich zu vereinfachen. Dazu nutzen Drohnen individuell anpassbare Sensoren. Hauptsächlich sind dies Kameras. Akustische Sensoren hingegen sind bisher noch nicht etabliert, obwohl diese vielfältige Anwendungsmöglichkeiten in Kombination mit KI-basierten Algorithmen bieten. Diese Arbeit liefert ein Konzept eines Multikopters zur akustischen Eventdetektion. Hierzu wird in die Grundlagen der Mikrofontechnik sowie in Methoden des maschinellen Lernens eingeführt. Zur Realisierung akustischer Eventdetektion mittels Drohnentechnologie können mehrere Systemkomponenten im Rahmen der Konzeption abgeleitet werden. Neben dem Drohnensystem werden die akustischen Bedingungen zur Mikrofonierung analysiert. Die Implementierung der Eventdetektion beruht auf linearen Support Vector Machines in Verbindung mit OpenL3-Embeddings. Dabei wird ein Datensatz der DCASE2020 Challenge um Regenwald- sowie Drohnengeräusche erweitert. Ein akustischer Sensor an einer Drohne ist zwangsläufig Störeinflüssen wie dem Rotorabstrahl oder den Betriebsgeräuschen ausgesetzt. In diesem Kontext werden diverse Hochpassfilter und die Magnitude Spectral Substraction betrachtet. Obwohl die Verfahren den SNR nur geringfügig verbessern, erweisen sich Hochpassfilter als geeigneter. Zusätzlich wird ein Mikrofongehäuse zur Windabschirmung entworfen und messtechnisch evaluiert. Bei einer nur geringen Abschirmwirkung verschlechtert sich die Richtcharakteristik des Mikrofons merklich. Basierend auf den bisherigen Erkenntnissen werden alle Komponenten in einer prototypischen Umsetzung zusammengeführt. Unter kontrollierten Bedingungen zeigt sich, dass der Klassifikator mit einer höheren Wahrscheinlichkeit einige Klassen korrekt zuordnen kann. Wobei die Berücksichtigung von Drohnengeräuschen bereits im Trainingsdatensatz die Performance verbessert. Hingegen führt die Anwendung der Hochpassfilter zu deutlichen Beeinträchtigungen. Infolgedessen werden diese Filter unter Realbedingungen nicht berücksichtigt. Die Auswertung eines durchgeführten Drohnenflugs gibt Hinweise, dass auch unter realen Voraussetzungen teils ein hoher Recall erreicht wird. Die Ergebnisse der Arbeit sollten weitergehend bei unterschiedlichen Wetterbedingungen und Umgebungsgeräuschen validiert werden. Weiterhin sind Verbesserungen der einzelnen Systemkomponenten für einen zuverlässigen und praktikablen Einsatz erforderlich. Einige Möglichkeiten hierzu werden abschließend präsentiert.



Melzer, Matthias;
Validierung und Integration der Spatial Decomposition Method in ein positionsdynamisches Binauralsynthesesystem. - Ilmenau. - 62 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

In vorliegender Masterarbeit wurden binaural room impulse repsonse (BRIR) unter Nutzungder spatial decomposition method (SDM) synthetisiert. In einem ersten Schritt wurden hierfür mit einem speziellen, Mikrofonarray mehrkanalige Audio Aufnahmen von Raumimpulsantworten erzeugt. Anhand dieser Aufnahmen und der SDM Toolbox wurde eine direction of arrival (DOA) Matrix erzeugt, welche jedem Sample der gemessenen Raumimpulsantwort eine Schalleinfallsrichtung zuweist. Das Verhalten der DOA Matrix wurde untersucht und es konnten Richtwerte zur Analyse Fensterlänge des DOA Einschätzungs Algorithmus getroffen werden. Zur weiteren Verbesserung der Einschätzung, der Schalleinfallsrichtung durch die DOA Analyse wurde die Berechnung eines gleitenden Mittelwertes vorgestellt. Mithilfe der SDM Toolbox und der CIPIC Head related transfer functi-on (HRTF) Datenbank konnten auf Grundlage der DOA Matrix und der Raumimpulsantwortmessung ein Datensatz von BRIRs für eine Aufnahmeposition im Raum synthetisiert werden. Dieser Datensatz wurde f ur eine komplette 360 Grad Drehung der Azimutwinkelin 5 Grad Schritten erzeugt. Der Mess- und Zeitaufwand f ur die Herstellung eines solchen Datensatzes konnte dabei im Vergleich zu einer Kunstkopfmessung um ein vielfaches verringertwerden. Es wurden die Spektren, T30 Werte und inter aural cross correlation (IACC) Werte der synthetisierten BRIRs mit gemessenen BRIRs des Kunstkopfes verglichen. Der genutzte HRTF Datensatz zur Synthetisierung wurde dabei mit dem gleichen Kunstkopfmikrofon erzeugt, mit dem auch gemessen wurde. Alle berechneten Werten zeigten abhängig vom Fall oftmals hörbare Unterschiede, aber auch Ähnlichkeiten zwischen den synthetisierten und gemessenen Werten.Auf Grundlage der gewonnenen Erkenntnisse konnte Optimierungsvorschläge getroffen werden und die SDM Synthese als Alternative zur Kunstkopfmessung vorgestellt werden.



Dietrich, Stefan;
Entwurf und Implementierung eines semi-automatischen Prüfsystems zur verlässlichen Artefakt-Detektion bei drahtloser Audioübertragung in digitalen Hörsystemen. - Ilmenau. - 70 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Digitale Hörgeräte verfügen heute über eine Vielzahl an Funktionen, um ihren Trägern das bestmögliche Hörerlebnis in verschiedenen alltäglichen Situationen zu bieten. Dazu gehört auch die Einbindung externer Peripheriegeräte, etwa Smartphones, zur drahtlosen Übertragung von Audioinhalten. Die Akzeptanz dieser Technologie setzt jedoch eine konstante und möglichst fehlerfreie Verbindung voraus. Fehler in der Übertragung oder der Decodierung des Signals beeinträchtigen den potenziellen Mehrwert dieser Funktion. Die vorliegende Arbeit befasst sich mit der Beschreibung und Detektion solcher Streamingartefakte. In einer Reihe von Vortests wurden solche zunächst ausgemacht und klassifiziert. Für den nächsten Schritt wurde ein bestehendes Aufnahmesystem adaptiert, über welches die übertragenen Signale für vier Hörgerätepaare zur gleichen Zeit aufgezeichnet werden können. Die damit erzeugten Aufnahmen, sollten dann auf die nun bekannten Arten von Artefakten untersucht werden. Zu diesem Zweck wurde ein Prüfsystem in den Programmiersprachen Matlab/GNU Octave entwickelt. Dieses ist in der Lage, Artefakte automatisch zu detektieren und zu zählen. Vor dem Hintergrund einer zukünftig geplanten Implementierung in ein eingebettetes System, ist das Programm auf eine ressourcenschonende und echtzeitbasierte Auswertung der Daten ausgelegt. Die Detektion basiert auf einer Betrachtung der Signalenergie und spektralen Eigenschaften. Mit Hinblick auf letztere, konnte eine interessante Entdeckung zum Ursprung der Artefakte gemacht werden. Es hat sich gezeigt, dass diese über den eigentlich übertragenen Frequenzbereich hinausgehen. Somit können diese nicht Teil Übertragung selbst sein, sondern entstehen offenbar bei der Decodierung auf der Empfängerseite. Die Befunde über Art, Häufigkeit und Eigenschaften auftretender Artefakte, werden fortlaufend mit dem Chiphersteller der verwendeten Hörgeräte diskutiert. So können diese bei der Arbeit an zukünftigen Versionen mit berücksichtigt werden.



Remon, Mohd Sayedur Rahman;
Investigation of the audio latency in the environment of an auditory augmented reality. - Ilmenau. - 65 Seiten
Technische Universität Ilmenau, Masterarbeit 2021

Audio kann über die Qualität Ihres Videos entscheiden. Um eine perfekte Illusion zu schaffen, ist es wichtig, dem Benutzer ein immersives Erlebnis zu bieten. Für Anwendungen, wie Virtual Reality (VR) und Augmented Reality (AR) ist eine natürliche und plausible Nachbildung der auditiven Umgebung erforderlich. Mit Hilfe der Hilfe der binauralen Synthese ist es möglich, eine realitätsnahe Audiowiedergabe zu erzeugen. Ein wichtiger Indikator für die Qualität auditiver AR Anwendungen ist die Latenz zwischen Bewegung und Anpassung der Audiowiedergabe. Hohe Verzögerungen können die Interaktivität einschränken und die wahrgenommene Qualität mindern. Im Allgemeinen tragen mehrere Komponenten wie Bewegungs-Tracker, binaurale Filter, Datenübertragung, Audiotreiber, Audiosignalverarbeitung sowie die Interaktionen der Komponenten untereinander zur Systemlatenz bei. Es ist daher wichtig, die Latenz sorgfältig zu definieren und zu messen. Diese Arbeit untersuchte die grundlegenden Ursachen für die Latenz und die damit verbundenen Systemkomponenten. Es wurden Aufbauten und Methoden zur Bestimmung der gesamten Systemlatenz untersucht, um die Zusammenhänge und Einfluss der einzelnen Komponenten zu verstehen. Die Ergebnisse werden durch Simulationen und experimentelle Tests validiert. Konkret wurden In dieser Arbeit drei Messmethoden realisiert, bei denen eine minimale Gesamtsystemlatenz zwischen 60 ms und 72 ms gefunden wurden. Damit lagen die gemessen werde unterhalb des für diese Arbeit betrachteten Schwellenwerts von 100 ms. Die Auswahl der Setups und ihre Vor- und Nachteile werden in dieser Arbeit diskutiert, einschließlich möglicher Verbesserungen.



AL Sibai, Tarek;
Quick online-adaptation of the late reverberation of a binaural reproduction to the real room. - Ilmenau. - 38 Seiten
Technische Universität Ilmenau, Masterarbeit 2020

Auditory Augmented Reality zielt darauf ab, der realen akustischen Umgebung virtuelle akustische Elemente hinzuzufügen. Um einen plausiblen Effekt zu erzielen, sollten die akustischen Eigenschaften der reproduzierten Medien mit denen der Umgebung oder der Zielumgebung übereinstimmen. Eine der wichtigsten akustischen Eigenschaften, die einen Raum am besten darstellen, ist das Direkt-Nachhall-Verhältnis (DRR). Eine akustische Integration durch eine geeignete Anpassung der raumakustischen Eigenschaften, um eine Wahrnehmungsübereinstimmung zu erzeugen. Ein wesentliches Element ist der späte Nachhall, der zwischen verschiedenen Räumen variiert, jedoch nur geringe Schwankungen zwischen verschiedenen Positionen innerhalb eines Raums aufweist. Die Ergebnisse früherer Studien zeigen, dass die Zuhörer eine geringe Empfindlichkeit hinsichtlich der feinen räumlichen und zeitlichen Struktur des späten Nachhalls haben. Das Ziel dieser Arbeit ist es, die Idee der parametrischen Synthese zu untersuchen, die auf Echtzeit-DRR-Anpassungen der Reproduktion basiert. Ein Prototyp muss implementiert werden, um eine psychoakustische Bewertung des erstellten Systems durchzuführen und die Grenzen einer solchen Methode besser zu verstehen. Eine angemessene Testmethode muss entworfen werden.



Saini, Shivam;
Derive conditions for a plausible auditory illusion in binaural reproduction over near field loudspeakers. - Ilmenau. - 104 Seiten
Technische Universität Ilmenau, Masterarbeit 2020

Binaurale Reproduktion bezieht sich auf die Wiedergabe des Klangs, wie er in einem realen Szenario erlebt wird. Mit der Einführung von Augmented Reality (AR)-Anwendungen ist die binaurale Reproduktion zu einem Hauptschwerpunkt der Forscher geworden. Lautsprecher und Kopfhörer werden verwendet, um solche Töne zu simulieren. Ein neuer Prototyp von Nahkopflautsprechern wurde im Akustiklabor in Böblingen bei der Mercedes-Benz AG im Rahmen des Projekts Private Audio Lounge entwickelt. Um binaurale Audiosignale über Kopfhörern wiederzugeben, ist es notwendig, das durch den kontralateralen Lautsprecher verursachte Übersprechen zu unterdrücken. Diese Arbeit betrachtet verschiedene Implementierungen zur Kompensation der akustischen Übertragungsfunktion eines Nahkopflautsprechersystems. Die Implementierung der binauralen Wiedergabe nutzt die Echtzeit-Faltung von direktionalen Head-Related Transfer Functions (HRTFs), die in realen Raumszenarien aufgezeichnet wurden, mit dem Audiosignal. Dies wird in Python unter Verwendung der an der TU Ilmenau entwickelten pyBinSim-Umgebung durchgeführt. Der Kopf wird kontinuierlich mit einem Head Tracker verfolgt und Richtungsfilter werden entsprechend der Orientierung des Zuhörers angewendet. Um den akustischen Effekt der Hörumgebung wie Nachhall und Frequenzkorrektur auszugleichen, wurden außerdem Minimal-Phasenumkehrfilter entwickelt, die die in der akustischen Kabine im Akustiklabor aufgenommenen HRTFs verwenden. Eine Implementierung von Stereo-zu-5.1-Kanal-Up-Mixing-Techniken wurden ebenfalls in Betracht gezogen, da das Ziel der Arbeit die Externalisierung des Klangs und die Verbesserung der Klangqualität des Lautsprecheraufbaus ist. Anschließend wurde ein DSP-Design mit Audio Weaver durchgeführt, um das System in einer Fahrzeugkabine einzurichten. Schließlich wurde eine Wahrnehmungsevaluierung durchgeführt, um das während der Masterarbeit implementierte System zu bewerten und zu validieren.



Wahl, Alexandra;
Automatische Zuordnung ähnlich wahrgenommener Räume. - Ilmenau. - 80 Seiten
Technische Universität Ilmenau, Masterarbeit 2020

Augmented Acoustics Environments (AAEs) erfordern die akustische Anpassung virtueller Schallquellen an den realen Wiedergaberaum. Raumakustische Merkmale, die eine ausreichende Anpassung kennzeichnen, sind noch nicht genügend erforscht. Einige Studien zeigten bereits, dass keine exakte physikalische Anpassung erforderlich ist, jedoch einige Parameter kritischer sind als andere. In dieser Abschlussarbeit wird eine Gegenüberstellung der physikalischen und perzeptiven Ähnlichkeit verschiedener Raumakustiken mit Hilfe von gemessenen binauralen Raumimpulsantworten implementiert. Dafür wird ein Datensatz aus gemessenen binauralen Raumimpulsantworten von verschiedenen Raumarten und Quell- und Abhörpositionen zusammengestellt. Für die Bestimmung der physikalischen Ähnlichkeit werden raumakustische Parameter berechnet und mit den Ergebnissen eines Hörversuchs, in denen Probanden verschiedene wahrgenommene Attribute bewerten sollten, verglichen. Dafür wird der Knowledge Discovery in Databases-Prozess angewandt. Über verschiedene Methoden können gezielt Beziehungen zwischen den beiden Datensätzen bestimmt und somit wichtige raumakustische Merkmale identifiziert werden. Mit den gewonnenen Informationen kann in der Abschlussarbeit ein erster Versuch einer automatisierten Gruppierung der Räume implementiert werden.



Nadar, Christon Ragavan;
Multitask learning for beat detection and chord recognition in music. - Ilmenau. - 87 Seiten
Technische Universität Ilmenau, Masterarbeit 2020

In dieser Arbeit schlugen wir ein Multitasking-System für Rhythmus (Downbeat und Beat) und Harmonie vor. Wir führten Multitasking-Lernen durch, indem wir gemeinsam drei verschiedene Aufgaben in verschiedenen Kombinationen modellierten: Beat-Tracking, Downbeat-Tracking und Akkordschätzung. Jede dieser Aufgaben umfasst einen zweistufigen Prozess. Zunächst ein prädiktives Modell auf Rahmenebene, das als akustische Modellierung bezeichnet wird. Zweitens, eine zeitliche Modellierung, bei der die Vorhersage auf Rahmenebene durch Ableitung zeitlicher Abhängigkeiten zusammengeführt wird. Für die akustische Modellierung verwenden wir eine Kombination aus neuronalen Faltungsnetzen und zeitlichen Faltungsnetzen. Darüber hinaus verwenden wir eine tempoinformierte Peak-Picking-Methode und einen dynamischen Programmieransatz, um die optimalen Downbeat-Beat-Positionen für die zeitliche Modellierung zu finden. Für die Evaluierung der von uns vorgeschlagenen Multitasking-Methode benötigen wir zwei Referenzmodelle. Erstens benötigen wir eine häufig verwendete Referenzsystemimplementierung aus der Madmom-Python-Bibliothek. Zweitens implementieren wir aufgrund der unterschiedlichen methodischen Vorgehensweise auch die von Davis et al. vorgeschlagene Methode für das Beat-Tracking neu und erweitern sie dann auf eine Downbeat-Tracking-Aufgabe. Wir verwenden das von Nadar et al. vorgeschlagene Modell für die Akkordschätzungsaufgabe als ein Ein-Task-System. Wir verwenden diese oben erwähnten Single-Task-Systeme als unser Referenzsystem für die Bewertung gegenüber unserem Multitask-System. Für die vergleichende Evaluation gemeinsame Modellierung der verschiedenen Aufgaben in allen möglichen Kombinationen. Darüber hinaus führen wir genreübergreifende Analysen zu Pop, Jazz und klassischen Genres durch. Schließlich evaluieren wir die Leistung unseres Rhythmusmodells auf der Grundlage des Kontinuitätsmaßes, um die Bedeutung der zeitlichen Modellierung hervorzuheben (Rhythmus-Inferenz-Stadium). Für unser Multitasking-System wurden mehrere Experimente durchgeführt. Die Ergebnisse zeigen, dass das Multitasking-System eine vergleichbare Leistung mit Variationen über verschiedene Datensätze hinweg aufweist. Bei der vergleichenden Auswertung der gemeinsamen Modellierung der verschiedenen Aufgaben stellen wir fest, dass die gemeinsame Modellierung von Akkord- und Downbeat-Aufgaben über verschiedene Datensätze hinweg eine konsistente Verbesserung sowohl für Akkord- als auch für Downbeat-Aufgaben gezeigt hat. In ähnlicher Weise zeigt die gemeinsame Modellierung von Akkord- und Downbeat-Aufgaben bei der genreübergreifenden Analyse Verbesserungen in den Genres Jazz und Klassik. Schließlich zeigt die auf Kontinuität basierende Auswertung eines Downbeat-Trackings die Einschränkung unserer Pick-Picking-Methode und des Downbeat-Trackings durch einen dynamischen Programmieransatz. Aus unserer Studie schließen wir daher, dass die gemeinsame Modellierung von Akkord und Downbeat am vorteilhaftesten ist. Auch das akustische Modell zeigt für alle Aufgaben eine vergleichbare Leistung mit den Single-Task- und Referenzsystemen. In der Zwischenzeit müssen weitere Forschungen zur zeitlichen Modellierung in Betracht gezogen werden.



Brömme, Niclas;
Multiphysikalische Modellierung von elektrodynamischen Lautsprechern. - Ilmenau. - 115 Seiten
Technische Universität Ilmenau, Masterarbeit 2020

In der vorliegenden Arbeit werden zwei methodische Ansätze für die multiphysikalische Simulation von elektrodynamischen Lautsprechern untersucht. Basierend auf diesen Ansätzen werden zwei Simulationsmodelle mit Hilfe der Simulationssoftware Comsol Multiphysics für zwei verschiedene Untersuchungslautsprecher definiert. Ziel ist es das elektrische, das mechanische und das daraus resultierende akustische Verhalten eines Lautsprechers möglichst realitätsgetreu nachzubilden. Für die Definition der beiden Simulationsmodelle wird jeweils eine Kopplung aus Schaltungssimulation und numerischer Simulation mittels Finiter Elemente Methode (FEM) verwendet. Für eine Validierung der Simulationsergebnisse wird eine elektrische und eine akustische Vermessung der Untersuchungslautsprecher vorgenommen. Gleichzeitig dienen die elektrischen Messdaten als Datengrundlage für die Beschreibung der verwendeten Ersatzschaltbilder. Materialkennwerte zur Simulation einzelner Lautsprecherkomponenten werden, in einer in dieser Arbeit beschriebenen Vorgehensweise, angepasst, um Abweichungen zwischen Mess- und Simulationsergebnissen zu minimieren. Ein direkter Vergleich von Ergebnissen aus Simulation und Messung zeigt, inwieweit die Simulationsmodelle valide Ergebnisse gegenüber der Messung liefern. Durch eine Betrachtung des Simulationsaufwandes in Form von Komplexität der Simulationsmodelle, Berechnungsaufwand und benötigte Datengrundlage können beide Modelle verschiedenen Anwendungsgebieten zur weiteren Verwendung zugeordnet werden. Die Ergebnisse zeigen weiterhin, dass bereits mit einer geringen Datengrundlage und einem geringen Simulationsaufwand sehr valide Simulationsergebnisse für tiefe Frequenzen erzielt werden können, für hohe Frequenzen jedoch eine bessere Datengrundlage und komplexere Simulationsmodelle unumgänglich sind.



Nawaz, Faiq;
Investigation of the audio transmission latency in the environment of an auditory augmented reality. - Ilmenau. - 45 Seiten
Technische Universität Ilmenau, Masterarbeit 2020

Das Hauptziel von Augmented Reality (AR) besteht darin, die physische und die virtuelle Umgebung in einem gemeinsamen Raum zusammenzuführen. Um diese Illusion aufrechtzuerhalten, ist eine zeitliche Konstanz erforderlich, obwohl sich die Position des Hörers und die Ausrichtung des Kopfes ändern. Der Grund für Fehler ist die Latenz, das heißt die Verzögerung zwischen der Änderung der Position des Hörers und der Änderung der Audioantwort, die die zeitliche Konsistenz bricht. Bei Kopfhörern mit Tracking-Sensoren wird in der Regel auf die zeitliche Konsistenz geachtet. In der vorliegenden Masterarbeit werden verschiedene Methoden, Implementierungen und Aufbauumgebungen vorgestellt, um die AudioLatenz durch Auditory Augmented Reality (AAR) zu messen. Die Simulation erfolgt in zwei Segmenten, Rendering und Übertragung. Der Rendering-Teil wird mit einer Python-basierten Anwendung ausgeführt, der PyBinSim und die Übertragung wird mit dem MATLAB-Simulator ausgeführt. Der Rendervorgang hängt von der Größe des Audiopakets und der Systemverarbeitungsfähigkeit ab. Die Ergebnisse zeigen, dass es bevorzugt wird, kleine Audiopakete mit ultraschnellen Prozessoren zu verwenden, um das Rendern in Echtzeit durchzuführen. Zusätzliche Verzögerung wird durch verwendete Übertragungsmedien eingeführt. Audiokabel und Bluetooth (BT) -Technologie sorgen für eine qualitative hochwertige Audioübertragung. Der Effekt der Latenz bei der Verwendung von Audiokabeln ist im Vergleich zu drahtlosen Technologien viel geringer. Dies liegt daran, dass drahtlose Technologien einige zusätzliche Prozesse zur Übertragung von Audiodaten ausführen. Außerdem wird bemerkt, dass die BT-Latenz auch aufgrund von Hardwareeinschränkungen beeinträchtigt wird. Die Ergebnisse zeigen, dass die Gesamtlatenz durch AAR von einer Reihe von Faktoren abhängt, wie z. B. der Puffergröße, der Systemverarbeitungsfähigkeit und der Kompatibilität der Audiotreiber und der Übertragungsmedien. Grundsätzlich funktioniert die vorgeschlagene Methode mit einigen Einschränkungen der BT-Hardware angemessen. Diese Arbeit kann weiter verbessert werden, indem die neueste Hardware verwendet wird, die die neueste Version von BT unterstützt und damit arbeitet.



Merten, Nils;
Gegenüberstellung verschiedener Algorithmen zur Erzeugung einer positionsdynamischen Binauralauralisation aus stark reduzierten Messdaten. - Ilmenau. - 52 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Mit Hilfe von Binauralsynthese ist es möglich, eine gemessene Hörumgebung mit guter Genauigkeit kopfhörerbasiert und in Echtzeit zu simulieren. Es existieren diverse Modelle, um die Ausbreitung von Schall in einem Raum zu simulieren. Dennoch ermöglichen Messungen, die mit Hilfe eines Kunstkopfes erfasst wurden, nach wie vor die präziseste Auralisation einer Hörumgebung. Um eine positionsdynamische Erkundung dieser Szene zu realisieren, ist eine hohe Anzahl der aufwändigen Messungen nötig, was für reale Anwendungen selten tragbar ist. Es ist folglich von größtem Interesse, die nötige Messdatendichte zu reduzieren. Das Ziel dieser Arbeit ist es deshalb geeignete Algorithmen zur Auralisation einer Hörumgebung, aus stark reduzierten Messdaten, zu erforschen. Hierzu werden zunächst existierende Interpolationsalgorithmen verglichen und Anforderungen aus einer psychoakustischen Betrachtung des Problems abgeleitet. Anschließend wird ein eigenes System auf Basis von fünf austauschbaren Algorithmen entwickelt. Diese fünf Iterationen werden technisch auf ihr Vermögen geprüft, die frühen Reflexionen der realen Messdaten zu reproduzieren. Hierbei übertrifft keiner der getesteten Algorithmen messbar eine simple, lineare Interpolation. Die Messposition der Ausgangsdaten erweist sich als dominanter Einflussfaktor auf die Qualität der Approximation. Ein abschließender Hörtest erforscht die Konsequenzen der physikalischen Unterschiede der synthetisierten BRIRs auf die auditive Wahrnehmung. Es wird gezeigt, dass die Richtung der Schallquelle noch mit vergleichbarer Genauigkeit geortet werden kann, wenn Direktschall und frühe Reflexionen interpoliert werden. Alle Probanden empfanden die Szenen, deren frühe Reflexionen mittels linearer Interpolation im Zeit- oder Frequenzbereich berechnet wurden, als plausibel.



Kamandi, Samaneh;
Perception of simplification of the room acoustics in dynamic binaural synthesis for listener translation. - Ilmenau. - 75 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Die positionsdynamische binaurale Synthese kann verwendet werden, um virtuelle Audioobjekte in auditorischen Augmented-Reality-Szenarien plausibel zu auralisieren. Es ermöglicht dem Zuhörer, einen Raum zu Fuß zu erkunden. Die binauralen Raumimpulsantworten (BRIRs) des Hörbereichs werden für verschiedene Kopfausrichtungen an mehreren Positionen des Hörbereichs benötigt. Frühere Studien zur positionsdynamischen binauralen Synthese untersuchten eine systematische Vereinfachung der Daten zur Erstellung von BRIRs einer Linie in einem trockenen Raum, mit dem Ziel, den Messaufwand zu reduzieren und gleichzeitig die Menge der Datensätze zu reduzieren. Die BRIRs der gewünschten Positionen auf der Linie wurden durch Manipulation einiger Parameter synthetisiert, die sich auf die Akustik des Raumes und die Empfindlichkeit des menschlichen Hörsystems für die Übersetzung durch den Hörer beziehen. Einige Qualitätsmerkmale wie Externalisierung, Eindruck des Gehens zur Schallquelle und Plausibilität virtueller Schallquellen wurden in binauralen Hörtests untersucht. Da das Niveau des Nachhalles im Labor in der vorangegangenen Studie gering war, konnte das Ergebnis des Hörerlebnisses den Einfluss der Reflexionsmuster nicht finden. Allerdings führte die Beseitigung des Nachhallens zu einer schlechteren Plausibilität. Diese Arbeit untersucht die mögliche Manipulation von Parametern in Bezug auf die Messdaten eines halligeren Raumes. Die Wirkung des Nachhallens in einem positionsdynamischen binauralen Synthesesystem wird untersucht, basierend auf psychoakustischen Überlegungen zur Lokalisierung und Externalisierung in einem halligeren Raum. Neun Filtersätze werden mit drei Manipulationsalgorithmen erzeugt, um die Auswirkungen der Parametrisierung in Signalen mit mehr Reflexionsenergie zu untersuchen. In einem Hörtest werden die resultierenden BRIR-Sätze verschiedener Algorithmen ausgewertet. Die Ergebnisse deuten darauf hin, dass die Anwendung eines konstanten Reflexionsmusters auf alle Positionen keine Veränderung der Plausibilität und Externalität ergibt als der ursprüngliche Messdatensatz. Nämlich, die Energie des Nachhall-Musters in BRIRs der Referenzposition und des Manipulationsalgorithmus beeinflussen die Plausiibilität und Externalität. Filtersätze mit einem konstanten Reflexionsmuster mit höherer Energie im Vergleich zu anderen Positionen der Leitung werden im Prüfraum authentischer wahrgenommen als solche mit unveränderlichem Hallmuster mit geringerer Energie.



Nasrollahnejad, Afrooz;
Evaluating plausibility of interactive virtual acoustic environments for headphone reproduction. - Ilmenau. - 141 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

IIn der vorliegenden Arbeit wird ein neuartiges Verfahren vorgeschlagen, um die Plausibilität einer interaktiven virtuellen akustischen Umgebung für die Wiedergabe von Kopfhörern auszuwerten. Die bestehenden Verfahren in der Literatur berücksichtigen oft nicht die Erwartungen des Hörenden und ihre früheren Erfahrungen. Diejenigen, die dies tun, unterliegen Nachteile, wie Mehrdeutigkeit, Unklarheit und Fehlinterpretation. Dies kann das Ergebnis der Verwendung von Vokabeln sein, die im Wesentlichen nicht was mit Plausibilität gemeint ist. Außerdem scheint entweder die Verwendung von vordefinierten akustischen Eigenschaften oder ja/nein-Paradigmen, nicht vielversprechende Methoden zu sein. In dieser Arbeit wird ein Hörtest durchgeführt, bei dem die Erwartungen des Hörenden erfasst werden, bevor der Test beginnt. Alle Szenen und Testversuche werden dann von den Zuhörern beurteilt und auf Grund ihrer initial aufgezeichneten Erwartungen bewertet. Inzwischen wird die Dauerhaftigkeit der Erwartungen während des Tests beobachtet. Die Ergebnisse zeigen, dass das Lenken der Aufmerksamkeit der Teilnehmer auf ihre Erwartungen und inneren Referenzen auch für dieselben Szenarien zu einer gleichgültigen Plausibilitätsbeurteilung fuhren kann. Des Weiteren wird es beobachtet, dass Menschen trotz ihrer fehlerhaften Erwartungen, ihre Erwartungen festhalten wollen. Schließlich kann man sagen, dass diese Studie nachweisen kann, warum Ja / Nein-Test oder ein vordefinierter Merkmalstest keine geeigneten Verfahren zur Bewertung Plausibilität sind. Darüber hinaus kann diese Arbeit ein Sprung als die geeigneten Methoden zur Beurteilung der Plausibilität sein.



Götz, Georg;
Simplified image-source modelling for dynamic rendering of virtual acoustics. - Ilmenau. - 101 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Mit Hilfe von Computersimulationen ist es möglich, die Akustik von Räumen zu simulieren und darin befindliche Schallquellen in Virtual Reality Szenarien über Kopfhörer oder Lautsprechersysteme hörbar zu machen. Das Spiegelschallquellenverfahren ist dabei eine Herangehensweise zur Simulation von gerichteten Reflexionen, weshalb sich die Methode besonders zur Modellierung von frühen Reflexionen eignet. In einem Raumsimulationssystem kann man daher mit dem Spiegelschallquellenverfahren einzelne akustische Pfade beschreiben. Mit geeigneten Filtern kann dabei zusätzlich die Richtcharakteristik der Schallquelle und die Schallabsorption an den jeweiligen Raumoberflächen reproduziert werden. Besonders für komplexe Szenen und Raumgeometrien sowie für die Beschreibung von akustischen Pfaden mit einer Vielzahl von aufeinanderfolgenden Reflexionen über verschiedene Oberflächen steigt die Anzahl der für die Auralisation benötigten Filteroperationen beträchtlich. Dies stellt eine kritische Hürde für die Echtzeitfähigkeit eines solchen Raumsimulations- und Auralisationssystems dar. Diese Arbeit untersucht deshalb das Einsparungspotential an benötigter Rechenleistung bei einer Auralisation mit dem Spiegelschallquellenverfahren und stellt dabei zwei Vereinfachungsmöglichkeiten vor, die eine erhebliche Reduktion der benötigten Filteroperationen ermöglichen. Zum einen kann dies durch eine Abtastung der Schallquellenrichtcharakteristik an wenigen, dünn besetzen Stützpunkten mit anschließender Interpolation erreicht werden. Zum anderen, können akustische Pfade für mehrere Hörpositionen zusammengefasst werden um Absorptionsfilter einzusparen. Beide Vereinfachungen werden in dieser Arbeit anhand von technischen Kriterien evaluiert. Die Untersuchungen legen nahe, dass die Anzahl der benötigten Filteroperationen beträchtlich reduziert werden kann ohne dabei erhebliche technische Fehler im Vergleich zu der traditionellen Auralisation einzuführen. Ein Hörtest untersucht weiterhin die perzeptiven Auswirkungen einer der beiden vorgestellten Vereinfachungen. Die Ergebnisse des Hörtests zeigen, dass eine Vereinfachung der Schallquellenrichtcharakteristik die Plausibilität der Auralisation nur geringfügig verschlechtert.



Zerlik, Anna Maria;
Untersuchung der Authentizität von Binaural Walk-Throughs. - Ilmenau. - 57 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Die positions-dynamische Binauralsynthese ermöglicht eine 3D-Audio Wiedergabe mittels Orientierungs- und Positionstracking über Kopfhörer. Bei einigen Anwendungen der positions-dynamischen Binauralsynthese ist es von Interesse einen auditiven Eindruck zu erzielen, der von der realen Szene nicht zu unterscheiden ist. In diesem Fall gilt die Wiedergabe als authentisch. In dieser Arbeit wird untersucht, ob der aktuelle Stand des Binauralsynthese-Systems für positions-dynamische Wiedergabe als authentisch wahrgenommen wird. Zur Überprüfung der Authentizität wird die Wiedergabe über einen realen Lautsprecher mit der simulierten, virtuellen Wiedergabe im exakt gleichen Hörerkontext verglichen. Bei den ersten Voruntersuchungen wurde die Binauralwiedergabe über Kopfhörer und die Wiedergabe über Lautsprecher im direkten Vergleich angehört. Es fielen bei der Simualtion vordergründig Klangunterschiede, eine erhöhte Halligkeit sowie eine Instabilität der Quelle auf. Die Unterschiede wurden als zu deutlich empfunden um einen typischen ABX-Test, wie er für gewöhnlich zur Prüfung der Authentizität verwendet wird, durchzuführen. Stattdessen wurde die Plausibilität des binauralen Walk-Throughs, bei der der Hörer das Hörereignis mit seiner eigenen Vorstellung von einem äquivalenten realen Hörereignisses vergleicht, mit der Anwesenheit einer realen Quelle in einem zwei geteilten Hörversuch überprüft. Die Probanden sollten nach dem Erkunden der Audioszene entscheiden, ob es sich um die reale oder um die simulierte Präsentation handelte. Im ersten Teil wurden den Probanden ohne es zu wissen nur simulierte Szenen präsentiert, wohingegen im zweiten Teil des Hörversuchs auch die reale Präsentation hinzukam. Am Ende des Hörversuchs sollten die Probanden berichten, anhand welcher Kriterien sie sich für die Simulation entschieden haben. Die Ergebnisse zeigen, dass alle Probanden ohne die Anwesenheit der realen Präsentation die Binauralwiedergabe als grundsätzlich plausibel wahrnehmen. Bei Anwesenheit des realen Lautsprechers veränderte sich jedoch die innere Referenz des Probanden. Insbesondere die Experten konnten die simulierte von der realen Präsentation überwiegend unterscheiden, wohingegen von den naiven Hörern nur wenigen eine korrekte Zuordnung möglich war. Im Allgemeinen wurde die Simulation aufgrund eines als unnatürlich wahrgenommenen Eindrucks bei Kopfdrehungen, einer verringerten Externalisierung im ersten Augenblick, geringerer Distanzwahrnehmung und weniger starker Veränderung der Lautstärke bei der Translation als solche identifiziert.



Zapf, Dominik;
Entwicklung einer Methode zur Messung, Darstellung und Auswertung von Verhalten in einer positions-dynamischen Binauralsyntheseanwendung. - Ilmenau. - 89 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Durch den Einzug von räumlicher Klangwiedergabe in viele Bereiche, wie Entertainment oder Produktvirtualisierung, steigt das Interesse nach dem Verständnis über das Verhalten der Anwender solcher Systeme, in dieser Arbeit im Speziellen von der Anwendung in positions-dynamischer Binauralsynthese. Die Analyse des Verhaltens bietet die Möglichkeit, Binauralsyntheseanwendungen auf den Menschen anzupassen, z.B. für Performancesteigerungen oder zum Anpassen auf menschliche Wahrnehmungsgrenzen. In dieser Arbeit wurden nun zunächst die verwandten Themengebiete eingeführt, hierbei insbesondere die Verhaltensanalyse im verwandten Bereich der Virtual Reality, deren Methoden auf Anwendbarkeit auf diese Arbeit untersucht werden sollen. Als nächstes wurden mit Hilfe des Qualisys Motion Tracking Systems Probandentests durchgeführt, bei denen die drei Positions- und drei Rotationsdaten des Kopfes erfasst wurden. Nach einem kurzen Training zur Eingewöhnung in das Binauralsynthesesystem wurden insgesamt die Daten von 23 Personen in 5 verschiedenen Versuchsszenarien zwischen 2-3 Minuten aufgenommen, wovon die ersten vier Szenarien jeweils eine unterschiedliche konkrete Aufgabe enthielten, in denen sie eine vorgegebene Stimme finden sollten. Das letzte Szenario bestand aus einem Musikstück, in dem sich die Probanden frei bewegen konnten. Der Testbereich lag in einem Bereich von 4x4 m, während das Raster der Filter zur Binauralsynthese in 0,25 m Schritten im Raum, und 5˚ in der Kopfdrehung vorlag. Nach einer kurzen Betrachtung der Trackingaussetzer, die gehäuft in einer Ecke des Rasters vorkamen, wurden die einzelnen Szenarien näher analysiert. Hierbei wurden die zeitlichen Verläufe, die Geschwindigkeiten, die Fläche, in der sich die Personen bewegten, den Weg, den sie zurücklegten, und die Zeit bis zum Stillstand betrachtet. Es zeigte sich, dass die meisten Personen sich vor allem in einfacheren Szenarien ähnlich verhielten. Weiter stellte sich heraus, dass die Probanden Probleme hatten, die Schallquellen zu orten, sobald mehrere Stimmen gleichzeitig erklingen. Die angewendeten Methoden und Metriken zeigten sich als geeignet zur Auswertung des Verhaltens, jedoch wären für konkretere Aussagen noch weitreichendere Untersuchungen notwendig.



Akustische Zustandskontrolle zur Überwachung stationärer und transienter Vorgänge in Kraftwerken. - Ilmenau. - 66 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Die Implementierung einer exemplarischen akustischen Zustandsüberwachung durch Luftschallanalyse eines Anwendungsfalls eines konkreten Pumpspeicherkraftwerks ist Gegenstand dieser Forschungsarbeit. In Kooperation mit Experten vor Ort wurden sechs mögliche Anwendungsfälle identifiziert. Der konkrete Anwendungsfall der Detektion eines fehlerhaften Verschlusses eines Kugelschiebers, wurde durch systematische Bewertung verschiedener Expertengruppen gewählt und mittels Luftschallanalyse untersucht. Während der durchgängigen, fast 30-tägigen Messung, kam es nicht zum gesuchten Fehlerfall. Durch Auszüge des bestehenden Leitwartensystems konnten die Aufzeichnungen mit verschiedenen stationären Zuständen und transienten Vorgängen des Kugelschiebers sowie weiterer Prozesse verknüpfter Anlagen annotiert werden. Die anschließenden Tests der Klassifizierung mittels convolutional neural network (CNN) sowie deep neural network (DNN) erzielen gute Ergebnisse in der Trennung dieser und verdeutlichen das Potential der verwendeten Methodiken als Teil eines condition based monitoring (CBM) Ansatzes. Probleme während der Durchführung verdeutlichen die Wichtigkeit einer ausgiebigen Annotations- und Datenerhebungsphase und zeigen mögliche Problemstellungen für anknüpfende Forschung auf.



Lamba, Manan;
Contribution of listener translation on the perceived externalization In binaural reproduction. - Ilmenau. - 91 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Jedes akustische Ereignis, das außerhalb des Radius eines menschlichen Kopfes wahrgenommen wird, wird als äußerlich bezeichnet. Sound-Szenarien des täglichen Lebens sind für den Zuhörer immer außerhalb. Es wurden bereits viele Untersuchungen zur Schalllokalisierung durchgeführt, aber es besteht eine unzureichende Auswirkung auf die Externalisierung von Schall bei der Unterstützung eines größeren Bewegungsgrades. Ziel dieser Arbeit ist es, die Auswirkung der Zuhörer Bewegung auf die Sound-Externalisierung im Hinblick auf unterschiedliche Lokalisierungsfehler zu untersuchen. Es wurden sechs virtuelle Sprecherpositionen festgelegt, um zwischen verschiedenen Benutzerfällen zu vergleichen, die definiert wurden, um dem Zuhörer unterschiedliche Freiheitsgrade zu bieten. Diese Benutzerfälle sind statisch nur Kopfdrehung, nur des Zuhörers, freie Bewegung-Kopfdrehung während der translationale Bewegung. Die erfassten Daten wurden statistisch analysiert, was die signifikanten Unterschiede zwischen den Benutzerfällen belegt. Absolute Lokalisierungsfehler, Distanzfehler (Tiefe) und Winkelfehler wurden geschätzt. Bei den Quellen, die mit dem statischen Listener in einer Reihe angeordnet waren, herrschte mehr Unklarheit, und es gab Fälle von Front-Back-Verwirrung sowie die Wahrnehmung der Lautsprecher im Kopf. Im statischen Fall wurden weniger Fehler für die seitlichen Lautsprecher aufgezeichnet. Die Hörer translationale Bewegung verbessert die Lokalisierungsgenauigkeit in gewissem Maße, wobei die Hörer in erheblichem Maße inkonsistent sind. Die hohen Effektstärken zwischen den Fällen und die bessere Wahrscheinlichkeit für Überlegenheit Schätzungen deuten darauf hin, dass die Rotation des Kopfes und die freie Bewegung die Lokalisierungsfähigkeit erheblich verbessern, wobei das freie Moment meistens alle anderen Fälle übertrifft.



Investigation on algorithms for the real-time calculation of binaural room impulse responses considering the sound source directivity. - Ilmenau. - 75 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Die Auralisierung mit binauraler Technik hat in den letzten zehn Jahren im Bereich der Virtual-Reality-Anwendungen an Bedeutung gewonnen. Aber meistens führen Messfehler, räumliche Objekte, die Bewegung und die binauralen Reproduktion des Zuhörers zwangsläufig zu hörbaren Beeinträchtigungen. Die Hauptidee wäre also, ein Audiosystem zu entwickeln, das in der Lage ist, einen realen Raum mit plausiblem Audio ohne große störende Fehler zu auralisieren und gleichzeitig die geringstmögliche Anzahl von Messungen zu berücksichtigen. Es gibt viele Hinweise, die das Audio liefert, die uns Informationen darüber geben, wie man binaurale Audio synthetisiert. Die Direktivität einer Schallquelle spielt auch eine große Rolle bei der Beeinflussung der Wahrnehmung des Klangs und dem Grad des Eintauchens in eine virtuelle akustische Umgebung. Der Hintergrund dieser Masterarbeit ist die Untersuchung, wie die Schallquellen-Direktivität sich auf die binaurale Raumimpulsantwort und die Entwicklung eines Algorithmus, der vorschlägt, wie man das Konzept der Schallquellen-Direktivität für die binaurale Reproduktion, auswirkt. An der Technischen Universität Ilmenau gibt es bereits einen Algorithmus zur Synthese neuer binauralen Raumimpulsantwort (BRIR) der nur ein bis drei Messungen benötigt. Diese Forschungsarbeit implementiert zwei Modifikationen des aktuell angegebenen Algorithmus. Die erste Modifikation nutzt die Veränderung des Größenverhältnisses, wenn sich die Zuhörer in Bezug auf die Achse des Lautsprechers zu bewegen, und implementiert ein Verfahren, das für jede Frequenz die notwendige Erhöhung oder Verringerung der Verstärkung an Positionen außerhalb der Achse oder entlang der Achse ermöglicht. Die zweite Modifikation beinhaltet die Anpassung der direkten Schallenergie an die Änderung der Richtwirkung. Eine Analyze des Direkt zum Nachhall-Verhältnis und der Klarheitsindizes hat zu besseren Ergebnissen Vergleich zu den vorherigen Algorithmen geführt. Zusätzlich wurde ein Hörtest durchgeführt, bei dem die modifizierten BRIRs mit einem Audio-Stream unter Verwendung eines auditiven Tools namens 'PyBinSim' zusammengefügt wurden, um eine Illusion einer Klangquelle in einer virtuellen Umgebung wiederzugeben. Zur Bewertung der Audioqualität und Externalisierung wurden verschiedene Testzenarien herangezogen. Basierend auf den Ergebnissen und der Analyse lieferte der vorgeschlagene neue Algorithmus ein besseres plausibles Audio für die Berechnung von BRIRs.



Entwicklung und Evaluation von Methoden zur semiautomatischen Annotation von Trainingsdaten für neuronale Netze. - Ilmenau. - 78 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Die vorliegende Masterarbeit beschreibt die Entwicklung eines Systems zur semiautomatischen Annotation von Objektregionen. Neben einem Einstieg in die Thematik der Annotation sowie der Recherche notwendiger Grundlagen wurde ein Konzept für die Umsetzung des Tools entwickelt. Dieses umfasst die Analyse aller für das System notwendigen Anforderungen inklusive des Designs einer benutzerfreundlichen Oberfläche. Aufbauend auf das Konzept wurde das Annotationswerkzeug in die Realität umgesetzt. Im Anschluss daran wird das Verfahren hinsichtlich Gebrauchstauglichkeit, Zeitaufwand und Qualität der annotierten Ground Truth untersucht und mit einem manuellen Ansatz verglichen. Die Ergebnisse zeigen, dass der semiautomatische Ansatz dem manuellen sowohl in Bezug auf die Gebrauchstauglichkeit als auch bei der Qualität der erstellten Ground Truth Daten vorzuziehen ist.



Kästner, Michael;
Untersuchung zur Umsetzung einer effizienten dynamischen Raumsimulation für eine objektbasierte Auralisation. - Ilmenau. - 73 Seiten
Technische Universität Ilmenau, Masterarbeit 2019

Objektbasierte Tonwiedergabesysteme ermöglichen die Reproduktion komplexer auditiver Szenen. Die Wiedergabe räumlicher Klänge spielt dabei eine große Rolle. Realistische frühe Reflexionen und Nachhall tragen einen bedeutenden Teil zu einer plausiblen Wiedergabe bei. Zur Hörbarmachung simulierter oder gemessener Räume und der plausiblen Wiedergabe räumlicher Schallfelder existieren bereits verschiedene Verfahren. In der vorliegenden Arbeit werden Ansätze zur Auralisation von akustischen Szenen unter Verwendung des Spiegelschallquellenmodells untersucht. Es wird ein Konzept erarbeitet, durch welches frühe Reflexionen mit wenig Berechnungsaufwand in objektbasierten Wiedergabesystemen auralisiert werden können. Dabei werden insbesondere psychoakustische Effekte wie der Präzedenzeffekt ausgenutzt. Das entwickelte Konzept wird als Softwareprototyp implementiert. Durch einen informellen Hörtests wird die wahrgenommene Plausibilität der mit dem System erzeugten Klangszenen untersucht. Die Testergebnisse geben erste Hinweise darauf, dass das entwickelte Konzept für die Simulation von frühen Reflexionen geeignet ist. Bezüglich des Rechenaufwandes des implementierten Systems wird eine erste Einschätzung dargelegt.



Raghuramprasad, Pradeep;
Entwicklung und Evaluierung von Methoden zur Multichannel Echo Cancellation in verknüpften Räumen. - Ilmenau. - 87 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Die akustische Echo-Unterdrückung (AEC) war schon immer ein intensiv erforschtes Gebiet, insbesondere in der Telekommunikation und anderen verwandten Gebieten bei der Vollduplex-Kommunikation zwischen Telestationen. Mit dem Aufkommen des Internets und anderer leistungsfähiger Kommunikationstechnologien steigt das Ausmaß und der Umfang von inländischen, geschäftlichen und kommerziellen Anwendungen exponentiell an. Daher ist der Wechsel von einer alten Monokanal-Kommunikation zu einem Mehrkanalsystem dringend notwendig. Einige Anwendungsbereiche von Mehrkanalsystemen sind räumliches Audio-Rendering, Immersive Conferencing, Immersive Telepresence, Remote Rehearsal, Gaming usw. Die Verzögerungen im Ausbreitungspfad aufgrund der Übertragung und der akustischen Kopplung zwischen den Lautsprechern und den Mikrofonen werden als Echos an den Far-end/Near-end Stationen wahrgenommen. Die Person am Far-end/Near-end hört ihre eigene Stimme / ihr Echo je nach Art der Übertragungsleitung entweder verringert oder verstärkt. Studien haben gezeigt, dass diese Verzögerungen einige hundert Millisekunden überschreiten und das normale Gespräch nur schwer fortgeführt werden kann. Wenn dies geschäftliche und kommerzielle Anwendungen betrifft, sind diese Echos nicht akzeptabel. AEC im Multichannel-System stellt aufgrund der hohen Kohärenz zwischen den Kanälen eine besondere Herausforderung dar. Daher ist es nicht möglich, das Signal des potentialfreien Kontaktes aus den Signalen mit stark korrelierten Kanälen zu identifizieren. Das Ziel dieser Masterarbeit ist es einen Rahmen zur Einschätzung von Methoden der Multi-Kanal Echo-Unterdrückung in verbundenen Räumen zu entwickeln. Zunächst werden einfache Eingaben verwendet, um die adaptiven Filter und die Leistungsparameter für Ein- und Mehrkanalfälle zu bewerten. Später wird für die Auswertung eine Laboraufzeichnung von Sprach-, Audio- und Raumimpulsantworten (RIR) für vier Kanäle verwendet. Adaptive Filter in Zeit-, Frequenz und Sparse-Domänen dienen als Beispiel, um den Effekt der Echounterdrückung im Mehrkanalszenario zu zeigen. Die Leistungsparameter beim Ausführen mehrerer Filteralgorithmen bei verschiedenen Eingangssignalen wurden beobachtet. Dabei zeigten sich große Unterschiede von einem Kanal zu einem mehrkanaligen Leistungsparameter wie System Distance (SD), Spectral Importance Misalignment Weighted (SIWM) und Echo Return Loss Enhancement (ERLE) der adaptiven Filter. Weitere Untersuchungen ergeben, dass die Länge der adaptiven Filter und der Kohärenzgrad zwischen den Kanälen eine wichtige Rolle für die Filterleistung spielen, was wiederum den Grad der Echokompensation beeinflusst.



Sánchez García, Efrén;
Real-time audio capturing and de-noising for reliable pitch detection in car environments. - Ilmenau. - 84 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Die Automobilindustrie ist einer der am schnellsten wachsenden Märkte mit einem großen Schwerpunkt auf der Entwicklung besserer Unterhaltungssysteme in Fahrzeugen. Darüberhinaus ist Tonhöhenerkennung (pitch detection) auch ein wiederkehrendes Forschungsthema im Bereich Music Information Retrieval (MIR) mit Anwendungsmöglichkeiten in der Musik- und Spieleindustrie. Diese Masterarbeit stellt ein neues Forschungsszenario für Pitch-Detection-Anwendungen in lauten Umgebungen vor, wie sie in einem Auto vorkommen können. Es umfasst ein mögliches intelligentes Karaoke-Spiel, das in das Unterhaltungssystem integriert werden kann. Zunächst wird ein Echtzeitsystem vorgeschlagen, das gleichzeitig analoge Signale von einem Mikrofon und einem Schwingungssensor im Fahrzeuginneren erfasst. Mit der Annahme einer hohen linearen Korrelation zwischen den Wellenformen wird ein Verfahren zur Echtzeit-Entrauschung von Gesangssignalen vorgeschlagen. Ein Tonhöhenerkennungsalgorithmus wird dann verwendet, um die Hauptmelodie aus dem entrauschten Sprachsignal zu extrahieren. Zusätzlich wird ein Datensatz erstellt, um die Genauigkeit des Systems zu messen. Schließlich werden die Ergebnisse mit Hilfe der Metriken des Music Information Retrieval Evaluation eXchange (MIREX) präsentiert und ausgewertet.



Tawfik, Hany;
Automatic generation of monophonic melodies with complexity constraints using deep neural networks. - Ilmenau. - 56 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Eine Methode zur Erzeugung monophoner Übungsmelodien für Musiker unterschiedlicher Komplexität wird in dieser Arbeit vorgeschlagen. Ein Datensatz von monophonen Melodien, die in ABC-Notation kodiert sind, wurde für das Training zweier generativer tiefer neuronaler Netzwerke verwendet. Beide Netzwerke beinhalten wiederkehrende Long Short-term Memory-Schichten (LSTM), um den zeitlichen Kontext in Melodien zu modellieren. Der Datensatz wurde entsprechend der rhythmischen Komplexität jeder enthaltenen Melodie in fünf Gruppen von Melodien unterteilt. Danach wurde jede Gruppe für das Training der einzelnen Netzwerke genutzt. Schließlich wurde ein statistischer Vergleich zwischen der durchschnittlichen rhythmischen Komplexität der Melodien der ursprünglichen Datensatzebenen und den entsprechenden Melodien der Netzwerke durchgeführt. Die Ergebnisse zeigen eine statistisch signifikante positive Korrelation zwischen der Komplexität der Trainingsdaten und der Komplexität der erzeugten Melodien.



Gabb, Timo;
Automatisierte Parametererzeugung für richtungsbasierte Tonwiedergabe bei Multikanal-Lautsprechersystemen. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Die vorliegende Arbeit beschäftigt sich mit der Frage, ob eine automatisierte Auswahl geeigneter Lautsprecher innerhalb eines Multikanal-Lautsprechersystems sowie die individuelle Erzeugung der Signalverarbeitungsparameter für eine richtungsbasierte Audiowiedergabe möglich ist. Die Basis für diese Lautsprecherselektion und die Parametererzeugung sind Positionskoordinaten der Einzellautsprecher sowie deren Ausrichtung, der Hörpositionen und des Richtungsgebietes. Anhand von Daten existierender großer Lautsprecher-Installationen wurde ein Algorithmus entwickelt und prototypisch in der Programmiersprache Python umgesetzt. Dieser Algorithmus enthält zusätzlich eine Optimierung der Signalverarbeitungsparameter, so dass die Spektren der Übertragungsfunktionen an den einzelnen Hörpositionen einen möglichst flachen und homogenen Frequenzverlauf haben. Die Funktionsfähigkeit des Algorithmus wurde im Rahmen eines Lokalisationshörtests mit 18 Probanden für drei Richtungsgebiete mit zwei Musikstücken und einem Sprachsignal untersucht. Die Ergebnisse des Lokalisationshörtests zeigen, dass die Lokalisation eines Richtungsgebietes bei Verwendung von mit dem Algorithmus ausgewählten Lautsprechern mit jeweils individuell erzeugten Signalverarbeitungsparametern stabil bleibt und das Richtungsgebiet korrekt lokalisiert wird. Gegenüber von nur einem einzelnen Lautsprecher als Richtungsgebiet zeigte sich in der Lokalisation eine minimale Abweichung an bestimmten Hörpositionen.



Bangalore Parappa, Brijesh;
Development and evaluation of an adaptive binaural synthesis system on the screen size. - Ilmenau. - 81 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Mit Hilfe der binauralen Synthese ist es möglich, eine realistische oder virtuelle akustische Umgebung plausibel nachzubilden oder zu synthetisieren. Diese Arbeit konzentriert sich auf die Entwicklung einer Methode zur Anpassung der durch das binaurale Synthesesystem dargestellten Audioobjektpositionen an die optische Wiedergabe über einen Bildschirm. Die aus der binauralen Synthese für das linke und rechte Ohr generierten Audiosignale wurden über Kopfhörer wiedergegeben und mit der Wiedergabe über Lautsprecher verglichen. Eine wesentliche Einschränkung solcher Systeme ist, dass die Divergenz von akustischer und visueller Lokalisationauftritt, wenn die Positionen der Objekte aufgrund der Größe und Position der Anzeige variieren. In dieser Arbeit wurde die Vector Base Amplitude Panning (VBAP)-Technik verwendet, eine Amplituden-Panning-Methode zur Positionierung virtueller Quellen in einem beliebigen 2D-Lautsprecher-Setup. Der VBAP wird in eine bestehende paarweise Panning-Technik umformuliert, um die virtuellen Quellpunkte auf dem Bildschirm zu erzeugen. Ein N-Punkt-VBAP-Algorithmus wurde entwickelt, um sich an verschiedene Punktquellen auf einer gegebenen horizontalen Linie auf drei verschiedenen optischen Bildschirmgrößen (klein, mittel und groß) anzupassen. Das entwickelte System wurde hinsichtlich der Lokalisierung der Objekte anhand verschiedener Bedingungen der akustischen und visuellen Szenenwiedergabe bewertet. Um dieses System zu bewerten, wurde die Wirkung der gerichteten Wahrnehmung von Audio und Video (Bauchredeneffekt) berücksichtigt. Hörtests wurden an 25 Teilnehmern durchgeführt, um den Einfluss des Re-Targeting auf die Bildschirmgröße zu untersuchen. Gemessen wurde die absolute Positionsabweichung in Bezug auf die beabsichtigte Zielposition bezogen auf den Re-Targeting-Fehler bei einer gegebenen Bildschirmgröße. Ein nicht-parametrischer statistischer Test, der auf die von den Probanden aufgezeichneten Re-Targeting-Fehler angewendet wurde, ergab, dass die Bildschirmgröße den Re-Targeting-Fehler beeinflusste. Diese Beziehung wurde durch die bloße Einführung eines visuellen Hinweises noch verstärkt. Dieses Phänomen war für die Fälle auffällig, in denen Sprache das Ziel-Audioobjekt war, das entweder binaural oder über ein Lautsprecher-Wiedergabesystem wiedergegeben wurde. Bei diesen Wiedergabesystemen war dieses Phänomen stärker ausgeprägt, wenn das Lautsprecher-Wiedergabesystem verwendet wurde.



Mahdi, Reem Haider Mahdi;
Investigation on individual differences in sound localization tasks description : study inter-individual difference in audio sound localization. - Ilmenau. - 66 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Das menschliche Wahrnehmungssystem weist vor allem im räumlichen Hören große individuelle Unterschiede auf. Untersuchungen haben individuelle Unterschiede in der Lokalisation von Hörereignissen beim Hören in realen und virtuellen Hörumgebungen ergeben. Für das Hören in realen Hörumgebungen konnten dafür individuelle Unterschiede in den akustischen Ohrsignalen verantwortlich gemacht werden. Diese Unterschiede resultieren aus den höchst individuellen kopfbezogenen Übertragungsfunktionen (HRTF). Für das Hören in virtuellen Umgebungen stehen die größeren individuellen Unterschiede im Zusammenhang mit den Unterschieden in der Wahrnehmungsempfindlichkeit bei der Analyse von nicht-individuellen oder künstlich HRTFs. Diese Unterschiede konnten nicht als vernachlässigbar oder als Messungenauigkeiten charakterisiert werden. Insbesondere führten einige dieser Hörunterschiede zu Verwirrung oder Mehrdeutigkeit in der Richtungswahrnehmung von vorne nach hinten oder oben nach unten. Einige dieser Unterschiede sind unabhängig von individuellen anthropometrischen menschlichen Merkmalen und von dem auditorischen System, das für die wird auralisierung . Die Gründe hierfür können im Bereich der Kognitionspsychologie liegen, die sich mit individueller Wahrnehmung, Aufmerksamkeit, Gedächtnis und Lernprozessen beschäftigt. Die vorliegende Arbeit untersucht individuelle Unterschiede im räumlichen Hören unter Berücksichtigung des Einflusses kognitionspsychologischer Parameter auf die individuellen Unterschiede der Schalllokalisation. Die Studie beinhaltet eine Untersuchung der Veränderung der Lokalisationsfähigkeit von 21 Hörern in zwei verschiedenen Hörversuchen hinsichtlich des auditorischen Trainingseffekts. Hierfür ist ein Hörtest zur Messung der Höhenwahrnehmung in der Medianebene beim Hören in realen und virtueller Umgebung realisiert. Das Training wird durch ein auditorisches Gedächtnisspiel mit künstlichen HRTFs durchgeführt. Dieses dient auch zur Überprüfung der akustischen Aufmerksamkeit und des Gedächtnisses des Hörers. Der sich anschließende psychologische Test beinhaltet einen McGurk Wahrnehmungstest und einen Fragebogen zur Selbstauskunft. Die Ergebnisse zeigen große individuelle Unterschiede zwischen den Teilnehmern in der Lokalisierungsleistung hinsichtlich des Test- und Signaltyps. Allerdings ist die Verbesserung der Höhenwahrnehmung nach einem auditorischen Training bei Verwendung künstlicher HRTFs und eines Sprachsignals nicht signifikant. Der Lernfortschritt korreliert teilweise mit der durchschnittlichen Lernzeit bei Verwendung künstlicher HRTFs. Die interindividuellen Unterschiede im Wahrnehmungslernen werden durch die Unterschiede in der Lernzeit, der Lernmethode und der Audioaufmerksamkeit beeinflusst. Die Unterschiede in der Hörwahrnehmung hängen nicht mit den Unterschieden in der Lokalisationsfähigkeit oder dem Lernfortschritt zusammen. Es erhöht jedoch die Vielfalt der akustischen Abhängigkeit zwischen den Individuen. Die Selbstberichterstattung über die tägliche Leistung konnte einige weitere Informationen über die Unterschiede in der Lokalisierungsleistung liefern.



Schneiderwind, Christian;
Analyse von Raumakustik in kleinen Räumen mit Hilfe von Eigenmike-Aufnahmen. - Ilmenau. - 90 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Die vorliegende Arbeit beschäftigt sich mit dem Gebiet der positionsabhängigen Raumakustik in kleinen Räumen. In diesem Rahmen wurden verschiedene Positionen innerhalb eines Konferenzraums der Technischen Universität Ilmenau auf physikalische und wahrnehmungsbezogene Unterschiede untersucht. Die Schallfeldaufzeichnung an den einzelnen Positionen erfolgte dabei mit einem sphärischen Kugelarray. Es folgte eine Untersuchung eines zweiten Beschallungsszenarios mit einer Drehung des Lautsprechers bei den Messanordnungen um 180 Grad. Aus den Messdaten ergab sich sowohl ein Vergleich der Werte der raumakustischen Parameter Direct-to-Reverberant Ratio, Early Decay Time und Initial Time Delay Gap, als auch der spektralen Zusammensetzungen. Plane Wave Decompositions erlaubten außerdem eine räumliche und zeitliche Betrachtung des Bereichs der frühen Reflexionen. Ein Hörtest diente dazu, die verschiedenen Positionen auf wahrnehmbare Klangunterschiede zu untersuchen. Dabei mussten Probanden in Paarvergleichen die Richtungslokalisation, Distanzwahrnehmung, Halligkeit, Quellbreite und Klangfarbenunterschiede bewerten. Die Auralisationen für den Hörtest basierten auf bereits vorhandenen Datensätzen von binauralen Raumimpulsantworten, die an den gleichen Positionen mit einem Kunstkopf gemessen wurden. Es konnte festgestellt werden, dass zwischen den einzelnen Positionen Klangunterschiede auftreten, die zudem stark von der Ausrichtung der Schallquelle abhängen. Das Beschallungsszenario mit gedrehtem Lautsprecher wies hierbei häufiger signifikante Unterschiede auf als die frontale Beschallung. Die wahrgenommenen Klangunterschiede konnten nur teilweise mit gemessenen physikalischen Parametern erklärt werden.



Ritter, Robin;
Entwicklung eines modellbasierten Peak-Limiters für elektrodynamische Lautsprecher. - Ilmenau. - 101 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Die vorliegende Arbeit beschäftigt sich mit der intelligenten Begrenzung der Membranauslenkung elektrodynamischer Lautsprecher. Durch diesen Schutzalgorithmus können unerwünschte Effekte wie Clipping, nichtlineare Verzerrungen und Schäden durch zu hohe Membranauslenkungen unterbunden werden, wobei die Lautheit des wiedergegebenen Audiosignals maximiert wird. Die Implementierung arbeitet mit Hilfe eines prädizierten Auslenkungssignals. Dieses Auslenkungssignal wird analysiert und anschließend frequenzabhängig auf Basis einer A-bewerteten Gewichtungskurve so korrigiert, dass die Membranauslenkung eine vorgegebene Grenze nicht überschreitet. Durch die individuelle Frequenzbandanpassung nach der A-Bewertung werden bei der Korrektur solche Frequenzen, die vom menschlichen Gehör leiser wahrgenommen werden, stärker gedämpft als solche, die lauter empfunden werden. Der Algorithmus arbeitet blockweise und berücksichtigt Attack- und Release-Zeiten. Eine Evaluation mechanischer Messungen zeigt, dass die Membranauslenkung bei Erhöhung der Eingangsspannung erfolgreich limitiert wird. Eine anschließende akustische Betrachtung führt zu der Erkenntnis, dass die frequenzabhängige Korrektur tatsächlich zu einem Anwachsen des A-bewerteten SPL-Pegels bei gleichbleibender Membranauslenkung führt.



Quintero, Christian;
Prototype implementation of content processing components for privacy-enhanced audio classification. - Ilmenau. - 120 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Heutzutage kann die Audioklassifikation in diversen Einsatzgebieten z.B. bei der akustischen Maschinenüberwachung, industriellen Qualitätskontrolle in Produktionsprozessen, akustischen Ereignisdetektion mittels Sensornetzwerken angewendet werden. Allerdings entsteht ein ernsthaftes Problem in all diesen Fällen, weil eine Aufzeichnung, Speicherung und Verarbeitung von Umgebungsgeräuschen benötigt wird, die vielleicht private Konversationen beinhalten. Sofern diese Inhalte in Besitz von nichtberechtigten Dritten gelangen, könnten die Daten zur Personenidentifikation, Enthüllung von Privatinformationen oder Firmengeheimnisse missbraucht werden. Das Transportieren, Verarbeiten und Speichern der Audioinformationen als Klardaten, kann zu Sicherheitsbrüchen und Privatsphärenverletzung durch Zugriff auf das Material von unberechtigten Dritte führen. Wichtig ist, dass die Datenschutzbestimmungen der europäischen und deutschen Gesetze eingehalten werden. Daher müssen sich die Bemühungen nicht nur auf die Signalverarbeitung, sondern auch auf den Datenschutz konzentrieren. Diese Arbeit stellt eine Inhaltsverarbeitungskomponente vor, die neuronale Netzwerke verwendet. Diese Komponente ist in der Lage den Datenschutz der Audioklassifikationsanwendungen zu verbessern und zugleich die negativen Einflüsse auf die Abbildungsleistung zu minimieren.



Tarale, Avinash;
Perception of simplified representations of a wall in a virtual acoustic environment. - Ilmenau. - 81 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Interaktive Erkundung ist auf dem Gebiet der Virtuellen Realität (VR) in jüngster Zeit zunehmend relevant geworden. Die neuen Anwendungen von VR erfordern interaktive und immersive Umgebungen. Darüber hinaus ermöglichen fortgeschrittene Tracking Geräte und Head Mounted Displays den Anwendern ein aktiveres Eintauchen und Erkunden virtueller Räume. Diese erfordern den Entwurf innovativer Anwendungen und Interaktionskonzepte. Das Erkunden virtueller Räume unter Zuhilfenahme künstlich erzeugter Geräusche könnte ein interessanter Interaktionsansatz sein. Dazu ist eine Technik erforderlich, welche die erzeugten Klänge in Echtzeit verarbeitet und ein plausibles akustisches Abbild der Szene mittels echtzeitfähiger Auralisation erzeugt. Diese Art von Interaktion kann durch Technologien wie Echoortung realisiert werden. Sie ermöglichen Menschen physikalische Hindernisse und Begebenheiten akustisch wahrzunehmen und zu orten, indem reflektierte Schallwellen analysiert werden. Studien haben bereits das Potential der menschlichen Echoortung als neue Interaktionstechnik gezeigt. Die vorliegende Arbeit handelt von der Frage, ob akustische Effekte die durch das Vorhandensein virtueller Charaktere in der Nähe von reflektierenden Oberflächen synthetisiert werden können um ein Echtzeiterlebnis zu ermöglichen. In diesem Kontext präsentiert diese Arbeit ein vereinfachtes analytisches Modell, implementiert in MATLAB, um die Impulsantwort reflektierender Oberflächen im Rahmen der Echoortung zu synthetisieren. Ein besonderes Merkmal dieses Modells ist, dass es nur dominante akustische Eigenschaften synthetisiert die zur Oberflächenortung benötigt werden. Das Modell wurde mit einem informellen Hörversuch auf seine Genauigkeit und die akustische Plausibilität hin untersucht. Ferner werden die synthetisierten Impulsantworten mit den gemessenen Impulsantworten der Wandortung verglichen. Darüber hinaus wurden Teilnehmer gebeten zwischen simulierten, gemessenen, und modellierten Datensätzen zu unterscheiden. Allerdings beantworten die Ergebnisse des Hörversuches zur Wandlokalisierung nicht alle motivierenden Fragen dieser Arbeit vollständig. Jedoch werden die Ergebnisse und Beobachtungen aus diesem Experiment ein wichtiger Schritt hin zur Entwicklung einer angemessenen Methodik für einen formalen Test sein.



Kotanayakanahalli Banashankarappa, Abhijatha;
Noise-robust speaker identification in cars. - Ilmenau. - 80 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Sprache ist eines der wichtigsten Kommunikationsmittel zwischen Mensch und Maschine im Auto. Neben der Spracherkennung ist die Sprecheridentität eine wichtige Information, die aus dem Sprachsignal extrahiert werden kann. Durch Detektieren der Sprecher könnte beispielsweise das Infotainmentsystem automatisch an ihre Präferenzen personalisiert werden und die Information könnte auch für eine sprecherabhängige Spracherkennung verwendet werden. Der Schwerpunkt dieser Arbeit liegt auf der audiobasierten Sprecheridentifikation in Fahrzeugen mit Freisprecheinrichtung. Viele verschiedene Merkmale wie Gammatone Frequency Cepstral Coefficients (GFCC), Mel-Frequency Cepstral Coefficient (MFCC), Linear Predictive Cepstral Coefficients (LPCC), Linear Prediction Coefficients (LPC) und entsprechende Delta und Delta-Delta-Merkmale werden aus den Sprachdaten zur Sprechererkennung extrahiert. Mithilfe Lineare Diskriminanzanalyse (LDA) wird die Dimensionalität der Merkmale reduziert. Gaußsche Mischmodelle werden als Klassifikator verwendet. Das System ist so implementiert, dass es in Echtzeit arbeitet. Die Sprachdaten werden von 11 verschiedenen Sprechern mithilfe der integrierten Freisprechmikrofone erfasst. Das Fahrgeräusch bei den Geschwindigkeiten 60 & 120 km/h gemessen, wird zu den Signalen addiert. Eine Klassifizierungsgenauigkeit von 99%, 99,8% und 97,7% wird im Leerlauf, 60 & 120 km/h erreicht.



Jurgeit, Kai-Peter;
Investigations on the parametric description of spatial sound fields. - Ilmenau. - 60 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Im Rahmen dieser Masterarbeit wurde ein System für die parametrische Kodierung von richtungsabhängigen Raumimpulsantworten (DRIR, engl. direcitonal room impulse response), die mit einem sphärischen Mikrofonarray gemessen wurden, entwickelt. Es basiert auf einer Zerlegung des Schallfelds in ebene Wellen und auf Signalverarbeitung im Zeit-Frequenz-Bereich. Das System soll das Schallfeld effizient und flexibel abbilden und eine immersive binaurale Wiedergabe ermöglichen. Hierfür nutzt es die Grenzen der auditven Wahrnehmung aus und bietet dem Anwender die Möglichkeit die zeitliche, spektrale und räumliche Auflösung des Systems einzustellen. Die Analyse von Direkt- und Diffusschall basiert auf einer Raum-Zeit-Energie-Matrix und linearer Regression. Die jeweiligen Direktschallanteile werden durch die Zeit und Schalleinfallsrichtung, sowie den Pegel und die Indizes der zugehörigen Subbänder (optional) repräsentiert. Der Diffusschallanteil wird durch den Achsenschnittpunkt, die Neigung und Energie der Abklingkurve dargestellt. Die Synthese der Direktschallanteile basiert auf der Generierung idealer ebener Wellen. Diffusschall wird mittels Rauschformung synthetisiert. Die Leistung des Systems wird in einem MUSHRA-Hörtest mit unterschiedlichen Kodiereinstellungen evaluiert. Die Ergebnisse des Tests ergaben, dass es keine klare Präferenz für eine bestimmte Einstellung gibt. Mehr Aussagekraft könnten Testmethoden liefern, in denen die Bewertung anhand von wahrnehmungsspezifischen Eigenschaften erfolgt, die dem räumlichen Hören direkt zuzuordnen sind. Die Implementierung des Systems veranschaulicht die Machbarkeit und das Potential von parametrischem DRIR Rendering. Es zeigt, dass der Ansatz hohe Kompressionraten und hohe Flexibilität bezüglich des Wiedergabesystems, sowie eine dynamische Auralisation ermöglichen könnte. Allerdings muss das zugrundeliegende physikalische und perzeptive Modell optimiert werden, um ein Schallfeld immersiv abbilden zu können.



Pereppadan, Anson Davis;
Plausibility of binaural walk-through-scenarios considering different simplifications. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Dynamic Binaural Synthesis oder dynamische binaurale Synthese ist ein sich noch in der Entwicklung befindliches Forschungsfeld welches sich mit der Integration der Bewegungen des Hörers in der Ebene und seiner Kopfbewegungen im virtuellen Raum virtuellen Raum befasst um ein möglichst realitätsnahen Höreindruck zu vermitteln. Das Kernelement der binauralen Synthese ist die binaurale Raumimpulsantwort, auch Binaural Room Impulse Response, oder kurz BRIR, genannt. Diese BRIR enthält alle Kopf bezogenen als auch räumlichen Informationen um eine virtuelle Schallquelle zu erzeugen. Die BRIR kann entweder durch Messungen, zum Beispiel in einem Raum, erfasst werden, oder durch Softwaresimulationen generiert werden. Die BRIRs werden dann mittels Signalfaltung bzw. Convolution mit einem Monoaudiostream gefaltet um eineperfekte Illusion einer realen Schallquelle zu erzeugen. Das in dieser Arbeit behandelte Szenario ist für eine stationäre Schallquelle. Die Struktur Der BRIRs ändert sich wenn der Hörer seinen Kopf bewegt oder sich im Raum bewegt. Um eine virtuelle Schallquelle zu erzeugen müssen die BRIRs sich dynamisch mit der Position des Hörers ändern. Während der Hörer sich bewegt erhöht sich die Anzahl der Impulsantworten welche mit einer Mindestauflösung gefaltet werden müssen deutlich. Aus diesem Grund ergibt sich die Notwendigkeit diesen Vorgang zu Vereinfachen, und Methoden zu finden um mit einer möglichst geringen Anzahl an Messungen auszukommen. Des weiteren sollten die Speicheranforderungen der Hardswaresysteme verringert werden ohne dass, dadurch die Authentizität und Qualität des Hörerlebnisses im VAE beeinträchtigt wird. Diese Arbeit versucht zwei existierende vereinfachende Methoden unter unterschiedlichen akustischen Bedingungen zu Implementieren. Bei der ersten Methode handelt es sich um eine Extrapolationsmethode. Die zweite Methode macht sich die Limitierungen unseres Gehörsinns zu Nutze. Die Referenz-BRIRs für die Simplifikationsmethode stammen von realen Messungen in einem Raum, mit einer Schallquelle vor, und einer neben dem Hörer. Ein vorläufiger Test der ersten Methode zeigt, dass es möglich ist mit der Messung von nur einer einzigen Position eine plausible Illusion der Annäherung an eine Schallquelle zu erzeugen, indem man die distanzabhängigen Parameter ändert. In der zweiten Methode ist der frühere Teil einer BRIR konkateniert mit dem späteren Teil einer anderen BRIR welche in dem selben Raum gemessen wurde. Studien zeigen, dass ab einem bestimmten Punkt der Konkatenationszeit, der als Perceptual Mixing Time bezeichnet wird, die synthetischen BRIRs ununterscheidbar von ihren Originalen werden. Verschiedene Testfälle wurden entwickelt für verschiedene Konkatenationszeiten. Eine statistische Analyse des formalen Hörtests zeigt, dass es für untersuchten Schallquellposition und Hörerpositionen in dem untersuchten Raum keine feste Perceptual Mixing Time innerhalb von 80 ms gibt.



Pälchen, Sascha;
Untersuchungen zur frequenzabhängigen Codierung sphärischer Schallfelder. - Ilmenau. - 40 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Die vorliegende Arbeit befasst sich mit dem Vergleich verschiedener Filterbänke bei der Anwendung auf simulierte sphärische Mikrofonarrays. Ziel war dabei, eine Verringerung des Rechenund Datenaufwands durch die geringere räumliche Auflösung der Arraydatenverarbeitung in den unteren Frequenzbändern. Hierzu wurden Filterbänke mit der Eigenschaft der perfekten Rekonstruktion ausgesucht, getestet und in die Datenverarbeitung von simulierten Mikrofonarrays eingebunden. Getestet wurden drei Filterbänke, MDCT, MDST und MCLT. Es wurden verschiedene Filterbankkonfigurationen sowie unterschiedliche Abstufungen der Arraydatenverarbeitung in Verbindung mit den Filterbänken untersucht und miteinander verglichen. Es wurden verschiedene Breiten der Teilbänder sowie veschiedene Anzahlen an Teilbändern untersucht, in denen die Ordnung der Arraydatenverarbeitung verringert wurde. Die Ergebnisse dieser Untersuchungen wurden anhand von Hörtests evaluiert. Dabei konnte gezeigt werden, dass sich zwei der getesteten Filterbänke (MDST und MCLT) für die Optimierung der Arraydatenverarbeitung und somit zur frequenzabhängigen Codierung spärischer Schallfelder eignen. Die dritte Filterbank (MDCT) eignet sich ohne eine zusätzliche Behandlung des Imaginärteils der Signale nicht für eine Anwendung auf sphärische Schallfeldverarbeitung. Zudem konnten vorhandene Artefakte zwar verringert, jedoch nicht gänzlich beseitigt werden. Dies sollte Gegenstand weiterer Forschungen sein.



Gomez Cañon, Juan Sebastian;
Automatic instrument recognition using deep convolutional neural networks. - Ilmenau. - 74 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Im Kontext digitaler Medien und neuer Klassifizierungs- / Indizierungsanforderungen gewinnt die Aufgabe der automatischen Instrumentenerkennung im Bereich des Music Information Retrieval (MIR) zunehmend an Bedeutung. Mit Hilfe von Deep-Learning-Methoden wie Convolutional Neural Networks (CNN) und verschiedenen automatischen Quellenseparationsalgorithmen, die am Fraunhofer Institut für Digitale Medientechnologie (IDMT) entwickelt wurden, untersucht diese Masterarbeit, wie die Leistungsfähigkeit der Klassificationsalgorithmen der Erkennungsaufgabe durch unterschiedliche Vorverarbeitungsstufen verbessert werden kann. Mehrere Experimente wurden durchgeführt, um die Ergebnisse der Forschung Han et al. reproduzieren und verbessern zu können. Im Rahmen dieser Forschung werden zwei Systeme vorgeschlagen: ein verbessertes System, das auf einen harmonic / percussive Separationsalgorithmus sowie Nachbearbeitung durch Klassenweise Entscheidungsschwellwerte aufbaut und ein kombiniertes System, das einen solo / accompaniment-Separationalgorithmus und Transfer Learning für den speziellen Anwendungsfall der Erkennung von Soloinstrumenten in Jazzaufnahmen verwendet. Für die Validierung der Ergebnisse wurden verschiedene Tests mit mehreren Musikdatensätzen mit unterschiedlicher Komplexität und Instrumentenauswahl durchgeführt.



Voroshilov, Aleksei;
Towards profiting learning analytics with data logging concepts. - Ilmenau. - 95 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

In den letzten Jahrzehnten wurden in vielen Studien und Untersuchungen Fragen zu Learning Analytics (LA) und Educational Data Mining (EDM) aufgeworfen. Die Vorstellung, wie moderne Technologien und Praktiken die Leistungen der Lerner auf der Grundlage ihrer Interaktion mit Technology Enhanced Learning (TEL) verbessern könnten, ist ein vielversprechender Ansatz für eine gemischte und vollständig digitale Bildung in der Zukunft. Diese Arbeit zielt darauf ab, LA-Techniken auf die Aktivitätsprotokolle der Studenten im Rahmen des ELIXIER-Projekts anzuwenden, die vom Fraunhofer IDMT entwickelt wurden, um nützliche Verhaltensmuster zu finden und später zukünftige Leistungen von Schülern vorhersagen zu können. Der erste Teil dieser Arbeit stellt den allgemeinen Ansatz und die Aufgaben von Learning Analytics und Educational Data Mining vor und beschreibt die derzeit verwendeten LA-Methoden. Der zweite Teil enthält eine Beschreibung der S2L-Systeme und des Projekts ELIXIER und stellt ebenfalls die Herausforderungen der Implementierung der LA-Methoden vor. Im Teil drei werden der Algorithmus der LA-Methodenimplementierung und die Ergebnisse aufgezeigt sowie ein Vergleich der Vorhersagegenauigkeiten verschiedener Methoden beschrieben. Auf der Grundlage der Ergebnisse dieser Forschung kann geschlossen werden, dass das LA-Konzept in eines der Experimente (Water Boiling) des ELIXIER-Projekts implementiert werden kann. Da sich die Parameter der Experimente jedoch unterscheiden und erweiterbar sein können, könnte die Entwicklung einer universellen Methode, die auf andere Parameter angewendet werden kann, Gegenstand zukünftiger Untersuchungen werden.



Al-Janabi, Nawres;
Interactive exploration of a virtual auditory environment using self-created sounds. - Ilmenau. - 90 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Interaktive Erkundung im Bereich der virtuellen Realität ist in dieser Zeit sehr beliebt geworden. Insbesondere, weil die Ortungsgeräte eine genaue Verfolgung der Position und Orientierung sogar Zuhause ermöglichen. Eine Erhöhung der Interaktivität verbessert die Immersion. Dieses Feld wird nicht nur in der Spiele-, sondern auch in der Seriennutzung wie Industrie-Inhalten und Bildung eingesetzt. Mehrere Studien haben die Interaktion mit der virtuellen Umgebung durch menschliche Echoortung genutzt. Darüber hinaus kann es für die Blinden und Sehende für die Orientierung verwendet werden. Dieses Projekt untersucht die menschliche Echoortung in einer virtuellen akustischen Umgebungen (VAEs). Zusätzlich untersucht dieses Projekt die Fähigkeit des Zuhörers, eine virtuelle Wand in der horizontalen Ebene zu lokalisieren und die Entfernung zu dieser Wand durch akustische Signale zu schätzen. Außerdem soll die Wirkung der drei komplexen Umgebungen in verschiedenen Abständen zur Wand betrachtet werden. Zudem wurde eine dynamische Binauralsynthese basierend auf gemessenen und simulierten oralen binauralen Raumimpulsantworten (OBRIRs) verwendet. Damit wurde die Interaktion von Eigenbewegung mit Echoortung untersucht.



Böhme, Martina;
Residual echo and interference estimation for acoustic echo cancellation. - Ilmenau. - 58 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

In Freisprecheinrichtungen bestehend aus einem oder mehreren Lautsprechern und einem oder mehreren Mikrofonen enthält das vom Mikrofon erfasste Signal nicht nur das gewünschte Sprachsignal plus Hintergrundgeräusche, sondern auch akustische Echos, die durch die Kopplung zwischen den Lautsprechern und den Mikrofonen verursacht werden. Um diese elektroakustische Kopplung zu reduzieren, wird akustische Echoauslöschung (AEC) und/oder -unterdrückung (AES) verwendet. In AEC wird die akustische Impulsantwort zwischen jedem der Lautsprecher und dem Mikrofon adaptiv geschätzt. Diese Impulsantworten werden verwendet, um die akustischen Echos aus dem Mikrofonsignal zu schätzen und zu subtrahieren. In der Praxis verbleiben Restechos aufgrund von i) Fehlanpassung zwischen den wahren und den geschätzten Echosignalen, ii) der ungenügenden Länge des geschätzten akustischen Echopfades und iii) Nichtlinearitäten in den akustischen Echopfaden. In dieser Arbeit konzentrieren wir uns auf die Schätzung des Echosignals, das durch das adaptive Filter mit unzureichender Länge verursacht wird, hier als Late-Residual-Echo (LRE) bezeichnet. Um akustische Echos und andere Störsignale, wie z. B. Hintergrundrauschen, zu eliminieren, muss ein Postfilter auf das Ausgangssignal des Echokompensators angewendet werden. Um dieses Postfilter zu berechnen, müssen zuerst die oben erwähnten unerwünschten Signalkomponenten geschätzt werden. In der Literatur existieren verschiedene Ansätze zur Schätzung von LREs, die in kanalbasierte Ansätze und signalbasierte Ansätze unterteilt werden können. In dieser Arbeit soll ein signal-basierter Ansatz hergeleitet werden, bei dem die Modellparameter mit nur einer Kostenfunktion gewonnen werden können. Zu diesem Zweck wurden die Modellparameter unter Verwendung der Maximum Likelihood (ML) Schätzung berechnet. Die resultierende Schätzung des LRE wurde in einem einfachen Postfilter für Residual Echo Reduction (RES) implementiert. Schließlich wurde die Leistung des Schätzers hinsichtlich der Signalverzerrung und der LRE-Reduktion untersucht.



Bhattarai, Bibek Chandra;
Binaural auralization of virtual room acoustics. - Ilmenau. - 90 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

The binaural audio is a technique which has developed drastically in the recent years of time. The improved signal processing techniques and real time rendering techniques has increased the quality of binaural audio into new heights. A many portable devices, music players, smart phones and gaming console use the binaural audio technology. A. recent breakthrough has been made in complex studies such as spatial cognition through this advancement in the binaural audio. To initiate all the new research and complex studies, it is very necessary to choose the suitable HRTFs for the listener. HRTFs selection is a major task which should be carefully conducted. HRTFs can be chosen from the identified databases, personalizes databases or individually measured database. Here, in this thesis we choose five different attributes ( coloration, elevation, externalization, position and realism) for describing the auditive differences between various HRTFs in various simulation environment. We conducted an listening tests to compare these attributes in different simulation setup. After the listening tests we found that various attributes had changed with different scenes for different HRTFs. The HRTFs, large pinna and normal pinna are from same HRTFs database so they exhibits less variations than inter-database HRTFs because of acquisition protocol.



Kuntze, Mathias;
Bestimmung der Videoqualität mittels Neuronaler Netze. - Ilmenau. - 89 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Die rasante Entwicklung von Videostreaming in n High Definition (HD) und Ultra High Definition (UHD) sorgt für immer höher werdende Anforderungen an Speicher und Übertragungsbandbreite. Neue Komprimierungsverfahren wirken dem entgegen. Allerdings geht damit häufig ein Verlust der Videoqualität einher. Die subjektive Bestimmung der Videoqualität ist bis jetzt nur durch Menschen möglich. Diese Arbeit beschäftigt sich mit nicht referenzbasierenden Verfahren, welche zur Bestimmung von Videoqualität neuronale Netze verwenden. Dabei sollen sie möglichst stark mit der menschlichen Wahrnehmung korrelieren. Zunächst wird auf aktuelle Forschungen eingegangen. Im Speziellen werden Verfahren vorgestellt, die maschinelles Lernen zur Bestimmung der Qualität in Bildern nutzen. In Ermangelung adäquater Forschungen im Videobereich wird versucht, die Verfahren zur Bestimmung von Bildqualität in diesem Bereich anzuwenden. Daraus werden zwei Ansätze abgeleitet: Pixelbasierter und merkmalsbasierter Ansatz. Der pixelbasierte Ansatz verwendet Convolutional Neural Networks (CNNs) zur Extraktion von Merkmalen und der darauf folgenden Bestimmung der Qualität. Für den merkmalbasierten Ansatz werden zuerst Merkmale extrahiert. Das neuronale Netz bestimmt nur die Qualität aus diesen Merkmalvektoren. In der vorliegenden Arbeit werden verschiedene Architekturen der beiden Ansätze implementiert und evaluiert. Für den merkmalsbasierten Ansatz fanden die Merkmale von Jiang et al und Mittal et al Anwendung. Die verschiedenen Architekturen und beide Ansätze werden mit zwei unterschiedlichen Datensätzen evaluiert. Der Datensatz VQEGHD enthält 712 Videos dessen Qualität hauptsächlich durch die Kodierung mit verschiedenen Bitraten reduziert wurde. Der größere Datensatz KoNViD-1k umfasst 1.200 natürliche Videos. Die Qualitätsunterschiede entstehen durch eine ungünstige Videografie und daraus resultierenden Artefakte (Rauschen, Unschärfe u.ä.). Für die Evaluierung wurde ein komplexes Framework in Python implementiert. So konnten verschiedene Architekturen modelliert und trainiert werden. Die getesteten Verfahren blieben hinter den Erwartungen zurück. Dabei erreichten die merkmalsbasierten Verfahren die höchsten Korrelation mit der menschlichen Wahrnehmung. Diese bilden eine gute Basis für weitere Forschungen. Das entwickelte Framework stellt dafür ein wichtiges Werkzeug dar.



Mutashar, Hayder Majid;
Wideband antennas with optimized impulse behavior. - Ilmenau. - 96 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Das traditionelle Design der Antenne basiert auf der stationären Analyse, basierend auf der Anregung durch Sinuswellen. Dies führt zu Designkriterien wie Antennengewinn, Richtdiagramm und Rückflussdämpfung. Diese Verfahren erlauben jedoch selten eine Erklärung des internen Ausbreitungsverhaltens der Antenne. Die Simulationein der Zeitdomäne ermöglichen dagegen einen Einblick in die inneren Vorgänge der Antenne da kurze Anregungssignale verwendet werden. Dadurch wird es möglich, die Wirkungsweise der Antenne besser zu verstehen. Der Schwerpunkt dieser Masterarbeit betrifft Aspekte eines neuen Ultra-Wideband-Antennendesigns aus der Vivaldi-Antennenfamilie. Durch die Bestimmung der Abklingzeit, die zu den Zeitdomänenmerkmalen gehört, wurde die Schwingneigung einer Antenne untersucht. Im Ergebnis der Arbeit entstand eine neue Vivaldi Antenne - genannt Ring-Vivaldi, die über eine kurze Impulsantwort mit schnellem Abfall der Eigenschwingung verfügt. Die Antenne ist für ein 1 mm dickes FR4-Substrat ausgelegt und wird über einen 50 SMA-Stecker gespeist.



Benjamin, Aravindan;
Psychoacoustic evaluation of binaural auralization of virtual room acoustics. - Ilmenau. - 200 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Auditory Virtual Environments (AVEs) sind ein beliebtes Forschungsgebiet geworden. Ermöglicht wird dies durch moderne Hardware mit der Fähigkeit auch komplexe Berechnungen wie zum Beispiel für VR Anwendungen effizient zu berechnen. Mittlerweile wurden zahlreiche Ray Based Modelling Algorithmen entwickelt und an Modelle der Raumakustik von virtuellen Umgebungen angepasst um die Qualität von fully-computed aurelization (voll berechneter Auralisierung) der virtullen Räume zu erweitern. Ob nun die Nutzung eines einzelnen solchen Algorithmus oder die gemeinsame Verwendung einer Anzahl solcher Algorithmen die Fähigkeit hat die meisten oder vielleicht sogar alle komplexen Phänomene, welche realistische Schallfelder in nachhallenden (reverberant) Räumen bestimmen, ist eine strittige Frage. Nitchtsdestotrotz, ist es für die Forschung immer noch von großem Interesse herauszufinden wie die Qualität der binauralen Auralisierung von den Verfahren mit welchen die voll computerisierte Auralisierung von Räumen realisiert wird beeinflusst. Um dies zu erforschen werden als Teil dieser Masterabschlußarbeit zwei Ansätze implementiert. Diese Ansätze unterscheiden sich in den Techniken und Konventionen, die sie benutzen um eine Menge an HRTFs, die um ein sphärisches Gitter gemessen wurden, zu integrieren, um die binauralen Raumimpulsantworten (Binaural Room Impulse Respones - BRIRs) eines Shoe-Box Models eines leeren, virtuellen Raumes zu evaluieren. Diese beiden Ansätze, in welchen der erste ein Benchmark-Ansatz ist und ein zweiter ein neuer Vorschlag ist, werden in dieser Arbeit verglichen. Zu diesem Zweck wurden mehrere Szenen von kleinen, nachhallenden und trockenen Raummodellen (der Dimensionen 5 m X 4 m X 2,5 m) mithilfe des frei verfügbaren, auf MATLAB basierenden, MCRoomSim Raumakkustikmodellierungstool für eine volle Rotation um eine gegebene Position simuliert. Eine Menge Nahfeld-HRTFs gemessen mit aus einer Entfernung von 0.5 Metern von der Schallquelle und, äquivalenten Fernfeld HRFTs, sind in die Simulationen einbezogen worden um die BRIRs zu evaluieren. Beide diese Mengen von HRTF wurden um ein spärisches 2702 Punkt Lebedev Gitter auf einem Georg Neumann KU100 Kunstkopf gemessen. Die simulierten Szenen wurden dann unter der Benutzung einer Head Tracking basierten dynamischen Preäsentation realisiert. Ein Hörtest an 15 Teilnehmern wurde durchgeführt, um jegliche hörbare Unterschiede zwischen den Raumauralesierungen dieser zwei Ansätze zu ermitteln und sie in die erwähnten HRTFs einzubeziehen. Quantitative und qualitative Analysen an den im Hörtest ermittelten Daten wurden durchgeführt und werden hier präsentiert, um eine wissenschaftliche Schlussfogerung zu der Investigation zu erreichen.



Dannehl, Jill;
Detektion von Blenden in Videos. - Ilmenau. - 108 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Durch die Zunahme der Videoproduktion ist in Videoarchiven eine große Menge an Daten vorhanden; dies erschwert die Suche nach Elementen in einem Archiv erheblich. Ein Ansatz zur Verbesserung der Suchgeschwindigkeit ist der Vergleich von Videos durch eine begrenzte Anzahl von Keyframes. Für die Keyframe-Extraktion benötigt es zunächst eine zeitliche Segmentierung des Videos in Shots. Während die Detektion von harten Schnitten oft hervorragende Ergebnisse liefern, ist bei der Detektion von weichen Schnitten (Blenden) noch Forschungsbedarf vorhanden. Die unterschiedlichen Darstellungsformen und langsame Veränderung des Bildinhaltes bei Blenden führen häufig zu Fehlinterpretation. Ziel dieser vorliegenden Masterarbeit ist die Untersuchung von vier Verfahren zur Detektion von weichen Schnitten. Hierzu sind zunächst die Grundlagen für die Bildverarbeitung, der aktuelle Stand der Technik bzgl. der Shot Boundary Detektion und die Verfahrensweise der Evaluierung erarbeitet worden. Darüber hinaus wurde der vorhanden Datensatz der TRECVID auf seine Eignung untersucht und um einen synthetischen Datensatz erweitert. Besonders vielversprechende Verfahren wurden durch die Abwägung verschiedener Kriterien ausgesucht und im Anschluss umgesetzt und miteinander verglichen. Die Ergebnisse sollen verdeutlichen, wie geeignet die Verfahren zur zeitlichen Segmentierung sind. Des Weiteren geben die Optimierungsvorschläge der Verfahren und der Ausblick Anstoß für weitere Forschungsarbeiten in dieser Thematik.



Brocks, Tobias;
Modellentwicklung für die Temperaturprädiktion eines elektrodynamischen Lautsprechers. - Ilmenau. - 103 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Diese Arbeit stellt ein neuartiges Verfahren vor, um die Erwärmung von Lautsprechern zu prädizieren. Die Erwärmung von Lautsprechern kann neben Leistungseinbußen auch zur Beschädigung des Lautsprechers, oder, im Fall von sehr kompakten Geräten wie Mobiltelefonen, auch zur Beschädigung umliegender Komponenten führen. Wissen über die Entwicklung der Schwingspulentemperatur kann hier dabei helfen, effektiv entgegenzusteuern und so den Wirkungsgrad, den Klang und die Betriebssicherheit eines Lautsprechers zu verbessern. Die Mechanismen des Wärmeaustausches im Lautsprecher werden in dieser Arbeit betrachtet und die Methoden der thermischen Modellierung eines Lautsprechers werden an einem Beispiel aus der Literatur gezeigt. Für jede Modellbildung bedarf es präziser Daten als Grundlage. Verschiedene Methoden, die Lautsprechertemperatur zu messen, werden vorgestellt und kategorisiert. Anforderungen an ein Temperatur-Messsystem werden formuliert. Um diese Anforderungen zu erfüllen wird eine neuartige Messanordnung vorgestellt, die es erlaubt, die Schwingspulentemperatur während der Wiedergabe von Signalen jeglicher Art zu messen. Die Messung basiert auf dem Gleichstromwiderstand der Schwingspule und baut auf der Wheatstoneschen Messbrücke auf, wird jedoch um aktive analoge Komponenten erweitert. Die Qualität der Messung wird durch Vergleichsmessungen mit einem Infrarotthermometer und durch theoretische Betrachtung der Fehlerquellen evaluiert. Mit den gemessenen Daten wird ein künstliches neuronales Netzwerk trainiert. Dieses ist, um die Zeitkonstanten von Lautsprechern zu erfassen, mit einem "Temperaturgedächtnis" ausgestattet. Die prädizierten Ergebnisse werden mit einem gängigen linearen Modell dritter Ordnung aus der Literatur verglichen. Dabei zeigt sich, dass die Temperaturprädiktion am Lautsprecher mit maschinellem Lernen möglich ist, aber noch weiterer Forschung bedarf.



Ji, Zhiyang;
Erkennen von Bildähnlichkeiten mittels neuronaler Netze am Beispiel von Gebäuden. - Ilmenau. - 85 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

In den letzten Jahren findet die Hashfunktion immer mehr Anwendungen beim Bildretrieval im großen Maßstab, welches eine große Herausforderung stellt. Die alten Methoden basieren meistens auf lokale Features. Die Extraktion der lokalen Features und hochdimensionale Datenverarbeitung brauchen zu viel Zeit, sodass die Verwendung der handgefertigten Features bei der Bildsuche die Erkennungsleistung begrenzt. Zugleich entwickelte sich Deep Learning blitzschnell, das über eine hervorragende Lernfähigkeit der Features von den Daten verfügt. Deep Learning bildet die Grundlage für einige Methoden, die auch die Hashtechnologie kombinieren können. Die Verwendung der Hashtechnologie beschleunigt stark die Geschwindigkeit der Bildsuche und die meisten Methoden haben gute Ergebnisse erzielt. Ziel dieser Masterarbeit ist, dasselbe Gebäude im Bild möglichst wie genau zu identifizieren. In dieser Masterarbeit wurden lokale Features und verschiedene tiefe Faltungsnetze zur Erkennung der Gebäudeähnlichkeit sowie deren Anwendungsmöglichkeiten zur Optimierung der Rechercheergebnisse untersucht. Danach wurden unterschiedliche Datensätze für die Evaluation aufgestellt und die Tests wurden zur Überprüfung der Wirksamkeit des Systems durchgeführt. Neben einer ausführlichen Analyse werden Möglichkeiten evaluiert, die Erkennungsleistung verbessern zu können.



Fischer, Georg;
Untersuchungen zur Anwendung von Beamforming in Flachlautsprechern unter Berücksichtigung von Raumreflexionen. - Ilmenau. - 83 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

In dieser Arbeit wurde untersucht, inwieweit Beamforming mit Flächen-Arrays umgesetzt werden kann und ob sich dadurch Vorteile gegenüber Linien-Arrays ergeben. Im Vordergrund stand die Frage ob durch die Bündelung des Schalls in einer zusätzlichen Dimension weniger störende Reflexionen entstehen. Hierfür wurde neben einfachen Delay-and-Sum-Beamformern auch ein optimierungsbasierter Ansatz von Linien- auf Flächen-Arrays erweitert. Bei der Erweiterung wurden zwei verschiedene Methoden betrachtet: Eine erweitert die Optimierungsparameter um eine weitere Dimension, die zweite zerlegt das Array in mehrere Linien und optimiert Linien-Weise. Diese verschiedenen Verfahren wurden anhand ihrer simulierten und gemessenen Richtcharakteristiken evaluiert. Abschließend wurde das Verhalten eines Linien- und eines Flächen-Arrays unter gezielten raumakustischen Bedingungen verglichen. Dazu wurden im reflexionsarmen Raum gezielt Reflektoren angebracht und die Raumimpulsantworten an verschiedenen Positionen verglichen. Es stellte sich heraus, dass die Vorteile des Flächen-Arrays in einfachen Reflexionsumgebungen deutlich werden. In komplexen akustischen Umgebungen, stellt sich das Flächen-Array zwar noch als besser heraus, jedoch sind die Unterschiede zum Linien-Array hier geringer.



Rekitt, Martin;
Virtuelle Akustische Umgebung für Hörgeräte. - Ilmenau. - 92 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Das menschliche Gehör ist in der Lage, dreidimensionale Schallquellen in komplexen akustischen Szenen zu lokalisieren. Im Falle eines Hörverlustes ist diese Fähigkeit stark eingeschränkt. Moderne Hörgeräte können die Auswirkungen der Schädigung des auditiven Systems verringern, jedoch nicht vollständig kompensieren. Positionierung und technische Ausstattung beeinflussen die Wahrnehmung. Ziel dieser Arbeit ist die Entwicklung und Evaluierung einer virtuellen akustischen Umgebung für Hörgeräte unter Verwendung der Binauralsynthese. Innerhalb des Systems soll der Einfluss auf die Lokalisationsfähigkeit untersucht werden. Im ersten Schritt wurden binaurale Hörgerätübertragungsfunktionen (HATF's) gemessen und weiterverarbeitet. Dazu diente jeweils ein omnidirektional empfindliches Mikrofon zweier bilateral ausgestatteter Hinter-dem-Ohr Systeme der Spezialgattung RITE (Right-In-The-Ear). Außerdem erfolgte die Messung von binauralen Raumimpulsantworten mit Kunstkopf. Die Resultate der zwei Aufnahmemethoden werden dargestellt und miteinander verglichen. Die Konzeption und Durchführung eines Hörtests bildete den nächsten Schritt. Darin wurde die Wahrnehmung auf die Paramter Externalisation, Vorn-Hinten-Vertauschung, Distanz- und Elevationsfehler untersucht. Die Wiedergabe der Signale erfolgte sowohl mit Kunstkopf als auch mit Hörgeräten. Die Ergebnisse der beiden Aufnahmemethoden zeigten nur geringe Unterschiede bezüglich der Externalisation und der Distanzfehler. Vorn-Hinten-Vertauschungen und Elevationsfehler traten bei der Nutzung der HATF's häufiger auf. Die Überbrückung der Ohrmuschel führte zu einer Verschlechterung der Lokalisationsfähigkeit. In Bezug auf die beiden Wiedergabemethoden ergaben sich nur geringe Differenzen. Die begrenzte Bandbreite der Hörgeräte hatte kaum Einfluss auf die Wahrnehmung. Die in dieser Arbeit entwickelte virtuelle Umgebung ermöglichte eine effiziente Untersuchung der Hörgeräte.



Schaab, Maximilian;
Psychoakustische Bewertung von privaten Hörzonen. - Ilmenau. - 119 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

In vielen Szenarien ist es wünschenswert Audioinhalte räumlich zu begrenzen, sodass im Idealfall mehrere Programme simultan in einem Raum ohne akustische Trennelemente erzeugt werden können, ohne dass sich diese gegenseitig beeinflussen. Mit dieser Thematik befasst sich die Entwicklung von Systemen zur Erzeugung "privater Hörzonen". Idealerweise ist das Programm in der jeweiligen Hörzone komplett, außerhalb hingegen überhaupt nicht hörbar. In der Realität sind diesen Systemen jedoch physikalische Grenzen gesetzt, sodass gerade bei der simultanen Erzeugung mehrerer Hörzonen auf kleinem Raum mit teils erheblichem Übersprechen benachbarter Hörzonen gerechnet werden muss. Neben physikalischen Metriken zur Bestimmung des Ausmaßes dieser Interferenzen, wie der Messung einfacher Schalldruckpegel, können allein anhand dessen keine Aussagen über die vom Nutzer tatsächlich wahrgenommene Beeinträchtigung gemacht werden. Im Laufe der Arbeit wird gezeigt, dass es einen programmabhängigen, pegelmäßigen Schwellwert der Interferenzen gibt, der das Hörerlebnis subjektiv in akzeptabel bzw. nicht-akzeptabel teilt (Akzeptanzschwelle). Untersuchungen diesbezüglich geben Aufschluss über verschiedene Einflussfaktoren, welche die Lagen der Akzeptanzschwellen in einem privaten Hörzonen-Szenario beeinflussen. Zudem wird ein prädiktives Modell ermittelt, welches Vorhersagen über die Akzeptanzschwellwerte zulässt. In einem weiteren Hörversuch wird der These nachgegangen, ob starke Ähnlichkeiten der Programme zweier benachbarter Hörzonen zu verhältnismäßig mehr störenden Interferenzen und somit zu weniger akzeptablen Hörszenarien führen. Dazu wird der Fokus auf die Instrumentierungen von Musikinhalten gelegt, die mittels privater Hörzonen reproduziert werden. Zwar zeigen sich für gewisse Instrumente diesbezüglich erste Tendenzen. Dennoch implizieren die Ergebnisse, dass das abgefragte Attribut für den Beleg der These ungeeignet ist.



Krieg, Kevin;
Bereitstellung und Evaluierung der E-Assessment Anwendung askMe!. - Ilmenau. - 156 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Der Inhalt dieser Masterarbeit beschreibt den unterstützenden Einsatz und die Evaluierung der am Fraunhofer IDMT entwickelten E-Assessment Anwendung "askMe!" in zwei Bildungszentren, in denen sich Testgruppen auf eine fachtheoretische Prüfung vorbereiten müssen. Zunächst werden die individuellen Rahmenbedingungen der Lernenden durch Expertenbefragungen analysiert und demnach entsprechende Anpassungen bis zur jeweiligen Bereitstellung des Systems vorgenommen. Nach der multimedial-interaktiven Aufbereitung eines vorhandenen Fragenkatalogs aus dem jeweiligen Bildungszentrum, unter anderem durch den Einsatz einer Software zur Prototypen-Entwicklung, wird das eingesetzte System abschließend anhand der Nutzungserlebnisse der Testgruppen mit Hilfe von quantitativen und qualitativen Datenerhebungen evaluiert. Aus den erhobenen und statistisch ausgewerteten Daten resultiert wertvolles Verbesserungspotential für das askMe! System, welches durch entsprechend ausgearbeitete Handlungsempfehlungen dokumentiert wird. In einem abschließenden und aktuellen Systemvergleich werden bereits umgesetzte Verbesserungsvorschläge sowie Handlungsempfehlungen für das eingesetzte E-Assessment aufgezeigt. Die Ergebnisse dieser Arbeit weisen vor allem auf eine notwendige Optimierung der aktuellen Performance des Systems hin. Ebenso stehen einige Funktionalitäten und Darstellungen im Fokus, die nutzerzentrierter verbessert werden sollten. Bei Berücksichtigung und Umsetzung der dokumentierten Empfehlungen wird für die Lernenden ein motivierendes und ungestörtes Lernszenario geschaffen, in dem sie einen maximalen Lernerfolg erzielen können.



Wolf, Maximilian;
Prädiktion des Verhaltens elektrodynamischer Lautsprecher im nichtlinearen Arbeitsbereich. - Ilmenau. - 155 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Elektrodynamische Lautsprecher verhalten sich bei großen Membranauslenkungen zunehmend nichtlinear. Die unerwünschten nichtlinearen Verzerrungsprodukte schränken den nutzbaren Leistungsbereich ein. Durch eine Vorverzerrung des Eingangssignals ist es möglich, das nichtlineare Verhalten eines Lautsprechers zu kompensieren und die auftretenden hörbaren Verzerrungen zu reduzieren. Dafür übliche Feedforward-Verfahren benötigen eine möglichst genaue Prädiktion beispielsweise der Membranauslenkung, um darauf aufbauend ein wirksames Kompensationssignal zu berechnen. Basierend auf einem elektromechanischen Ersatzschaltbild kann das aus einer angelegten Eingangsspannung resultierende mechanische Lautsprecherverhalten modelliert werden. Diese Arbeit stellt ein elektromechanisches Zustandsraummodell vor, welches um die Viskoelastizität der Membranaufhängung erweitert wurde und das mechanische Verhalten der Lautsprechermembran bei tiefen Frequenzen besser abbildet, als ein Standardmodell aus der Literatur. Außerdem entwickelt diese Arbeit ein Verfahren, bei dem anhand eines Neuronalen Netzes die Membranauslenkung x(t) und die Membranschnelle v(t) geschätzt wird. Für das Training des Neuronalen Netzwerkes wird ein Datensatz bestehend aus Spannungs-, Strom-, und Membranschnellemessungen benötigt. Die Erhebung des Datensatzes mittels Laservibrometrie und die folgende Bearbeitung der Daten wird ausführlich beschrieben. Die realen Schnelle- und Auslenkungssignale werden mit der Prädiktion der Lautsprechermodelle verglichen und anhand einer statistischen Auswertung eines Evaluationsdatensatzes werden die Modelle hinsichtlich ihrer Vorhersagegenauigkeit und ihres Fehlers gegenübergestellt. Aufbauend auf einer erfolgreichen Prädiktion der Membranschnelle wird ein Verfahren entwickelt, mit dem die bei einer Anregung mit einem Einzelsinuston entstehenden harmonischen Verzerrungen reduziert werden. Die Reduktion des Klirrfaktors wird im Schalldruck durch akustische Messungen nachgewiesen.



Kyosev, Vasil;
Development and evaluation of an experience sampling method application for the game HOPSCOTCH. - Ilmenau. - 108 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

In den letzten Jahrzehnten wurde die Experience-Sampling-Methode (ESM) in verschiedenartige Studien diverser Bereiche implementiert. Einer der am geringsten untersuchten Bereiche ist die Implementierung der Methode zum Zweck der Einschätzung des Benutzererlebnisses in Computerspielen. Diese Masterarbeit hat zum Ziel, festzustellen, ob die ESM im Rahmen eines existierenden von Fraunhofer IDMT entwickelten HOPSCOTCH-Spieles angewandt werden kann. Der erste Teil dieser Arbeit stellt Ergebnisse eines Literaturüberblicks über die Einschätzung des Spielerlebnisses und der ESM dar. Der zweite Teil zeigt die praktische Implementierung der ESM in das HOPSCOTCH-Spiel zur Einschätzung der Wahrnehmung des Spielerlebnisses. An der gegenwärtigen Studie haben dreizehn Studienteilnehmer teilgenommen. Sie wurden in sieben Gruppen aufgeteilt. Die Funktionalität und die Anwendbarkeit der ESM wurden mittels eines zusätzlichen Fragebogens eingeschätzt. Aufgrund der Ergebnisse dieser Studie kann festgestellt werden, dass die ESM in das HOPSCOTCH-Spiel implementiert werden kann. Zudem haben eine funktionale Durchführung und deren Analyse stattgefunden. Zum Zweck einer Verbesserung der bisher erfolgreichen Implementierung der ESM kann eine weitere Analyse zur Integration von Ton oder anderen Signalarten vorgenommen werden. Des Weiteren könnte eine Untersuchung hinsichtlich der Möglichkeiten zur Verringerung der durch die ESM-Fragen entstandenen Spielunterbrechungen und dadurch verursachte Störung bei den Teilnehmern im Laufe des Spielens vorgenommen werden. Zusätzlich kann die grafische Benutzeroberfläche zum Programmieren so optimiert werden, Forschern und deren Assistenten, die über keine Fähigkeiten im Programmieren verfügen, zu ermöglichen, künftige Studien durchzuführen.



Gotsch, Marcel;
Detektion von Key-Frames in editierten Videosequenzen zur Unterstützung von Video-Matching. - Ilmenau. - 62 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Der rapide Fortschritt in Computer- und Videotechnik führt zu einem massiven Wachstum von Videodatenbanken. Dies erfordert neue Methoden zur Durchsuchung, Archivierung und Speicherung und hat damit die Forschung zum Thema Videoabstraktion stark vorangetrieben. Bei der Abstraktion werden Zusammenfassungen für Videos erzeugt, welche aus einer Folge von unabhängigen Bildern (Key-Frames) oder einem kurzen Zusammenschnitt (Video-Skim) bestehen können. Der Fokus dieser Arbeit liegt auf der Extraktion von Key-Frames zur Unterstützung der inhaltsbasierte Suche nach Videosegmenten innerhalb einer Videodatenbank. Dabei ist das Ziel möglichst viele Redundanzen aus den Videos zu entfernen, um weniger Frames miteinander vergleichen zu müssen. Weiterhin soll die Genauigkeit der Suche, durch die Auswahl gezielter Frames, erhöht werden. In dieser Arbeit wird dazu ein grober Überblick über verschiedene Verfahren aus anderen Arbeiten gegeben, ausgewählte Ansätze prototypisch umgesetzt und miteinander verglichen.



Knoop, Niklas;
Orientierung in einem virtuellen Raum mit beweglichem Avatar. - 93 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

Das Erschaffen eines räumlich wirkenden Hörerlebnisses ist ein bedeutendes Forschungsziel, nicht nur aufgrund der aktuellen Weiterentwicklung und steigenden Verbreitung der VR-Technologie ("Virtual Reality"). Mit der Binauralsynthese ist es möglich, virtuelle Quellen beliebiger Distanz und Richtung zu erzeugen. Dabei werden binaurale Raumimpulsantworten (BRIRs) mit dem gewünschten Audiomaterial kombiniert. Als Resultat entsteht ein dreidimensionales Szenario, welches auch als "Virtual Auditory Environmen" (VAE) bezeichnet wird. Erweitert mit einem System zur Positionserkennung ("Tracking") kann eine Bewegung des Hörenden bzw. seines digitalen Avatars durch diesen simulierten Raum stattfinden. Diese Arbeit befasst sich mit der Untersuchung der Plausibilität in mehreren solcher positionsdynamischen VAEs. Zu diesem Zweck wurde ein eigenes System mithilfe der Programmiersprache Python entwickelt, welches über eine partitionierte Faltung die Binauralsynthese in Echtzeit durchführt. Die Bewegungen des Hörenden wurden in der VAE durch einen flüssigen Wechsel zwischen zahlreichen als BRIRs hinterlegte Rotations- und Translationspositionen imitiert. Die Position des Hörenden wurde über das HTC Vive Trackingsystem erfasst. Zur Untersuchung verschiedener Ansätze wurden die binauralen Raumimpulsantworten auf zwei Arten erstellt. Eine Variante beinhaltete die direkte Messung von BRIRs mit einem KEMAR Kunstkopfsystem. Die zweite Variante bestand in der Berechnung der BRIRs über das Simulationstool MCRoomSim. Weiterhin wurde ein Vergleich zwischen frontal und seitlich positionierten Quellen angestellt. Ein durchgeführter Hörtest hat gezeigt, dass die eigene Bewegung durch die erstellten Szenen vorwiegend als plausibel wahrgenommen wurde. Die Resultate der Plausibilität beinhalten jedoch starke interindividuelle Schwankungen.



Melo Rios, Jorge Arturo;
Evaluation of different transducer principles in digital loudspeakers. - 84 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

Diese Arbeit beschäftigt sich mit der Direkten Schall Rekonstruktion (DSR) basierend auf digital-angesteuerten Arraylautsprechern (Digitalen Transducer Array Loudspeakern - DTALs). Mithilfe von Comsol-Simulationen, und basierend auf dem Stand der Technik werden unterschiedliche Eigenschaften des DTAL untersucht, wie die Wandler-Art, der Einfluss des Ansteuersignals, wie auch die Abtast-Frequenz. Dafür wurde ein möglichst idealer Wandler simuliert, der lediglich aus einer rechteckigen Fläche besteht, die dem Verlauf des Eingangssignals folgt und somit die Luft-Teilchen zum schwingen anregt. Effekte einer realen Membran, wie Masse oder Steifigkeit wurden geziehlt vernachlässigt. Die Ergebnisse zeigen, dass die digitale Ansteuerung des DTALS einen signifikanten Druckgewinn erziehlen kann, obwohl auch starke harmonische Verzerrungen im Signal auftreten. In praktischen Anwendungen scheint ein DTAL basierend auf CMOS-MEMS Wandlern der vielversprechendste Ansatz für eine optimale DSR zu sein.



Onofre Prada, Carlos Andres;
Investigations on auralization of spherical array data using wave field synthesis. - 105 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

Die Auralisation von Daten eines kugelförmigen Mikrofonarrays hat in den letzten Jahren eine große Relevanz im Bereich der räumlichen Audio-Forschung entwickelt. Die Akustische Kamera (gfai Tech) ist ein kugelförmiges Mikrofonearray, das besonders für Lärm-Messungen konzeptiert wurde, für Auralisationsanwendungen aber ungünstige Eigenschaften aufweist. Die vorliegenden Masterarbeit zielt darauf ab, die Akustische Kamera für Auralisationsanwendungen zu analysieren und seine Leistung zu optimieren. Konkret soll die Akustische Kamera für die Simulation von Räumen mithilfe der Wellenfeldsynthese adaptiert werden. Insgesamt wurden drei Optimierungsansätze implementiert: Im ersten Ansatz wurden Sampling-Gewichte entsprechend der Mikrofonanordnung berechnet, während der Zweite Ansastz neue virtuelle Mikrofone Signale mithilfe von Interpolation zwischen benachbarten Samples erstellt, und drittens auf Basis von der Neuordnung der Sampling-Knotenpunkte nach Gaussian und Lebedev-Anordnungen. Insbesondere höhere Schallfeldordnungen im sphärischen Harmonischen Bereich sind von Interesse. Mithilfe von simulierten Schallfeldern wurden die entwickelten Ansätze technisch evaluiert und danach auf Basis von realen Messdaten in zwei Räumen mithilfe eines Hörtests hinsichtlich ihrer Qualität bewertet. Die Ergebnisse zeigen, dass die Robustheit der Akustischen Kamera für höhere Ordnungen optmiert werden konnte. Obwohl die Leistung des Arrays nach wie vor nicht-ideale Eigenschaften aufweist, konnte die Wiedergabequalität bei der WFS-Auralisation mithilfe der entwickelten Methoden im Vergleich zur Ausgangssituation verbessert werden.



Fiedler, Bernhard;
Konzeption und prototypische Umsetzung einer skalierbaren Audiosignalverarbeitung für eine objektbasierte Auralisation. - 102 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

Mithilfe aktueller objektbasierter Tonwiedergabeverfahren können komplexe virtuelle Klangszenen reproduziert werden. Zur Auralisation virtuell synthetisierter oder gemessener realer Räume wurden bereits mehrere holoakustische Raumsimulationsverfahren am Fraunhofer IDMT entwickelt. In dieser Arbeit erfolgt eine detaillierte Analyse der bereits existierenden Raumsimulationskonzepte. Diese werden unter anderem anhand des Rechenaufwandes und der internen Signalverarbeitung verglichen. Basierend auf den gewonnenen Erkenntnissen wurde ein Anforderungskatalog erstellt. Im Rahmen der Arbeit wurde ein neues Konzept für die Auralisation komplexer Klangszenen entworfen. Die Signalverarbeitung zur Schallfeldzusammensetzung wird umfangreich dargelegt und um dynamische Verzögerungsanpassung erweitert. Diese ermöglicht die Beibehaltung des zeitlichen Gefüges der Raumimpulsantwortteile in Abhängigkeit des Direktschalls. Die Arbeit stellt einen Ansatz vor, wie die distanzabhängige Luftabsorption mit geringem Rechenaufwand in Echtzeit durch Biquad-Filter näherungsweise modelliert werden kann. Die dafür benötigten Parameter stammen aus einem eigens entwickelten Approximationsalgorithmus. Der entsprechend dem neuen Raumsimulationskonzept implementierte Softwareprototyp wird umfangreich auf erwartungsgemäße Funktionalität getestet. Die Arbeit stellt die Auswirkungen der dynamischen Verzögerungsanpassung vor. Weiterhin gibt ein Vergleichstest der Konzepte hinsichtlich des Rechenaufwandes Aufschluss über die Effizienz der Signalverarbeitung. Das neue Konzept weist unter aktuellen realistischen Testbedingungen eine geringere Rechenlast auf als verglichene Konzepte. Die Ergebnisse eines informell durchgeführten Hörtests geben Hinweise, dass die verglichenen Systeme einen ähnlichen Höreindruck hervorrufen. Der neue Softwareprototyp wurde tendenziell sogar besser gemäß der Plausibilität einer Klangszene bewertet. Neben der Möglichkeit, weitere Hörtests zum Vergleich unterschiedlicher Raumsimulationskonzepte durchzuführen, kann der implementierte Softwareprototyp als Basis für Produktions- und Demonstrationswerkzeuge für Tonschaffende genutzt werden.



Mittag, Christina;
Entwicklung und Evaluierung eines Verfahrens zur Synthese von binauralen Raumimpulsantworten basierend auf räumlich dünnbesetzten Messungen in realen Räumen. - 96 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

In dieser Arbeit werden Verfahren vorgestellt, entwickelt und evaluiert, die die Synthese von binauralen Raumimpulsantworten (BRIRs) an beliebigen Positionen im Raum basierend auf räumlich dünnbesetzten Messungen realisieren. Hintergrund dieser Untersuchungen ist die Entwicklung eines Audiosystems, das einen realen Raum auralisiert, der mit auditorisch wahrnehmbaren Objekten angereichert ist. Durch diesen Raum soll sich der Hörer frei bewegen können, ohne dass störende Fehler bei der Wiedergabe und der Lokalisation der Objekte entstehen. Um den Aufwand zur Umsetzung des Systems zu verringern, soll die Anzahl der dafür benötigten, im realen Raum gemessenen BRIRs reduziert werden. Die zu diesem Zwecke entwickelten Syntheseverfahren nutzen die Messungen von ein bis drei Positionen im Raum und generieren mit Hilfe von Distanzanpassung und räumlicher Interpolation neue BRIRs an vorgegebenen Positionen. Durch Nutzung der synthetisierten BRIRs für die Auralisation kann eine räumliche Unterabtastung vermieden und die Anzahl der Messungen reduziert werden. Zur Evaluation der Syntheseverfahren werden BRIRs für verschiedene Testszenarien generiert, d.h. an verschiedenen Synthesepositionen und unter Verwendung von BRIRs unterschiedlicher Messpunkte. Die synthetisierten BRIRs werden im Hinblick auf ihre technische Eignung mit zuvor gemessenen BRIRs verglichen. Bei der Betrachtung des Verhältnisses von Direktschall- zu Nachhallenergie zeigen sich Unterschiede, die auf die gerichtete Abstrahlcharakteristik der Lautsprecher zurückzuführen sind. Eine Untersuchung der Energieabklingkurven ergibt geringe Unterschiede in den Nachhallzeiten sowie in den Deutlichkeits- und Klarheitsmaßen der BRIRs. Des Weiteren wird ein Hörtest durchgeführt, der die hervorgerufene räumliche Wahrnehmung der Syntheseergebnisse im Vergleich zu den gemessenen BRIRs untersucht. Die Syntheseverfahren liefern durchgehend eine zufriedenstellende bis sehr gute klangliche Qualität. Im Bezug auf die Externalität und die Anzahl der Vorne-Hinten-Vertauschungen und Quadrantenfehler ergeben sich vereinzelt signifikante Unterschiede der getesteten Systeme, die aber oftmals nur für bestimmte Schalleinfallswinkel auftreten. Als weiteres Ergebnis zeigt sich ein Zusammenhang zwischen der Qualität der Syntheseergebnisse und den untersuchten Kombinationen von Quell-, Synthese- und Messpositionen. Auf Grundlage der gewonnen Erkenntnisse werden Optimierungsvorschläge und Anwendungsempfehlungen für die Syntheseverfahren gegeben.



Kruh-Elendt, André;
Low complexity binaural rendering for scene based audio content. - 101 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

MPEG-H 3D Audio ist der kürzlich eingeführte internationale Standard für die effiziente Übertragung von immersiven Audioinhalten an eine Vielzahl von Endgeräten. Der Standard unterstützt unter anderem das Higher Order Ambisonics (HOA) Soundformat für die Reproduktion über Lautsprecher sowie binaurale Technologie zum Abspielen über Kopfhörer. Im Kontext mobiler Endgeräte, in dem die Nutzung von Kopfhörern allgegenwärtig und die Energieversorgung in der Regel begrenzt ist, sind effiziente Algorithmen für die Binauralsynthese erforderlich. Ausgehend von den im MPEG-H 3D Audio beschriebenen HOA Decoder und Verfahren zur Binauralsynthese im Zeitbereich, präsentiert diese Arbeit einen alternativen Ansatz zur Binauralisierung von HOA Inhalten, der einen geringeren Rechenaufwand erfordert. Eine Softwareimplementierung für den vorgeschlagenen Algorithmus wurde realisiert und dieser anschließend mit dem aktuellen Binauralrenderer von MPEG-H 3D Audio verglichen. Eine erkennbare Einsparung in der Anzahl benötigter Rechenoperationen wurde erreicht und der subjektive Hörtest zeigte keinen signifikanten Unterschied für die verglichenen räumlichen Audio-Qualitätsmerkmale. Obwohl eine genauere Analyse des vorgeschlagenen Verfahrens notwendig ist, um eine abschließende Beurteilung zu treffen, lässt sich ein Vorteil für Anwendungsszenarien mit begrenzter Energiekapazität erkennen. Eine einfache Integration in den bestehenden Rahmen von MPEG-H 3D Audio ist gewährleistet.



Gerhardt, Christoph;
Selektive Verschlüsselung von Gesichtern in Videos unter Verwendung des H.264-Standards. - 136 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

Überwachungskameras werden heutzutage immer häufiger an unterschiedlichen Orten eingesetzt, um für ein höheres Sicherheitsgefühl zu sorgen. Dabei leidet allerdings die Privatsphäre der aufgenommenen Personen. Um dieses Problem zu vermeiden existieren unter anderem Ansätze zur selektiven Verschlüsselung von Videodaten. Solche Verfahren ermöglichen es, einen Teil des Videos zu verschlüsseln während der Rest frei zugänglich und für jeden sichtbar bleibt. Das Ziel dieser Arbeit ist es, ein vollständiges System zur selektiven Verschlüsselung von Videodaten zu entwickeln und zu implementieren. Das beschriebene System basiert dabei auf dem weit verbreiteten H.264-Standard und besteht aus verschiedenen unabhängigen Komponenten. Durch die Modularität der Komponenten ist es möglich, diese für spätere Verwendungen anzupassen oder sie komplett durch weiterentwickelte Komponenten auszutauschen. Das System ermöglicht es, den Videostrom bereits während der Encodierung unter Verwendung verschiedener Blockschlüssel kryptografisch sicher zu verschlüsseln. Außerdem bietet es die Möglichkeit lediglich einzelne Teile des Videos und sogar Gesichter individuell zu entschlüsseln.



Weiss, Benjamin;
Automatische Detektion von Audiosignalstörungen unter Berücksichtigung ihrer psychoakustischen Relevanz. - 89 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

Die zunehmende Masse an digitalen Audiodaten macht eine automatische Detektion von Fehlern immer wichtiger. Eine manuelle Auswertung ist zeitaufwändig und deshalb teuer. In der vorliegenden Masterarbeit wird ein Algorithmus zur Detektion von Klickstörungen in der Qualitätskontrolle entwickelt, optimiert und evaluiert. Der entwickelte Algorithmus basiert auf dem bewährten modellbasierten Ansatz. Das verwendete Modell ist das bekannte AR-Modell. Mit Hilfe des AR-Modells wird durch geeignete Wichtung der vorhergehenden Samples der aktuelle Samplewert geschätzt. Klickstörungen lassen sich durch dieses Modell nicht gut abbilden und machen sich dadurch als starke Ausreißer im Fehler zwischen tatsächlichem Signal und geschätztem Signal bemerkbar. Der RLS Algorithmus zeigte bei der Untersuchung die besten Eigenschaften zur Berechnung des Fehlersignals. Bei der Ausreißerdetektion ist der Huber-k-Schätzer als geeignete Methode ermittelt worden. Nach der Optimierung der restlichen Parameter ergibt sich ein F_0.5-Maß von über 0.8 bei einem SNR von weniger als 30 dB. Die Evaluation des Algorithmus wird unter Berücksichtigung der psychoakustischen Relevanz durchgeführt. Da erkannte Fehler nachträglich immer noch händisch überprüft und entfernt werden müssen, führt jede falsch-positiv Detektion zu zusätzlichen unnötigen Kosten. Aus diesem Grund sollen zwar vorhandene, aber nicht hörbare Klicks, idealerweise vom Algorithmus nicht als Klickstörung detektiert werden. Hierzu wird ein Hörversuch durchgeführt, um sowohl die Wahrnehmungsgrenze als auch die Toleranzgrenze für Klickstörungen zu ermitteln. Abhängig von der Signalart (Sprache, E-Musik, U-Musik) liegt die Wahrnehmungsgrenze im Bereich zwischen 40 dB und 50 dB und die Toleranzgrenze jeweils ungefähr 5 dB tiefer.



Shahabi Ghahfarokhi, Samar;
On the influence of visual feedback on the externalization of the percieved sound sources. - 102 Seiten
Technische Universität Ilmenau, Masterarbeit 2016

Um räumliches Hören herzustellen, welches Zuhörern hohe Wahrnehmungsempfindungen bietet, eignet die Binauralwiedergabe sich als Ansatz. Richtigkeit von Synthese in Binauralsystemen fordert individuelle Messungen für Binaural Room Impulse Responses. Plus, um authentische Raumillusion zu liefern, müssen Kopfhörer mittels adäquater Filter individuell entzerrt werden. Die Wahrnehmung von Schallrichtungen und die Externalisierung von Klangbildern ist hingegen eine multisensorische Aufgabe, die sowohl Hör- als auch Sehvermögen einbezieht. Audiovisuelle Interaktion wurde bereits zutiefst untersucht. Die Externalisierung als Wahrnehmung eines Schallereignisses außerhalb des Kopfes ist stark verbunden mit Merkmalen wie Plausibilität, im Sinne davon, dass der Mangel an Plausibilität die menschlichen Sinne daran hindert, dass das präsentierte audiovisuelle Ereignis als wahr anerkennen und ein unplausibles Ereignis wird eventuell ins Kopfinnere verstellt. Das Ziel dieser Dissertation ist, das Problem anzusprechen, ob die Winkelabweichung zwischen Schall- und Sehreizen die Externalisierung des Klangbildes beeinflussen. Bisher haben ungenügende Untersuchungen dieses Problem in Betracht gezogen.



Vaidya, Vyasraj;
Development and evaluation of methods for classification of acoustic scenes. - 90 S. : Ilmenau, Techn. Univ., Masterarbeit, 2015

Die vorliegende Masterarbeit befasst sich mit der automatischen Klassifizierung und Analyse von akustischen Szenen. Der Datensatz von urbanen Klängen (Urban Sounds), der auf Freesound powered projects verfügbar ist, wird als Klangquelle verwendet. Die Datenbank Urban Sounds DB besteht aus 1302 Klängen, die in 10 Kategorien eingeordnet werden zum Beispiel air conditioner und street music. Die Datenbank setzt sich aus Liedern unterschiedlicher Länge zusammen. Zuerst wird ein Beispiel-Set mit kürzeren Liedlängen generiert. Eine Überprüfung des Datenansatzes wird durchgeführt, damit die Duplikate entfernt werden. Folgend wird der Extraktor vom Institut verwendet, um eine Datei für jeden Song zu erzeugen. Mit Anwendung der Datei-Lesegeräte verfügbar im Institute wird eine Feature Matrix für jedes Lied generiert. Diese Feature-Matrix hilft die Analyse der Songs, da sie die inhärente Information des Songs enthält. Diese Information wird in Arrays umgewandelt und für die Verarbeitung verwendet. Bei der Klassifizierung der akustischen Szenen ist die Anzahl der Merkmale proportional zu der Genauigkeit der Klassifikation. Deshalb werden alle niedrige Merkmale, die in einem Song vorhanden sind, entnommen. Die Cepstral-Koeffizienten bei Eigenschaft erfassen nur die globalen spektralen Signal Angaben. Die Cepstralkoeffizienten die detaillierte und subtil Veränderungen in Spektrum zu analysieren versagen, weil sie im Laufe der Zeit ändert. Demzufolge wird ein neues Feature, das nicht in dem Extraktor vorhanden ist, nämlich das Modulation Feature, entworfen. Die Modulation Features erfassen inhärente Eigenschaften unterschiedlicher akustischen Szenen und sind als robuster angesehen. Da das Modulation Feature eine alternative Methode zur Beschreibung der Signalfrequenzen ist, können die Modulationsspektren in verschiedenen technischen Anwendungen eingesetzt werden. Eine Klassifizierung mit dem Feature-Set bestehend aus dem Standard-Feature von der extraktor, die Modulation-Funktion und den Cepstral-Merkmale durchgeführt wird. Die Experimente werden durchgeführt, um die besten Klassifikationsschemata für Szenen zu verstehen. Klassifizierung des reduzierten Datensatzes und die 8K-Datensatzes durchgeführt. Die Klassifizierung mit Urban-Sound 8K unter Verwendung des gute Ergebnisse erzielt. Die Implementaion wurde in Python durchgeführt.



Würsig, Albrecht;
Entwicklung und Evaluation eines Verfahrens zur Detektion unerwünschter Frequenzmodulationen in Audiomaterial. - 67 S. Ilmenau : Techn. Univ., Masterarbeit, 2015

Digitale Daten, Signale und Informationen sind aus der heutigen Zeit nicht mehr wegzudenken. Der Lebens- und Arbeitsalltag vieler Menschen ist durchzogen von digitaler Kommunikation, Organisation, Steuerung und Unterhaltung. Bevor jedoch die Entwicklung und Evolution moderner Medien von der Digitalisierung bestimmt wurde, stellten für viele Jahrzehnte analoge Speichermedien die wichtigste Möglichkeit dar, Informationen verschiedenster Art aufzubewahren. Im Audiobereich waren Tonträger wie Magnetbandsysteme, Walzen oder Grammofon- und Langspielplatten die erste Wahl, um Musik und Ton zu speichern und zu verbreiten. So existiert bis heute eine Vielzahl analoger Tonaufnahmen, die den Sprung in die digitale Welt noch nicht oder gerade erst vollzogen haben. Aber analoge Audiosysteme und -speichermedien sind durch Lagerschäden, wiederholte Übertragungen und Alterungserscheinungen einem nicht zu unterschätzenden Qualitätsproblem unterworfen. Ein häufiger Fehler bei Tonträgern, die durch rotierende Systeme ausgelesen oder beschrieben werden müssen, sind Ungenauigkeiten in der Motorik der Geräte, die sich periodisch als unerwünschte Frequenzmodulationen im Audiomaterial fortpflanzen. Im Fachjargon haben sich dafür die Begriffe Wow und Flutter durchgesetzt. Und obwohl die ursächliche Problematik in der digitalen Welt keine Rolle mehr zu spielen scheint, ist sie heute umso relevanter, wenn es beispielsweise um die Wartung von Archiven, Überwachung der Digitalisierung alter Tonträger, Audioforensiken oder die Qualitätskontrolle und -sicherung beim Broadcasting geht. In der vorliegenden Arbeit wird die Entwicklung und Evaluation eines Verfahrens zur Detektion solcher Frequenzmodulationen in digitalen Audiomaterialien dokumentiert. Dazu wird ein Überblick zu den theoretischen und technischen Grundlagen gegeben, aktuelle Technologien resümiert und ein neues Verfahren konzipiert. Anschließend wird im Hauptteil die Programmierung und Implementierung der Algorithmen besprochen, bevor im Abschluss eine Evaluation die Möglichkeiten des Verfahrens darlegt. Dabei wird gezeigt, dass die Ergebnisse unter anderem stark vom Zustand der verwendeten Audiomaterialien abhängen.



Männchen, Andreas;
Entwicklung und Implementierung eines Verfahrens zur automatischen und echtzeitfähigen Erkennung von Akkorden sowie wiederholten Harmoniefolgen in Gitarrensignalen. - 86 S. : Ilmenau, Techn. Univ., Masterarbeit, 2015

In dieser Arbeit wird ein Verfahren zur automatischen und echtzeitfähigen Erkennung von Akkorden und wiederholten Harmoniefolgen in Gitarrensignalen vorgestellt. In diesem System werden vorhandene Technologien zur Berechnung von Chromamerkmalen und für die Musiktranskription kombiniert. Im Rahmen der Arbeit werden übliche Chromamerkmale mit Chromamerkmalen auf Basis polyphoner Tonhöhenerkennung im Hinblick auf die resultierenden Erkennungsraten bei der automatischen Akkorderkennung verglichen. Zudem wird eine Kombination der beiden Merkmalstypen untersucht. Die Akkorderkennung in dieser Arbeit basiert auf Distanzmaßen zwischen den Chromamerkmalen und binären Akkordvorlagen. Zwei Klassifikationsansätze werden betrachtet: die Akkordklassifikation aufgrund der kleinsten Distanz und die Klassifikation mittels einer Support Vector Machine. Im Zuge dieser Arbeit wurde ein Datensatz mit über vier Stunden Gitarrenaufnahmen erstellt und manuell mit Akkordsymbolen annotiert. Dieser dient dazu, die Leistungsfähigkeit des vorgestellten Systems zu beurteilen und direkt mit dem Akkorderkennungssystem Chordino zu vergleichen. Abschließend werden die Genauigkeit und Robustheit der Erkennung wiederholter Harmoniefolgen sowie die Echtzeitfähigkeit des Gesamtsystems untersucht.



Eppler, Arndt;
Entwicklung und Implementierung eines Verfahrens zur automatischen und echtzeitfähigen Erkennung von wiederholten rhythmischen Patterns sowie der rhythmischen Stilistik von Gitarrensignalen. - 119 S. : Ilmenau, Techn. Univ., Masterarbeit, 2015

Die automatische Analyse von Rhythmus in Musiksignalen wird oft erschwert durch Mehrdeutigkeiten in der Tempo- und Takterkennung. Insbesondere im Rahmen von Musiklernanwendungen sind jedoch robuste und genaue Methoden gefordert, um negative Auswirkungen auf den Lernprozess zu vermeiden. In dieser Arbeit wird ein automatisches und echtzeitfähiges Verfahren für die rhythmische Analyse eines Gitarrensignals vorgestellt, welches die Erkennung von sich wiederholenden rhythmischen Strukturen (Patterns) und deren Stilklassifikation umfasst. Der neue Ansatz die Takt- und Tempoinformation aus einem Steuersignal, welches zu Beginn der Aufnahme mit der Gitarre eingegeben wird zu extrahieren verbindet eine robuste Rhythmusanalyse mit der intuitiven Eingabe auf Seiten des Benutzers. Für die weitere interne Verarbeitung des eingespielten Gitarrensignals wird ein Übergang zu einer symbolischen Repräsentation - den Onsetpatterns - vorgeschlagen. Dafür werden die gespielten Noten als zeitliche Ereignisse im Audiosignal identifiziert. Weitere Eigenschaften dieser sogenannten Onsets werden dann durch Ebenen bezüglich Energie und Polyphoniegrad abgebildet. Die Erkennung von wiederholten rhythmischen Patterns erfolgt durch einen Vergleich der Onsetpatterns von aufeinanderfolgenden Taktabschnitten auf Basis der Earth Mover's Distance (EMD). Im Rahmen dessen werden Schwellenwerte für unterschiedliche Patternlängen ermittelt und deren gegenseitige Abhängigkeit untersucht. In dieser Arbeit wurde ein Datensatz von 507 Gitarrenaufnahmen bestehend aus acht Stilrichtungen erstellt. Zur algorithmischen Abgrenzung der Stile wurden zunächst Merkmale aus den unterschiedlichen Ebenen der Onsetpatterns abgeleitet. Diese lassen sich in Merkmale allgemeiner Rhythmusinformation und Merkmale bezogen auf die relative Position der Onsets in den Patterns aufteilen. Neben der Untersuchung der Aussagekraft von einzelnen Merkmalen sowie Merkmalsgruppen wird untersucht, wie sich deren Berechnung bezüglich einzelner Takte, einzelner Patterns sowie zusammengefassten Patterns auf das Klassifikationsergebnis auswirken. Für die Stilklassifikation konnte letztlich für die 8 Klassen eine Treffergenauigkeit von 62,05% erzielt werden. Die Erkennung der drei dominierenden Patternlängen in einem Stück funktioniert dagegen mit 59,80% Genauigkeit.



Afghah, Tahereh;
Perception/evaluation of distance after a continuous change of distance. - 85 S. : Ilmenau, Techn. Univ., Masterarbeit, 2015

Die Wahrnehmung der Entfernung einer Schallquelle in einer virtuellen Szene ist nicht einfach einzuordnen, wenn die Audioszene und die Schallquelle dem Hörer bisher nicht bekannt waren. Wenn der Hörer sich bewegt und die Entfernung sich ändert, scheint sich die Einordnung zu vereinfachen. Im Fall von virtuellen auditiven Umgebungen nutzen Hörer dynamische Informationen wie das "akustische Tau", als auch statische Informationen wie Intensität/Lautstärke, um die die Entfernung von Schallquellen zu beurteilen. Es ist das Ziel dieser Masterarbeit, mehr Details über die Wahrnehmung von Entfernungen in Aufnahmen herauszufinden, welche während einer Bewegung mit verschiedenen Rahmenbedingungen aufgezeichnet wurden. Für die Untersuchung wurden reale Szenen aufgenommen. Fünf stationäre Positionen mit einem Abstand von 2m und 20 Bewegungen der Längen 2m, 4m, 6m und 8m zur Quelle hin und von der Quelle weg wurden aufgezeichnet. Die Ergebnisse der Experimente zeigen, dass Bewegungen mit einem Endpunkt bei 6m oder 8m die Beurteilung der Entfernung signifikant verbesserten. In diesen Fällen erzeugen längere Bewegungen präzisere Ergebnisse. Bewegungen nah an der Schallquelle (kleiner oder gleich 4m) wirkten sich nicht auf die Distanzeinschätzung aus. Kurze Bewegungen nah an der Quelle wurden akkurater beurteilt, als kurze Bewegungen in größerer Entfernung. Die genauesten Ergebnisse wurden bei Bewegungen mit einem Endpunkt bei 0m (genau vor dem Lautsprecher) erzielt, was den starken Einfluss der Lautstärke auf die Distanzbeurteilung verdeutlicht.



Mayenfels, Thomas;
Untersuchung zum Einfluss von Training auf die Wahrnehmung von Externalität. - 81 S. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die Binauralsynthese stellt eine Schlüsseltechnologie zur authentischen Reproduktion räumlicher Schallfelder dar. Mittels dieser Technologie ist es möglich, auch bei einer Abweichung der wiedergegebenen Raumakustik von der des Abhörraumes (Raumdivergenz), eine realistische, auditive Illusion zu schaffen. In einem AB-Vergleich der Synthese zur realen Akustik des Abhörraumes kann bei großer Divergenz die Synthese jedoch nicht standhalten und bricht unter Umständen zu Im-Kopf-Lokalisation zusammen. Es wurde gezeigt, dass individuell aufgenommene binaurale Raumimpulsantworten einen Schritt zur Minimierung dieses Phänomens darstellen. Des Weiteren sind die Effekte von Training auf die Wahrnehmung des Menschen bekannt. Die vorliegende Arbeit untersucht den Einfluss von Training auf die Adaption an eine divergente Raumsituation. Dies geschieht durch den Vergleich zweier Gruppen, von welchen eine auf die reale Raumsituation, die andere auf die divergente, synthetisierte Raumsituation trainiert wird. Von allen Probanden wurden dazu individuelle binaurale Raumimpulsantworten in beiden Räumen aufgenommen. In separaten Testteilen werden der Effekt des Trainings sowie die Reaktion der Probanden auf die ihnen unbekannte Raumsituation überprüft. Als Bewertungsschlüssel dient die wahrgenommene Externalität. Abschließend fand eine Probandenbefragung zum allgemeinen Ablauf und zur Eruierung möglicher Verfahrensfehler statt. Durch die Gegenüberstellung der Gruppen konnte ein Adaptionseffekt der divergent trainierten Gruppe an die divergente Raumsituation festgestellt werden. Hinzu kommt der Effekt der verstärkten Ablehnung der divergenten Raumsituation durch die konvergent trainierte Gruppe. Schließlich konnte die Wirkung unterschiedlicher Halligkeit auf das Externalitätsempfinden erneut bestätigt werden.



Thron, Thomas;
Raumakustische Simulation auf Basis geometrischer und optischer Raumparameter. - 119 S. : Ilmenau, Techn. Univ., Masterarbeit, 2015

Die vorliegende Arbeit beschäftigt sich mit der Entwicklung einer Raumakustiksimulation auf Basis der geometrischen Beschreibung eines Raumes. Diese kann anhand einer 3D-Grafik-Software wie Blender modelliert werden. Ein akustisches Raytracing-Verfahren sowie eine Methode zur Nachhallerzeugung erstellen eine positionsabhängige Beschreibung der Raumakustik. Mit dieser soll die nachgebildete Szene binaural auralisiert werden mit dem Ziel, ein realistisches Raumgefühl hervorzurufen. Die Raumakustiksimulation soll dazu genutzt werden, Untersuchungen zum Raumdivergenzeffekt in einer virtuellen Umgebung durchführen zu können. Der audiovisuelle Raumeindruck kann mit dem entwickelten Werkzeug gezielt manipuliert werden, um konkrete Untersuchungen vorzunehmen. In einem Hörtest wurde die Raumakustiksimulation zunächst mit anderen Simulationsverfahren und realen Messungen verglichen. Dabei wurden die Hörsituationen auf die empfundene Plausibilität hin bewertet. Das vorgestellte Verfahren stellte sich als geeignet heraus, die modellierte Szene plausibel zu simulieren. In einem zweiten Teil wurde eine Untersuchung zum Raumdivergenzeffekt durchgeführt. Den Hörtestprobanden wurden Kombinationen von kongruenten und divergenten Raumansichten und Raumakustiken präsentiert, für die sie jeweils die empfundene Externalität bewerten sollten.



Schäfer, Florian;
Vergleich verschiedener Evaluierungsmethoden für die Untersuchung der wahrgenommenen Qualität von räumlichen Signalen. - 100 S. : Ilmenau, Techn. Univ., Masterarbeit, 2015

Natürliche räumliche Wiedergabe von audiovisuellen Medien ist der Wunsch der Rezipienten. Gutes räumliches Hören ist mit herkömmlichen Heimkino-Soundsystem nur am sogenannten Sweet Spot möglich. Aktuelle Forschungsarbeiten untersuchen und entwickeln Systeme für binaurales Hören. Diese neuen Verfahren müssen darauf getestet werden, ob sie den Erwartungen der Allgemeinheit entsprechen. Da es bisher kein objektives Messsystem zur 'multi-dimensionalen Qualitätsbewertung räumlicher Audiosignale' gibt, muss zunächst ein Modell entwickelt werden, welches die Wahrnehmung von räumlichen Audiosignalen widerspiegelt. Zur Ermittlung dieses Modells eignen sich perzeptive Hörtests, die im Allgemeinen akzeptiert werden, ein zuverlässiges Mittel zur Bestimmung der subjektiv wahrgenommenen Qualität zu sein. Zur Konzeption eines solchen zuverlässigen Hörtests zur multi-dimensionalen Qualitätsbewertung von räumlichen Audiosignalen muss erforscht werden, welche Methode und welche Skala sich am besten zur Evaluierung eignen. Diese Masterarbeit untersucht dazu zwei verschiedene Hörtest-Methoden, welche sich zur multi-dimensionalen Qualitätsbewertung eignen: eine Multi Stimulus with Single Attribute Test-Methode, bei der jeweils mehrere Stimuli anhand eines Qualitätsattributes bewertet werden und eine Single Stimulus with Multiple Attributes Test-Methode, bei der jeweils nur ein Stimulus anhand von mehreren Qualitätsattributen bewertet wird. In der statistischen Auswertung des Hörtests werden beide Methoden auf Gemeinsamkeiten und Unterschiede untersucht. Vor allem die Nutzung der Skalen unter Verwendung von räumlichen Qualitätsattributen steht dabei im Fokus. Beide Hörtestmethoden erzielen ähnliche Ergebnisse. Während die Single Stimulus-Methode weniger Zeit in Anspruch nimmt, ist die Multi Stimulus-Methode besser dazu geeignet kleine Unterschiede zwischen den Stimuli zu erkennen, da die Hörtestteilnehmer in der Multi Stimulus-Methode kritischer mit dem Hörtest-Material verfahren.



Rueppel, Anna;
Qualitätsbewertung räumlicher Schallfelder unter Berücksichtigung realer Messbedingungen. - 111 S. : Ilmenau, Techn. Univ., Masterarbeit, 2015

Bei der Aufnahme räumlicher Schallfelder mithilfe sphärischer Mikrofonarrays können Messfehler auftreten, die Einfluss auf die Wiedergabequalität haben. Hierzu zählen beispielsweise räumliches Aliasing, Positionierungsfehler und Mikrofonrauschen. In dieser Arbeit sollen auralisierte Mikrofonarraydaten zum einen mithilfe eines Hörtests und zum anderen über ein auditorisches Prädiktionsmodell in drei unterschiedlichen simulierten Umgebungen untersucht werden. Zusätzlich erfolgt die Anwendung mehrerer Arrayordnungen mit unterschiedlicher Mikrofonanzahl. Die Bewertung der binauralen Auralisation erfolgt über die raumakustischen Parameter Apparent Source Width (ASW) und Listener Envelopment (LEV). ASW beschreibt die wahrnehmbare Breite einer Schallquelle und LEV definiert das Gefühl der Schallumhüllung. Beide Parameter finden Anwendung in der Bewertung von Konzerthallenakustik. Anhand des Hörexperiments und des Room Acoustical Perception (RAP) Modells werden umgebungs-, ordnungs- und signalabhängige Einflüsse auf die Wahrnehmung der Mikrofonarraydaten untersucht. Die Ergebnisse der Werte ASW und LEV aus dem RAP Modell zeigen hierbei eine weitgehende Übereinstimmung mit den Hörtestresultaten. Die Güte der Ergebnisse ist jedoch vom Raum, Testsignal und der gewählten Arraykonfiguration abhängig.



Jung, Lorenz;
Entwicklung und Evaluierung einer Hörtrainings-Applikation für mobile Endgeräte als Beitrag zur Rehabilitation nach Versorgung mit einem Cochlea-Implantat. - 80 S. Ilmenau : Techn. Univ., Masterarbeit, 2015

Menschen mit hochgradigem Hörverlust werden vermehrt mit Cochleaimplantaten (CIs) versorgt. Um die kommunikative Situation von CI-Trägern nachhaltig zu verbessern, ist die CI-Versorgung mit einer intensiven Rehabilitation verbunden. Durch Hörübungen erlernen die Patienten dabei die korrekte Interpretation der elektrischen Stimulationsmuster des Implantats. Für die therapeutischen Maßnahmen, aber auch für das selbstständige Hörtraining zu Hause, stehen Übungsmaterialien - meist in Form von Audio-CDs mit Begleitheft - zur Verfügung. Diese behandeln überwiegend das Sprachverständnis im lexikalischen Sinne; die Wahrnehmung von Intonation oder rhythmischen Spracheigenschaften, sog. prosodischen Merkmalen, wird hingegen kaum trainiert. In dieser Arbeit wird der Entwurf einer Anwendungssoftware beschrieben, die speziell für das CI-Hörtraining bestimmt ist. Aufgrund der weiten Verbreitung und der unkomplizierten Bedienung dienen Tabletcomputer als Plattform für die Applikation. Das Trainingsprogramm beinhaltet Übungen zum Sprachverständnis auf Wort- und Satzebene, zur Wahrnehmung prosodischer Merkmale und zur Schalllokalisation. Der Benutzer erhält visuelles Feedback zu seinen Antworten und kann die Ergebnisse vorangegangener Übungssessions aufrufen. Die Evaluation der Applikation mit 27 CI-Trägern anhand eines Vorher-Nachher-Vergleichs zeigt, dass bereits eine kurzzeitige Benutzung des Trainingsprogramms die Wahrnehmung von Intonation signifikant verbessert. Die Ergebnisse einer zusätzlichen Usability- und User Experience-Befragung bestätigen die einfache Bedienbarkeit des Systems und weisen auf eine positive Einstellung der Probanden gegenüber der Trainingsapplikation hin.



Goecke, David;
Konzept und Evaluierung zur Untersuchung des Einflusses visueller Stimuli auf die auditive Wahrnehmung. - 155 S. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die vorliegende Masterarbeit beschäftigt sich mit der multimodalen Wahrnehmung von Stimuli in Bezug auf die Lokalisations-Genauigkeit auditiver Stimuli durch einen Rezipienten. Bekannt ist, dass eine gewisse Wechselwirkung bei der Wahrnehmung audiovisueller Stimuli besteht. Für die Beurteilung von Einflüssen visueller Stimuli auf die auditive Wahrnehmung werden im Rahmen der vorliegenden Arbeit Wahrnehmungstests konzipiert und durchgeführt. Als Ergebnis kann festgestellt werden, dass bewegte audiovisuelle Stimuli ab einem räumlichen Versatz von 7 cm als nicht mehr kongruent verlaufend wahrgenommen werden. Es kann ebenfalls festgehalten werden, dass dieser Wert unabhängig von der Art der verwendeten auditiven Stimuli (Sprache und Rosa-Rauschen) und unabhängig der Anordnung der Stimuli ("Ton läuft dem Bild voraus" und vice versa) anzunehmen ist. Außerdem ist eine Tendenz zu erkennen, dass der Wert von der Bewegungsrichtung (von links nach rechts und vice versa) abhängt.



Bönsel, Carsten;
Development and implementation of a method for automatic best-take detection in monophonic vocal and guitar recordings. - 138 S. : Ilmenau, Techn. Univ., Masterarbeit, 2015

Die vorliegende Forschungsarbeit ist ein erster Versuch, die Qualität einer musikalischen Darbietung bei Studioaufnahmen automatisch zu schätzen. Das primäre Ziel ist es, einen Algorithmus zur Detektion des besten Takes zu entwickeln. Die Aufgabenstellung ist auf monophone Tonfolgen von E-Gitarre und Gesang in U-Musik eingegrenzt. Analysierte musikalische Bereiche umfassen Rhythmus und Tonhöhe. Im Gegensatz zu bisherigen Arbeiten ist die tatsächlich gespielte Melodie unbekannt und kann daher für die Bewertung nicht einbezogen werden. Stattdessen stehen jeweils ein synchronisierter Klick-Track und ein Backing-Track als Referenz zur Verfügung. Vier professionelle Toningenieure dienten in einer Vorstudie als Interviewpartner. Darüber hinaus wurde für diese Studie ein spezieller Datensatz zusammengestellt, um den verwendeten Ansatz zu trainieren und zu evaluieren. Hierfür wurden zwei Gruppen von Musikern gebildet (jede aus fünf Gitarristen bzw. Sängern bestehend), um geeignete Audio-Sequenzen aufzunehmen und zu annotieren. Timing- und Intonations-Features werden von Tempogramm- und Chromagramm-Repräsentationen abgeleitet, bzw. aus den Informationen einer automatisch ausgeführten Melodie-Transkription berechnet. Die meisten implementierten Features nutzen entweder Quantisierungs-Kosten-Funktionen oder Histogramm-basierte Zusammenhänge. Verschiedene maschinelle Lernverfahren für die Klassifikation des besten Takes und das Bilden einer Rangliste werden für die finale musikalische Qualitäts-Prädiktion angewendet.



Spandel, Matthias;
Implementierung, Anpassung und Evaluierung eines Teilmodells des menschlichen Gehörs für die Anwendung in Cochlea-Implantaten. - 104 S. Ilmenau : Techn. Univ., Masterarbeit, 2014

Cochlea-Implantate (CI) sind elektronische Reizprothesen, die der teilweisen Wiederherstellung des Hörvermögens von Menschen mit hochgradiger Hörschädigung dienen. Ein Ziel der gegenwärtigen CI-Forschung ist es, das Hören in komplexen Geräuschkulissen und von Musik zu verbessern. Am Fraunhofer-Institut für Digitale Medientechnologie wurde zu diesem Zweck eine Signalverarbeitungsstrategie für Cochlea-Implantate namens SAM (Stimulation based on Auditory Modeling) entwickelt. Diese verwendet zur Nachbildung der cochleären Schallverarbeitung ein komplexes auditorisches Gehörmodell. Ein Teilmodell des auditorischen Gehörmodells beschreibt die Funktionsweise der Basilarmembran (BM), die für die Spektralanalyse des menschlichen Gehörs verantwortlich ist. Da das aktuell verwendete BM-Modell den rechenaufwendigsten Teil des Gesamtsystems darstellt, soll es durch ein einfacheres ersetzt werden. Im Rahmen dieser Arbeit wurde untersucht, ob die Rechenkomplexität der SAM-Strategie durch die Integration eines effizienteren auditorischen Teilmodells bei gleichzeitigem Erhalt der psychoakustischen Eigenschaften reduziert werden kann. Dazu wurde ein auditorisches Teilmodell nach Meddis und Lopez-Poveda implementiert, das die Schallverarbeitung des menschlichen Gehörs, beginnend beim Außenohr bis zur Verarbeitung durch die Basilarmembran, nachmodelliert. Hauptbestandteil des auditorischen Teilmodells ist eine sogenannte DRNL-Filterbank. Nach der Implementierung des DRNL-Filtermodells wurde dieses in die SAM-Strategie integriert und an das bestehende auditorische Teilmodell angeglichen. Durch Letzteres sollte eine Veränderung der Stimulationsmuster bei der Verwendung des DRNL-Filtermodells in der SAM-Strategie vermieden werden. Dazu erfolgte zunächst ein Vergleich der beiden auditorischen Teilmodelle anhand verschiedener Modellcharakteristiken. Hierbei wurden zum Teil große Unterschiede festgestellt, sodass eine Anpassung des neu integrierten DRNL-Filtermodells durchgeführt wurde. Die Anpassung erfolgte über die Modifikation von geeigneten Parametern der DRNL-Filter sowie durch selbst entwickelte und implementierte Methoden. Durch Evaluierungstests wurde nachgewiesen, dass die Rechenzeit der SAM-Strategie durch die Integration des DRNL-Filtermodells reduziert werden konnte und ein Erhalt der psychoakustischen Eigenschaften durch die Modellanpassung gewährleistet wird. Abschließend wurden Empfehlungen über weiterführende Untersuchungen gegeben und Arbeitsschritte aufgezeigt, durch die eine weitere Reduzierung der Rechenkomplexität der SAM-Strategie erreicht werden könnte.



Schubert, Markus;
Entwicklung eines Hörtests zur Prosodiewahrnehmnung als Diagnosetool in der Rehabilitation nach Versorgung mit einem Cochlea-Implantat. - 54 S. Ilmenau : Techn. Univ., Masterarbeit, 2014

In der vorliegenden Masterarbeit wird ein Hörtest für Träger von Cochleaimplantaten entwickelt. Mit diesem kann die Unterscheidungsschwelle von Tonhöhenunterschieden bestimmt werden. Den Probanden werden dabei vorher aufgezeichnete Sätze präsentiert, die im Test mit einem adaptiven Verfahren modifiziert werden. Die Implementierung des Hörtests erfolgt in C++ und bietet eine benutzerfreundliche grafische Oberfläche. So kann er in Zukunft in der Rehabilitation von CI-Patienten als Diagnosetool Anwendung finden oder zur Evaluation verschiedener Signalverarbeitungsstrategien von CI-Prozessoren dienen. In einem abschließenden Hörtest mit CI-Trägern wird der Test evaluiert.



Clauß, Tobias;
Entwicklung eines emotionsbasierten Lärmemissionstest zum Beispiel der Geräuschbewertung von hydraulischen Bauteilen. - 120 S. Ilmenau : Techn. Univ., Masterarbeit, 2014

In dieser Masterarbeit ist eine Erhebungsmethode entwickelt, mit welcher ein Vokabular zur Beschreibung der Wahrnehmung von Hydraulikgeräuschen generiert und evaluiert ist. Die permanente Lärmbelastung ist eine immer häufiger indizierte Ursache für viele Krankheiten. Eine gezielte Gestaltung und Regulierung von Schallen kann helfen, der Lärmbelästigung vorzubeugen. Für diese gezielte Kontrolle ist das Wissen um die subjektive Wahrnehmung von Schallen eine elementare Grundlage. Aus dieser Sicht heraus beschreibt die Masterarbeit eine exemplarische Entwicklung einer Erhebungsmethode zur Beschreibung der Wahrnehmung von Geräuschen. Durch Probandentests ist ein Vokabular zur emotionalen und wahrnehmungsbezogenen Beschreibung von Hydraulikgeräuschen generiert. Hierzu sind zunächst die Grundlagen der Wahrnehmungs- und Emotionsforschung, der aktuelle Stand der Technik sowie medientechnologsiche Systementwicklungsmethoden erarbeitet. Darüber hinaus sind die im Probandentest verwendeten Hydraulikgeräusche einer Analyse der psychoakustischen Einflussparameter unterzogen. Eine Korrelation des subjektiven Vokabulars zur Beschreibung dieser Geräusche mit der objektiven psychoakustischen Audioanalyse ist untersucht. Außerdem ist eine Korrelation der Probandenbewertungen mit den psychoakustischen Einflussparametern beleuchtet. Die Probandenbewertungen unterscheiden sich vor allen Dingen zwischen den einzelnen präsentierten Geräuschklassen. Auch mit der psychoakustischen Audioanalyse ist hier eine Differenzierung möglich. Abschließend sind sowohl die entwickelte Methode als auch das generierte Vokabular evaluiert. Um mit dieser Masterarbeit Anstoß zu weiteren Forschungsarbeiten geben zu können, ist zudem das Potential für weitere Forschungen aufgezeigt.



Reiter, Carlo;
Entwicklung und Evaluation von Verfahren zur Detektion von Videofehlern in Magnetbandaufzeichnungen. - 98 S. Ilmenau : Techn. Univ., Masterarbeit, 2014

Zur Aufzeichnung von Videomaterialien kommen seit vielen Jahrzehnten Magnetbänder zum Einsatz. Trotz der fortschreitenden Verwendung bandloser Workflows bleiben insbesondere digitale Magnetbänder noch einige Jahre in Verwendung. Im Broadcast-Bereich ist die Qualität der Videomaterialien ausschlaggebend für deren Verwendbarkeit und somit von hoher Bedeutung. Die hohe Menge an visuellen Materialien verlangt eine automatische und zuverlässige Qualitätskontrolle. Das Fraunhofer Institut für Digitale Medientechnologien entwickelt Komponenten zur Analyse von audiovisuellen Daten. Ein Schwerpunkt liegt dabei bei der Detektion von visuellen Fehlern, wie bspw. Kodierartefakte. In dieser Masterarbeit wird ein Algorithmus zur magnetbandspezifischen Blockingdetektion vorgeschlagen. Zunächst wird ein Überblick über visuelle Fehler gegeben, die von Magnetbändern stammen. Dazu werden zunächst die grundlegenden Prinzipien von Videomagnetbandsystemen beschrieben und beispielhaft Formate, sowie deren Bedeutung erläutert. Anschließend werden typische Fehler von analogen und digitalen Formaten, sowie deren Merkmale und technische Ursachen geschildert. Dabei wird ausführlich auf digitale Blockartefakte eingegangen. Weiterhin werden Projekte beschrieben, die sich mit der Detektion und Restauration von fehlerhaften Archivmaterialien auseinandersetzen. Zudem werden wissenschaftliche Verfahren betrachtet, die sich bereits mit der Detektion von fehlerhaftem Magnetbandmaterial beschäftigten und den aktuellen Stand der Forschung darstellen. Der im Rahmen dieser Arbeit entwickelte Algorithmus zur Detektion von Blocking ist an einem der Verfahren angelehnt. Das Prinzip, welches auf einer Erkennung von auffälligen Kanten im Raumbereich basiert, wird zunächst in einem Grobkonzept und anschließend im Detail erläutert. Die Methode wurde praktisch in MATLAB umgesetzt und anhand einer Evaluation beurteilt. Diese basiert auf Videoclips, deren fehlerhafte Kanten von Probanden annotiert wurden. Das dazu notwendige Werkzeug wurde ebenfalls im Rahmen dieser Arbeit entwickelt. Aus den Annotationsdaten wurde anschließend eine Grundwahrheit generiert. Die Testdaten werden einer Fehlerdetektion unterzogen und mit der Grundwahrheit verglichen. Ein kleiner Teil der Testdaten diente zur Ermittlung der Parameter. Die restlichen Daten wurden zur Evaluation verwendet. In der Auswertung werden die Ergebnisse erörtert und ihre Gültigkeit kritisch diskutiert, sowie zu lösende Probleme aufgezeigt.



Kuhnke, Felix Konstantin;
Implementation and evaluation of a real-time pitch range extension algorithm for cochlear implants. - 67 S. Ilmenau : Techn. Univ., Masterarbeit, 2014

In der heutigen Zeit ermöglichen es Cochlea-Implantate (CIs) den meisten ihrer tauben Träger an lautsprachlicher Kommunikation teilzunehmen. Trotz gutem Sprachverständnis ist die Fähigkeit zur Wahrnehmung von Tonhöhenänderungen und Tonhöhenunterschieden bei CI-Trägern stark begrenzt. Diese Tatsache bewirkt auch eine gestörte Wahrnehmung von Intonation und somit im weiteren Sinne auch von Prosodie. Diese Arbeit schlägt deshalb eine neue Methode vor, die Wahrnehmung von Intonation bei CI-Trägern zu verbessern. Der Grundgedanke ist es, einen Vorverarbeitungsalgorithmus zu entwerfen, welcher die Spannweite der Tonbewegungen in Sprachsignalen vergrößert. Um die prinzipielle Durchführbarkeit dieser Technik zu belegen, wurde der pitch range extension (PREX) Algorithmus entworfen. Dieser ermöglicht die Veränderung der Tonhöhe von Sprachsignalen bei sehr kleinen Latenzen. Basierend auf Regeln der Intonation, werden die Tonhöhenbewegungen des Signals automatisch verstärkt. In einem mit 23 CI-Trägern durchgeführten Hörtest, nach dem Prinzip "Frage oder Aussage", konnte der Algorithmus die Wahrnehmung von Intonation signifikant verbessern. Die Ergebnisse blieben dabei trotzdem unter denen einer normalhörenden Kontrollgruppe. Die Ergebnisse beweisen die Machbarkeit von sprachverändernden Vorverarbeitungsmethoden und zeigen neue Forschungsmöglichkeiten für CI-Signalverarbeitung und CI-Rehabilitationsmaßnamen auf.



Singh, Gyan Vardhan;
Psychoacoustic investigation on the auralization of spherical microphone array data using wave field synthesis. - 109 S. : Ilmenau, Techn. Univ., Masterarbeit, 2014

Mikrofonarrays sind geometrische Strukturen, die mit zwei oder mehr Mikrofonen an verschiedenen Positionen den Raum abtasten, um die räumlichen Eigenschaften eines Schallfeldes aufzuzeichnen. Insbesonders für 3-dimensionale Schallfeldanalysen eignen sich kugelförmige Mikrofonarraygeometrien. Die so aufgezeichneten Daten können auf einem Wiedergabesystem, dass die räumlichen Eigenschaften wiederzugeben vermag auralisiert, also hörbar gemacht werden. Dadurch kann man einem Hörer den Eindruck vermitteln, er befände sich in dem gemessenen Raum. Dies kann z.B. nach dem Verfahren der Wellenfeldsynthese (WFS) realisiert werden, bei der lautsprecherbasiert räumliche Schallfelder synthetisiert werden. Wie in jeder realen Messsituation wird die räumliche Antwort des Arrays durch verschiedene Fehlerquellen beeinflusst, wie zB räumliche Abtastfehler (Aliasing), Mikrofonrauschen, oder Positionierungsfehler in horizontaler und vertikaler Richtung. Derartige Fehler wurden bisher nur analytisch beschrieben, da aber bei Auralisationsanwendungen das menschliche Gehör das wichtigste Qualitätsmaß darstellt, ist es unabdingbar, Mikrofonarrays auch nach perzeptiven Gesichtspunkten zu untersuchen. Im Rahmen dieser Arbeit werden Kugelarrayschallfelder unter Freifeldbedingungen simuliert und über WFS auralisiert. Verschiedene Fehler werden dabei in die Simulationen mit einbezogen und mithilfe von Hörtests perzeptiv untersucht.



Morgenstern, Wieland;
Keyframe-Selektion zur Erhöhung der Erkennungsrate von Primaten in Videos. - 122 S. Ilmenau : Techn. Univ., Masterarbeit, 2014

Die Ergründung des Verhaltens von Tieren ist für viele Forschungsbereiche wie Artenerhaltung und Populationsüberwachung von hoher Bedeutung. Für eine umfassende Überwachung der Lebewesen werden häufig Videokameras eingesetzt. Die entstehenden Datenmengen können zur Entlastung des Menschen durch einen Computer analysiert werden und automatisch Informationen wie Spezies, Alter, Geschlecht und die Identität der einzelnen Tiere erkennen. Diese Arbeit setzt es sich zum Ziel, die Erkennungsrate eines bereits vorhandenen Systems zur Identifikation von Primatengesichtern in Videos zu erhöhen. Es wird ein System implementiert, das aus einer Reihe von Aufnahmen desselben Individuums (einem Facetrack, der aus mehreren bis vielen hundert Frames bestehen kann) die besten Aufnahmen (Keyframes) extrahiert, um diese zur Identifikation zu verwenden. Dabei werden verschiedene Module implementiert, die Kriterien für die Auswahl aus den Frames ermitteln: Beleuchtung, Kontrast, Schwärzeanteil, Unschärfe, sowie die verschiedenen Varianten zur Erkennung der Pose des abgebildeten Tieres. Als beste Methode zur Posenerkennung stellt sich eine Klassifikation mit einer Support Vector Machine auf Gabor-Features heraus. Aus den verschiedenen Parametern wird ein globaler Score berechnet, der zur Auswahl der Keyframes verwendet wird. Die Ergebnisse der Identifikation auf mehreren Key-frames können gewichtet miteinander verrechnet werden, um ein Gesamtergebnis zu erhalten. Gegenüber der bisherigen Variante, die Identifikation auf dem ersten Frame des Facetracks auszuführen, kann die Erkennungsrate deutlich gesteigert und unter bestimmten Umständen sogar verdoppelt werden.



Hellmich, Mathias;
Perzeptive Bewertung von Fehlereinflüssen bei der binauralen Auralisation von Kugelarraydaten unter Verwendung des Spatial Audio Quality Inventory - SAQI. - Ilmenau : ilmedia. - Online-Ressource (PDF-Datei: III, 94 S., 2,54 MB) : Ilmenau, Techn. Univ., Masterarbeit, 2014

Bei der Aufnahme von Schallfelder durch Kugelmikrofonarrays treten Messfehler auf. Diese Fehler können zum Beispiel räumliches Aliasing, Mikrofonrauschen und Positionierungsfehler sein. Bemerkbar machen sich diese Fehler als tieffrequentes Rauschen sowie Verzerrungen im hochfrequenten Bereich. Bei der Wiedergabe von räumlichen Schallfeldern, welche mittels Kugelmikrofonarrays aufgenommen werden können, wirken sich diese Fehler ebenso negativ auf die Auralisationsqualität aus. In dieser Arbeit sollen diese Fehler bei der binauralen Wiedergabe über Kopfhörer perzeptiv untersucht werden. Dazu werden zwei Hörtests durchgeführt. Ein Hörtest wurde konzipiert, um den Schwellwert der Wahrnehmung dieser Fehler zu bestimmen. Der zweite Hörtest, welcher auf der Repertory Grid Technik basiert, dient der Zuordnung von einzelnen Fehlern zu akustischen Merkmalen. Zur Beschreibung der Fehler wird das Spatial Audio Quality Inventory (SAQI) herangezogen, welches eine aktuelle Sammlung qualitätsbeschreibender Merkmale darstellt. Die verwendeten Merkmale aus SAQI beschreiben räumliche Eigenschaften und Artefakte wie beispielsweise eine Anhebung des tieffrequenten Bereichs oder eine metallische Klangfarbe. Eine Hauptkomponentenanalyse wurde durchgeführt um die Daten zu ordnen und zu bewerten. Damit ist es möglich, wichtige Merkmalsgruppen zu identifizieren und die perzeptiven Merkmale der Fehlereinflüsse zu bewerten.



http://www.db-thueringen.de/servlets/DocumentServlet?id=24144
Seideneck, Mario;
Implementierung eines Systems zur automatisierten Klangpositionierung auf Basis von 3D-Tracking-Systemen. - 111 S. : Ilmenau, Techn. Univ., Masterarbeit, 2014

Mit dieser Arbeit wird das am Fraunhofer IDMT entwickelte 3D-Audio-System SpatialSound Wave um die Anbindung von Trackingsystemen erweitert. Während der Darbietung von Live-Shows wie Musicals oder Theateraufführungen wird es immer wichtiger, dem Publikum ein dreidimensionales Klangerlebnis zu bieten. Bewegt sich ein Darsteller auf der Bühne von links oben nach rechts unten, so muss sich auch die Wiedergabe über das Beschallungssystem von links oben nach rechts unten bewegen. Dazu werden Werkzeuge zur Klangpositionierung verwendet. Ab einer gewissen Zahl an sich gleichzeitig bewegenden Schauspielern wird das manuelle Positionieren für den zuständigen Tontechniker jedoch nahezu unmöglich. Aus diesem Grund kommen Technologien zur automatischen Klangpositionierung zum Einsatz. Im Rahmen dieser Masterarbeit wird die Entwicklung und Implementierung einer Applikation beschrieben, welche die Integration solcher Trackingsysteme in SpatialSound Wave ermöglicht. Ausgehend von den Grundlagen des Trackings wird der aktuelle Stand der Technik im Bereich der 3D-Audio-Produktion analysiert und am Markt verfügbare Trackinglösungen vorgestellt. Auf Basis einer Situations- und Anforderungsanalyse ist zur Beschreibung der Einbindung in die bestehende Infrastruktur ein Nutzerkonzept entstanden. Das Resultat dieses Konzepts ist eine webbasierte Anwendung, welche unter Verwendung des Frameworks UI.FM prototypisch implementiert ist. Dieser Prototyp wird mittels geeigneter Methoden des Usability-Engineerings auf software-ergonomische Qualität evaluiert. Abschließend wird Stellung zu weiteren Entwicklungen an der realisierten Software bezogen und ein Ausblick auf mögliche Zukunftsszenarien des Trackings gegeben.



Winges, Manuel;
Untersuchung und Implementierung von Verfahren zur Klangquellentrennung in Schlagzeugaufnahmen. - 95 S. : Ilmenau, Techn. Univ., Masterarbeit, 2014

Ein wesentlicher Bestandteil des Music Information Retrieval ist die Trennung von Quellen in Klanggemischen. So wurden in den vergangenen Jahren viele Ansätze mittels nichtnegativer Matrixfaktorisierung (NMF) realisiert. Gerade für Echtzeitanwendungen, wie z.B. Online-Schlagzeugtranskription, eignet sich die NMF wegen ihrer geringen Komplexität und benötigten Rechenleistung. Trotz guter Transkriptionsergebnisse wurde deutlich, dass die Qualität der zugrundeliegenden Quellentrennung noch Verbesserungspotenzial hat. Im Rahmen dieser Arbeit wurde sich daher mit echtzeitfähigen Verfahren der Quellentrennung von Schlagzeugklängen beschäftigt, die die bisherigen Ansätze erweitern sollen. So bildeten im Speziellen die Non-Negative Matrix Factor Deconvolution (NMFD) und die Non-Negative Matrix Factorization mit Markov Chained Bases (MNMF) den Kern der Untersuchung und Implementierung. Ihre Algorithmen wurden zur Anwendung in einem echtzeitfähigen Framework modifiziert. Die Evaluation wurde über ein Testset mit synthetisch erzeugten Schlagzeugklängen evaluiert. Besonderes Augenmerk lag bei der Untersuchung auf der Qualität der getrennten Quellen. Dafür wurden bewährte perzeptuelle Evaluationsmaße verwendet. Es konnte festgestellt werden, dass die Qualität gegenüber der NMF für bestimmte Parameterkonstellationen verbessert werden kann. Diese sind jedoch vom Einzelfall abhängig und konnten bisher nur durch aufwendige Parameterraumsuchen bestimmt werden.



Räth, Hans-Jürgen;
Konzeption und Umsetzung eines Systems zur automatischen Evaluation von Annotatoren. - 71 S. Ilmenau : Techn. Univ., Masterarbeit, 2014

Ausgehend davon, dass Mediendateien durch Bearbeitung einer anderen Datei entstehen können, und Metadaten vorliegen, die diese Bearbeitung beschreiben, wird in dieser Arbeit eine Datenbankstruktur erstellt, die diese Metadaten speichern kann. Ebenso beschäftigt sie sich damit, wie diese Informationen abgefragt werden können. Besonderer Wert liegt dabei auf der Abbildung der Vernetzung der voneinander abgeleiteten Dateien, wofür sich die Graphdatenbank OrientDB als bestes Framework zeigte. Die Suche nach Dateien, die bestimmte Parameter haben oder durch bestimmte Operationen erstellt wurden, kann damit performant erfolgen.



Pöpperl, Maximilian;
Design and analysis of dual polarized antenna arrays for channel sounding application. - 111 S. : Ilmenau, Techn. Univ., Masterarbeit, 2014

MIMO Verfahren werden heutzutage in verschiedensten Anwendungen verwendet. Besonders das sogenannte Beam-forming ist weit verbreitet. Mit dieser Methode ist es möglich die Sendequalität von drahtlosen Übertragungssystemen zu verbessern oder eine Lokalisierung des Senders durchzuführen. Dazu gibt es verschiedenste Anwendungsmöglichkeiten. Um einen solchen komplexen Algorithmus anwenden zu können, müssen besondere Vorgaben erfüllt sein. Insbesondere die Hardware muss den Herausforderungen eines MIMO Systems angepasst werden. Dazu gehören auch die verwendeten Antennen. In dieser Arbeit werden verschiedene Antennenkonzepte für den Einsatz in einem zirkularen, dual-polarisierten Antennen-Array für MIMO Anwendungen bei 2,53 und 5,2 GHz erstellt und untersucht unter Verwendung des Simulationstools Ansoft HFSS. Schließlich wird die gefertigte Gruppenantenne vermessen und damit die simulierten Ergebnisse verifiziert.



Hellfritzsch, Mathias;
Untersuchungen und Vergleich zur Definition der Nutzungsumgebung und des Einsatzes von Videokommunikation im professionellen und im privaten Bereich. - 229 S. Ilmenau : Techn. Univ., Masterarbeit, 2013

Immer häufiger ist in Auslagen großer Technikanbieter und -konzerne zu beobachten, dass eine Vielzahl an Kommunikations- und Interaktionssystemen mit der Videokommunikation ausgestattet ist. Mit der Vielzahl an Möglichkeiten, die dem Nutzer hinsichtlich der Videokommunikation geboten werden, entstehen für den Nutzer ebenso viele Nutzungsumgebungen. Ziel der Arbeit ist, die realen Nutzungsumgebungen des Nutzers hinsichtlich der Videokommunikation abbilden zu können. Dabei wird der Fokus auf die private und professionelle Nutzungsumgebung gelegt. Hierzu ergeben sich folgende Forschungsfragen, die im Zentrum der Arbeit stehen: Wie ist der aktuelle Stand der Videokommunikation im privaten und im professionellen Environment? Welche Gemeinsamkeiten und welche Unterschiede bestehen zwischen privatem und professionellem Environment (Nutzungsangelegenheiten, Nutzungsumgebung, Nutzungsverhalten, Nutzungshäufigkeit, Stellenwert, Einflussfaktoren)? Der erste Teil der vorliegenden Arbeit gibt einen Einblick in die theoretischen Grundlagen der Videokommunikation. Neben der Klärung diverser Begrifflichkeiten wird ein Einblick in die Entwicklung der Videokommunikation und ein Überblick der aktuellen Marksituation der Videokommunikation gegeben. Im zweiten Teil der Arbeit wird sich mit den theoretischen Konzepten der jeweiligen Environments sowie deren Analysemöglichkeit auseinandergesetzt. Zentraler Punkt dieses Abschnitts ist, die theoretischen Vorüberlegungen aus dem ersten Teil der Arbeit mit der empirischen Untersuchung aus dem dritten Teil der Arbeit zu verbinden. Ausgehend von den jeweiligen Context-Kategorien werden hypothetisch Szenarien für potentielle Einflussfaktoren in den jeweiligen Environments entwickelt. Die hypothetischen Vorüberlegungen sind Grundlage für die im dritten Teil der Arbeit vorzustellenden Fragebögen. Die Fragebögen dienen der Untersuchung der realen Videokommunikationsgegebenheiten im privaten und im professionellen Environment. Erklärungen zum Aufbau und zur Zusammensetzung der Fragebögen sowie deren Auswertung ist Bestandteil des dritten Teils der Arbeit. Die gewonnenen Ergebnisse der Fragbögen der jeweiligen Environments sollen Antworten auf die Forschungsfragen geben, aus denen wiederum ein Abbild der Videokommunikationsnutzung in den beiden Environments erzielt werden kann. Die Arbeit endet mit einer Schlussbetrachtung, in der eine Einschätzung der Ergebnisse und deren Repräsentativität vorgenommen wird. Zudem wird ein Ausblick für die Nutzung der Videokommunikation gewagt.



Leimeister, Matthias;
Implementation and evaluation of a system for drum pattern detection and retrieval in polyphonic music. - 80 S. : Ilmenau, Techn. Univ., Masterarbeit, 2013

Diese Masterarbeit beschreibt ein System zur Erkennung und Klassifizierung von Schlagzeugpattern in polyphonen Musikstücken. Basierend auf Quellentrennung durch nichtnegative Matrixfaktorisierung (NMF) wird das Vorkommen von Bass und Snare Drums im Eingangssignal erkannt. Das Ergebnis dieser automatischen Transkription wird anschließend einer Mustererkennung unterzogen, die mit Hilfe von Deep Learning den Taktanfang bestimmt und das gefundene Muster anhand einer Datenbank von typischen rhythmischen Stilen klassifiziert. Das System wurde im Hinblick auf die Verwendung in einer elektronischen DJ-Software entwickelt.



Tobian, Denise;
Klassifikation von Videoszenen auf Basis visueller Eigenschaften. - 182 S. Ilmenau : Techn. Univ., Masterarbeit, 2013

Die Anzahl an Multimediadaten wächst stetig, weshalb eine automatisierte Organisation und Verwaltung unumgänglich wird. Ein wichtiger Schritt in diesem Zusammenhang besteht in der automatisierten Klassifikation der Semantik des Datenmaterials. Diese Semantik spiegelt sich jedoch in einer Vielfalt an Konzepten wider, die es nach Möglichkeit individuell zu betrachten gilt. So wurden im Rahmen dieser Arbeit häufig verwendete Konzepte identifiziert und bzgl. ihrer charakteristischen Merkmale untersucht, um im Rahmen des maschinellen Lernens jedes Konzept anhand der jeweils relevanten Merkmale zu repräsentieren. Zur Klassifikation wurden dabei Konzepte genutzt, die unter anderem die Tageszeit bzw. die räumliche Umgebung eines Bildes näher beschreiben. Zusätzlich fanden Stimmungskonzepte sowie detaillierte Beschreibungen Anwendung. Dabei wurde im Rahmen der Evaluationen eine Vielzahl an Farb- und Texturmerkmalen so reduziert, dass bzgl. der Charakteristik eines jeweiligen Konzepts schließlich die Merkmalskombination gefunden wurde, welche die Klassifikationsgüte steigert. Diese Auswahl wurde auf ihre Gültigkeit für unterschiedliche Daten analysiert sowie durch zusätzliche Untersuchungen verifiziert. Darüber hinaus wurden weitere Einflussparameter, die sich auf den Klassifikationsprozess auswirken, identifiziert und anhand unterschiedlicher Evaluationen optimiert, bspw. die Bildauflösung zur Merkmalsextraktion, die Zusammenstellung des Datensatzes bzgl. Video- und Fotodaten sowie die Klassifikation von semantischen Konzepten unter Berücksichtigung von Beziehungen. Weiterhin wurde die Klassifikation und Evaluation von Multi-Labels optimiert, um auch an der Stelle die Klassifikationsgüte zu steigern. Ein wichtiger Punkt dabei bestand darin, Schwellwerte zu ermitteln auf deren Basis die Klassifikation erfolgen kann. Aufbauend auf den Erkenntnissen der durchgeführten Evaluationen wurde ein Framework entwickelt, das die einzelnen Optimierungsschritte berücksichtigt und die weitere Evaluation bzw. Klassifikation von Bilddaten vornimmt. Schließlich konnte die Klassifikationsgüte für die einzelnen Konzepte im Rahmen dieser Arbeit in jedem Fall gesteigert werden. Die Klassifikation von Multi-Labels auf Basis der optimierten Schwellwertbestimmung sowie die Berücksichtigung von Beziehungen erzielten dabei die größte Verbesserung der Klassifikationsgüte.



Li, Wei;
Individuelle Auswahl nicht individueller Außenohrübertragungsfunktionen auf Basis von optimierten Datensätzen. - 75 S. Ilmenau : Techn. Univ., Masterarbeit, 2013

In den letzten Jahren haben sich die Multimedia-Technologien schnell entwickelt. Es werden immer höhere Anforderungen an die Qualität gestellt. Die audiovisuelle Technik zieht immer mehr Aufmerksamkeit auf sich, z.B. die binaurale Technik. In dieser Technik spielt die Außenohrübertragungsfunktion (engl.: Head Related Transfer Function, HRTF) eine wichtige Rolle. Die Richtungsdarstellung kann durch die Faltung des HRIRs bzw. HRTFs mit den Audiosignalen realisiert werden. Die HRTFs sind für jeden Benutzer individuell. Für jeden Benutzer soll ein HRTF-Set aus einer Datenbank individuell ausgewählt werden. Eine große Datenbank führt allerdings zu einer längeren Auswahlprozedur. Das bedeutet erhöhten Zeitaufwand im Auswahlverfahren. Um diesen Zeitaufwand zu beseitigen, legt diese Arbeit den Fokus auf die Gruppierung der HRTF-Sets in einer Datenbank. Vier Gruppierungsmethoden werden in dieser Arbeit entwickelt und vorgestellt. Außerdem wird ein passendes Auswahlverfahren entwickelt, das Auswahl-Tool. Für einen Lokalisierungstest wird ein Test-Tool entwickelt. Alle Programme wurden in MATLAB realisiert. Die Optimierungsmöglichkeiten für bessere Ergebnisse werden in dieser Arbeit vorgeschlagen.



Zahn, Alexandra;
Entwicklung und Evaluation von Verfahren zur Detektion von rhythmischen Mustern in Videos. - 123 S. Ilmenau : Techn. Univ., Masterarbeit, 2013

Die vorliegende Masterarbeit beschreibt die Entwicklung eines Systems zur Detektion und Klassifizierung von rhythmischen Mustern in Videosequenzen. Der äußere visuelle Rhythmus manifestiert sich in Form von Montagestrukturen. Diese entsprechen den Konzepten "regular", "progressive", "alternating" und "random" und werden vom System unter Verwendung von eindeutigen Vorschriften hierarchisch erfasst und differenziert. Einheiten des inneren visuellen Rhythmus kommen in ihrer Ausprägung globalen Bewegungsvarianzen gleich, die den Klassen "no motion", "fluid" und "staccato" gerecht werden. Grundlage für die Erkennung rhythmischer Patterns innerhalb der Einstellungen bildet eine frameweise globale Bewegungsschätzung, die unter Einsatz eines Gaussian Mixture Models (GMM) sowie einer Support Vector Machine (SVM) realisiert wird. Auf Basis dieser Klassifikation können zeitliche Bewegungsänderungen in Art und Tempo in einem Deskriptor festgehalten werden. Das Merkmal dient im Verlauf zur Klassifizierung der rhythmischen Elemente, wiederum mithilfe einer SVM. Um die Teilkomponenten des Systems in ihrem Funktionsumfang hinreichend bewerten zu können, wurde ein Datenset bestehend aus 136 Schnittfolgen und 7953 Einstellungen aus den Kategorien Werbung, Spielfilm, Musik und Sport angelegt. Die besten Parameterkonfigurationen der implementierten Module lieferten diesbezüglich eine maximale mittlere Detektionsgenauigkeit von 79% für die Patterns des äußeren visuellen Rhythmus. Muster innerhalb der Shots konnten mit einer mittleren Genauigkeit von 66,5% klassifiziert werden.



Menzel, Franz;
Entwicklung und Evaluation von Technologien zur verlaufsbezogenen Videoanalyse für cross-modales Mapping. - 136 S. Ilmenau : Techn. Univ., Masterarbeit, 2013

Die Vertonung von Fernseh- oder Kinofilmen stellt für Produktionsfirmen einen zeit- und kostenaufwändigen Prozess dar. Hier sind Verfahren erwünscht, die die Suche nach einer musikalischen Untermalung anhand passender dramaturgischer Eigenschaften aus verfügbaren Musikdatenbanken automatisiert durchführen können. Vor diesem Hintergrund wurde im Rahmen der vorliegenden Arbeit ein entsprechendes System zur Prädiktion zeitlicher Stimmungsverläufe in Bewegtbildfolgen entwickelt. Ein bestehendes Set an visuellen Merkmalen ist diesbezüglich um relevante Methoden zur Erkennung der Stimmung erweitert worden. Zur Evaluation des konzipierten Systemablaufs wurde ein Datensatz aus 200 Videosequenzen zusammengestellt und durch Probanden hinsichtlich der zeitlichen Verläufe bewertet. Dabei erfolgte eine genauere Betrachtung der Stimmungsdimensionen Valence und Arousal sowie der fünf Low-Level Konzepte Helligkeit, Farbigkeit, Farbtemperatur, Detailgrad und Bewegungsintensität. Die Regressionsmethoden Multiple Linear Regression (MLR), Partial Least Square Regression (PLSR) und Support Vector Regression (SVR) wurden zur Prädiktion unbekannter Verläufe herangezogen und miteinander verglichen. Das System erzielte eine maximale Genauigkeit von 35% für Valence und 48% für Arousal. Die beste Vorhersage konnte dabei durch die MLR in Kombination mit einer zeitlichen Glättung sowie Box-Cox-Transformation der Merkmale erreicht werden. Auf Grundlage der geschätzten Verläufe wurde die Möglichkeit zur Erfassung des Stimmungstrends untersucht. Eine Klassifikation in "steigend", "konstant" und "fallend" erreichte eine Genauigkeit von 49% für Valence und 60% für Arousal.



Veit, Quirin;
Softwarearchitektur und -implementierung für ein Werkzeug zur semi-automatischen Annotation von Videos. - 137 S. Ilmenau : Techn. Univ., Masterarbeit, 2013

Am Fraunhofer IDMT werden Anwendungen im Bereich des maschinellen Sehens entwickelt. Hierfür werden \emph{Ground Truth} Daten benötigt, die den semantischen Inhalt, die Struktur oder Eigenschaften einer Mediendatei beschreiben und von einem oder mehreren Menschen erstellt werden. Auf Basis dieser Referenzdaten können Algorithmen semantische Konzepte antrainiert werden. Um die Auswirkungen von Anpassungen während der Entwicklung und/oder die Leistungsfähigkeit unterschiedlicher Algorithmen vergleichen zu können, sind ebenfalls Groud Truth Daten notwendig. Die Verfügbarkeit und Qualität dieser Daten ist dabei von entscheidender Bedeutung, um aussagekräftige Ergebnisse zu erhalten. Während für Bilddaten zahlreiche öffentlich zugängliche und umfangreiche Daten-Sets existieren, besteht für Videos ein Mangel derartiger Datenbanken. Ein Grund dafür ist der hohe zeitliche Aufwand bei der manuellen Erstellung von Annotationen durch die Beschaffenheit von Videodaten. Ein weiterer Grund ist ein Mangel an ausgereiften und flexibel einsetzbaren Annotationswerkzeugen, welche neben zeitlichen örtliche Annotation ermöglichen. Im Rahmen dieser Arbeit wurde ein Werkzeug zur raum-zeitlichen Annotation von Videodaten entwickelt, das flexibel eingesetzt und über Schnittstellen erweitert und angepasst werden kann. Um den zeitlichen Annotationsaufwand zu reduzieren wurden Automatismen integriert, welche dem Nutzer eine effiziente Annotation zeitlicher wie auch örtlicher Eigenschaften ermöglicht. Zur Gewährleistung einer hohen Nutzerfreundlichkeit wurde die Software unter Berücksichtigung von Usability-Aspekten konzipiert.



Spindler, Philipp;
Entwicklung eines Wiedergabesystems für 3D-Klangregie. - 75 S. : Ilmenau, Techn. Univ., Masterarbeit, 2013

Audiowiedergabeverfahren wie die Wellenfeldsynthese (WFS) ermöglichen die synthetische Rekonstruktion akustischer Wellenfelder. Durch Positionierung virtueller Schallquellen können virtuelle Klangszenen geschaffen und beispielsweise Orchester realitätsgetreu nachgebildet werden. Auf Grund der bei der Wellenfeldsynthese benötigten hohen Anzahl an Lautsprechern arbeitet das Fraunhofer IDMT in Ilmenau an 3D-Audiowiedergabeverfahren wie dem SpatialSound Wave (SSW), welches dreidimensionale Klanggestaltung mit einer deutlich niedrigeren Lautsprecheranzahl ermöglicht. Selbst Systeme mit z.B. 60 Lautsprechern stellen an kleine Räumlichkeiten wie häusliche Tonstudios hohe finanzielle sowie Platzanforderungen. In der vorliegenden Masterarbeit wird ein Wiedergabesystem auf Basis von SSW vorgestellt, welches räumliche Audiowiedergabe mit weniger als zehn Lautsprechern ermöglicht. Es werden informell zwei Lautsprecheranordnungen in Form von Empfehlungen für den Endanwender erarbeitet, die diesem als Orientierung dienen. Die Aufstellung der Lautsprecher ist an die Gegebenheiten des Endanwenders flexibel anpassbar. Das Wiedergabesystem ist zusätzlich in der Lage größere Lautsprecheranlagen zu simulieren. Toningenieuren wird die Möglichkeit einer Vorproduktion von Audiomaterial eröffnet, die diese zu Hause im Tonstudio oder im Übertragungswagen von Rundfunkanstalten mobil leisten können. Für die Untersuchungen dieser Masterarbeit wird die Simulation von Lautsprechersetups konzeptioniert und mit einem Hörversuch evaluiert. Letzterer wird entworfen, durchgeführt und ausgewertet. Die Evaluation des entwickelten Wiedergabesystems berücksichtigt die Richtungs- und Entfernungswahrnehmung virtueller Quellen in realen und virtuellen Produktionsumgebungen.



Amer, Abdullah;
Further development of primates identification system. - 77 S. Ilmenau : Techn. Univ., Masterarbeit, 2013

Anhand mehrerer unabhängiger Studien wurde gezeigt, dass das Artensterben in den letzten Jahrzehnten immer mehr zugenommen hat. Zur Überwachnung der verbleibenden Populationen gefährdeter Arten werden immer häufiger autonome Video- oder Audioaufnahmegeräte benutzt. Um die resultierende Menge an Daten effizient auswerten zu können, werden automatisierte Algorithmen benötigt. Im Rahmen der vorliegenden Arbeit zum Thema Identifikation von Primaten wurden mehrere Algorithmen analysiert und modifiziert um ausreichend gute Erkennungsleistungen zu gewährleisten. Dabei wurden verschiedene globale Merkmale, wie z.B. Gabor Wavelets, und lokale Merkmale, wie z.B. SIFT oder SURF, durch verschiedene Fusionstechniken kombiniert um eine möglichst hohe Identifikationsrate zu erreichen und gleichzeitig das System robuster gegenüber Posen- und Lichtveränderungen zu machen. Verschiedene Klassifikatoren, wie z.B. Sparse Representation Classification oder Support Vector Machines, wurden genutzt um detektierte Gesichter einzelnen Individuen zuzuordnen. In einer Reihe durchgeführter Experimente wurden vielversprechende Ergebnisse erzielt.



Frutos Bonilla, Javier;
Development of an application for the integration of room simulation and reverberation time extension into 3D sound systems. - V, 94 S. : Ilmenau, Techn. Univ., Masterarbeit, 2013

Diese Masterarbeit beschäftigt sich mit der Konzeption und Integration eines Raumsimulationsmoduls in Beschallungssysteme zur räumlichen Schallfeldwiedergabe des Fraunhofer IDMT. Gefordert wird, dass die Raumsimulation nicht nur für große Hörerflächen, sondern auch in kleineren Veranstaltungsorten anwendbar ist. Das konzipierte Modul nutzt psychoakustische Prinzipien aus, um in Abhängigkeit der Quell- und Zuhörerpositionen einen plausiblen räumlichen Klangeindruck zu schaffen. Dafür werden dedizierte Lautsprecher verwendet, um Reflexionen zu simulieren und somit den Klangeindruck für verschiedene Hörerflächen zu optimieren. Ein Prototyp wird in Matlab implementiert und im 3D-Präsentationsraum von Fraunhofer IDMT installiert. In einem subjektivem Hörtest werden 3 Konditionen evaluiert: die Lokalisation von Quellen in verschiedenen virtuellen Umgebungen, die Plausibilität des räumlichen Eindrucks und die Stabilität der Raumsimulation über allen Zuhörerspositionen.



Heise, Georg;
Untersuchungen zum Zusammenhang zwischen der Ohrkanalresonanzfrequenz und den richtungsabhängigen Merkmalen der Außenohrübertragungsfunktion. - 135 S. Ilmenau : Techn. Univ., Masterarbeit, 2012

Das Erzeugen von virtuellen akustischen Welten bietet viel Potential. An dem Thema wird stetig geforscht und bereits vorhandene Technologien verbessert. Diesbezüglich ist es wichtig zu verstehen, wie die menschliche Schallwahrnehmung genau funktioniert. Außenohrübertragungsfunktionen (engl.: HRTF) beschreiben im Wesentlichen die Veränderung des Schalls von einer Schallquelle bis zum Trommelfell. Es ist bereits bekannt, dass sie einen wesentlichen Teil zur Schalllokalisation beitragen. In dieser Arbeit werden Untersuchungen durchgeführt, um herauszufinden, ob eventuell ein Zusammenhang zwischen der richtungsunabhängigen Ohrkanalresonanzfrequenz und den richtungsabhängigen Merkmalen der Außenohrübertragungsfunktion besteht und ob die Ohrkanalresonanzfrequenz unter Umständen als eine Art Referenz für die Schallanalyse des menschlichen Gehirns dienen könnte. Um dies zu erreichen werden zunächst individuelle Messungen durchgeführt. Daraufhin werden auf deren Basis diverse binaurale Ohrsignale für anschließende Hörversuche generiert. Bei diesen Ohrsignalen wird die Hauptohrkanalresonanzfrequenz durch Modifizierungsfilter in unterschiedliche Frequenzbereiche künstlich verschoben. Die Hörversuche gliedern sich zum Einen in einen Selbstversuch, welcher auf individuell gemessenen HRTFs basiert, und zum Anderen in einen Probandentest auf Grundlage einer HRTF-Datenbank. Untersucht wird dabei im Wesentlichen, ob die Modifizierung der Ohrkanalresonanz Einfluss auf die Kriterien Entfernung, Richtung bzw. Richtungsänderung und Quellenbreite hat. Als Ergebnis werden teilweise interessante Schallquellenbewegungen beobachtet, welche als Grundlage für weitere Arbeiten dienen könnten. Bezüglich der Entfernung und der Quellenbreite lassen sich kaum Veränderungen feststellen. Insgesamt lassen sich keine Erkenntnisse gewinnen, die mit Sicherheit auf die Verschiebung der Ohrkanalresonanzfrequenz zurückzuführen sind.



Sass, Rebecca;
Synthese binauraler Raumimpulsantworten. - 113 S. Ilmenau : Techn. Univ., Masterarbeit, 2012

Mit Hilfe der Binauraltechnik können dreidimensionale akustische Szenen gehörrichtig wiedergegeben werden. Sowohl die Position einer Schallquelle relativ zum Hörer als auch die räumliche Beschaffenheit des Hörerumfeldes lassen sich authentisch reproduzieren. Alle Informationen, die das Gehör benötigt, um einen dreidimensionalen Höreindruck zu schaffen, sind dabei für Freifeldbedingungen in kopfbezogenen Übertragungsfunktionen beziehungsweise in Gegenwart von Reflexionen in binauralen Raumimpulsantworten kodiert. Ihr Einsatz ermöglicht die gehörrichtige Wiedergabe akustischer Szenen und stellt somit einen essentiellen Bestandteil der Binauraltechnik dar. Im Rahmen dieser Arbeit wird ein Algorithmus entwickelt, der durch Interpolation zwischen zwei gemessenen Datensätzen binaurale Raumimpulsantworten synthetisiert. Im Vordergrund steht dabei die Interpolation zwischen Entfernungen sowie zwischen verschiedenen Räumen. Es werden zwei Syntheseverfahren implementiert. Das erste Verfahren basiert auf einer linearen Interpolation der Amplitudenwerte jedes Samples im Zeitbereich für die Erzeugung neuer Datensätze. Im zweiten Verfahren wird dieser Ansatz um eine vorherige ideale Ausrichtung der beiden zu interpolierenden binauralen Raumimpulsantworten zueinander auf der Zeitachse durch Dynamic Time Warping erweitert. In zwei Räumen werden binaurale Raumimpulsantworten für verschiedene Distanzen als Grundlage für die Synthese neuer Datensätze mit dem entwickelten Algorithmus aufgenommen. Für jeden der Räume wird mit beiden implementierten Verfahren eine Interpolation zwischen den binauralen Raumimpulsantworten verschiedener Schallquellenentfernungen durchgeführt. Außerdem findet eine Interpolation mit beiden Verfahren zwischen den Räumen statt. Die Syntheseergebnisse werden in einem Hörversuch evaluiert. Anhand der Distanzwahrnehmung und der wahrgenommenen Externalität für alle Synthesereihen werden die prinzipielle Eignung der synthetisierten Impulsantworten für die binaurale Wiedergabe, die Plausibilität der mit ihnen reproduzierten akustischen Szenen und die dabei auftretenden Wahrnehmungseffekt untersucht.



Krasser, Johannes;
Implementierung und Untersuchung von Merkmalen und Algorithmen für die Berechnung musikalischer Ähnlichkeit auf Basis von Klangobjekten. - 107 S. : Ilmenau, Techn. Univ., Masterarbeit, 2012

Aufgrund der steigenden Zahl an online verfügbarer Musik, wächst der Bedarf an automatischen Verfahren zur Musiksuche und -empfehlung. Das Ziel dieser Masterarbeit ist die Entwicklung eines Systems, das eine verbesserte, inhaltsbasierte musikalische Ähnlichkeitssuche auf Basis von Tonobjekten ermöglicht. Die Ähnlichkeitssuche wird als Genre-Klassifikationsaufgabe aufgefasst. Tonobjekte werden mit Hilfe von Algorithmen zur zeitlichen und spektralen Separation extrahiert. Der vorgestellte Ansatz wird mit einem Basissystem verglichen, welches mit Frames arbeitet, deren zeitliche Auflösung festgelegt ist. Außerdem wird das Verfahren mit einem neu entworfenen System verglichen, das mit den einzelnen Instrumentalspuren von 75 Mehrspuraufnahmen arbeitet, die fünf musikalischen Genres zugeordnet sind. Für alle Experimente werden zwei Audiomerkmale extrahiert, die Aussagen über das Timbre treffen. Anschließend werden mit Verfahren des maschinellen Lernens Modelle trainiert. Der entwickelte Ansatz erreicht F-Maße von etwa 0,93 und erzielt damit deutlich bessere Ergebnisse als das Basissystem. Ähnliche Verbesserungen können festgestellt werden, wenn ein größerer Datenbestand mit 1000 Musikstücken und einer Taxonomie von zehn Genres verwendet wird. Dies demonstriert die Anwendbarkeit des Verfahrens auf realistische Musikdatensätze. Die Ergebnisse zeigen, dass ein Tonobjekt-basierter Ansatz die musikalische Ähnlichkeitssuche verbessert, da er stärker musikalisch motiviert ist als eine Frame-basierte Methode.



Füg, Simone;
Untersuchungen zur Distanzwahrnehmung von Hörereignissen bei Kopfhörerwiedergabe. - 133 S. Ilmenau : Techn. Univ., Masterarbeit, 2012

Im Zeitalter der virtuellen Realität ist es für ein realistisches Zusammenspiel von visuellem und auditivem Eindruck sinnvoll, neben der Richtung einer Schallquelle auch ihre Distanz reproduzieren zu können, ohne dass dabei die Menge der benötigten Daten immens ansteigt. Eine denkbare Wiedergabeart dazu ist die binaurale Kopfhörerwiedergabe. In dieser Arbeit werden zwei Algorithmen für eine gezielte Veränderung der Distanzwahrnehmung bei binauraler Kopfhörerwiedergabe entwickelt. Die Algorithmen verändern systematisch entfernungsabhängige Eigenschaften von binauralen Raumimpulsantworten. Die Zusammenhänge zwischen der Entfernung von Quelle und Abhörpunkt und ausgewählten Merkmalen basieren auf einer ausführlichen Auswertung gemessener binauraler Impulsantworten und einer detaillierten Betrachtung der Mechanismen des menschlichen Entfernungshörens. Zahlreiche entfernungsabhängige Eigenschaften der Impulsantworten ermöglichen es dem Menschen, die Distanz von Schallquellen wahrzunehmen. Diese Eigenschaften sind unter anderem die Anfangszeitlücke, das Verhältnis von Direktschall- zu Nachhallenergie sowie die Maße C50 und C80 und die Nachhallmerkmale T20 und T30, die sich in der Energieabklingkurve wiederfinden lassen. In den entwickelten Algorithmen werden ausgewählte Merkmale in binauralen Impulsantworten gezielt in Abhängigkeit des gewünschten Entfernungseindrucks angepasst. Die Evaluation geschieht über einen Multi-Stimulus-Hörversuch mit versteckter Referenz. Das Ergebnis des Hörversuchs zeigt, dass sich der Entfernungseindruck durch Anwendung der Algorithmen beeinflussen lässt. Die Leistungsfähigkeit der Algorithmen hängt nicht vom wiedergegebenen Signal, wohl aber vom auralisierten Raum ab. Die algorithmische Änderung entfernungsabhängiger Eigenschaften in binauralen Raumimpulsantworten eignet sich also mit Einschränkungen dazu, bei binauraler Kopfhörerwiedergabe einen gewünschten Entfernungseindruck hervorzurufen.



Schirmer, Christopher;
Detektion von Duplikaten und Integritätsprüfung in Video-Produktionsarchiven. - 129 S. Ilmenau : Techn. Univ., Masterarbeit, 2011

In Video-Produktionsarchiven existieren exorbitant große Mengen an Daten, von denen eine Vielzahl identisch oder perzeptuell identisch ist, bzw. auch kurze Abschnitte innerhalb von Medienelementen doppelt auftreten können. Diese redundante Speicherung erzeugt neben dem zusätzlich benötigten Speicherplatz auch hohe Kosten, welche die Speicherverwaltung betreffen; die Suche von Elementen wird erheblich erschwert. In dieser Ausarbeitung wird eine Applikation entwickelt, welche in der Lage ist, selbst sehr kurze exakte oder perzeptuelle Duplikate innerhalb großer Datenmengen zu identifizieren, wobei besonderes Augenmerk auf die Laufzeit der Identifizierung von Duplikaten gelegt wird. Zusätzlich wird eine Integritätsprüfung vorhandener Daten deren Unverfälschtheit sicherstellen. Die resultierenden Informationen detektierter Duplikate werden für die Weiterverarbeitung in einer Datenbank abgelegt. Um zu dieser Lösung zu gelangen, wird zunächst eine Recherche bezüglich existierender Lösungen durchgeführt, welche die Untersuchung einer von Fraunhofer IDMT entwickelten Software zum Thema VideoID einschließt. Aus dieser Software können einige Teilkonzepte und Algorithmen wiederverwendet werden.



Al Ali, Abbas;
Bio-inspired high level vision - from images to shape models for object detection. - 55 S. : Ilmenau, Techn. Univ., Masterarbeit, 2010

In dieser Arbeit wird ein bio-inspiriertes Translationsinvariantes High-Level Objekterkennungssystem entworfen, implementiert und evaluiert. Das System kombiniert die parallele Hough-Transformation PHT, als Feature-Extraktor und Informationsfilter, mit der generalisierten Hough-Transformation GHT und basiert auf ein Mid-Level-Vision-Modul, das parallele Hough-Transformation-Modul, das ein Konturbild in eine Kanten-Featureliste umwandelt. Aus der Featureliste wird eine Referenztabelle R-Tabelle erzeugt, die nach dem Votierprinzip der generalisierten Hough-Transformation in ein Akkumulator-Array votiert. Das Lokalmaximum im Akkumulator wird ermittelt und mit einem Schwellwert verglichen. Ein PHT-Core der Größe 8x8 zur Detektierung von Geradenstücken wurde verwendet. Zur Beurteilung des Erkennungssystems wurde die Receiver Operating Characteristic ROC-Kurve, mit Verwendung der Schwellwerte 5,15,...,95%, als Gütekriterium eingesetzt. Die Auswirkung der PHT-Parameter auf den Erkennungsprozess wurde untersucht. Tests an synthetisierten Bildern zeigten ideale Klassifkationseigenschaften (eine Erkennungsrate von 100% mit einer Falsch-Positiv-Rate von 0%).