http://www.tu-ilmenau.de

Logo TU Ilmenau


Ansprechpartner

Prof. Karlheinz Brandenburg

Fachgebietsleiter

Telefon +49 3677 69-2676

E-Mail senden

Ihre Position

INHALTE

Abschlussarbeiten

Abschlussarbeiten

Anzahl der Treffer: 324
Erstellt: Mon, 27 Jan 2020 06:53:18 +0100 in 1.7164 sec


Merten, Nils;
Gegenüberstellung verschiedener Algorithmen zur Erzeugung einer positionsdynamischen Binauralauralisation aus stark reduzierten Messdaten. - Ilmenau. - 52 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Mit Hilfe von Binauralsynthese ist es möglich, eine gemessene Hörumgebung mit guter Genauigkeit kopfhörerbasiert und in Echtzeit zu simulieren. Es existieren diverse Modelle, um die Ausbreitung von Schall in einem Raum zu simulieren. Dennoch ermöglichen Messungen, die mit Hilfe eines Kunstkopfes erfasst wurden, nach wie vor die präziseste Auralisation einer Hörumgebung. Um eine positionsdynamische Erkundung dieser Szene zu realisieren, ist eine hohe Anzahl der aufwändigen Messungen nötig, was für reale Anwendungen selten tragbar ist. Es ist folglich von größtem Interesse, die nötige Messdatendichte zu reduzieren. Das Ziel dieser Arbeit ist es deshalb geeignete Algorithmen zur Auralisation einer Hörumgebung, aus stark reduzierten Messdaten, zu erforschen. Hierzu werden zunächst existierende Interpolationsalgorithmen verglichen und Anforderungen aus einer psychoakustischen Betrachtung des Problems abgeleitet. Anschließend wird ein eigenes System auf Basis von fünf austauschbaren Algorithmen entwickelt. Diese fünf Iterationen werden technisch auf ihr Vermögen geprüft, die frühen Reflexionen der realen Messdaten zu reproduzieren. Hierbei übertrifft keiner der getesteten Algorithmen messbar eine simple, lineare Interpolation. Die Messposition der Ausgangsdaten erweist sich als dominanter Einflussfaktor auf die Qualität der Approximation. Ein abschließender Hörtest erforscht die Konsequenzen der physikalischen Unterschiede der synthetisierten BRIRs auf die auditive Wahrnehmung. Es wird gezeigt, dass die Richtung der Schallquelle noch mit vergleichbarer Genauigkeit geortet werden kann, wenn Direktschall und frühe Reflexionen interpoliert werden. Alle Probanden empfanden die Szenen, deren frühe Reflexionen mittels linearer Interpolation im Zeit- oder Frequenzbereich berechnet wurden, als plausibel.



Häußler, Jonathan;
Automatische Erkennung der Raumgröße und -geometrie auf Basis binauraler Signale. - Ilmenau. - 51 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Die Analyse der geometrischen Eigenschaften eines Raumes anhand von akustischen Aufnahmen ist für verschiedenste Anwendungen interessant. In dieser Arbeit wird untersucht, in wie weit sich Künstliche Neuronale Netze (KNNs) für eine solche Analyse eignen. Zuerst wird ein Überblick über Konzepte und Entwicklungen in der KNN-Forschung gegeben, anschließend wird das Erstellen und die Verarbeitung des verwendeten Datensatzes erläutert. Abschließend werden die Netzstrukturen der untersuchten KNNs sowie die Experimente beschrieben, die in dieser Arbeit durchgeführt wurden und die Ergebnisse ausgewertet.



Kamandi, Samaneh;
Perception of simplification of the room acoustics in dynamic binaural synthesis for listener translation. - Ilmenau. - 75 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Die positionsdynamische binaurale Synthese kann verwendet werden, um virtuelle Audioobjekte in auditorischen Augmented-Reality-Szenarien plausibel zu auralisieren. Es ermöglicht dem Zuhörer, einen Raum zu Fuß zu erkunden. Die binauralen Raumimpulsantworten (BRIRs) des Hörbereichs werden für verschiedene Kopfausrichtungen an mehreren Positionen des Hörbereichs benötigt. Frühere Studien zur positionsdynamischen binauralen Synthese untersuchten eine systematische Vereinfachung der Daten zur Erstellung von BRIRs einer Linie in einem trockenen Raum, mit dem Ziel, den Messaufwand zu reduzieren und gleichzeitig die Menge der Datensätze zu reduzieren. Die BRIRs der gewünschten Positionen auf der Linie wurden durch Manipulation einiger Parameter synthetisiert, die sich auf die Akustik des Raumes und die Empfindlichkeit des menschlichen Hörsystems für die Übersetzung durch den Hörer beziehen. Einige Qualitätsmerkmale wie Externalisierung, Eindruck des Gehens zur Schallquelle und Plausibilität virtueller Schallquellen wurden in binauralen Hörtests untersucht. Da das Niveau des Nachhalles im Labor in der vorangegangenen Studie gering war, konnte das Ergebnis des Hörerlebnisses den Einfluss der Reflexionsmuster nicht finden. Allerdings führte die Beseitigung des Nachhallens zu einer schlechteren Plausibilität. Diese Arbeit untersucht die mögliche Manipulation von Parametern in Bezug auf die Messdaten eines halligeren Raumes. Die Wirkung des Nachhallens in einem positionsdynamischen binauralen Synthesesystem wird untersucht, basierend auf psychoakustischen Überlegungen zur Lokalisierung und Externalisierung in einem halligeren Raum. Neun Filtersätze werden mit drei Manipulationsalgorithmen erzeugt, um die Auswirkungen der Parametrisierung in Signalen mit mehr Reflexionsenergie zu untersuchen. In einem Hörtest werden die resultierenden BRIR-Sätze verschiedener Algorithmen ausgewertet. Die Ergebnisse deuten darauf hin, dass die Anwendung eines konstanten Reflexionsmusters auf alle Positionen keine Veränderung der Plausibilität und Externalität ergibt als der ursprüngliche Messdatensatz. Nämlich, die Energie des Nachhall-Musters in BRIRs der Referenzposition und des Manipulationsalgorithmus beeinflussen die Plausiibilität und Externalität. Filtersätze mit einem konstanten Reflexionsmuster mit höherer Energie im Vergleich zu anderen Positionen der Leitung werden im Prüfraum authentischer wahrgenommen als solche mit unveränderlichem Hallmuster mit geringerer Energie.



Entwicklung eines Simulationsmodells zur akustischen Lautsprechervermessung eines Mehrwege-Lautsprechersystems. - Ilmenau. - 63 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Die vorliegende Arbeit beschäftigt sich mit der Entwicklung eines Simulationsmodells bzw. Prädiktionsmodells, welches den Amplitudenfrequenzgang eines Mehrwege-Lautsprechersytems im akustischen Fernfeld basierend auf den im Nahfeld gemessenen Amplitudenfrequenzgängen der einzelnen Lautsprecherkomponenten prädiziert. Hierfür wurden vier Mehrwege-Lautsprechersysteme in unterschiedlichen Abständen akustisch vermessen. Es wurden verschiedene Prädiktionsansätze untersucht und auf die Nahfeldmessungen angewendet. Die Prädiktionsergebnisse wurden mit real gemessenen Frequenzgängen verglichen und somit evaluiert. Es konnte gezeigt werden, dass die Prädiktion für einen Frequenzbereich von 20 Hz bis 3 kHz möglich ist und bei den drei untersuchten Standlautsprechern im Durchschnitt nur um 0,5 dB von der Realmessung abweicht. Hierbei wurde der Ansatz nach Struck und Temme um eine Korrekturfunktion erweitert. Der untersuchte Kompaktlautsprecher Smart Soundbox 3 zeigte eine durchschnittliche Abweichung der Prädiktion von der Realmessung von 2,8 dB. Für Frequenzen oberhalb von 3 kHz ist eine Prädiktion auf Basis nach Struck und Temme aufgrund des Zusammenhangs zwischen Wellenlänge und Schallwandabmessungen nicht möglich. Ebenfalls wird in dieser Arbeit gezeigt das eine Prädiktion des Hochtonbereichs mithilfe des logarithmischen Abstandsgesetzes aufgrund der Limitierung im Grenzbereich des Abstandsgesetzes nicht möglich ist.



Surdu, Ileana-Tatiana;
Evaluation of the perceptual mixing time for dynamic binaural synthesis in small rooms for interactive position changes. - Ilmenau. - 63 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Das Ziel der heutigen Audiotechnologien ist es, die menschliche Fähigkeit des 3D-Hörens nachzubilden. Für so einen Prozess werden leistungsfähige Mittel für die Signalaufnahme, -verarbeitung und -wiedergabe benötigt. Die oben genannten Prozesse können mit Hilfe der Binauralsynthese durchgeführt werden. Das Schlüsselelement des Verfahrens ist die binaurale Raumimpulsantwort(BRIR). Die BRIR ist eine spezifische Art von Impulsantwort die enthält Informationen zu dem Raum als auch zu dem Empfänger. Für die finale virtuelle Audioszene wird die BRIR mit einem echofreien, mono Audiosignal gefaltet. Je nach der ermöglichten Bewegungsfreiheit für den Nutzer, die benötigte Datenmenge erhöht sich dementsprechend. Eine Datenkompressionmöglichkeit ergibt sich aus dem Verlust der Raumorientierung in einem diffusen Schallfeld. Der Zeitpunkt zwischen den frühen und späten Reflexionen wird als "Mixing Time" bezeichnet. Ein genereller Mixing-Time-Wert für den gesamten Raum würde zu dem Ersetzen von späten BRIR Anteilen mit einer Konstante führen. Eine optimale Zusammenstellung von BRIR-Komponenten wird zu einer effizienten und unschädlichen Datenminimierung führen. Das Ziel der vorliegenden Arbeit besteht darin, zu untersuchen, ab welcher Mixing-Time und unter welchen Umständen die Rauminformationen des diffusen Anteils einer binauralen Raumimpulsantwort (BRIR) vernachlässigbar werden. Hierzu wurden die diffusen Anteile der BRIRs nach verschiedenen Mixing-Time-Werten untereinander ersetzt, während der Direktschall sowie eventuelle frühe Reflexionen nicht verändert wurden. Als Datengrundlage wurden BRIRs aus zwei unterschiedlichen Raumpositionsmessungen verwendet, angeregt von einer Schallquelle platziert jeweils in zwei verschiedene Positionen. Zur Evaluierung wurde ein Hörtest mit einer statischen Binauralsynthese durchgeführt mit erfahrenen Probanden. Eine globale Analyse der Ergebnisse zeigt eine deutliche Abhängigkeit zwischen der räumliche Orientierung und der relativen Positionierung von Sender und Empfänger. Für die Probanden war eine Raumorientierung für große Entfernungen trotz später Konkatenationszeiten möglich. Die BRIR-Kombination unterschiedlicher Empfänger- und Schallquelleposition zeigte sich als nicht effizient für eine mögliche Datenkompression. Für die Nachhallphase wurde eine Anfangszeit von mindestens 75 ms als notwendig ermittelt.



Müller, Clemens;
Entwicklung und Evaluierung von Methoden zur Synthese von binauralen Raumimpulsantworten zur Abbildung neuer Quellpositionen. - Ilmenau. - 58 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

In dieser Bachelorarbeit sollen Methoden zur Synthese von binauralen Raumimpulsantworten mit neuen Quellpositionen entwickelt und evaluiert werden. Als Grundlage wurde die Arbeit von Christina Mittag verwendet. Sie hatte 2012 drei Algorithmen zur Synthese von binauralen Raumimpulsantworten mit neuen Hörerpositionen entwickelt und evaluiert. Diese werden so angepasst, dass eine Synthese neuer Quellpositionen möglich ist. Für die Erstellung und Bewertung der neuen Algorithmen werden binaurale Raumimpulsantworten von sechs kreisförmig angeordneten Lautsprechern verwendet. Diese Aufnahmen entstanden während eines früheren Medienprojekts im Medienlabor 2 der Technischen Universität Ilmenau. Die Evaluation erfolgt zuerst anhand der technischen Kriterien Nachhallzeit (T60), Direktschallenergie-zu-Nachhallenergie Verhältnis (DRR), Deutlichkeitsmaß (C50) und Klarheitsmaß (C80). Anschließend wird die perzeptive Evaluation mithilfe eines Hörtest durchgeführt und ausgewertet, um die Ergebnisse der beiden Evaluationen vergleichen zu können. Zu diesem Zweck wird ein Hörtest durchgeführt in dem die Probanden gebeten werden Externalität der Synthese sowie die allg. Unterschiede, die Distanzunterschiede und die Richtungsunterschiede zwischen der Referenz und der Synthese zu bewerten. Nach dem Vergleich beider Evaluationen lässt sich sagen, dass die Synthese aus einer Messung in bestimmten Grenzen annähernd fehlerfrei verläuft. Dieselbe Aussage lässt sich auch für die Synthese aus mehreren interpolierten Messungen treffen.



Nasrollahnejad, Afrooz;
Evaluating plausibility of interactive virtual acoustic environments for headphone reproduction. - Ilmenau. - 141 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

IIn der vorliegenden Arbeit wird ein neuartiges Verfahren vorgeschlagen, um die Plausibilität einer interaktiven virtuellen akustischen Umgebung für die Wiedergabe von Kopfhörern auszuwerten. Die bestehenden Verfahren in der Literatur berücksichtigen oft nicht die Erwartungen des Hörenden und ihre früheren Erfahrungen. Diejenigen, die dies tun, unterliegen Nachteile, wie Mehrdeutigkeit, Unklarheit und Fehlinterpretation. Dies kann das Ergebnis der Verwendung von Vokabeln sein, die im Wesentlichen nicht was mit Plausibilität gemeint ist. Außerdem scheint entweder die Verwendung von vordefinierten akustischen Eigenschaften oder ja/nein-Paradigmen, nicht vielversprechende Methoden zu sein. In dieser Arbeit wird ein Hörtest durchgeführt, bei dem die Erwartungen des Hörenden erfasst werden, bevor der Test beginnt. Alle Szenen und Testversuche werden dann von den Zuhörern beurteilt und auf Grund ihrer initial aufgezeichneten Erwartungen bewertet. Inzwischen wird die Dauerhaftigkeit der Erwartungen während des Tests beobachtet. Die Ergebnisse zeigen, dass das Lenken der Aufmerksamkeit der Teilnehmer auf ihre Erwartungen und inneren Referenzen auch für dieselben Szenarien zu einer gleichgültigen Plausibilitätsbeurteilung fuhren kann. Des Weiteren wird es beobachtet, dass Menschen trotz ihrer fehlerhaften Erwartungen, ihre Erwartungen festhalten wollen. Schließlich kann man sagen, dass diese Studie nachweisen kann, warum Ja / Nein-Test oder ein vordefinierter Merkmalstest keine geeigneten Verfahren zur Bewertung Plausibilität sind. Darüber hinaus kann diese Arbeit ein Sprung als die geeigneten Methoden zur Beurteilung der Plausibilität sein.



Stolz, Georg;
Untersuchung zu den meteorologischen Einflüssen auf die Schallmesstechnik. - Ilmenau. - 54 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Die Bekämpfung von Lärm ist ein wichtiger Teil des Umweltschutzes. Um Lärm effektiv zu mindern, ist es wichtig zu wissen, wo er entsteht und wie er sich durch die Luft ausbreitet. Im ersten Teil dieser Arbeit werden daher die meteorologischen Einflüsse auf die Schallausbreitung wie Wind, Temperatur und Luftfeuchte erörtert und Verfahren zur qualitativen und quantitativen Bestimmung dieser Einflüsse vorgestellt. Um den Schallpegel in Abhängigkeit von der Schalleinfallsrichtung zu ermitteln wird außerdem ein Beamforming-Algorithmus für drei in einem gleichseitigen Dreieck angeordnete Mikrofone ausgearbeitet. Basierend auf diesen Grundlagen werden Programme zur Berechnung des Absorptionskoeffizienten der Luft und zur Bestimmung der qualitativen Bedingungen für die Schallausbreitung unter der Einbeziehung meteorologischer Daten entwickelt. Der Beamformer wird ebenfalls implementiert und getestet.



Götz, Georg;
Simplified image-source modelling for dynamic rendering of virtual acoustics. - Ilmenau. - 101 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Mit Hilfe von Computersimulationen ist es möglich, die Akustik von Räumen zu simulieren und darin befindliche Schallquellen in Virtual Reality Szenarien über Kopfhörer oder Lautsprechersysteme hörbar zu machen. Das Spiegelschallquellenverfahren ist dabei eine Herangehensweise zur Simulation von gerichteten Reflexionen, weshalb sich die Methode besonders zur Modellierung von frühen Reflexionen eignet. In einem Raumsimulationssystem kann man daher mit dem Spiegelschallquellenverfahren einzelne akustische Pfade beschreiben. Mit geeigneten Filtern kann dabei zusätzlich die Richtcharakteristik der Schallquelle und die Schallabsorption an den jeweiligen Raumoberflächen reproduziert werden. Besonders für komplexe Szenen und Raumgeometrien sowie für die Beschreibung von akustischen Pfaden mit einer Vielzahl von aufeinanderfolgenden Reflexionen über verschiedene Oberflächen steigt die Anzahl der für die Auralisation benötigten Filteroperationen beträchtlich. Dies stellt eine kritische Hürde für die Echtzeitfähigkeit eines solchen Raumsimulations- und Auralisationssystems dar. Diese Arbeit untersucht deshalb das Einsparungspotential an benötigter Rechenleistung bei einer Auralisation mit dem Spiegelschallquellenverfahren und stellt dabei zwei Vereinfachungsmöglichkeiten vor, die eine erhebliche Reduktion der benötigten Filteroperationen ermöglichen. Zum einen kann dies durch eine Abtastung der Schallquellenrichtcharakteristik an wenigen, dünn besetzen Stützpunkten mit anschließender Interpolation erreicht werden. Zum anderen, können akustische Pfade für mehrere Hörpositionen zusammengefasst werden um Absorptionsfilter einzusparen. Beide Vereinfachungen werden in dieser Arbeit anhand von technischen Kriterien evaluiert. Die Untersuchungen legen nahe, dass die Anzahl der benötigten Filteroperationen beträchtlich reduziert werden kann ohne dabei erhebliche technische Fehler im Vergleich zu der traditionellen Auralisation einzuführen. Ein Hörtest untersucht weiterhin die perzeptiven Auswirkungen einer der beiden vorgestellten Vereinfachungen. Die Ergebnisse des Hörtests zeigen, dass eine Vereinfachung der Schallquellenrichtcharakteristik die Plausibilität der Auralisation nur geringfügig verschlechtert.



Möller, Fabian;
Design eines Ohrhörer-Gehäuses für MEMS-Lautsprecher. - Ilmenau. - 66 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Die vorliegende Arbeit befasst sich mit der Simulation von miniaturisierten Schallführungen mit Hilfe von elektroakustischen Ersatzschaltbildern. Ziel der Simulationen ist es einen In-Ear-Kopfhörer-Gehäuseentwurf für einen piezoelektrischen MEMSLautsprecher zu entwickeln, der die Resonanzfrequenz desMEMS-Lautsprechers dämpft und somit den notwendigen Einsatz digitaler Filter reduziert. Dafür werden verschiedene miniaturisierte Schallführungskonzepte einzeln betrachtet und analysiert und auf Basis dieser Erkenntnisse ein In-Ear-Kopfhörer-Modell erstellt. Dieses Modell wird den Anforderungen der Problemstellung gerecht und bietet dabei noch die Möglichkeit von kompakten Gehäuseabmessungen. Abschließend wurde eine Evaluierung durchgeführt um darauf aufbauend einen Ausblick auf weitere Schallführungskonzepte und eine höhere Simulationsgenauigkeit geben zu können.



Zerlik, Anna Maria;
Untersuchung der Authentizität von Binaural Walk-Throughs. - Ilmenau. - 57 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Die positions-dynamische Binauralsynthese ermöglicht eine 3D-Audio Wiedergabe mittels Orientierungs- und Positionstracking über Kopfhörer. Bei einigen Anwendungen der positions-dynamischen Binauralsynthese ist es von Interesse einen auditiven Eindruck zu erzielen, der von der realen Szene nicht zu unterscheiden ist. In diesem Fall gilt die Wiedergabe als authentisch. In dieser Arbeit wird untersucht, ob der aktuelle Stand des Binauralsynthese-Systems für positions-dynamische Wiedergabe als authentisch wahrgenommen wird. Zur Überprüfung der Authentizität wird die Wiedergabe über einen realen Lautsprecher mit der simulierten, virtuellen Wiedergabe im exakt gleichen Hörerkontext verglichen. Bei den ersten Voruntersuchungen wurde die Binauralwiedergabe über Kopfhörer und die Wiedergabe über Lautsprecher im direkten Vergleich angehört. Es fielen bei der Simualtion vordergründig Klangunterschiede, eine erhöhte Halligkeit sowie eine Instabilität der Quelle auf. Die Unterschiede wurden als zu deutlich empfunden um einen typischen ABX-Test, wie er für gewöhnlich zur Prüfung der Authentizität verwendet wird, durchzuführen. Stattdessen wurde die Plausibilität des binauralen Walk-Throughs, bei der der Hörer das Hörereignis mit seiner eigenen Vorstellung von einem äquivalenten realen Hörereignisses vergleicht, mit der Anwesenheit einer realen Quelle in einem zwei geteilten Hörversuch überprüft. Die Probanden sollten nach dem Erkunden der Audioszene entscheiden, ob es sich um die reale oder um die simulierte Präsentation handelte. Im ersten Teil wurden den Probanden ohne es zu wissen nur simulierte Szenen präsentiert, wohingegen im zweiten Teil des Hörversuchs auch die reale Präsentation hinzukam. Am Ende des Hörversuchs sollten die Probanden berichten, anhand welcher Kriterien sie sich für die Simulation entschieden haben. Die Ergebnisse zeigen, dass alle Probanden ohne die Anwesenheit der realen Präsentation die Binauralwiedergabe als grundsätzlich plausibel wahrnehmen. Bei Anwesenheit des realen Lautsprechers veränderte sich jedoch die innere Referenz des Probanden. Insbesondere die Experten konnten die simulierte von der realen Präsentation überwiegend unterscheiden, wohingegen von den naiven Hörern nur wenigen eine korrekte Zuordnung möglich war. Im Allgemeinen wurde die Simulation aufgrund eines als unnatürlich wahrgenommenen Eindrucks bei Kopfdrehungen, einer verringerten Externalisierung im ersten Augenblick, geringerer Distanzwahrnehmung und weniger starker Veränderung der Lautstärke bei der Translation als solche identifiziert.



Seipel, Marius;
Entwicklung und Evaluierung von Messmethoden zur In-Situ Bestimmung der Raumakustik und der Gewinnung von binauralen Raumimpulsantworten. - Ilmenau. - 71 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Das Ziel der auditiven Augmented Reality ist es, eine hochgradig immersive und auditorisch plausible Illusion zu schaffen, die virtuelle Audioobjekte und Szenarien mit der realen akustischen Umgebung kombiniert. Für diesen Anwendungsfall ist es notwendig, die Akustik des aktuellen Raumes zu schätzen. Eine Diskrepanz zwischen realer und simulierter Akustik wird vom Hörer leicht erkannt und führt wahrscheinlich zu einer Im-Kopf-Lokalisation oder einer unrealistischen akustischen Umhüllung der virtuellen Schallquellen. Diese Arbeit untersucht State-of-the-Art-Algorithmen zur blinden Nachhallzeitschätzung, die häufig für Sprachverbesserungsalgorithmen oder in Enthallungsanwendungen verwendet werden, und wendet sie auf binaurale Ohrsignale an. Das Ergebnis dieser Algorithmen kann verwendet werden, um den am besten geeigneten Raum aus einer Raumdatenbank auszuwählen. Eine Raumdatenbank könnte beispielsweise gemessne oder simulierte binaurale Raumimpulsantworten beinhalten, die direkt zur Realisierung einer binauralen Reproduktion verwendet werden können. Erste Auswertungen zeigen vielversprechende Ergebnisse bei geringem Rechenaufwand. Weitere Strategien zur Verbesserung der verwendeten Methode werden vorgeschlagen, um eine genauere Nachhallzeitschätzung zu ermöglichen.



Seyfferth, Constantin;
Untersuchung zur Verwendung von Lautsprechern als Mikrofon. - Ilmenau. - 62 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Die vorliegende Arbeit beschäftigt sich mit der Untersuchung eines piezoelektrischen MEMS-Lautsprechers hinsichtlich seiner Eignung als Mikrofon. Um die Eigenschaften des Wandlers anhand gängiger Mikrofonkriterien zu charakterisieren wurde eine Messschaltung konzipiert, sowie akustische Messungen durchgeführt. Die Messergebnisse wurden evaluiert und mittels digitalen Signalverarbeitungsprozessen entzerrt. Es konnte gezeigt werden, dass die Verwendung des Lautsprechers als Mikrofon möglich ist und aufgrund zufriedenstellender akustischer Eigenschaften Flexibilität im Bereich der Verstärkung und Signalverarbeitung bietet. Abschließend wurde ein Ansatz zur gleichzeitigen Verwendung als Lautsprecher und Mikrofon vorgestellt.



Zapf, Dominik;
Entwicklung einer Methode zur Messung, Darstellung und Auswertung von Verhalten in einer positions-dynamischen Binauralsyntheseanwendung. - Ilmenau. - 89 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Durch den Einzug von räumlicher Klangwiedergabe in viele Bereiche, wie Entertainment oder Produktvirtualisierung, steigt das Interesse nach dem Verständnis über das Verhalten der Anwender solcher Systeme, in dieser Arbeit im Speziellen von der Anwendung in positions-dynamischer Binauralsynthese. Die Analyse des Verhaltens bietet die Möglichkeit, Binauralsyntheseanwendungen auf den Menschen anzupassen, z.B. für Performancesteigerungen oder zum Anpassen auf menschliche Wahrnehmungsgrenzen. In dieser Arbeit wurden nun zunächst die verwandten Themengebiete eingeführt, hierbei insbesondere die Verhaltensanalyse im verwandten Bereich der Virtual Reality, deren Methoden auf Anwendbarkeit auf diese Arbeit untersucht werden sollen. Als nächstes wurden mit Hilfe des Qualisys Motion Tracking Systems Probandentests durchgeführt, bei denen die drei Positions- und drei Rotationsdaten des Kopfes erfasst wurden. Nach einem kurzen Training zur Eingewöhnung in das Binauralsynthesesystem wurden insgesamt die Daten von 23 Personen in 5 verschiedenen Versuchsszenarien zwischen 2-3 Minuten aufgenommen, wovon die ersten vier Szenarien jeweils eine unterschiedliche konkrete Aufgabe enthielten, in denen sie eine vorgegebene Stimme finden sollten. Das letzte Szenario bestand aus einem Musikstück, in dem sich die Probanden frei bewegen konnten. Der Testbereich lag in einem Bereich von 4x4m, während das Raster der Filter zur Binauralsynthese in 0,25m Schritten im Raum, und 5 in der Kopfdrehung vorlag. Nach einer kurzen Betrachtung der Trackingaussetzer, die gehäuft in einer Ecke des Rasters vorkamen, wurden die einzelnen Szenarien näher analysiert. Hierbei wurden die zeitlichen Verläufe, die Geschwindigkeiten, die Fläche, in der sich die Personen bewegten, den Weg, den sie zurücklegten, und die Zeit bis zum Stillstand betrachtet.Es zeigte sich, dass die meisten Personen sich vor allem in einfacheren Szenarien ähnlich verhielten. Weiter stellte sich heraus, dass die Probanden Probleme hatten, die Schallquellen zu orten, sobald mehrere Stimmen gleichzeitig erklingen. Die angewendeten Methoden und Metriken zeigten sich als geeignet zur Auswertung des Verhaltens, jedoch wären für konkretere Aussagen noch weitreichendere Untersuchungen notwendig.



Mauder, Danny;
Erstellung eines Modells zur Prädiktion des von elektrodynamischen Ohrhörern erzeugten Schalldrucks. - Ilmenau. - 61 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Die vorliegende Arbeit beschreibt die Entwicklung eines generalisierten Modells zur präzisen Vorhersage des von elektrodynamischen In-Ear-Kopfhörern erzeugten Schalldrucks. Dazu wurde ein auf maschinellem Lernen basierendes Modell mit Daten aus elektroakustischen Messungen von In-Ear-Kopfhörern trainiert. Verschiedene Ansätze zur Entwicklung dieses Modells wurden verfolgt, beschrieben und evaluiert. Anschließend wurden etwaige Einschränkungen diskutiert und mögliche Verbesserungsansätze beschrieben. Es konnte gezeigt werden, dass die Entwicklung eines generalisierten Modells mithilfe von Methoden des maschinellen Lernens prinzipiell möglich erscheint, wenngleich die Prädiktionsgenauigkeit des Modells Optimierungspotential aufweist.



Akustische Zustandskontrolle zur Überwachung stationärer und transienter Vorgänge in Kraftwerken. - Ilmenau. - 66 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Die Implementierung einer exemplarischen akustischen Zustandsüberwachung durch Luftschallanalyse eines Anwendungsfalls eines konkreten Pumpspeicherkraftwerks ist Gegenstand dieser Forschungsarbeit. In Kooperation mit Experten vor Ort wurden sechs mögliche Anwendungsfälle identifiziert. Der konkrete Anwendungsfall der Detektion eines fehlerhaften Verschlusses eines Kugelschiebers, wurde durch systematische Bewertung verschiedener Expertengruppen gewählt und mittels Luftschallanalyse untersucht. Während der durchgängigen, fast 30-tägigen Messung, kam es nicht zum gesuchten Fehlerfall. Durch Auszüge des bestehenden Leitwartensystems konnten die Aufzeichnungen mit verschiedenen stationären Zuständen und transienten Vorgängen des Kugelschiebers sowie weiterer Prozesse verknüpfter Anlagen annotiert werden. Die anschließenden Tests der Klassifizierung mittels convolutional neural network (CNN) sowie deep neural network (DNN) erzielen gute Ergebnisse in der Trennung dieser und verdeutlichen das Potential der verwendeten Methodiken als Teil eines condition based monitoring (CBM) Ansatzes. Probleme während der Durchführung verdeutlichen die Wichtigkeit einer ausgiebigen Annotations- und Datenerhebungsphase und zeigen mögliche Problemstellungen für anknüpfende Forschung auf.



Lamba, Manan;
Contribution of listener translation on the perceived externalization In binaural reproduction. - Ilmenau. - 91 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Jedes akustische Ereignis, das außerhalb des Radius eines menschlichen Kopfes wahrgenommen wird, wird als äußerlich bezeichnet. Sound-Szenarien des täglichen Lebens sind für den Zuhörer immer außerhalb. Es wurden bereits viele Untersuchungen zur Schalllokalisierung durchgeführt, aber es besteht eine unzureichende Auswirkung auf die Externalisierung von Schall bei der Unterstützung eines größeren Bewegungsgrades. Ziel dieser Arbeit ist es, die Auswirkung der Zuhörer Bewegung auf die Sound-Externalisierung im Hinblick auf unterschiedliche Lokalisierungsfehler zu untersuchen. Es wurden sechs virtuelle Sprecherpositionen festgelegt, um zwischen verschiedenen Benutzerfällen zu vergleichen, die definiert wurden, um dem Zuhörer unterschiedliche Freiheitsgrade zu bieten. Diese Benutzerfälle sind statisch nur Kopfdrehung, nur des Zuhörers, freie Bewegung-Kopfdrehung während der translationale Bewegung. Die erfassten Daten wurden statistisch analysiert, was die signifikanten Unterschiede zwischen den Benutzerfällen belegt. Absolute Lokalisierungsfehler, Distanzfehler (Tiefe) und Winkelfehler wurden geschätzt. Bei den Quellen, die mit dem statischen Listener in einer Reihe angeordnet waren, herrschte mehr Unklarheit, und es gab Fälle von Front-Back-Verwirrung sowie die Wahrnehmung der Lautsprecher im Kopf. Im statischen Fall wurden weniger Fehler für die seitlichen Lautsprecher aufgezeichnet. Die Hörer translationale Bewegung verbessert die Lokalisierungsgenauigkeit in gewissem Maße, wobei die Hörer in erheblichem Maße inkonsistent sind. Die hohen Effektstärken zwischen den Fällen und die bessere Wahrscheinlichkeit für Überlegenheit Schätzungen deuten darauf hin, dass die Rotation des Kopfes und die freie Bewegung die Lokalisierungsfähigkeit erheblich verbessern, wobei das freie Moment meistens alle anderen Fälle übertrifft.



Kirner, Jakob;
Detektion von Leckagen und Undichtigkeiten durch Luftschallanalyse unter Einbeziehung von Methoden des Maschinellen Lernens. - Ilmenau. - 61 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Die Nutzung von Druckluft als Energieträger ist Bestandteil vieler Industriezweige. Zuverlässige Wartungsmethoden für gasführende Infrastruktur sorgen dabei für Sicherheit und Kosteneinsparungen. Einige Verfahren der Dichtigkeitsmessung basieren auf der Messung von Schallemissionen. Im Bereich der luftschallbasierten Leckagendetektion setzt man unter anderem auf das bloße Gehör von geschultem Personal oder auf Verfahren wie die Ultraschallmethode. In dieser Arbeit wird die Möglichkeit einer luftschallbasierten Leckagendetektion im hörbaren Bereich unter Einbeziehung von künstlicher Intelligenz untersucht. Dabei werden Geräusche aus einer künstlichen Leckage an einer pneumatischen Vorrichtung aufgenommen, vorverarbeitet und von einem neuronale Netzwerk analysiert.



Investigation on algorithms for the real-time calculation of binaural room impulse responses considering the sound source directivity. - Ilmenau. - 75 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Die Auralisierung mit binauraler Technik hat in den letzten zehn Jahren im Bereich der Virtual-Reality-Anwendungen an Bedeutung gewonnen. Aber meistens führen Messfehler, räumliche Objekte, die Bewegung und die binauralen Reproduktion des Zuhörers zwangsläufig zu hörbaren Beeinträchtigungen. Die Hauptidee wäre also, ein Audiosystem zu entwickeln, das in der Lage ist, einen realen Raum mit plausiblem audio ohne große störende Fehler zu auralisieren und gleichzeitig die geringstmögliche Anzahl von Messungen zu berücksichtigen. Es gibt viele Hinweise, die das Audio liefert, die uns Informationen darüber geben, wie man binaurale Audio synthetisiert. Die Direktivität einer Schallquelle spielt auch eine große Rolle bei der Beeinflussung der Wahrnehmung des Klangs und dem Grad des Eintauchens in eine virtuelle akustische Umgebung. Der Hintergrund dieser Masterarbeitist die Untersuchung, wie die Schallquellen-Direktivitätsichauf diebinaurale Raumimpulsantwort und die Entwicklung eines Algorithmus, der vorschlägt, wie man das Konzept der Schallquellen-Direktivität für die binaurale Reproduktion, auswirkt. An der Technische Universität Ilmenau gibt es bereits einem Algorithmus zur Synthese neuer binauralen Raumimpulsantwort(BRIR) der nureins bis drei Messungen benötigt. Diese Forschungsarbeit implementiert zwei Modifikationen des aktuell angegebenen Algorithmus. Die erste Modifikation nutzt die Veränderung des Größenverhältnisses, wenn sich die Zuhörer in Bezug auf die Achse des Lautsprechers zubewegen, und implementiert ein Verfahren, das für jede Frequenz die notwendige Erhöhung oder Verringerung der Verstärkung an Positionen außerhalb der Achseoder entlang der Achse ermöglicht. Die zweite Modifikation beinhaltet die Anpassung der direkten Schallenergie an die Änderung der Richtwirkung. Eine Analyze des Direkt zum Nachhall-Verhältnis und der Klarheitsindizes hat zu besseren Ergebnissen Vergleich zu den vorherigen Algorithmen geführt. Zusätzlich wurde ein Hörtest durchgeführt, bei dem die modifiziertem BRIRs mit einem Audio-Stream unter Verwendung eines auditiven Tools namens 'PyBinSim' zusammengefügt wurden, um eine Illusion einer Klangquelle in einer virtuellen Umgebung wiederzugeben. Zur Bewertung der Audioqualität und Externalisierung wurden verschiedene Testzenarien herangezogen. Basierend auf den Ergebnissen und der Analyse lieferte der vorgeschlagene neue Algorithmus ein besseres plausibles Audio für die Berechnung von BRIRs.



Entwicklung und Evaluation von Methoden zur semiautomatischen Annotation von Trainingsdaten für neuronale Netze. - Ilmenau. - 78 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Die vorliegende Masterarbeit beschreibt die Entwicklung eines Systems zur semiautomatischen Annotation von Objektregionen. Neben einem Einstieg in die Thematik der Annotation sowie der Recherche notwendiger Grundlagen wurde ein Konzept für die Umsetzung des Tools entwickelt. Dieses umfasst die Analyse aller für das System notwendigen Anforderungen inklusive des Designs einer benutzerfreundlichen Oberfläche. Aufbauend auf das Konzept wurde das Annotationswerkzeug in die Realität umgesetzt. Im Anschluss daran wird das Verfahren hinsichtlich Gebrauchstauglichkeit, Zeitaufwand und Qualität der annotierten Ground Truth untersucht und mit einem manuellen Ansatz verglichen. Die Ergebnisse zeigen, dass der semiautomatische Ansatz dem manuellen sowohl in Bezug auf die Gebrauchstauglichkeit als auch bei der Qualität der erstellten Ground Truth Daten vorzuziehen ist.



Küller, Jan;
Simulationen von MEMS-Lautsprechern mit der Finiten-Elemente-Methode (FEM). - Ilmenau. - 72 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2019

Die vorliegende Bachelorarbeit entwickelt ein Simulationsmodell eines Lautsprecherprototyps auf MEMS-Basis anhand numerischer Simulationsverfahren. Das Ziel dieser Forschung ist eine umfangreiche Simulation und Analyse des Lautsprechers mittels Finiter Elemente Methode (FEM). Dabei wird das elektromechanische und akustische Verhalten untersucht. Ein vorhandenes Geometriemodell dient als Modellgrundlage für die FEM-Software. Zunächst wird das elektromechanische Verhalten im Vakuum analysiert. Anschließend wird das akustische Verhalten im linearen Arbeitsbereich und schließlich im nichtlinearen Arbeitsbereich simuliert. Ferner werden die Einflüsse verschiedener Simulationsmethoden und Randbedienungen geprüft. Vorangegangene Messungen bewerkstelligen die Evaluation der Simulationsergebnisse.Die Ergebnisse zeigen ein präzises Simulationsmodell eines effizienten Lautsprechers auf MEMS-Basis, das mit Messungen übereinstimmt. Dabei kann das Modell auf andere Designs des MEMS-Lautsprechers übertragen werden. Diese Grundlage ermöglicht es, künftige Designänderungen effizient und mit hoher Genauigkeit virtuell zu analysieren.



Kästner, Michael;
Untersuchung zur Umsetzung einer effizienten dynamischen Raumsimulation für eine objektbasierte Auralisation. - Ilmenau. - 73 Seiten.
Technische Universität Ilmenau, Masterarbeit 2019

Objektbasierte Tonwiedergabesysteme ermöglichen die Reproduktion komplexer auditiver Szenen. Die Wiedergabe räumlicher Klänge spielt dabei eine große Rolle. Realistische frühe Reflexionen und Nachhall tragen einen bedeutenden Teil zu einer plausiblen Wiedergabe bei. Zur Hörbarmachung simulierter oder gemessener Räume und der plausiblen Wiedergabe räumlicher Schallfelder existieren bereits verschiedene Verfahren. In der vorliegenden Arbeit werden Ansätze zur Auralisation von akustischen Szenen unter Verwendung des Spiegelschallquellenmodells untersucht. Es wird ein Konzept erarbeitet, durch welches frühe Reflexionen mit wenig Berechnungsaufwand in objektbasierten Wiedergabesystemen auralisiert werden können. Dabei werden insbesondere psychoakustische Effekte wie der Präzedenzeffekt ausgenutzt. Das entwickelte Konzept wird als Softwareprototyp implementiert. Durch einen informellen Hörtests wird die wahrgenommene Plausibilität der mit dem System erzeugten Klangszenen untersucht. Die Testergebnisse geben erste Hinweise darauf, dass das entwickelte Konzept für die Simulation von frühen Reflexionen geeignet ist. Bezüglich des Rechenaufwandes des implementierten Systems wird eine erste Einschätzung dargelegt.



Raghuramprasad, Pradeep;
Entwicklung und Evaluierung von Methoden zur Multichannel Echo Cancellation in verknüpften Räumen. - Ilmenau. - 87 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Die akustische Echo-Unterdrückung (AEC) war schon immer ein intensiv erforschtes Gebiet, insbesondere in der Telekommunikation und anderen verwandten Gebieten bei der Vollduplex-Kommunikation zwischen Telestationen. Mit dem Aufkommen des Internets und anderer leistungsfähiger Kommunikationstechnologien steigt das Ausmaß und der Umfang von inländischen, geschäftlichen und kommerziellen Anwendungen exponentiell an. Daher ist derWechsel von einer alten Monokanal-Kommunikation zu einem Mehrkanalsystem dringend notwendig. Einige Anwendungsbereiche von Mehrkanalsystemen sind räumliches Audio-Rendering, Immersive Conferencing, Immersive Telepresence, Remote Rehearsal, Gaming usw. Die Verzögerungen im Ausbreitungspfad aufgrund der Übertragung und der akustischen Kopplung zwischen den Lautsprechern und den Mikrofonen werden als Echos an den Far-end/Near-end Stationen wahrgenommen. Die Person am Far-end/Near-end hört ihre eigene Stimme / ihr Echo je nach Art der Übertragungsleitung entweder verringert oder verstärkt. Studien haben gezeigt, dass diese Verzögerungen einige hundert Millisekunden überschreiten und das normale Gespräch nur schwer fortgeführt werden kann. Wenn dies geschäftliche und kommerzielle Anwendungen betrifft, sind diese Echos nicht akzeptabel. AEC im Multichannel-System stellt aufgrund der hohen Kohärenz zwischen den Kanälen eine besondere Herausforderung dar. Daher ist es nicht möglich, das Signal des potentialfreien Kontaktes aus den Signalen mit stark korrelierten Kanälen zu identifizieren. Das Ziel dieser Masterarbeit ist es einen Rahmen zur Einschätzung von Methoden der Multi-Kanal Echo-Unterdrückung in verbundenen Räumen zu entwickeln. Zunächst werden einfache Eingaben verwendet, um die adaptiven Filter und die Leistungsparameter für Ein-und Mehrkanalfälle zu bewerten. Später wird für die Auswertung eine Laboraufzeichnung von Sprach-, Audio- und Raumimpulsantworten (RIR) für vier Kanäle verwendet. Adaptive Filter in Zeit-, Frequenzund Sparse-Domänen dienen als Beispiel, um den Effekt der Echounterdrückung im Mehrkanalszenario zu zeigen. Die Leistungsparameter beim Ausführen mehrerer Filteralgorithmen bei verschiedenen Eingangssignalen wurden beobachtet. Dabei zeigten sich große Unterschiede von einem Kanal zu einem mehrkanaligen Leistungsparameter wie System Distance (SD), Spectral Importance Misalignment Weighted (SIWM) und Echo Return Loss Enhancement (ERLE) der adaptiven Filter. Weitere Untersuchungen ergeben, dass die Länge der adaptiven Filter und der Kohärenzgrad zwischen den Kanälen eine wichtige Rolle für die Filterleistung spielen, was wiederum den Grad der Echokompensation beeinflusst.



Ribecky, Sebastian;
Implementation eines Ambisonics-Wiedergabemoduls und Überprüfung von Möglichkeiten der Vergrößerung der Hörzone bei der Wiedergabe von Ambisonics-Aufnahmen. - Ilmenau. - 64 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2018

Ambisonics ist ein Verfahren zur Aufnahmen und Wiedergabe räumlicher Audioszenen, welches Wiedergabeverfahren darauf abzielt, ein Schallfeld zu rekonstruieren. Dies erfolgt durch Projektion der Schallfeldsignale in eine Menge Kugelflächenfunktionen, und diese mittels einer mathematischen Lösung in ein gegebenes Wiedergabesystem decodiert. Daher enthalten die Übertragungssignale eine Lautsprecher-unabhängige Darstellung des Schallfelds, anstelle von einzelnen Kanalsignalen für jeden Lautsprecher (kanalbasierte Systeme). Dies bietet viele Vorteile, insbesondere für Lautsprecher-Wiedergabesysteme, bei denen die Flexibilität der Lautsprecherplatzierung ein Schlüsselrolle spielt. In den letzten Jahren ist das Interesse an dieser Technik stark gestiegen. Der Hauptgrund dafür sind die Fortschritte, die bei den Signalverarbeitungstechnologien gemacht wurden, die in der Realisierung leistungsfähiger und zugänglicher Werkzeuge für Ambisonics-Dekodierung resultiert haben. Die Wiedergabe von Ambisonics-Signalen über Lautsprecher hat aber ein großes Nachteil. Der Bereich ("Sweet Spot"), in dem das aufgenommene Schallfeld korrekt wiedergegeben wird ist sehr klein. In dieser Bachelorarbeit wird ein Ambisonics-Wiedergabesystem konzipiert und in ein Signalverarbeitungs-Framework des Fraunhofer-Instituts für Digitale Medientechnologie integriert. Dieses System ist in der Lage, Ambisonics-Aufnahmen erster Ordnung in einem regulären Lautsprecherarray wiederzugeben. Dafür werden die Schallfeldsignale in Echtzeit dekodiert. Durch Kombination dieses Systems mit der ebenfalls am Fraunhofer IDMT entwickelten "Spatial Sound Wave"-Technologie werden die Fähigkeiten des Systems erweitert, so dass es in einer Vielzahl von Lautsprecheranordnungen eingesetzt werden kann. In einem Hörtest werden die Möglichkeiten zur Vergrößerung des Hörbereichs untersucht. Dies geschieht durch Messen und Vergleichen der Hörzonen, die durch das entwickelte Ambisonics-System mit und ohne Spatial Sound Wave-Technologie erzeugt werden. Die Ergebnisse zeigen, dass die Vergrößerung des Hörbereiches nur sehr gering ausfällt. Aufgrund der gewonnenen Erkenntnisse werden zukünftige Entwicklungs- und Forschungsempfehlungen zur Erzielung größerer Hörzone gegeben.



Sánchez García, Efrén;
Real-time audio capturing and de-noising for reliable pitch detection in car environments. - Ilmenau. - 84 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Die Automobilindustrie ist einer der am schnellsten wachsenden Märkte mit einem großen Schwerpunkt auf der Entwicklung besserer Unterhaltungssysteme in Fahrzeugen. Darüberhinaus ist Tonhöhenerkennung (pitch detection) auch ein wiederkehrendes Forschungsthema im Bereich Music Information Retrieval (MIR) mit Anwendungsmöglichkeiten in der Musik- und Spieleindustrie. Diese Masterarbeit stellt ein neues Forschungsszenario für Pitch-Detection-Anwendungen in lauten Umgebungen vor, wie sie in einem Auto vorkommen können. Es umfasst ein mögliches intelligentes Karaoke-Spiel, das in das Unterhaltungssystem integriert werden kann. Zunächst wird ein Echtzeitsystem vorgeschlagen, das gleichzeitig analoge Signale von einem Mikrofon und einem Schwingungssensor im Fahrzeuginneren erfasst. Mit der Annahme einer hohen linearen Korrelation zwischen den Wellenformen wird ein Verfahren zur Echtzeit-Entrauschung von Gesangssignalen vorgeschlagen. Ein Tonhöhenerkennungsalgorithmus wird dann verwendet, um die Hauptmelodie aus dem entrauschten Sprachsignal zu extrahieren. Zusätzlich wird ein Datensatz erstellt, um die Genauigkeit des Systems zu messen. Schließlich werden die Ergebnisse mit Hilfe der Metriken des Music Information Retrieval Evaluation eXchange (MIREX) präsentiert und ausgewertet.



Tawfik, Hany;
Automatic generation of monophonic melodies with complexity constraints using deep neural networks. - Ilmenau. - 56 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Eine Methode zur Erzeugung monophoner Übungsmelodien für Musiker unterschiedlicher Komplexität wird in dieser Arbeit vorgeschlagen. Ein Datensatz von monophonen Melodien, die in ABC-Notation kodiert sind, wurde für das Training zweier generativer tiefer neuronaler Netzwerke verwendet. Beide Netzwerke beinhalten wiederkehrende Long Short-term Memory-Schichten (LSTM), um den zeitlichen Kontext in Melodien zu modellieren. Der Datensatz wurde entsprechend der rhythmischen Komplexität jeder enthaltenen Melodie in fünf Gruppen von Melodien unterteilt. Danach wurde jede Gruppe für das Training der einzelnen Netzwerke genutzt. Schließlich wurde ein statistischer Vergleich zwischen der durchschnittlichen rhythmischen Komplexität der Melodien der ursprünglichen Datensatzebenen und den entsprechenden Melodien der Netzwerke durchgeführt. Die Ergebnisse zeigen eine statistisch signifikante positive Korrelation zwischen der Komplexität der Trainingsdaten und der Komplexität der erzeugten Melodien.



Gabb, Timo;
Automatisierte Parametererzeugung für richtungsbasierte Tonwiedergabe bei Multikanal-Lautsprechersystemen. - Ilmenau. - 74 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Die vorliegende Arbeit beschäftigt sich mit der Frage, ob eine automatisierte Auswahl geeigneter Lautsprecher innerhalb eines Multikanal-Lautsprechersystems sowie die individuelle Erzeugung der Signalverarbeitungsparameter für eine richtungsbasierte Audiowiedergabe möglich ist. Die Basis für diese Lautsprecherselektion und die Parametererzeugung sind Positionskoordinaten der Einzellautsprecher sowie deren Ausrichtung, der Hörpositionen und des Richtungsgebietes. Anhand von Daten existierender großer Lautsprecher-Installationen wurde ein Algorithmus entwickelt und prototypisch in der Programmiersprache Python umgesetzt. Dieser Algorithmus enthält zusätzlich eine Optimierung der Signalverarbeitungsparameter, so dass die Spektren der Übertragungsfunktionen an den einzelnen Hörpositionen einen möglichst flachen und homogenen Frequenzverlauf haben. Die Funktionsfähigkeit des Algorithmus wurde im Rahmen eines Lokalisationshörtests mit 18 Probanden für drei Richtungsgebiete mit zwei Musikstücken und einem Sprachsignal untersucht. Die Ergebnisse des Lokalisationshörtests zeigen, dass die Lokalisation eines Richtungsgebietes bei Verwendung von mit dem Algorithmus ausgewählten Lautsprechern mit jeweils individuell erzeugten Signalverarbeitungsparametern stabil bleibt und das Richtungsgebiet korrekt lokalisiert wird. Gegenüber von nur einem einzelnen Lautsprecher als Richtungsgebiet zeigte sich in der Lokalisation eine minimale Abweichung an bestimmten Hörpositionen.



Bangalore Parappa, Brijesh;
Development and evaluation of an adaptive binaural synthesis system on the screen size. - Ilmenau. - 81 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Mit Hilfe der binauralen Synthese ist es möglich, eine realistische oder virtuelle akustische Umgebung plausibel nachzubilden oder zu synthetisieren. Diese Arbeit konzentriert sich auf die Entwicklung einer Methode zur Anpassung der durch das binaurale Synthesesystem dargestellten Audioobjektpositionen an die optische Wiedergabe über einen Bildschirm. Die aus der binauralen Synthese für das linke und rechte Ohr generierten Audiosignale wurden über Kopfhörer wiedergegeben und mit der Wiedergabe über Lautsprecher verglichen. Eine wesentliche Einschränkung solcher Systeme ist, dass die Divergenz von akustischer und visueller Lokalisationauftritt, wenn die Positionen der Objekte aufgrund der Größe und Position der Anzeige variieren. In dieser Arbeit wurde die Vector Base Amplitude Panning (VBAP)-Technik verwendet, eine Amplituden-Panning-Methode zur Positionierung virtueller Quellen in einem beliebigen 2D-Lautsprecher-Setup. Der VBAP wird in eine bestehende paarweise Panning-Technik umformuliert, um die virtuellen Quellpunkte auf dem Bildschirm zu erzeugen. Ein N-Punkt-VBAP-Algorithmus wurde entwickelt, um sich an verschiedene Punktquellen auf einer gegebenen horizontalen Linie auf drei verschiedenen optischen Bildschirmgrößen (klein, mittel und groß) anzupassen. Das entwickelte System wurde hinsichtlich der Lokalisierung der Objekte anhand verschiedener Bedingungen der akustischen und visuellen Szenenwiedergabe bewertet. Um dieses System zu bewerten, wurde die Wirkung der gerichteten Wahrnehmung von Audio und Video (Bauchredeneffekt) berücksichtigt. Hörtests wurden an 25 Teilnehmern durchgeführt, um den Einfluss des Re-Targeting auf die Bildschirmgröße zu untersuchen. Gemessen wurde die absolute Positionsabweichung in Bezug auf die beabsichtigte Zielposition bezogen auf den Re-Targeting-Fehler bei einer gegebenen Bildschirmgröße. Ein nicht-parametrischer statistischer Test, der auf die von den Probanden aufgezeichneten Re-Targeting-Fehler angewendet wurde, ergab, dass die Bildschirmgröße den Re-Targeting-Fehler beeinflusste. Diese Beziehung wurde durch die bloße Einführung eines visuellen Hinweises noch verstärkt. Dieses Phänomen war für die Fälle auffällig, in denen Sprache das Ziel-Audioobjekt war, das entweder binaural oder über ein Lautsprecher-Wiedergabesystem wiedergegeben wurde. Bei diesen Wiedergabesystemen war dieses Phänomen stärker ausgeprägt, wenn das Lautsprecher-Wiedergabesystem verwendet wurde.



Mahdi, Reem Haider Mahdi;
Investigation on individual differences in sound localization tasks description : study inter-individual difference in audio sound localization. - Ilmenau. - 66 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Das menschliche Wahrnehmungssystem weist vor allem im räumlichen Hören große individuelle Unterschiede auf. Untersuchungen haben individuelle Unterschiede in der Lokalisation von Hörereignissen beim Hören in realen und virtuellen Hörumgebungen ergeben. Für das Hören in realen Hörumgebungen konnten dafür individuelle Unterschiede in den akustischen Ohrsignalen verantwortlich gemacht werden. Diese Unterschiede resultieren aus den höchst individuellen kopfbezogenen Übertragungsfunktionen (HRTF). Für das Hören in virtuellen Umgebungen stehen die größeren individuellen Unterschiede im Zusammenhang mit den Unterschieden in der Wahrnehmungsempfindlichkeit bei der Analyse von nicht-individuellen oder künstlich HRTFs. Diese Unterschiede konnten nicht als vernachlässigbar oder als Messungenauigkeiten charakterisiert werden. Insbesondere führten einige dieser Hörunterschiede zu Verwirrung oder Mehrdeutigkeit in der Richtungswahrnehmung von vorne nach hinten oder oben nach unten. Einige dieser Unterschiede sind unabhängig von individuellen anthropometrischen menschlichen Merkmalen und von dem auditorischen System, das für die wird auralisierung . Die Gründe hierfür können im Bereich der Kognitionspsychologie liegen, die sich mit individueller Wahrnehmung, Aufmerksamkeit, Gedächtnis und Lernprozessen beschäftigt. Die vorliegende Arbeit untersucht individuelle Unterschiede im räumlichen Hören unter Berücksichtigung des Einflusses kognitionspsychologischer Parameter auf die individuellen Unterschiede der Schalllokalisation. Die Studie beinhaltet eine Untersuchung der Veränderung der Lokalisationsfähigkeit von 21 Hörern in zwei verschiedenen Hörversuchen hinsichtlich des auditorischen Trainingseffekts. Hierfür ist ein Hörtest zur Messung der Höhenwahrnehmung in der Medianebene beim Hören in realen und virtueller Umgebung realisiert. Das Training wird durch ein auditorisches Gedächtnisspiel mit künstlichen HRTFs durchgeführt. Dieses dient auch zur Überprüfung der akustischen Aufmerksamkeit und des Gedächtnisses des Hörers. Der sich anschließende psychologische Test beinhaltet einen McGurk Wahrnehmungstest und einen Fragebogen zur Selbstauskunft. Die Ergebnisse zeigen große individuelle Unterschiede zwischen den Teilnehmern in der Lokalisierungsleistung hinsichtlich des Test- und Signaltyps. Allerdings ist die Verbesserung der Höhenwahrnehmung nach einem auditorischen Training bei Verwendung künstlicher HRTFs und eines Sprachsignals nicht signifikant. Der Lernfortschritt korreliert teilweise mit der durchschnittlichen Lernzeit bei Verwendung künstlicher HRTFs. Die interindividuellen Unterschiede im Wahrnehmungslernen werden durch die Unterschiede in der Lernzeit, der Lernmethode und der Audioaufmerksamkeit beeinflusst. Die Unterschiede in der Hörwahrnehmung hängen nicht mit den Unterschieden in der Lokalisationsfähigkeit oder dem Lernfortschritt zusammen. Es erhöht jedoch die Vielfalt der akustischen Abhängigkeit zwischen den Individuen. Die Selbstberichterstattung über die tägliche Leistung konnte einige weitere Informationen über die Unterschiede in der Lokalisierungsleistung liefern.



Schneiderwind, Christian;
Analyse von Raumakustik in kleinen Räumen mit Hilfe von Eigenmike-Aufnahmen. - Ilmenau. - 90 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Die vorliegende Arbeit beschäftigt sich mit dem Gebiet der positionsabhängigen Raumakustik in kleinen Räumen. In diesem Rahmen wurden verschiedene Positionen innerhalb eines Konferenzraums der Technischen Universität Ilmenau auf physikalische und wahrnehmungsbezogene Unterschiede untersucht. Die Schallfeldaufzeichnung an den einzelnen Positionen erfolgte dabei mit einem sphärischen Kugelarray. Es folgte eine Untersuchung eines zweiten Beschallungsszenarios mit einer Drehung des Lautsprechers bei den Messanordnungen um 180 Grad. Aus den Messdaten ergab sich sowohl ein Vergleich der Werte der raumakustischen Parameter Direct-to-Reverberant Ratio, Early Decay Time und Initial Time Delay Gap, als auch der spektralen Zusammensetzungen. Plane Wave Decompositions erlaubten außerdem eine räumliche und zeitliche Betrachtung des Bereichs der frühen Reflexionen. Ein Hörtest diente dazu, die verschiedenen Positionen auf wahrnehmbare Klangunterschiede zu untersuchen. Dabei mussten Probanden in Paarvergleichen die Richtungslokalisation, Distanzwahrnehmung, Halligkeit, Quellbreite und Klangfarbenunterschiede bewerten. Die Auralisationen für den Hörtest basierten auf bereits vorhandenen Datensätzen von binauralen Raumimpulsantworten, die an den gleichen Positionen mit einem Kunstkopf gemessen wurden. Es konnte festgestellt werden, dass zwischen den einzelnen Positionen Klangunterschiede auftreten, die zudem stark von der Ausrichtung der Schallquelle abhängen. Das Beschallungsszenario mit gedrehtem Lautsprecher wies hierbei häufiger signifikante Unterschiede auf als die frontale Beschallung. Die wahrgenommenen Klangunterschiede konnten nur teilweise mit gemessenen physikalischen Parametern erklärt werden.



Ritter, Robin;
Entwicklung eines modellbasierten Peak-Limiters für elektrodynamische Lautsprecher. - Ilmenau. - 101 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Die vorliegende Arbeit beschäftigt sich mit der intelligenten Begrenzung der Membranauslenkung elektrodynamischer Lautsprecher. Durch diesen Schutzalgorithmus können unerwünschte Effekte wie Clipping, nichtlineare Verzerrungen und Schäden durch zu hohe Membranauslenkungen unterbunden werden, wobei die Lautheit des wiedergegebenen Audiosignals maximiert wird. Die Implementierung arbeitet mit Hilfe eines prädizierten Auslenkungssignals. Dieses Auslenkungssignal wird analysiert und anschließend frequenzabhängig auf Basis einer A-bewerteten Gewichtungskurve so korrigiert, dass die Membranauslenkung eine vorgegebene Grenze nicht überschreitet. Durch die individuelle Frequenzbandanpassung nach der A-Bewertung werden bei der Korrektur solche Frequenzen, die vom menschlichen Gehör leiser wahrgenommen werden, stärker gedämpft als solche, die lauter empfunden werden. Der Algorithmus arbeitet blockweise und berücksichtigt Attack- und Release-Zeiten. Eine Evaluation mechanischer Messungen zeigt, dass die Membranauslenkung bei Erhöhung der Eingangsspannung erfolgreich limitiert wird. Eine anschließende akustische Betrachtung führt zu der Erkenntnis, dass die frequenzabhängige Korrektur tatsächlich zu einem Anwachsen des A-bewerteten SPL-Pegels bei gleichbleibender Membranauslenkung führt.



Quintero, Christian;
Prototype implementation of content processing components for privacy-enhanced audio classification. - Ilmenau. - 120 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Heutzutage kann die Audioklassifikation in diversen Einsatzgebieten z.B. bei der akustischen Maschinenüberwachung, industriellen Qualitätskontrolle in Produktionsprozessen, akustischen Ereignisdetektion mittels Sensornetzwerken angewendet werden. Allerdings entsteht ein ernsthaftes Problem in all diesen Fällen, weil eine Aufzeichnung, Speicherung und Verarbeitung von Umgebungsgeräuschen benötigt wird, die vielleicht private Konversationen beinhalten. Sofern diese Inhalte in Besitz von nichtberechtigten Dritten gelangen, könnten die Daten zur Personenidentifikation, Enthüllung von Privatinformationen oder Firmengeheimnisse missbraucht werden. Das Transportieren, Verarbeiten und Speichern der Audioinformationen als Klardaten, kann zu Sicherheitsbrüchen und Privatsphärenverletzung durch Zugriff auf das Material von unberechtigten Dritte führen. Wichtig ist, dass die Datenschutzbestimmungen der europäischen und deutschen Gesetze eingehalten werden. Daher müssen sich die Bemühungen nicht nur auf die Signalverarbeitung, sondern auch auf den Datenschutz konzentrieren. Diese Arbeit stellt eine Inhaltsverarbeitungskomponente vor, die neuronale Netzwerke verwendet. Diese Komponente ist in der Lage den Datenschutz der Audioklassifikationsanwendungen zu verbessern und zugleich die negativen Einflüsse auf die Abbildungsleistung zu minimieren.



Tarale, Avinash;
Perception of simplified representations of a wall in a virtual acoustic environment. - Ilmenau. - 81 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Interaktive Erkundung ist auf dem Gebiet der Virtuellen Realität (VR) in jüngster Zeit zunehmend relevant geworden. Die neuen Anwendungen von VR erfordern interaktive und immersive Umgebungen. Darüber hinaus ermöglichen fortgeschrittene Tracking Geräte und Head Mounted Displays den Anwendern ein aktiveres Eintauchen und Erkunden virtueller Räume. Diese erfordern den Entwurf innovativer Anwendungen und Interaktionskonzepte. Das Erkunden virtueller Räume unter Zuhilfenahme künstlich erzeugter Geräusche könnte ein interessanter Interaktionsansatz sein. Dazu ist eine Technik erforderlich, welche die erzeugten Klänge in Echtzeit verarbeitet und ein plausibles akustisches Abbild der Szene mittels echtzeitfähiger Auralisation erzeugt. Diese Art von Interaktion kann durch Technologien wie Echoortung realisiert werden. Sie ermöglichen Menschen physikalische Hindernisse und Begebenheiten akustisch wahrzunehmen und zu orten, indem reflektierte Schallwellen analysiert werden. Studien haben bereits das Potential der menschlichen Echoortung als neue Interaktionstechnik gezeigt. Die vorliegende Arbeit handelt von der Frage, ob akustische Effekte die durch das Vorhandensein virtueller Charaktere in der Nähe von reflektierenden Oberflächen synthetisiert werden können um ein Echtzeiterlebnis zu ermöglichen. In diesem Kontext präsentiert diese Arbeit ein vereinfachtes analytisches Modell, implementiert in MATLAB, um die Impulsantwort reflektierender Oberflächen im Rahmen der Echoortung zu synthetisieren. Ein besonderes Merkmal dieses Modells ist, dass es nur dominante akustische Eigenschaften synthetisiert die zur Oberflächenortung benötigt werden. Das Modell wurde mit einem informellen Hörversuch auf seine Genauigkeit und die akustische Plausibilität hin untersucht. Ferner werden die synthetisierten Impulsantworten mit den gemessenen Impulsantworten der Wandortung verglichen. Darüber hinaus wurden Teilnehmer gebeten zwischen simulierten, gemessenen, und modellierten Datensätzen zu unterscheiden. Allerdings beantworten die Ergebnisse des Hörversuches zur Wandlokalisierung nicht alle motivierenden Fragen dieser Arbeit vollständig. Jedoch werden die Ergebnisse und Beobachtungen aus diesem Experiment ein wichtiger Schritt hin zur Entwicklung einer angemessenen Methodik für einen formalen Test sein.



Hock, Kevin;
Untersuchung zur Aufnahme raumakustischer Diffusschallanteile unter Verwendung weniger Mikrofone für eine räumliche Auralisation. - Ilmenau. - 92 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2018

Dank wellenfeldbasierter Tonwiedergabesysteme ist es möglich, komplexe auditive Szenen zu reproduzieren. Die Auralisation ist hierzu ein Verfahren zur Simulation realer oder virtueller Räume. Diese Arbeit zeigt die erforderlichen Phasen der Auralisation auf und führt in die bisherig angewandten Aufnahme- und Verarbeitungsprozesse ein. Basierend auf diesen Erkenntnissen wird Spatial Impulse Response Rendering als ein alternatives Verfahren zur Messung realer Räume und anschließender Signalverarbeitung zur Filtergenerierung detailliert erläutert. Spatial Impulse Response Rendering wurde dabei auf dessen Eignung für die objektbasierte Auralisation untersucht. Der Fokus liegt hierbei auf einer plausiblen Reproduktion des Diffusschalls unter Verwendung möglichst weniger Mikrofone während der Messungen. Dabei wurden verschiedene Mikrofonanordnungen auf deren Eignung untersucht. Die Evaluation der Messverfahren legt nahe, dass die Messung mit einem B-Format-Mikrofon die besten Ergebnisse bei Bestimmung der Diffusität von Schallfeldkomponenten aufweist. Die Durchführung eines informellen Hörtests gibt Hinweise, dass eine Reproduktion des Filtersets aus der Messung des B-Format-Mikrofons perzeptiv natürlicher empfunden wird. Der Hörtest zeigte auch, dass es tendenziell mit den Filtersets der beiden anderen Messmethoden ebenso möglich ist, natürlich wahrgenommenen Diffusschallrekonstruktionen zu ermöglichen. Die Ergebnisse der Arbeit sollten in formell durchgeführten Hörtests und Messungen weiterer Räume unterschiedlicher Geometrie und Nachhallzeit validiert werden. Ebenso sind Verbesserungen der nicht-koinzidenten Mikrofonanordnungen anhand dargestellter Anforderungen möglich, um deren Filter und somit Reproduktion zu optimieren.



Kotanayakanahalli Banashankarappa, Abhijatha;
Noise-robust speaker identification in cars. - Ilmenau. - 80 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Sprache ist eines der wichtigsten Kommunikationsmittel zwischen Mensch und Maschine im Auto. Neben der Spracherkennung ist die Sprecheridentität eine wichtige Information, die aus dem Sprachsignal extrahiert werden kann. Durch Detektieren der Sprecher könnte beispielsweise das Infotainmentsystem automatisch an ihre Präferenzen personalisiert werden und die Information könnte auch für eine sprecherabhängige Spracherkennung verwendet werden. Der Schwerpunkt dieser Arbeit liegt auf der audiobasierten Sprecheridentifikation in Fahrzeugen mit Freisprecheinrichtung. Viele verschiedene Merkmale wie Gammatone Frequency Cepstral Coefficients (GFCC), Mel-Frequency Cepstral Coefficient (MFCC), Linear Predictive Cepstral Coefficients (LPCC), Linear Prediction Coefficients (LPC) und entsprechende Delta und Delta-Delta-Merkmale werden aus den Sprachdaten zur Sprechererkennung extrahiert. Mithilfe Lineare Diskriminanzanalyse (LDA) wird die Dimensionalität der Merkmale reduziert. Gaußsche Mischmodelle werden als Klassifikator verwendet. Das System ist so implementiert, dass es in Echtzeit arbeitet. Die Sprachdaten werden von 11 verschiedenen Sprechern mithilfe der integrierten Freisprechmikrofone erfasst. Das Fahrgeräusch bei den Geschwindigkeiten 60 & 120 km/h gemessen, wird zu den Signalen addiert. Eine Klassifizierungsgenauigkeit von 99%, 99,8% und 97,7% wird im Leerlauf, 60 & 120 km/h erreicht.



Jurgeit, Kai-Peter;
Investigations on the parametric description of spatial sound fields. - Ilmenau. - 60 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Im Rahmen dieser Masterarbeit wurde ein System für die parametrische Kodierung von richtungsabhängigen Raumimpulsantworten (DRIR, engl. direcitonal room impulse response), die mit einem sphärischen Mikrofonarray gemessen wurden, entwickelt. Es basiert auf einer Zerlegung des Schallfelds in ebene Wellen und auf Signalverarbeitung im Zeit-Frequenz-Bereich. Das System soll das Schallfeld effizient und flexibel abbilden und eine immersive binaurale Wiedergabe ermöglichen. Hierfür nutzt es die Grenzen der auditven Wahrnehmung aus und bietet dem Anwender die Möglichkeit die zeitliche, spektrale und räumliche Auflösung des Systems einzustellen. Die Analyse von Direkt- und Diffusschall basiert auf einer Raum-Zeit-Energie-Matrix und linearer Regression. Die jeweiligen Direktschallanteile werden durch die Zeit und Schalleinfallsrichtung, sowie den Pegel und die Indizes der zugehörigen Subbänder (optional) repräsentiert. Der Diffusschallanteil wird durch den Achsenschnittpunkt, die Neigung und Energie der Abklingkurve dargestellt. Die Synthese der Direktschallanteile basiert auf der Generierung idealer ebener Wellen. Diffusschall wird mittels Rauschformung synthetisiert. Die Leistung des Systems wird in einem MUSHRA-Hörtest mit unterschiedlichen Kodiereinstellungen evaluiert. Die Ergebnisse des Tests ergaben, dass es keine klare Präferenz für eine bestimmte Einstellung gibt. Mehr Aussagekraft könnten Testmethoden liefern, in denen die Bewertung anhand von wahrnehmungsspezifischen Eigenschaften erfolgt, die dem räumlichen Hören direkt zuzuordnen sind. Die Implementierung des Systems veranschaulicht die Machbarkeit und das Potential von parametrischem DRIR Rendering. Es zeigt, dass der Ansatz hohe Kompressionraten und hohe Flexibilität bezüglich des Wiedergabesystems, sowie eine dynamische Auralisation ermöglichen könnte. Allerdings muss das zugrundeliegende physikalische und perzeptive Modell optimiert werden, um ein Schallfeld immersiv abbilden zu können.



Pereppadan, Anson Davis;
Plausibility of binaural walk-through-scenarios considering different simplifications. - Ilmenau. - 74 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Dynamic Binaural Synthesis oder dynamische binaurale Synthese ist ein sich noch in der Entwicklung befindliches Forschungsfeld welches sich mit der Integration der Bewegungen des Hörers in der Ebene und seiner Kopfbewegungen im virtuellen Raum virtuellen Raum befasst um ein möglichst realitätsnahen Höreindruck zu vermitteln. Das Kernelement der binauralen Synthese ist die binaurale Raumimpulsantwort, auch Binaural Room Impulse Response, oder kurz BRIR, genannt. Diese BRIR enthält alle Kopf bezogenen als auch räumlichen Informationen um eine virtuelle Schallquelle zu erzeugen. Die BRIR kann entweder durch Messungen, zum Beispiel in einem Raum, erfasst werden, oder durch Softwaresimulationen generiert werden. Die BRIRs werden dann mittels Signalfaltung bzw. Convolution mit einem Monoaudiostream gefaltet um eineperfekte Illusion einer realen Schallquelle zu erzeugen. Das in dieser Arbeit behandelte Szenario ist für eine stationäre Schallquelle. Die Struktur Der BRIRs ändert sich wenn der Hörer seinen Kopf bewegt oder sich im Raum bewegt. Um eine virtuelle Schallquelle zu erzeugen müssen die BRIRs sich dynamisch mit der Position des Hörers ändern. Während der Hörer sich bewegt erhöht sich die Anzahl der Impulsantworten welche mit einer Mindestauflösung gefaltet werden müssen deutlich. Aus diesem Grund ergibt sich die Notwendigkeit diesen Vorgang zu Vereinfachen, und Methoden zu finden um mit einer möglichst geringen Anzahl an Messungen auszukommen. Des weiteren sollten die Speicheranforderungen der Hardswaresysteme verringert werden ohne dass, dadurch die Authentizität und Qualität des Hörerlebnisses im VAE beeinträchtigt wird. Diese Arbeit versucht zwei existierende vereinfachende Methoden unter unterschiedlichen akustischen Bedingungen zu Implementieren. Bei der ersten Methode handelt es sich um eine Extrapolationsmethode. Die zweite Methode macht sich die Limitierungen unseres Gehörsinns zu Nutze. Die Referenz-BRIRs für die Simplifikationsmethode stammen von realen Messungen in einem Raum, mit einer Schallquelle vor, und einer neben dem Hörer. Ein vorläufiger Test der ersten Methode zeigt, dass es möglich ist mit der Messung von nur einer einzigen Position eine plausible Illusion der Annäherung an eine Schallquelle zu erzeugen, indem man die distanzabhängigen Parameter ändert. In der zweiten Methode ist der frühere Teil einer BRIR konkateniert mit dem späteren Teil einer anderen BRIR welche in dem selben Raum gemessen wurde. Studien zeigen, dass ab einem bestimmten Punkt der Konkatenationszeit, der als Perceptual Mixing Time bezeichnet wird, die synthetischen BRIRs ununterscheidbar von ihren Originalen werden. Verschiedene Testfälle wurden entwickelt für verschiedene Konkatenationszeiten. Eine statistische Analyse des formalen Hörtests zeigt, dass es für untersuchten Schallquellposition und Hörerpositionen in dem untersuchten Raum keine feste Perceptual Mixing Time innerhalb von 80 ms gibt.



Pälchens, Sascha;
Untersuchungen zur frequenzabhängigen Codierung sphärischer Schallfelder. - Ilmenau. - 40 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Die vorliegende Arbeit befasst sich mit dem Vergleich verschiedener Filterbänke bei der Anwendung auf simulierte sphärische Mikrofonarrays. Ziel war dabei, eine Verringerung des Rechenund Datenaufwands durch die geringere räumliche Auflösung der Arraydatenverarbeitung in den unteren Frequenzbändern. Hierzu wurden Filterbänke mit der Eigenschaft der perfekten Rekonstruktion ausgesucht, getestet und in die Datenverarbeitung von simulierten Mikrofonarrays eingebunden. Getestet wurden drei Filterbänke, MDCT, MDST und MCLT. Es wurden verschiedene Filterbankkonfigurationen sowie unterschiedliche Abstufungen der Arraydatenverarbeitung in Verbindung mit den Filterbänken untersucht und miteinander verglichen. Es wurden verschiedene Breiten der Teilbänder sowie veschiedene Anzahlen an Teilbändern untersucht, in denen die Ordnung der Arraydatenverarbeitung verringert wurde. Die Ergebnisse dieser Untersuchungen wurden anhand von Hörtests evaluiert. Dabei konnte gezeigt werden, dass sich zwei der getesteten Filterbänke (MDST und MCLT) für die Optimierung der Arraydatenverarbeitung und somit zur frequenzabhängigen Codierung spärischer Schallfelder eignen. Die dritte Filterbank (MDCT) eignet sich ohne eine zusätzliche Behandlung des Imaginärteils der Signale nicht für eine Anwendung auf sphärische Schallfeldverarbeitung. Zudem konnten vorhandene Artefakte zwar verringert, jedoch nicht gänzlich beseitigt werden. Dies sollte Gegenstand weiterer Forschungen sein.



Li, Zhenyu;
Localization with rotating microphone arrays. - Ilmenau. - 54 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2018

Die räumliche Ortung von Schallquellen ist Gegenstand der Untersuchung. Mit ihr werden mehrere Anwendungsbereiche wie Sprachverbesserung und Schätzung der Direction of Arrival (DOA) für Multiple-Input, Multiple-Output (MIMO) Systeme in der Kommunikationstechnik erschlossen. Die Arbeit richtet die Aufmerksamkeit auf die Verwendung mehrerer Sensoren, die als Mikrofonarray konfiguriert werden. Bisher wurden erste Versuche zur Messung von Lautsprecherpositionen mittels Mikrofonarrays unternommen, aber diese Versuche erwiesen sich in der Praxis als nicht präzise genug. Ein neuer Ansatz zur Lokalisierung einer Schallquelle durch rotierende Mikrofonarrays beruht auf dem Dopplereffekt und wurde in [1] eingeführt. In dieser Thesis wird eine innovative Methode für ein rotierendes Mikrofonarray mathematisch dargestellt und in einer Raumumgebung mit modellierten akustischen Reflektionen numerisch simuliert. Die Leistungsfähigkeit dieser Methode wird in Bezug auf die Genauigkeit der Lokalisierung beurteilt. Darüber hinaus werden eine Reihe von Einflussfaktoren wie Drehgeschwindigkeit, Arraygröße, Lautsprecherabstände, Raumakustik, Abtastraten, Signal-Rausch-Verhältnis (SNR) und relative Schallquellenanordnung zum Mikrofonarray untersucht. [1] Klefenz F, Sporer T. Apparatus, method and computer program for localizing a sound source: U.S. Patent 8,649,529[P]. 2014-2-11.



Gomez Cañon, Juan Sebastian;
Automatic instrument recognition using deep convolutional neural networks. - Ilmenau. - 74 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Im Kontext digitaler Medien und neuer Klassifizierungs- / Indizierungsanforderungen gewinnt die Aufgabe der automatischen Instrumentenerkennung im Bereich des Music Information Retrieval (MIR) zunehmend an Bedeutung. Mit Hilfe von Deep-Learning-Methoden wie Convolutional Neural Networks (CNN) und verschiedenen automatischen Quellenseparationsalgorithmen, die am Fraunhofer Institut für Digitale Medientechnologie (IDMT) entwickelt wurden, untersucht diese Masterarbeit, wie die Leistungsfähigkeit der Klassificationsalgorithmen der Erkennungsaufgabe durch unterschiedliche Vorverarbeitungsstufen verbessert werden kann. Mehrere Experimente wurden durchgeführt, um die Ergebnisse der Forschung Han et al. reproduzieren und verbessern zu können. Im Rahmen dieser Forschung werden zwei Systeme vorgeschlagen: ein verbessertes System, das auf einen harmonic / percussive Separationsalgorithmus sowie Nachbearbeitung durch Klassenweise Entscheidungsschwellwerte aufbaut und ein kombiniertes System, das einen solo / accompaniment-Separationalgorithmus und Transfer Learning für den speziellen Anwendungsfall der Erkennung von Soloinstrumenten in Jazzaufnahmen verwendet. Für die Validierung der Ergebnisse wurden verschiedene Tests mit mehreren Musikdatensätzen mit unterschiedlicher Komplexität und Instrumentenauswahl durchgeführt.



Blau, Michael;
Implementierungsmöglichkeiten für Wiedergabesysteme mit dynamischer Binauralsynthese. - Ilmenau. - 39 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2018

Die dynamische Binauralsynthese ermöglicht die Wiedergabe von Audiosignalen über Kopfhörer, bei der ein authentischer, räumlicher Höreindruck entsteht. Für die Anpassung der Signale an Ausrichtung und Position des Hörers ist eine aufwändige Signalverarbeitung in Echtzeit notwendig. Hallfreie Eingangssignale werden mit wechselnden Impulsantworten, die die Übertragungsstrecke von der Quelle zum Ohr in einer virtuellen Umgebung repräsentieren, gefaltet. In dieser Arbeit werden unterschiedliche Faltungsalgorithmen bezüglich ihrer Eignung für die dynamische Binauralsynthese untersucht und optimiert. Dabei werden Impulsantwortlänge, Latenz, benötigte Rechenleistung und Dauer der Übernahme neuer Impulsantworten in Relation gestellt. Damit die Randbedingungen formuliert und die zu optimierenden Größen gewichtet werden können, wird neben den theoretischen Überlegungen ein unmittelbarer Bezug zu echtzeitfähigen Signalverarbeitungssystemen hergestellt. Für das Ziel - den Entwurf einer ressourcenschonenden Implementierung - werden daher die Funktionsweisen und Eigenschaften von Digitalen Signalprozessoren (DSPs) und Field Programmable Gate Arrays (FPGAs) berücksichtigt. Für eine mögliche Implementierung und zur Abschätzung technischer Spezifikationen wurde ein Testsystem zur Audiosignalverarbeitung auf FPGA-Basis aufgebaut.



Köhler, Mona;
Weakly supervised object detection. - Ilmenau. - 78 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2018

In den letzten Jahren wurden mithilfe neuronaler Netze große Fortschritte im Bereich der Bildklassifikation und der Objektdetektion erzielt. Die Aufgabe eines Objektdetektors ist es in Bildern die Position und die Größe verschiedener Objekte (z.B. Gesichter, Fahrzeuge, Tiere oder Personen) zu ermitteln. Für das Training der aktuell besten Detektoren werden dabei Annotationen aller Objektinstanzen benötigt. Die Annotation der Bilder stellt sich als sehr zeit- und arbeitsaufwendig heraus. Um dieses Problem zu umgehen, wird versucht mit schwach annotierten Bildern zu arbeiten. Das heißt als Annotation ist lediglich die Information vorhanden, welche Objektklassen sich auf dem Bild befinden und welche nicht. Im Rahmen dieser Arbeit werden zwei, auf neuronalen Netzen basierende, schwach überwachte Objektdetektoren nachimplementiert, trainiert und auf Testbilder angewandt. Darauf folgend werden die entstehenden Detektionen als Annotation für zwei stark überwachte Objektdetektoren verwendet. Die stark überwachten Objektdetektoren werden zum Vergleich zusätzlich auf den Ground-Truth-Annotationen trainiert. Zur Evaluation werden drei verschiedene Datensätze verwendet. Anschließend werden mögliche Fehlerquellen, Probleme und Verbesserungspotentiale diskutiert. Die Ergebnisse zeigen, dass die schwach überwachte Objektdetektion im Vergleich zu stark überwachten Objektdetektoren noch deutlich schlechtere Detektionen hervorbringt. Trotzdem kann sie als Hilfsmittel eingesetzt werden, um beispielsweise den Annotationsaufwand zu senken.



Voroshilov, Aleksei;
Towards profiting learning analytics with data logging concepts. - Ilmenau. - 95 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

In den letzten Jahrzehnten wurden in vielen Studien und Untersuchungen Fragen zu Learning Analytics (LA) und Educational Data Mining (EDM) aufgeworfen. Die Vorstellung, wie moderne Technologien und Praktiken die Leistungen der Lerner auf der Grundlage ihrer Interaktion mit Technology Enhanced Learning (TEL) verbessern könnten, ist ein vielversprechender Ansatz für eine gemischte und vollständig digitale Bildung in der Zukunft. Diese Arbeit zielt darauf ab, LA-Techniken auf die Aktivitätsprotokolle der Studenten im Rahmen des ELIXIER-Projekts anzuwenden, die vom Fraunhofer IDMT entwickelt wurden, um nützliche Verhaltensmuster zu finden und später zukünftige Leistungen von Schülern vorhersagen zu können. Der erste Teil dieser Arbeit stellt den allgemeinen Ansatz und die Aufgaben von Learning Analytics und Educational Data Mining vor und beschreibt die derzeit verwendeten LA-Methoden. Der zweite Teil enthält eine Beschreibung der S2L-Systeme und des Projekts ELIXIER und stellt ebenfalls die Herausforderungen der Implementierung der LA-Methoden vor. Im Teil drei werden der Algorithmus der LA-Methodenimplementierung und die Ergebnisse aufgezeigt sowie ein Vergleich der Vorhersagegenauigkeiten verschiedener Methoden beschrieben. Auf der Grundlage der Ergebnisse dieser Forschung kann geschlossen werden, dass das LA-Konzept in eines der Experimente (Water Boiling) des ELIXIER-Projekts implementiert werden kann. Da sich die Parameter der Experimente jedoch unterscheiden und erweiterbar sein können, könnte die Entwicklung einer universellen Methode, die auf andere Parameter angewendet werden kann, Gegenstand zukünftiger Untersuchungen werden.



Stippler, Carmen;
Evaluierung und Anpassung von Algorithmen zum Matching von Key-Frames. - Ilmenau. - 113 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2018

Die technische Analyse der Inhalte von Fernsehbeiträgen spielt eine wichtige Rolle für die Verwaltung, Archivierung und Zuordnung des Videomaterials. Für die Zuweisung von Sequenzen eines Videos zu ihrem Originalmaterial innerhalb einer Datenbank wird in dieser Arbeit das Key-Frame-Matching betrachtet. Dafür wird ein Video durch seine repräsentativen Schlüsselbilder, sogenannte Key-Frames dargestellt. Die Key-Frames der betreffenden Originaldatei stimmen jedoch nicht immer mit den Key-Frames der Videosequenz überein, zum Beispiel (z. B.) da in dem zusammengestellten Beitrag Bildmanipulationen durchgeführt wurden. Aus diesem Grund muss der Vergleich anhand spezifischer Beschreibungen der Key-Frames erfolgen. Ziel dieser Arbeit ist der Vergleich von Methoden zur kompakten Repräsentation eines Bildes. Unter Berücksichtigung des Zeit- und Speicheraufwandes werden die Methoden hinsichtlich der korrekten Zuordnung ähnlicher Bilder untersucht. Hierfür erstellt die Autorin eine Datenbank und entnimmt zufällig Bilder. Diese werden in Orientierung an Fernsehbeiträgen aus dem Nachrichtengenre durch zwei Bauchbinden oder eine Variante von Cropping manipuliert. Anschließend erfolgt eine Prüfung der mit einer Methode ermittelten ähnlichsten Bilder, ob diese das jeweilige Originalbild beinhalten. Um die Methoden zu verbessern, werden auf Grundlage verschiedener Quellen Anpassungen und Erweiterungen getestet. Aus den Ergebnissen werden Empfehlungen hinsichtlich der Methoden mit der besten Performance inklusive der damit verbundenen Einschränkungen bezüglich Zeit- und Speicherbedarf geschlussfolgert.



Al-Janabi, Nawres;
Interactive exploration of a virtual auditory environment using self-created sounds. - Ilmenau. - 90 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

Interaktive Erkundung im Bereich der virtuellen Realität ist in dieser Zeit sehr beliebt geworden. Insbesondere, weil die Ortungsgeräte eine genaue Verfolgung der Position und Orientierung sogar Zuhause ermöglichen. Eine Erhöhung der Interaktivität verbessert die Immersion. Dieses Feld wird nicht nur in der Spiele-, sondern auch in der Seriennutzung wie Industrie-Inhalten und Bildung eingesetzt. Mehrere Studien haben die Interaktion mit der virtuellen Umgebung durch menschliche Echoortung genutzt. Darüber hinaus kann es für die Blinden und Sehende für die Orientierung verwendet werden. Dieses Projekt untersucht die menschliche Echoortung in einer virtuellen akustischen Umgebungen (VAEs). Zusätzlich untersucht dieses Projekt die Fähigkeit des Zuhörers, eine virtuelle Wand in der horizontalen Ebene zu lokalisieren und die Entfernung zu dieser Wand durch akustische Signale zu schätzen. Außerdem soll die Wirkung der drei komplexen Umgebungen in verschiedenen Abständen zur Wand betrachtet werden. Zudem wurde eine dynamische Binauralsynthese basierend auf gemessenen und simulierten oralen binauralen Raumimpulsantworten (OBRIRs) verwendet. Damit wurde die Interaktion von Eigenbewegung mit Echoortung untersucht.



Böhme, Martina;
Residual echo and interference estimation for acoustic echo cancellation. - Ilmenau. - 58 Seiten.
Technische Universität Ilmenau, Masterarbeit 2018

In Freisprecheinrichtungen bestehend aus einem oder mehreren Lautsprechern und einem oder mehreren Mikrofonen enthält das vom Mikrofon erfasste Signal nicht nur das gewünschte Sprachsignal plus Hintergrundgeräusche, sondern auch akustische Echos, die durch die Kopplung zwischen den Lautsprechern und den Mikrofonen verursacht werden. Um diese elektroakustische Kopplung zu reduzieren, wird akustische Echoauslöschung (AEC) und/oder -unterdrückung (AES) verwendet. In AEC wird die akustische Impulsantwort zwischen jedem der Lautsprecher und dem Mikrofon adaptiv geschätzt. Diese Impulsantworten werden verwendet, um die akustischen Echos aus dem Mikrofonsignal zu schätzen und zu subtrahieren. In der Praxis verbleiben Restechos aufgrund von i) Fehlanpassung zwischen den wahren und den geschätzten Echosignalen, ii) der ungenügenden Länge des geschätzten akustischen Echopfades und iii) Nichtlinearitäten in den akustischen Echopfaden. In dieser Arbeit konzentrieren wir uns auf die Schätzung des Echosignals, das durch das adaptive Filter mit unzureichender Länge verursacht wird, hier als Late-Residual-Echo (LRE) bezeichnet. Um akustische Echos und andere Störsignale, wie z. B. Hintergrundrauschen, zu eliminieren, muss ein Postfilter auf das Ausgangssignal des Echokompensators angewendet werden. Um dieses Postfilter zu berechnen, müssen zuerst die oben erwähnten unerwünschten Signalkomponenten geschätzt werden. In der Literatur existieren verschiedene Ansätze zur Schätzung von LREs, die in kanalbasierte Ansätze und signalbasierte Ansätze unterteilt werden können. In dieser Arbeit soll ein signal-basierter Ansatz hergeleitet werden, bei dem die Modellparameter mit nur einer Kostenfunktion gewonnen werden können. Zu diesem Zweck wurden die Modellparameter unter Verwendung der Maximum Likelihood (ML) Schätzung berechnet. Die resultierende Schätzung des LRE wurde in einem einfachen Postfilter für Residual Echo Reduction (RES) implementiert. Schließlich wurde die Leistung des Schätzers hinsichtlich der Signalverzerrung und der LRE-Reduktion untersucht.



Bhattarai, Bibek Chandra;
Binaural auralization of virtual room acoustics. - Ilmenau. - 90 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

The binaural audio is a technique which has developed drastically in the recent years of time. The improved signal processing techniques and real time rendering techniques has increased the quality of binaural audio into new heights. A many portable devices, music players, smart phones and gaming console use the binaural audio technology. A. recent breakthrough has been made in complex studies such as spatial cognition through this advancement in the binaural audio. To initiate all the new research and complex studies, it is very necessary to choose the suitable HRTFs for the listener. HRTFs selection is a major task which should be carefully conducted. HRTFs can be chosen from the identified databases, personalizes databases or individually measured database. Here, in this thesis we choose five different attributes ( coloration, elevation, externalization, position and realism) for describing the auditive differences between various HRTFs in various simulation environment. We conducted an listening tests to compare these attributes in different simulation setup. After the listening tests we found that various attributes had changed with different scenes for different HRTFs. The HRTFs, large pinna and normal pinna are from same HRTFs database so they exhibits less variations than inter-database HRTFs because of acquisition protocol.



Kuntze, Mathias;
Bestimmung der Videoqualität mittels Neuronaler Netze. - Ilmenau. - 89 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Die rasante Entwicklung von Videostreaming in n High Definition (HD) und Ultra High Definition (UHD) sorgt für immer höher werdende Anforderungen an Speicher und Übertragungsbandbreite. Neue Komprimierungsverfahren wirken dem entgegen. Allerdings geht damit häufig ein Verlust der Videoqualität einher. Die subjektive Bestimmung der Videoqualität ist bis jetzt nur durch Menschen möglich. Diese Arbeit beschäftigt sich mit nicht referenzbasierenden Verfahren, welche zur Bestimmung von Videoqualität neuronale Netze verwenden. Dabei sollen sie möglichst stark mit der menschlichen Wahrnehmung korrelieren. Zunächst wird auf aktuelle Forschungen eingegangen. Im Speziellen werden Verfahren vorgestellt, die maschinelles Lernen zur Bestimmung der Qualität in Bildern nutzen. In Ermangelung adäquater Forschungen im Videobereich wird versucht, die Verfahren zur Bestimmung von Bildqualität in diesem Bereich anzuwenden. Daraus werden zwei Ansätze abgeleitet: Pixelbasierter und merkmalsbasierter Ansatz. Der pixelbasierte Ansatz verwendet Convolutional Neural Networks (CNNs) zur Extraktion von Merkmalen und der darauf folgenden Bestimmung der Qualität. Für den merkmalbasierten Ansatz werden zuerst Merkmale extrahiert. Das neuronale Netz bestimmt nur die Qualität aus diesen Merkmalvektoren. In der vorliegenden Arbeit werden verschiedene Architekturen der beiden Ansätze implementiert und evaluiert. Für den merkmalsbasierten Ansatz fanden die Merkmale von Jiang et al und Mittal et al Anwendung. Die verschiedenen Architekturen und beide Ansätze werden mit zwei unterschiedlichen Datensätzen evaluiert. Der Datensatz VQEGHD enthält 712 Videos dessen Qualität hauptsächlich durch die Kodierung mit verschiedenen Bitraten reduziert wurde. Der größere Datensatz KoNViD-1k umfasst 1.200 natürliche Videos. Die Qualitätsunterschiede entstehen durch eine ungünstige Videografie und daraus resultierenden Artefakte (Rauschen, Unschärfe u.ä.). Für die Evaluierung wurde ein komplexes Framework in Python implementiert. So konnten verschiedene Architekturen modelliert und trainiert werden. Die getesteten Verfahren blieben hinter den Erwartungen zurück. Dabei erreichten die merkmalsbasierten Verfahren die höchsten Korrelation mit der menschlichen Wahrnehmung. Diese bilden eine gute Basis für weitere Forschungen. Das entwickelte Framework stellt dafür ein wichtiges Werkzeug dar.



Mutashar, Hayder Majid;
Wideband antennas with optimized impulse behavior. - Ilmenau. - 96 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Das traditionelle Design der Antenne basiert auf der stationären Analyse, basierend auf der Anregung durch Sinuswellen. Dies führt zu Designkriterien wie Antennengewinn, Richtdiagramm und Rückflussdämpfung. Diese Verfahren erlauben jedoch selten eine Erklärung des internen Ausbreitungsverhaltens der Antenne. Die Simulationein der Zeitdomäne ermöglichen dagegen einen Einblick in die inneren Vorgänge der Antenne da kurze Anregungssignale verwendet werden. Dadurch wird es möglich, die Wirkungsweise der Antenne besser zu verstehen. Der Schwerpunkt dieser Masterarbeit betrifft Aspekte eines neuen Ultra-Wideband-Antennendesigns aus der Vivaldi-Antennenfamilie. Durch die Bestimmung der Abklingzeit, die zu den Zeitdomänenmerkmalen gehört, wurde die Schwingneigung einer Antenne untersucht. Im Ergebnis der Arbeit entstand eine neue Vivaldi Antenne - genannt Ring-Vivaldi, die über eine kurze Impulsantwort mit schnellem Abfall der Eigenschwingung verfügt. Die Antenne ist für ein 1 mm dickes FR4-Substrat ausgelegt und wird über einen 50 SMA-Stecker gespeist.



Pachatz, Nicolas;
Untersuchungen zur Relevanz raumakustischer Parameter bei Anpassung eines Binauralsynthesesystems an die Raumakustik des Abhörraumes. - Ilmenau. - 53 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2017

In dieser Arbeit werden mehrere Algorithmen vorgestellt und entwickelt, um bei binauraler Wiedergabe mittels Kopfhörer die Distanzwahrnehmung von akustisch divergenten Räumen zu verbessern. Hierbei besteht das Problem, dass der Zuhörer erwartet, die gleiche Akustik des Raumes in dem er sich befindet, auch über Kopfhörer zu hören. Ist dies nicht der Fall, kommt es zum Raumdivergenzeffekt, der bei Wiedergabe mittels Binauralsynthese die externale Wahrnehmung verschlechtert. Das Ziel dieser Arbeit ist es, die raumakustischen Parameter zu finden, welche für die verschlechterte Lokalisierung und Externalisierung binauraler Signale bei Raumdivergenz verantwortlich sind. Die Algorithmen synthetisieren dabei aus zwei gemessenen binauralen Raumimpulsantworten (BRIRs) neue Datensätze. Es werden insgesamt drei Methoden implementiert. Das erste Verfahren basiert auf einer Angleichung des Verhältnisses zwischen Direktschall- und Nachhallenergie. Das Zweite widmet sich der Angleichung der Initialzeitlücke, die durch unterschiedliche Abstände von Schallquelle zur Hörposition entsteht. Im dritten Verfahren werden mittels Dynamic Time Warping (DTW) die frühen Reflexionen der BRIRs interpoliert. Diese Verfahren werden auf unterschiedliche Entfernungen und Positionen von zwei Räumen angewendet. Als Räumlichkeiten dienten dabei ein halliger und ein trockener Raum, also mit starker akustischer Divergenz. Die Evaluierung erfolgt mittels eines Hörtests, in dem die Lokalisierung und Externalisierung der binaural-synthetisierten Schallquellen untersucht wird. Die Auswertung des Hörtests befasst sich mit der Eignung der Algorithmen für eine verbesserte räumliche Wahrnehmung mittels Binauralsynthese über Kopfhörer.



Dietrich, Stefan;
Untersuchungen zur räumlichen auditiven Wahrnehmung bei Verwendung eines Knochenleitungshörers. - Ilmenau. - 43 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2017

Das knochenübertragene Hören kann eine nützliche Alternative für Menschen mit Schädigung des Außen- oder Mittelohrs darstellen. Das zu Grunde liegende Prinzip hierbei ist es, Schallwellen unter Nutzung eines mechanischen Schwingers durch den Schädel zu leiten. Dies versetzt den Schädel und somit die darin liegende Cochlea in einen Schwingungszustand, welcher den Eigenschaften des Signals entspricht. So kann die gesamte Signalverarbeitungskette vom Außenohr bis zur Cochlea überbrückt werden. Da dieser Vorgang aber nicht dem natürlichen Hörerlebnis entspricht, ändert sich dieses für den Nutzer eines solchen Geräts. Es ist anzunehmen, dass selbst eine monaurale Erregung beide Cochleae erregt, da die Vibration von einer Seite aus durch den Schädel wandert und die gegenüberliegende Seite in abgeschwächter Form erreicht. Die Auswirkungen dieses Übersprechens sind zweierlei. Zum einen summieren sich die beiden Anregungen und führen zu einer Erhöhung der wahrgenommenen Lautheit und zum anderen entsteht ein diffuseres Schallbild. Die vorliegende Arbeit untersucht die Eigenschaften des räumlichen Hörens und die wahrgenommene Lautheit bei Knochenleitung. Zu diesem Zweck wurde ein Hörtest durchgeführt, wobei ein neuartiger Knochenleiterhörer auf Basis piezoelektronischer Aktoren und normal hörende Probanden zum Einsatz kamen. Der erste Teil des Tests bestand in der Aufnahme von Kurven gleicher Lautheit für Knochenleitung bei binauralen Signalen. Der zweite Teil beinhaltet einen direkten Vergleich der wahrgenommenen Lautheit in einem offenen Schallfeld und bei Knochenhören. Dies gestattet eine objektive Beurteilung der Lautheitsempfindung, welche nicht mit den gleichen Größen wie im offenen Schallfeld gemessen werden kann. Die Ergebnisse des ersten Teils legen nahe, dass der zuvor erwähnte Effekt des Übersprechens auftritt und die auditive Wahrnehmung beeinflussen kann. Aufgrund der großen Varianz unter den Ergebnissen der einzelnen Probanden, ist es allerdings schwer eine eindeutige Tendenz auszumachen. Bemerkenswerter ist ein steiler Abfall der Kurven aller räumlichen Parameter für Frequenzen oberhalb der 6 kHz, was eine besonders feine Wahrnehmung in diesem Bereich impliziert. Diese Annahme wird durch den zweiten Versuchsteil unterstützt, in welchem die wahrgenommene Lautheit bei hohen Frequenzen stets die, der Referenzsignale über Luftschall übersteigt.



Benjamin, Aravindan;
Psychoacoustic evaluation of binaural auralization of virtual room acoustics. - Ilmenau. - 200 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Auditory Virtual Environments (AVEs) sind ein beliebtes Forschungsgebiet geworden. Ermöglicht wird dies durch moderne Hardware mit der Fähigkeit auch komplexe Berechnungen wie zum Beispiel für VR Anwendungen effizient zu berechnen. Mittlerweile wurden zahlreiche Ray Based Modelling Algorithmen entwickelt und an Modelle der Raumakustik von virtuellen Umgebungen angepasst um die Qualität von fully-computed aurelization (voll berechneter Auralisierung) der virtullen Räume zu erweitern. Ob nun die Nutzung eines einzelnen solchen Algorithmus oder die gemeinsame Verwendung einer Anzahl solcher Algorithmen die Fähigkeit hat die meisten oder vielleicht sogar alle komplexen Phänomene, welche realistische Schallfelder in nachhallenden (reverberant) Räumen bestimmen, ist eine strittige Frage. Nitchtsdestotrotz, ist es für die Forschung immer noch von großem Interesse herauszufinden wie die Qualität der binauralen Auralisierung von den Verfahren mit welchen die voll computerisierte Auralisierung von Räumen realisiert wird beeinflusst. Um dies zu erforschen werden als Teil dieser Masterabschlußarbeit zwei Ansätze implementiert. Diese Ansätze unterscheiden sich in den Techniken und Konventionen, die sie benutzen um eine Menge an HRTFs, die um ein sphärisches Gitter gemessen wurden, zu integrieren, um die binauralen Raumimpulsantworten (Binaural Room Impulse Respones - BRIRs) eines Shoe-Box Models eines leeren, virtuellen Raumes zu evaluieren. Diese beiden Ansätze, in welchen der erste ein Benchmark-Ansatz ist und ein zweiter ein neuer Vorschlag ist, werden in dieser Arbeit verglichen. Zu diesem Zweck wurden mehrere Szenen von kleinen, nachhallenden und trockenen Raummodellen (der Dimensionen 5 m X 4 m X 2,5 m) mithilfe des frei verfügbaren, auf MATLAB basierenden, MCRoomSim Raumakkustikmodellierungstool für eine volle Rotation um eine gegebene Position simuliert. Eine Menge Nahfeld-HRTFs gemessen mit aus einer Entfernung von 0.5 Metern von der Schallquelle und, äquivalenten Fernfeld HRFTs, sind in die Simulationen einbezogen worden um die BRIRs zu evaluieren. Beide diese Mengen von HRTF wurden um ein spärisches 2702 Punkt Lebedev Gitter auf einem Georg Neumann KU100 Kunstkopf gemessen. Die simulierten Szenen wurden dann unter der Benutzung einer Head Tracking basierten dynamischen Preäsentation realisiert. Ein Hörtest an 15 Teilnehmern wurde durchgeführt, um jegliche hörbare Unterschiede zwischen den Raumauralesierungen dieser zwei Ansätze zu ermitteln und sie in die erwähnten HRTFs einzubeziehen. Quantitative und qualitative Analysen an den im Hörtest ermittelten Daten wurden durchgeführt und werden hier präsentiert, um eine wissenschaftliche Schlussfogerung zu der Investigation zu erreichen.



Dannehl, Jill;
Detektion von Blenden in Videos. - Ilmenau. - 108 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Durch die Zunahme der Videoproduktion ist in Videoarchiven eine große Menge an Daten vorhanden; dies erschwert die Suche nach Elementen in einem Archiv erheblich. Ein Ansatz zur Verbesserung der Suchgeschwindigkeit ist der Vergleich von Videos durch eine begrenzte Anzahl von Keyframes. Für die Keyframe-Extraktion benötigt es zunächst eine zeitliche Segmentierung des Videos in Shots. Während die Detektion von harten Schnitten oft hervorragende Ergebnisse liefern, ist bei der Detektion von weichen Schnitten (Blenden) noch Forschungsbedarf vorhanden. Die unterschiedlichen Darstellungsformen und langsame Veränderung des Bildinhaltes bei Blenden führen häufig zu Fehlinterpretation. Ziel dieser vorliegenden Masterarbeit ist die Untersuchung von vier Verfahren zur Detektion von weichen Schnitten. Hierzu sind zunächst die Grundlagen für die Bildverarbeitung, der aktuelle Stand der Technik bzgl. der Shot Boundary Detektion und die Verfahrensweise der Evaluierung erarbeitet worden. Darüber hinaus wurde der vorhanden Datensatz der TRECVID auf seine Eignung untersucht und um einen synthetischen Datensatz erweitert. Besonders vielversprechende Verfahren wurden durch die Abwägung verschiedener Kriterien ausgesucht und im Anschluss umgesetzt und miteinander verglichen. Die Ergebnisse sollen verdeutlichen, wie geeignet die Verfahren zur zeitlichen Segmentierung sind. Des Weiteren geben die Optimierungsvorschläge der Verfahren und der Ausblick Anstoß für weitere Forschungsarbeiten in dieser Thematik.



Brocks, Tobias;
Modellentwicklung für die Temperaturprädiktion eines elektrodynamischen Lautsprechers. - Ilmenau. - 103 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Diese Arbeit stellt ein neuartiges Verfahren vor, um die Erwärmung von Lautsprechern zu prädizieren. Die Erwärmung von Lautsprechern kann neben Leistungseinbußen auch zur Beschädigung des Lautsprechers, oder, im Fall von sehr kompakten Geräten wie Mobiltelefonen, auch zur Beschädigung umliegender Komponenten führen. Wissen über die Entwicklung der Schwingspulentemperatur kann hier dabei helfen, effektiv entgegenzusteuern und so den Wirkungsgrad, den Klang und die Betriebssicherheit eines Lautsprechers zu verbessern. Die Mechanismen des Wärmeaustausches im Lautsprecher werden in dieser Arbeit betrachtet und die Methoden der thermischen Modellierung eines Lautsprechers werden an einem Beispiel aus der Literatur gezeigt. Für jede Modellbildung bedarf es präziser Daten als Grundlage. Verschiedene Methoden, die Lautsprechertemperatur zu messen, werden vorgestellt und kategorisiert. Anforderungen an ein Temperatur-Messsystem werden formuliert. Um diese Anforderungen zu erfüllen wird eine neuartige Messanordnung vorgestellt, die es erlaubt, die Schwingspulentemperatur während der Wiedergabe von Signalen jeglicher Art zu messen. Die Messung basiert auf dem Gleichstromwiderstand der Schwingspule und baut auf der Wheatstoneschen Messbrücke auf, wird jedoch um aktive analoge Komponenten erweitert. Die Qualität der Messung wird durch Vergleichsmessungen mit einem Infrarotthermometer und durch theoretische Betrachtung der Fehlerquellen evaluiert. Mit den gemessenen Daten wird ein künstliches neuronales Netzwerk trainiert. Dieses ist, um die Zeitkonstanten von Lautsprechern zu erfassen, mit einem "Temperaturgedächtnis" ausgestattet. Die prädizierten Ergebnisse werden mit einem gängigen linearen Modell dritter Ordnung aus der Literatur verglichen. Dabei zeigt sich, dass die Temperaturprädiktion am Lautsprecher mit maschinellem Lernen möglich ist, aber noch weiterer Forschung bedarf.



Ji, Zhiyang;
Erkennen von Bildähnlichkeiten mittels neuronaler Netze am Beispiel von Gebäuden. - Ilmenau. - 85 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

In den letzten Jahren findet die Hashfunktion immer mehr Anwendungen beim Bildretrieval im großen Maßstab, welches eine große Herausforderung stellt. Die alten Methoden basieren meistens auf lokale Features. Die Extraktion der lokalen Features und hochdimensionale Datenverarbeitung brauchen zu viel Zeit, sodass die Verwendung der handgefertigten Features bei der Bildsuche die Erkennungsleistung begrenzt. Zugleich entwickelte sich Deep Learning blitzschnell, das über eine hervorragende Lernfähigkeit der Features von den Daten verfügt. Deep Learning bildet die Grundlage für einige Methoden, die auch die Hashtechnologie kombinieren können. Die Verwendung der Hashtechnologie beschleunigt stark die Geschwindigkeit der Bildsuche und die meisten Methoden haben gute Ergebnisse erzielt. Ziel dieser Masterarbeit ist, dasselbe Gebäude im Bild möglichst wie genau zu identifizieren. In dieser Masterarbeit wurden lokale Features und verschiedene tiefe Faltungsnetze zur Erkennung der Gebäudeähnlichkeit sowie deren Anwendungsmöglichkeiten zur Optimierung der Rechercheergebnisse untersucht. Danach wurden unterschiedliche Datensätze für die Evaluation aufgestellt und die Tests wurden zur Überprüfung der Wirksamkeit des Systems durchgeführt. Neben einer ausführlichen Analyse werden Möglichkeiten evaluiert, die Erkennungsleistung verbessern zu können.



Fischer, Georg;
Untersuchungen zur Anwendung von Beamforming in Flachlautsprechern unter Berücksichtigung von Raumreflexionen. - Ilmenau. - 83 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

In dieser Arbeit wurde untersucht, inwieweit Beamforming mit Flächen-Arrays umgesetzt werden kann und ob sich dadurch Vorteile gegenüber Linien-Arrays ergeben. Im Vordergrund stand die Frage ob durch die Bündelung des Schalls in einer zusätzlichen Dimension weniger störende Reflexionen entstehen. Hierfür wurde neben einfachen Delay-and-Sum-Beamformern auch ein optimierungsbasierter Ansatz von Linien- auf Flächen-Arrays erweitert. Bei der Erweiterung wurden zwei verschiedene Methoden betrachtet: Eine erweitert die Optimierungsparameter um eine weitere Dimension, die zweite zerlegt das Array in mehrere Linien und optimiert Linien-Weise. Diese verschiedenen Verfahren wurden anhand ihrer simulierten und gemessenen Richtcharakteristiken evaluiert. Abschließend wurde das Verhalten eines Linien- und eines Flächen-Arrays unter gezielten raumakustischen Bedingungen verglichen. Dazu wurden im reflexionsarmen Raum gezielt Reflektoren angebracht und die Raumimpulsantworten an verschiedenen Positionen verglichen. Es stellte sich heraus, dass die Vorteile des Flächen-Arrays in einfachen Reflexionsumgebungen deutlich werden. In komplexen akustischen Umgebungen, stellt sich das Flächen-Array zwar noch als besser heraus, jedoch sind die Unterschiede zum Linien-Array hier geringer.



Merten, Nils;
Distanzwahrnehmung in virtuellen auditiven Umgebungen mit dynamischem Avatar. - Ilmenau. - 57 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2017

Die menschliche Fähigkeit, Distanzen anhand des Gehörsinns zu bestimmen ist abhängig von diversen Faktoren. Es ist bereits erwiesen, dass Bewegungen während des Hörens in einer genaueren Distanzempfindung resultieren. Das Ziel der vorliegenden Bachelorarbeit ist es, die Auswirkungen von Hörerbewegung in einer virtuellen Hörumgebung zu analysieren. Hierzu wird ein Überblick über die Mechanismen der auditiven Distanzwahrnehmung und der technischen Möglichkeiten zur Erzeugung virtueller Hörumgebungen gegeben. Anschließend wird auf der Grundlage dieses Wissens ein Experiment entwickelt, welches die Auswirkungen von Translation auf das Distanzempfinden untersucht. Es wird eine stark verbesserte Entfernungsschätzung für dynamisch gehörte, nahe Quellen festgestellt. Während mit steigender Erfahrung der Hörer ein Adaptionsprozess mit positivem Einfluss auf die Genauigkeit zu beobachten ist, erlaubt die auditive Bewegungsparallaxe in einigen Fällen auch ohne Erfahrung ein Maß an Genauigkeit, welches dem von Hörtests in realen Umgebungen nahe kommt.



Rekitt, Martin;
Virtuelle Akustische Umgebung für Hörgeräte. - Ilmenau. - 92 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Das menschliche Gehör ist in der Lage, dreidimensionale Schallquellen in komplexen akustischen Szenen zu lokalisieren. Im Falle eines Hörverlustes ist diese Fähigkeit stark eingeschränkt. Moderne Hörgeräte können die Auswirkungen der Schädigung des auditiven Systems verringern, jedoch nicht vollständig kompensieren. Positionierung und technische Ausstattung beeinflussen die Wahrnehmung. Ziel dieser Arbeit ist die Entwicklung und Evaluierung einer virtuellen akustischen Umgebung für Hörgeräte unter Verwendung der Binauralsynthese. Innerhalb des Systems soll der Einfluss auf die Lokalisationsfähigkeit untersucht werden. Im ersten Schritt wurden binaurale Hörgerätübertragungsfunktionen (HATF's) gemessen und weiterverarbeitet. Dazu diente jeweils ein omnidirektional empfindliches Mikrofon zweier bilateral ausgestatteter Hinter-dem-Ohr Systeme der Spezialgattung RITE (Right-In-The-Ear). Außerdem erfolgte die Messung von binauralen Raumimpulsantworten mit Kunstkopf. Die Resultate der zwei Aufnahmemethoden werden dargestellt und miteinander verglichen. Die Konzeption und Durchführung eines Hörtests bildete den nächsten Schritt. Darin wurde die Wahrnehmung auf die Paramter Externalisation, Vorn-Hinten-Vertauschung, Distanz- und Elevationsfehler untersucht. Die Wiedergabe der Signale erfolgte sowohl mit Kunstkopf als auch mit Hörgeräten. Die Ergebnisse der beiden Aufnahmemethoden zeigten nur geringe Unterschiede bezüglich der Externalisation und der Distanzfehler. Vorn-Hinten-Vertauschungen und Elevationsfehler traten bei der Nutzung der HATF's häufiger auf. Die Überbrückung der Ohrmuschel führte zu einer Verschlechterung der Lokalisationsfähigkeit. In Bezug auf die beiden Wiedergabemethoden ergaben sich nur geringe Differenzen. Die begrenzte Bandbreite der Hörgeräte hatte kaum Einfluss auf die Wahrnehmung. Die in dieser Arbeit entwickelte virtuelle Umgebung ermöglichte eine effiziente Untersuchung der Hörgeräte.



Pfeiffer, Manuela;
Kopfmodellbasierte Blickrichtungsschätzung. - Ilmenau. - 39 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2017

Das Ziel dieser Bachelorarbeit ist es, ein Verfahren zur kopfmodellbasierten Blickrichtungsschätzung, das auf synthetischen Daten basiert, in die Praxis zu überführen und zu testen. Dafür werden als erstes die Grundlagen von Auge, Projektion und 3D-Transformation erläutert. Als zweites werden aktuelle Techniken im Bereich der Cornea-Reflexion und des modellbasierten Gaze-Tracking aufgelistet. Daraufhin wird der Algorithmus zur Blickrichtungsschätzung erklärt, der auf einem 3D-Kopfmodell basiert. Anhand dessen kann mit dem POSIT-Algorithmus aus den 2D-Bildpunkten die Lage des Kopfes geschätzt werden. Anschließend wird mittels Projektion der Pupillenpunkt und daraus der Blickvektor bestimmt. Darauf wird der Versuchsaufbau und -durchführung erklärt. Es folgt eine Auswertung der aufgenommenen Videodaten, hinsichtlich Genauigkeit und Präzision. Diese Werte werden abschließend analysiert und mit dem Stand der Technik verglichen und diskutiert.



Schaab, Maximilian;
Psychoakustische Bewertung von privaten Hörzonen. - Ilmenau. - 119 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

In vielen Szenarien ist es wünschenswert Audioinhalte räumlich zu begrenzen, sodass im Idealfall mehrere Programme simultan in einem Raum ohne akustische Trennelemente erzeugt werden können, ohne dass sich diese gegenseitig beeinflussen. Mit dieser Thematik befasst sich die Entwicklung von Systemen zur Erzeugung "privater Hörzonen". Idealerweise ist das Programm in der jeweiligen Hörzone komplett, außerhalb hingegen überhaupt nicht hörbar. In der Realität sind diesen Systemen jedoch physikalische Grenzen gesetzt, sodass gerade bei der simultanen Erzeugung mehrerer Hörzonen auf kleinem Raum mit teils erheblichem Übersprechen benachbarter Hörzonen gerechnet werden muss. Neben physikalischen Metriken zur Bestimmung des Ausmaßes dieser Interferenzen, wie der Messung einfacher Schalldruckpegel, können allein anhand dessen keine Aussagen über die vom Nutzer tatsächlich wahrgenommene Beeinträchtigung gemacht werden. Im Laufe der Arbeit wird gezeigt, dass es einen programmabhängigen, pegelmäßigen Schwellwert der Interferenzen gibt, der das Hörerlebnis subjektiv in akzeptabel bzw. nicht-akzeptabel teilt (Akzeptanzschwelle). Untersuchungen diesbezüglich geben Aufschluss über verschiedene Einflussfaktoren, welche die Lagen der Akzeptanzschwellen in einem privaten Hörzonen-Szenario beeinflussen. Zudem wird ein prädiktives Modell ermittelt, welches Vorhersagen über die Akzeptanzschwellwerte zulässt. In einem weiteren Hörversuch wird der These nachgegangen, ob starke Ähnlichkeiten der Programme zweier benachbarter Hörzonen zu verhältnismäßig mehr störenden Interferenzen und somit zu weniger akzeptablen Hörszenarien führen. Dazu wird der Fokus auf die Instrumentierungen von Musikinhalten gelegt, die mittels privater Hörzonen reproduziert werden. Zwar zeigen sich für gewisse Instrumente diesbezüglich erste Tendenzen. Dennoch implizieren die Ergebnisse, dass das abgefragte Attribut für den Beleg der These ungeeignet ist.



Brömme, Niclas;
Energiebilanzbetrachtung von digitalen Array-Lautsprechern. - Ilmenau. - 71 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2017

Die vorliegende Arbeit beschäftigt sich mit einer energetischen Betrachtung eines digital angesteuerten Array-Lautsprechers. Diese Lautsprechertechnologie bietet die Möglichkeit der direkten Schallwandlung von digitalen Signalen in die akustische Domäne. Die digitale Lautsprecheransteuerung könnte eine energetisch effizientere Alternative zu der konventionellen analogen Ansteuerung darstellen. In der vorliegenden Arbeit wird das Konzept der digitalen Lautsprecheransteuerung mittels PCM-Signalen dargelegt. Dabei wird auf das Funktionsprinzip digitaler Arrays eingegangen. Die Untersuchungsgegenstände dieser Arbeit stellen die Wirkleistung, der erzeugte Schalldruckpegel sowie die Ein- und Ausgangsenergie eines Array-Elements dar. In einer FEM-Simulationssoftware wurde eine ideale starre Kolbenmembran als Schallwandler implementiert. Dieser Wandler wurde mit einem digitalen PCM-Signal und einem analogen Sinussignal bei den Untersuchungsfrequenzen 100 Hz, 1 kHz und 10 kHz angesteuert und untersucht. Dabei wurde bei den digitalen Eingangssignalen die Flankensteilheit der rechteckförmigen Ansteuerung variiert. In Form einer Bilanzbetrachtung konnte gezeigt werden, dass der Wandler bei digitaler Ansteuerung bei allen Untersuchungsparametern energetisch effizienter arbeitet, als bei der analogen Ansteuerung. Dies bestätigten sowohl die gemessenen Schalldruckpegel, als auch das Verhältnis von Ein- und Ausgangsenergie. Ein Zusammenhang zwischen dieser Effizienzsteigerung und der Wirkleistung konnte nicht gefunden werden. Jedoch wurde ein deutlicher Effizienzgewinn ab einer bestimmten Flankensteilheit ermittelt.



Krieg, Kevin;
Bereitstellung und Evaluierung der E-Assessment Anwendung askMe!. - Ilmenau. - 156 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Der Inhalt dieser Masterarbeit beschreibt den unterstützenden Einsatz und die Evaluierung der am Fraunhofer IDMT entwickelten E-Assessment Anwendung "askMe!" in zwei Bildungszentren, in denen sich Testgruppen auf eine fachtheoretische Prüfung vorbereiten müssen. Zunächst werden die individuellen Rahmenbedingungen der Lernenden durch Expertenbefragungen analysiert und demnach entsprechende Anpassungen bis zur jeweiligen Bereitstellung des Systems vorgenommen. Nach der multimedial-interaktiven Aufbereitung eines vorhandenen Fragenkatalogs aus dem jeweiligen Bildungszentrum, unter anderem durch den Einsatz einer Software zur Prototypen-Entwicklung, wird das eingesetzte System abschließend anhand der Nutzungserlebnisse der Testgruppen mit Hilfe von quantitativen und qualitativen Datenerhebungen evaluiert. Aus den erhobenen und statistisch ausgewerteten Daten resultiert wertvolles Verbesserungspotential für das askMe! System, welches durch entsprechend ausgearbeitete Handlungsempfehlungen dokumentiert wird. In einem abschließenden und aktuellen Systemvergleich werden bereits umgesetzte Verbesserungsvorschläge sowie Handlungsempfehlungen für das eingesetzte E-Assessment aufgezeigt. Die Ergebnisse dieser Arbeit weisen vor allem auf eine notwendige Optimierung der aktuellen Performance des Systems hin. Ebenso stehen einige Funktionalitäten und Darstellungen im Fokus, die nutzerzentrierter verbessert werden sollten. Bei Berücksichtigung und Umsetzung der dokumentierten Empfehlungen wird für die Lernenden ein motivierendes und ungestörtes Lernszenario geschaffen, in dem sie einen maximalen Lernerfolg erzielen können.



Wolf, Maximilian;
Prädiktion des Verhaltens elektrodynamischer Lautsprecher im nichtlinearen Arbeitsbereich. - Ilmenau. - 155 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Elektrodynamische Lautsprecher verhalten sich bei großen Membranauslenkungen zunehmend nichtlinear. Die unerwünschten nichtlinearen Verzerrungsprodukte schränken den nutzbaren Leistungsbereich ein. Durch eine Vorverzerrung des Eingangssignals ist es möglich, das nichtlineare Verhalten eines Lautsprechers zu kompensieren und die auftretenden hörbaren Verzerrungen zu reduzieren. Dafür übliche Feedforward-Verfahren benötigen eine möglichst genaue Prädiktion beispielsweise der Membranauslenkung, um darauf aufbauend ein wirksames Kompensationssignal zu berechnen. Basierend auf einem elektromechanischen Ersatzschaltbild kann das aus einer angelegten Eingangsspannung resultierende mechanische Lautsprecherverhalten modelliert werden. Diese Arbeit stellt ein elektromechanisches Zustandsraummodell vor, welches um die Viskoelastizität der Membranaufhängung erweitert wurde und das mechanische Verhalten der Lautsprechermembran bei tiefen Frequenzen besser abbildet, als ein Standardmodell aus der Literatur. Außerdem entwickelt diese Arbeit ein Verfahren, bei dem anhand eines Neuronalen Netzes die Membranauslenkung x(t) und die Membranschnelle v(t) geschätzt wird. Für das Training des Neuronalen Netzwerkes wird ein Datensatz bestehend aus Spannungs-, Strom-, und Membranschnellemessungen benötigt. Die Erhebung des Datensatzes mittels Laservibrometrie und die folgende Bearbeitung der Daten wird ausführlich beschrieben. Die realen Schnelle- und Auslenkungssignale werden mit der Prädiktion der Lautsprechermodelle verglichen und anhand einer statistischen Auswertung eines Evaluationsdatensatzes werden die Modelle hinsichtlich ihrer Vorhersagegenauigkeit und ihres Fehlers gegenübergestellt. Aufbauend auf einer erfolgreichen Prädiktion der Membranschnelle wird ein Verfahren entwickelt, mit dem die bei einer Anregung mit einem Einzelsinuston entstehenden harmonischen Verzerrungen reduziert werden. Die Reduktion des Klirrfaktors wird im Schalldruck durch akustische Messungen nachgewiesen.



Häger, Daniel;
Konzeption und Implementierung von Komponenten zur Ablage, Annotation und Suche von Medieninhalten in einem nicht vertrauenswürdigen Server-Umfeld. - Ilmenau. - 70 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2017

Im Rahmen dieser Arbeit werden Komponenten zur sicheren Speicherung von Mediendaten in einem unsicheren Serverumfeld konzipiert. Diese sollen ohne wesentliche Abstriche der Sicherheit die flexible Nutzung der Medieninhalte und der ihnen zugeordneten Metadaten ermöglichen. Die Verwendung existierender Speicherdienste wird dabei ergänzt um clientseitige Verschlüsselung und weitere sinnvolle Funktionalitäten wie Tagging, Suche und Annotation. Einige Komponenten wurden prototypisch implementiert und validiert. Bei der Konzeption wurde besonderer Wert auf die zukünftige Erweiterbarkeit gelegt.



Kyosev, Vasil;
Development and evaluation of an experience sampling method application for the game HOPSCOTCH. - Ilmenau. - 108 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

In den letzten Jahrzehnten wurde die Experience-Sampling-Methode (ESM) in verschiedenartige Studien diverser Bereiche implementiert. Einer der am geringsten untersuchten Bereiche ist die Implementierung der Methode zum Zweck der Einschätzung des Benutzererlebnisses in Computerspielen. Diese Masterarbeit hat zum Ziel, festzustellen, ob die ESM im Rahmen eines existierenden von Fraunhofer IDMT entwickelten HOPSCOTCH-Spieles angewandt werden kann. Der erste Teil dieser Arbeit stellt Ergebnisse eines Literaturüberblicks über die Einschätzung des Spielerlebnisses und der ESM dar. Der zweite Teil zeigt die praktische Implementierung der ESM in das HOPSCOTCH-Spiel zur Einschätzung der Wahrnehmung des Spielerlebnisses. An der gegenwärtigen Studie haben dreizehn Studienteilnehmer teilgenommen. Sie wurden in sieben Gruppen aufgeteilt. Die Funktionalität und die Anwendbarkeit der ESM wurden mittels eines zusätzlichen Fragebogens eingeschätzt. Aufgrund der Ergebnisse dieser Studie kann festgestellt werden, dass die ESM in das HOPSCOTCH-Spiel implementiert werden kann. Zudem haben eine funktionale Durchführung und deren Analyse stattgefunden. Zum Zweck einer Verbesserung der bisher erfolgreichen Implementierung der ESM kann eine weitere Analyse zur Integration von Ton oder anderen Signalarten vorgenommen werden. Des Weiteren könnte eine Untersuchung hinsichtlich der Möglichkeiten zur Verringerung der durch die ESM-Fragen entstandenen Spielunterbrechungen und dadurch verursachte Störung bei den Teilnehmern im Laufe des Spielens vorgenommen werden. Zusätzlich kann die grafische Benutzeroberfläche zum Programmieren so optimiert werden, Forschern und deren Assistenten, die über keine Fähigkeiten im Programmieren verfügen, zu ermöglichen, künftige Studien durchzuführen.



Gotsch, Marcel;
Detektion von Key-Frames in editierten Videosequenzen zur Unterstützung von Video-Matching. - Ilmenau. - 62 Seiten.
Technische Universität Ilmenau, Masterarbeit 2017

Der rapide Fortschritt in Computer- und Videotechnik führt zu einem massiven Wachstum von Videodatenbanken. Dies erfordert neue Methoden zur Durchsuchung, Archivierung und Speicherung und hat damit die Forschung zum Thema Videoabstraktion stark vorangetrieben. Bei der Abstraktion werden Zusammenfassungen für Videos erzeugt, welche aus einer Folge von unabhängigen Bildern (Key-Frames) oder einem kurzen Zusammenschnitt (Video-Skim) bestehen können. Der Fokus dieser Arbeit liegt auf der Extraktion von Key-Frames zur Unterstützung der inhaltsbasierte Suche nach Videosegmenten innerhalb einer Videodatenbank. Dabei ist das Ziel möglichst viele Redundanzen aus den Videos zu entfernen, um weniger Frames miteinander vergleichen zu müssen. Weiterhin soll die Genauigkeit der Suche, durch die Auswahl gezielter Frames, erhöht werden. In dieser Arbeit wird dazu ein grober Überblick über verschiedene Verfahren aus anderen Arbeiten gegeben, ausgewählte Ansätze prototypisch umgesetzt und miteinander verglichen.



Knoop, Niklas;
Orientierung in einem virtuellen Raum mit beweglichem Avatar. - 93 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

Das Erschaffen eines räumlich wirkenden Hörerlebnisses ist ein bedeutendes Forschungsziel, nicht nur aufgrund der aktuellen Weiterentwicklung und steigenden Verbreitung der VR-Technologie ("Virtual Reality"). Mit der Binauralsynthese ist es möglich, virtuelle Quellen beliebiger Distanz und Richtung zu erzeugen. Dabei werden binaurale Raumimpulsantworten (BRIRs) mit dem gewünschten Audiomaterial kombiniert. Als Resultat entsteht ein dreidimensionales Szenario, welches auch als "Virtual Auditory Environmen" (VAE) bezeichnet wird. Erweitert mit einem System zur Positionserkennung ("Tracking") kann eine Bewegung des Hörenden bzw. seines digitalen Avatars durch diesen simulierten Raum stattfinden. Diese Arbeit befasst sich mit der Untersuchung der Plausibilität in mehreren solcher positionsdynamischen VAEs. Zu diesem Zweck wurde ein eigenes System mithilfe der Programmiersprache Python entwickelt, welches über eine partitionierte Faltung die Binauralsynthese in Echtzeit durchführt. Die Bewegungen des Hörenden wurden in der VAE durch einen flüssigen Wechsel zwischen zahlreichen als BRIRs hinterlegte Rotations- und Translationspositionen imitiert. Die Position des Hörenden wurde über das HTC Vive Trackingsystem erfasst. Zur Untersuchung verschiedener Ansätze wurden die binauralen Raumimpulsantworten auf zwei Arten erstellt. Eine Variante beinhaltete die direkte Messung von BRIRs mit einem KEMAR Kunstkopfsystem. Die zweite Variante bestand in der Berechnung der BRIRs über das Simulationstool MCRoomSim. Weiterhin wurde ein Vergleich zwischen frontal und seitlich positionierten Quellen angestellt. Ein durchgeführter Hörtest hat gezeigt, dass die eigene Bewegung durch die erstellten Szenen vorwiegend als plausibel wahrgenommen wurde. Die Resultate der Plausibilität beinhalten jedoch starke interindividuelle Schwankungen.



Häuser, Franz;
Entwicklung eines Applikation-Frameworks für die Lärmmessung & Lärmbewertung. - 62 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

In dieser Bachelorarbeit wird ein Mess-Framework in Form einer Web-Applikation für Smart-Devices entwickelt, welche die subjektive Bewertung von Umgebungsgeräuschen in Verbindung mit der Erhebung von Metadaten wie Standort, Datum und Uhrzeit ermöglicht. Lärm schädigt Mensch und Tier. Für eine erfolgreiche Prävention ist das Verstehen der subjektiven Wahrnehmung von Geräuschen von zentraler Bedeutung. Die Betrachtung subjektiver Bewertungen in Verbindung mit objektiven Messungen ermöglicht es eventuell Prognosen zu objektiv gemessenen Schallereignissen über die subjektive Bewertung anzustellen. In dieser Bachelorarbeit wird mit diesem Ansatz ein Werkzeug entwickelt, welches eine solche subjektive Bewertung ermöglicht. Um den korrelativen Zusammenhang zukünftig überprüfen zu können wird ebenfalls Standort und Zeit der Aufnahme festgehalten. Zunächst werden Grundlagen der auditiven Wahrnehmung, der Lärmwahrnehmung, psychoakustischer Parameter sowie der Stand der Technik recherchiert. Es folgt die Konzeption der Applikation und ihrer einzelnen Module sowie die Umsetzung dieser.



Steger, Robert;
Weiterentwicklung und Evaluation von Verfahren zur Detektion visueller Fehler an kontrastreichen Kanten. - 119 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Diese Arbeit beschäftigt sich mit der Weiterentwicklung von Detektionsverfahren für visuelle Fehler, die in Bildern und Videos an kontrastreichen Kanten auftreten. Sowohl in der Literatur als auch in bereits existierenden Verfahren kam es vor, dass die Fehler Halo und Ringing verwechselt, bzw. als ein Fehler betrachtet wurden. Da sich die Fehler jedoch in Erscheinungsbild und Ursache voneinander unterscheiden, ist es im Zuge einer erfolgreichen Detektion nötig, sie voneinander zu trennen. Die beiden Artefakte wurden zunächst hinsichtlich ihrer Eigenschaften und damit Gemeinsamkeiten und Unterschiede analysiert. Zu diesem Zweck wurden die beiden Fehler hinsichtlich ihres Erscheinungsbildes und ihrer Ursachen untersucht und sowohl in Theorie als auch in Praxis miteinander verglichen. Analysiert wurden die Codecs H.262, H.264, H.265, JPEG und JPEG2000. Um das Ringing untersuchen zu können, ohne dass es von anderen Fehlern überlagert wird, wurde ein Verfahren zur künstlichen Generierung von Ringing in seiner Reinform entwickelt. Halo kann mithilfe von Schärfungsoperatoren erzeugt werden. Des Weiteren wurde für jeden Fehler ein spezifischer Detektionsalgorithmus konzipiert und implementiert, der in der Lage ist, den Fehler mithilfe einer pixelbasierten Detektionsmethode zu erkennen. Die Algorithmen bestehen aus zwei Teilen. Zuerst werden die Kanten heraus gefiltert, an denen die Fehler auftreten können, und anschließend wird das Artefakt anhand seines individuellen Musters gesucht. Diese Algorithmen wurden hinsichtlich ihrer erfolgreichen Detektion mithilfe von Probandentests evaluiert, und die Ergebnisse wurden mit bereits existierenden Verfahren zur Ringingdetektion abgeglichen, um zu ermitteln, ob eine Weiterentwicklung erfolgreich war. Herausgefunden wurde, dass sich die Codecs in der Praxis hinsichtlich des zu erwartenden Ringings stark unterscheiden. Für Bildcodecs kann die Detektion deutlich bessere Werte liefern als sein Vorgänger. Die Detektion von Videocodecs erweist sich als schwierig, weshalb auch die Ergebnisse des Algorithmus ungenügend sind. Der erste Teil, die Filterung der relevanten Kanten, liefert für beide Fehler gute Ergebnisse, der zweite Teil, die Detektion des Musters, ist in der Praxis allerdings nur für Halo anwendbar.



Schaller, Lukas;
Entwicklung und Evaluation von Verfahren zur Klassifikation von akustischen Szenen. - 59 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Die vorliegende Bachelorarbeit befasst sich mit dem Thema der automatischen Klassifizierung und Analyse von akustischen Szenen. Geräusche aus der Umwelt und dem innerstädtischen Bereich sollen mithilfe von geeigneten Methoden beschrieben und anschließend klassifiziert werden. Als Grundlage für alle im Rahmen dieser Arbeit durchgeführten Experimente, dient der öffentlich zugänglichen Datensatz Urban-Sound8k der New York University, welcher über 8000 kurze Audioaufnahmen von zehn verschiedenen Szenenklassen bereitstellt. Im Mittelpunkt der Arbeit steht die Zusammenstellung eines geeigneten Merkmalsraums zur Beschreibung spektraler und temporaler Eigenschaften der Szenen. Dafür wurden einige vielversprechende, aktuell verwendete Merkmale nachimplementiert. Diese werden einzeln und in Kombination mit anderen Audiomerkmalen evaluiert, um das am besten funktionierende System zu ermitteln. Anschließend wird versucht, mithilfe einer Filterung von stillen Signalblöcken und der Wahl eines geeigneten Klassifikationsverfahren die Ergebnisse zu optimieren.



Krämmer, Christopher;
Entwicklung und Evaluation von Verfahren zur Detektion von Banding-Artefakten in Videodaten. - 68 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Im Rahmen der vorliegenden Abschlussarbeit wird Banding, ein Bildfehler welcher bei der Quantisierung von Pixelwerten oder bei der blockweisen Transformation entsteht, genauer untersucht. Bestehende Ansätze zur Detektion werden aufgegriffen und mit dem Ziel der möglichst präzisen Lokalisierung der Band-Artefakte verbessert. Um die verschiedenen Algorithmen miteinander zu vergleichen, erfolgt eine Evaluation unter der Berücksichtigung grundlegender Eigenschaften der visuellen Wahrnehmung des Menschen. Als Ausgangsmaterial dienen speziell für die Evaluation von Banding entworfene Testbilder, deren Referenzdaten durch ein Modell erzeugt werden.



Zapf, Dominik;
Polyphonic pitch detection with deep learning techniques. - 60 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

In dieser Arbeit wurde ein System zur polyphonen Tonhöhenerkennung entwickelt, das Techniken des Deep Learnings nutzt, d.h. künstliche neuronale Netzwerke und Mengen von Audiodaten mit vorhandener Annotation der Tonhöhen. Verwendet wurde ein Feedforward Neural Network, dessen Parameter und Architektur durch Experimente bestimmt wurde. Zusätzlich wurden Methoden angewandt, die in anderen Arbeiten bereits zu einer Verbesserung der Tonhöhenerkennung führen konnten. Dies waren künstliche Datenvergrößerung durch Pitch Shifting, das Verwenden von Dropout zur Regularisierung und das Verwenden einer logarithmischen Frequenzachse. Trainiert und getestet wurden in unterschiedlichen Kombinationen auf dem Su-Datensatz des MIREX, dem MAPS-Datensatz und einem Datensatz namens SMT\_GUITAR, bestehend aus Gitarrenaufnahmen, aufgenommen am Fraunhofer IDMT. Es konnten gute Ergebnisse für das SMT\_GUITAR-Datenset erzielt werden, während die Ergebnisse für das MAPS-Datenset und das Su-Datenset deutlich schlechter ausfielen. Mit Pitch Shifting konnten die Ergebnisse beim Su-Datenset verbessert werden. Dropout führte zu deutlich schlechteren Ergebnissen und das Logarithmieren der Frequenzachse führte zu keinem nennenswerten Unterschied. Auch ein Rekurrentes Neuronales Netzwerk wurde getestet in Form eines LSTM-Netzwerks (Long Short Term Memory). Dabei fielen die Erkennungsgenauigkeiten sehr niedrig aus. Verglichen wurden die Ergebnisse mit denen des MIREX. Während die Präzision mit den eingeschickten Ergebnissen mithalten konnte, fiel das Recall hinter den meisten Methoden zurück.



Götz, Georg;
Untersuchung zum Einfluss von Head-Tracking auf die Externalisierung von Hörereignissen bei Divergenz zwischen synthetisierter Szene und Abhörraum unter Verwendung eines binauralen Kopfhörersystems. - 72 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Mit Hilfe der Binauralsynthese ist es möglich, eine auditive Szene zu reproduzieren und dabei einen authentischen räumlichen Höreindruck zu gewährleisten. Durch das Personalisieren des Systems und die Verwendung von Head-Tracking zum Ausgleich der Kopfbewegung des Rezipienten in Form einer dynamischen Binauralsynthese, ist eine nahezu exakte Annäherung an eine natürliche Hörsituation trotz Kopfhörerwiedergabe möglich. Falls die wiederzugebende Szene perzeptiv vom Abhörraum abweicht (Raumdivergenz), kommt es allerdings zu Beeinträchtigungen des räumlichen Höreindrucks. Die Externalisierung von Hörereignissen wird gestört und es kommt häufiger zur Im-Kopf-Lokalisation. Bisherige Forschungsergebnisse zeigen, dass durch eine dynamischen Binauralsynthese Vorne-Hinten-Vertauschungen aufgelöst werden können. Der Einfluss von Head-Tracking auf die Externalisierung von Hörereignissen ist allerdings noch nicht eindeutig geklärt. In dieser Arbeit wurde deshalb der Einfluss von Head-Tracking auf die Externalisierung von Hörereignissen mit einem binauralen Kopfhörersystem untersucht. Dabei wurde sowohl eine konvergente als auch eine divergente Abhörsituation betrachtet. Ein Hörtest wurde mit dem kommerziellen Binauralsynthesesystem Smyth Realiser A8 durchgeführt. Es konnte gezeigt werden, dass die Verwendung von Head-Tracking während einer Kopfdrehung die externalisierte Wahrnehmung für ausgewählte Schalleinfallsrichtungen verbessern kann. Der Effekt der Raumdivergenz konnte dabei allerdings nicht vollständig aufgelöst werden. Der gewonnene Datensatz legt nahe, dass Adaptionseffekte bei der Verwendung von Head-Tracking während einer Kopfbewegung eine Rolle spielen. Weiterhin wurde beobachtet, dass die Kopfdrehung für verschiedene Probanden unterschiedliche Einflüsse auf die Externalisierung hatte.



Melo Rios, Jorge Arturo;
Evaluation of different transducer principles in digital loudspeakers. - 84 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

Diese Arbeit beschäftigt sich mit der Direkten Schall Rekonstruktion (DSR) basierend auf digital-angesteuerten Arraylautsprechern (Digitalen Transducer Array Loudspeakern - DTALs). Mithilfe von Comsol-Simulationen, und basierend auf dem Stand der Technik werden unterschiedliche Eigenschaften des DTAL untersucht, wie die Wandler-Art, der Einfluss des Ansteuersignals, wie auch die Abtast-Frequenz. Dafür wurde ein möglichst idealer Wandler simuliert, der lediglich aus einer rechteckigen Fläche besteht, die dem Verlauf des Eingangssignals folgt und somit die Luft-Teilchen zum schwingen anregt. Effekte einer realen Membran, wie Masse oder Steifigkeit wurden geziehlt vernachlässigt. Die Ergebnisse zeigen, dass die digitale Ansteuerung des DTALS einen signifikanten Druckgewinn erziehlen kann, obwohl auch starke harmonische Verzerrungen im Signal auftreten. In praktischen Anwendungen scheint ein DTAL basierend auf CMOS-MEMS Wandlern der vielversprechendste Ansatz für eine optimale DSR zu sein.



Onofre Prada, Carlos Andres;
Investigations on auralization of spherical array data using wave field synthesis. - 105 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

Die Auralisation von Daten eines kugelförmigen Mikrofonarrays hat in den letzten Jahren eine große Relevanz im Bereich der räumlichen Audio-Forschung entwickelt. Die Akustische Kamera (gfai Tech) ist ein kugelförmiges Mikrofonearray, das besonders für Lärm-Messungen konzeptiert wurde, für Auralisationsanwendungen aber ungünstige Eigenschaften aufweist. Die vorliegenden Masterarbeit zielt darauf ab, die Akustische Kamera für Auralisationsanwendungen zu analysieren und seine Leistung zu optimieren. Konkret soll die Akustische Kamera für die Simulation von Räumen mithilfe der Wellenfeldsynthese adaptiert werden. Insgesamt wurden drei Optimierungsansätze implementiert: Im ersten Ansatz wurden Sampling-Gewichte entsprechend der Mikrofonanordnung berechnet, während der Zweite Ansastz neue virtuelle Mikrofone Signale mithilfe von Interpolation zwischen benachbarten Samples erstellt, und drittens auf Basis von der Neuordnung der Sampling-Knotenpunkte nach Gaussian und Lebedev-Anordnungen. Insbesondere höhere Schallfeldordnungen im sphärischen Harmonischen Bereich sind von Interesse. Mithilfe von simulierten Schallfeldern wurden die entwickelten Ansätze technisch evaluiert und danach auf Basis von realen Messdaten in zwei Räumen mithilfe eines Hörtests hinsichtlich ihrer Qualität bewertet. Die Ergebnisse zeigen, dass die Robustheit der Akustischen Kamera für höhere Ordnungen optmiert werden konnte. Obwohl die Leistung des Arrays nach wie vor nicht-ideale Eigenschaften aufweist, konnte die Wiedergabequalität bei der WFS-Auralisation mithilfe der entwickelten Methoden im Vergleich zur Ausgangssituation verbessert werden.



Müller, Sören;
Konzeption und prototypische Implementierung eines webbasierten Autorenwerkzeugs zur Erstellung mediengestützter interaktiver Aufgabentypen für das E-Assessment System askMe!. - 90 Seiten.
Technische Universität Ilmenau, Diplomarbeit 2016

Mit der Etablierung neuer innovativer E-Assessment Systeme befindet sich der Bildungssektor in einem digitalen Wandel. E-Assessment Systeme werden vor die Herausforderung gestellt neue Prüfungsverfahren zu entwickeln, die auch den Nachweis von Handlungskompetenzen ermöglichen. Das am Fraunhofer IDMT entwickelte adaptive E-Assessment System askMe! bietet, zur Einbindung in die personalisierten Tests, eine Schnittstelle für "Interactive Content Objects" (ICOs). Ein ICO ermöglicht die Abbildung realitätsnaher Szenarien mit dynamischen Inhalten. Die Art des Lösungsprozesses solcher interaktiven Aufgabentypen soll interpretativ auch Rückschlüsse auf vorhandene Kompetenzen ermöglichen. Der Inhalt dieser Diplomarbeit dokumentiert die Konzeption eines Autorenwerkzeugs zur Erstellung mediengestützter ICO-Aufgaben. Dazu erfolgt eine neuartige Strukturierung von ICO-Aufgaben. Diese Strukturierung beinhaltet vier ausgearbeitete Interaktionsszenarien von statischen bis hin zu hochinteraktiven dynamischen Aufgabeninhalten. Diese vier Interaktionsszenarien weisen wiederum vier Transaktionsstufen auf, die als Grundlage zur Erfassung des Lösungsprozesses dienen. Denn auf dieser Basis werden im Anschluss Bewertungsmethoden entwickelt, die zur Erfassung des Lösungsprozesses einer ICO-Aufgabe dienen sollen. Im Rahmen der Diplomarbeit wurde bereits mit der prototypischen Implementierung des Autorenwerkzeugs begonnen. Eine Evaluierung der Ergebnisse steht noch aus.



Fiedler, Bernhard;
Konzeption und prototypische Umsetzung einer skalierbaren Audiosignalverarbeitung für eine objektbasierte Auralisation. - 102 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

Mithilfe aktueller objektbasierter Tonwiedergabeverfahren können komplexe virtuelle Klangszenen reproduziert werden. Zur Auralisation virtuell synthetisierter oder gemessener realer Räume wurden bereits mehrere holoakustische Raumsimulationsverfahren am Fraunhofer IDMT entwickelt. In dieser Arbeit erfolgt eine detaillierte Analyse der bereits existierenden Raumsimulationskonzepte. Diese werden unter anderem anhand des Rechenaufwandes und der internen Signalverarbeitung verglichen. Basierend auf den gewonnenen Erkenntnissen wurde ein Anforderungskatalog erstellt. Im Rahmen der Arbeit wurde ein neues Konzept für die Auralisation komplexer Klangszenen entworfen. Die Signalverarbeitung zur Schallfeldzusammensetzung wird umfangreich dargelegt und um dynamische Verzögerungsanpassung erweitert. Diese ermöglicht die Beibehaltung des zeitlichen Gefüges der Raumimpulsantwortteile in Abhängigkeit des Direktschalls. Die Arbeit stellt einen Ansatz vor, wie die distanzabhängige Luftabsorption mit geringem Rechenaufwand in Echtzeit durch Biquad-Filter näherungsweise modelliert werden kann. Die dafür benötigten Parameter stammen aus einem eigens entwickelten Approximationsalgorithmus. Der entsprechend dem neuen Raumsimulationskonzept implementierte Softwareprototyp wird umfangreich auf erwartungsgemäße Funktionalität getestet. Die Arbeit stellt die Auswirkungen der dynamischen Verzögerungsanpassung vor. Weiterhin gibt ein Vergleichstest der Konzepte hinsichtlich des Rechenaufwandes Aufschluss über die Effizienz der Signalverarbeitung. Das neue Konzept weist unter aktuellen realistischen Testbedingungen eine geringere Rechenlast auf als verglichene Konzepte. Die Ergebnisse eines informell durchgeführten Hörtests geben Hinweise, dass die verglichenen Systeme einen ähnlichen Höreindruck hervorrufen. Der neue Softwareprototyp wurde tendenziell sogar besser gemäß der Plausibilität einer Klangszene bewertet. Neben der Möglichkeit, weitere Hörtests zum Vergleich unterschiedlicher Raumsimulationskonzepte durchzuführen, kann der implementierte Softwareprototyp als Basis für Produktions- und Demonstrationswerkzeuge für Tonschaffende genutzt werden.



Mittag, Christina;
Entwicklung und Evaluierung eines Verfahrens zur Synthese von binauralen Raumimpulsantworten basierend auf räumlich dünnbesetzten Messungen in realen Räumen. - 96 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

In dieser Arbeit werden Verfahren vorgestellt, entwickelt und evaluiert, die die Synthese von binauralen Raumimpulsantworten (BRIRs) an beliebigen Positionen im Raum basierend auf räumlich dünnbesetzten Messungen realisieren. Hintergrund dieser Untersuchungen ist die Entwicklung eines Audiosystems, das einen realen Raum auralisiert, der mit auditorisch wahrnehmbaren Objekten angereichert ist. Durch diesen Raum soll sich der Hörer frei bewegen können, ohne dass störende Fehler bei der Wiedergabe und der Lokalisation der Objekte entstehen. Um den Aufwand zur Umsetzung des Systems zu verringern, soll die Anzahl der dafür benötigten, im realen Raum gemessenen BRIRs reduziert werden. Die zu diesem Zwecke entwickelten Syntheseverfahren nutzen die Messungen von ein bis drei Positionen im Raum und generieren mit Hilfe von Distanzanpassung und räumlicher Interpolation neue BRIRs an vorgegebenen Positionen. Durch Nutzung der synthetisierten BRIRs für die Auralisation kann eine räumliche Unterabtastung vermieden und die Anzahl der Messungen reduziert werden. Zur Evaluation der Syntheseverfahren werden BRIRs für verschiedene Testszenarien generiert, d.h. an verschiedenen Synthesepositionen und unter Verwendung von BRIRs unterschiedlicher Messpunkte. Die synthetisierten BRIRs werden im Hinblick auf ihre technische Eignung mit zuvor gemessenen BRIRs verglichen. Bei der Betrachtung des Verhältnisses von Direktschall- zu Nachhallenergie zeigen sich Unterschiede, die auf die gerichtete Abstrahlcharakteristik der Lautsprecher zurückzuführen sind. Eine Untersuchung der Energieabklingkurven ergibt geringe Unterschiede in den Nachhallzeiten sowie in den Deutlichkeits- und Klarheitsmaßen der BRIRs. Des Weiteren wird ein Hörtest durchgeführt, der die hervorgerufene räumliche Wahrnehmung der Syntheseergebnisse im Vergleich zu den gemessenen BRIRs untersucht. Die Syntheseverfahren liefern durchgehend eine zufriedenstellende bis sehr gute klangliche Qualität. Im Bezug auf die Externalität und die Anzahl der Vorne-Hinten-Vertauschungen und Quadrantenfehler ergeben sich vereinzelt signifikante Unterschiede der getesteten Systeme, die aber oftmals nur für bestimmte Schalleinfallswinkel auftreten. Als weiteres Ergebnis zeigt sich ein Zusammenhang zwischen der Qualität der Syntheseergebnisse und den untersuchten Kombinationen von Quell-, Synthese- und Messpositionen. Auf Grundlage der gewonnen Erkenntnisse werden Optimierungsvorschläge und Anwendungsempfehlungen für die Syntheseverfahren gegeben.



Hagedorn, Josua;
Untersuchungen zur Effzienz digital angesteuerter Lautsprecher-Arrays. - 87 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Die Ansteuerung von Array-Lautsprechern mit digitalen Signalen ist ein möglicher Ansatz zur direkten Schallwandlung von der digitalen in die akustische Domäne und Gegenstand aktueller Forschungen auf dem Gebiet der Lautsprechertechnologie. Dieses Prinzip ermöglicht nicht nur eine direkte Digital-Analog-Wandlung, sondern auch eine potentielle Effizienzsteigerung. So könnten ineffiziente analoge Lautsprecher in naher Zukunft durch digital angesteuerte Array-Lautsprecher ersetzt werden. In dieser Arbeit wird das Funktionsprinzip dieses Konzeptes vorgestellt und untersucht. Dabei werden verschiedene Ansteuerungsmethoden präsentiert und auf die Anforderungen und Probleme eingegangen. Im praktischen Teil wurde ein Array aus sieben Wandlern untersucht, welches mit 3-Bit PCM-Signalen angesteuert wurde. Dabei stand vor allem der Effizienzvergleich zwischen digitaler und analoger Ansteuerung im Fokus. Außerdem wurde auf die Rekonstruktionsqualität des digital-angesteuerten Arrays eingegangen, da bei der digitalen akustischen Rekonstruktion ein hoher Wert an harmonischen Verzerrungen auftritt. Da diese u.a. durch die Gangunterschiede zwischen den einzelnen Array-Elementen hervorgerufen werden, wurde eine Methode zur Kom- pensation des Zeitversatzes implementiert. Dadurch konnte eine Verbesserung der harmonischen Verzerrungen für einen bestimmten Hörort erzielt werden. Der Array-Lautsprecher wurde mit dem Simulationsprogramm COMSOL Multiphysics auf Basis von elektrodynamischen Wandlern simuliert. Untersucht wurde die harmonische Anregung bei Frequenzen von 500Hz, 1kHz und 10 kHz. In der hier getätigten Untersuchungen konnte gezeigt werden, dass es grundsätzlich möglich ist, eine direkte akustische Signalrekonstruktion mit der digitalen Ansteuerung von Array-Lautsprechern zu realisieren. Allerdings konnte die erwartete Effizienzsteigerung nicht erzielt werden. Die digitale Ansteuerung schnitt, im Vergleich zur Analogen, bei allen drei Anregungsfrequenzen zwischen 5 dB und 10 dB schlechter ab. Auch die Werte der harmonischen Verzerrungen sind selbst durch eine Korrektur der Laufzeiten, verglichen mit dem aktuellen Stand der konventionellen Lautsprecher, noch zu hoch. Es konnte gezeigt werden, dass sich durch eine Erhöhung der Auflösung eine Verbesserung der Rekontruktionsqualität einstellt. Der Ansatz eines digital angesteuerten Array- Lautsprechers könnte eine Alternative zu konventionellen Lautsprechern werden, wenn zukünftige Technologien die Ansteuerungsmethoden, Erhöhung der Array-Elementezahl und deren akustisches Verhalten optimieren.



Heydrich, Eric;
Konzeption und Implementierung einer Learning-Analytics-Komponente für das E-Assessment-System askMe!. - 54 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Das Ziel der vorliegenden Arbeit war es, eine Learning Analytics-Komponente für das E-Assessment System askMe! zu konzeptionieren und danach in das bestehende System zu implementieren. Dafür wurden gängige webbasierte Technologien verwendet um Daten zu erfassen, diese zu verarbeiten und dann für eine grafische Darstellung bereitzustellen. Für die Erfassung der Daten während des Testvorgangs werden Experience-API-Statements (xAPI) an einen Learning Record Store übertragen und dort gespeichert. Diese Daten werden dann von askMe! ausgelesen, verarbeitet und in einem kombinierten Objekt zusammengefasst, welches an eine View weitergegeben wird. Aus diesem Objekt werden die Daten für die Darstellung der Diagramme bezogen. In der View werden dann die Struktur und die Logik für die Anzeige der Diagramme definiert. Aus dem gegebenen Daten sollen mit Hilfe der Waikato Environment for Knowledge Analysis (Weka), einer Sammlung von Algorithmen für das maschinelles Lernen zur Umsetzung von Data Mining-Aufgaben, Vorhersagen über eventuelle Ergebnisse getroffen oder Klassifizierungen gemacht werden.



Löhner, Andreas;
Implementierung eines Verfahrens zur Überblendung zwischen Raumimpulsantworten zweier verschiedener Räume zur Verwendung in einem Binauralsynthesesystem. - 67 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Mit der Binauraltechnik sind wir in der Lage, die akustischen Eigenschaften eines Raumes, sowie die exakte Position von Schallquellen in diesem Raum aufzunehmen und einem Hörer realitätsgetreu wiederzugeben. Weiter eröffnet sich mit dem detaillierten akustischen Abbildungsmodell durch binauraler Raumimpulsantworten ((BRIR-binaural room impule response) die Möglichkeit, virtuell, beliebige Quellen, an beliebige Positionen relativ zum Hörer, in beliebige Räumen zu setzen. BRIRs sind kopfbezogene Raumimpulsantworten, getrennt für das linke und rechte Ohr. Bei hinreichender Genauigkeit des Modells entsteht eine akustische Bühne, die in Ihrem Erscheinungsbild der tatsächlichen Hörsituation in nichts nachsteht. Die nachfolgende Arbeit befasst sich zunächst mit einer kurzen Erklärung der Mechanismen des räumlichen Hörens. Das Hauptaugenmerk dieser Arbeit liegt in der Synthese von virtuellen Zwischenräumen zwischen zwei BRIRs. Im Gegensatz zu vorangegangenen Arbeiten, die sich schwerpunktmäßig mit der Interpolation verschiedener Schallquelle - Hörer Anordnungen befassten, liegt in dieser Arbeit der Fokus auf der Interpolation von Rauminformationen zwischen einer Start- und Ziel-BRIR. Das Ergebnis soll darin bestehen, dem Hörer eine interaktive Möglichkeit zu geben zwischen den raumakustischen Modellen zweier Räume, kodiert in den jeweiligen BRIRs für eine in beiden Räumen identische Schallquelle - Hörer Anordnung, nach Belieben zu wechseln. Zu diesem Zweck findet zuerst die Auswahl eines für diese Aufgabenstellung geeigneten Überblendverfahrens statt. Mit diesem Verfahren werden neue Zwischenräume synthetisiert, die anschließend in ein VST-Plugin, das bereits in früheren Versuchen Anwendung beim Wechsel zwischen verschiedenen Schallquelle - Hörer Anordnungen fand, integriert werden. Dieses Plugin ist in der Lage, in nahezu Echtzeit eine Faltung zwischen einem Stimulussignal und einer BRIR zu berechnen. Eine Simulation dieses Signals wird in dem Raum erzeugt, der in der BRIR kodiert ist. Weiterhin findet eine qualitative Analyse der synthetisierten Zwischen-BRIRs statt, die um einen kleinen Hörtest ergänzt wird, in dem der Wiedererkennungswert der originalen BRIRs im realen Aufnahmeraum in Relation zu den erzeugten Zwischenräumen untersucht wird.



Kruh-Elendt, André;
Low complexity binaural rendering for scene based audio content. - 101 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

MPEG-H 3D Audio ist der kürzlich eingeführte internationale Standard für die effiziente Übertragung von immersiven Audioinhalten an eine Vielzahl von Endgeräten. Der Standard unterstützt unter anderem das Higher Order Ambisonics (HOA) Soundformat für die Reproduktion über Lautsprecher sowie binaurale Technologie zum Abspielen über Kopfhörer. Im Kontext mobiler Endgeräte, in dem die Nutzung von Kopfhörern allgegenwärtig und die Energieversorgung in der Regel begrenzt ist, sind effiziente Algorithmen für die Binauralsynthese erforderlich. Ausgehend von den im MPEG-H 3D Audio beschriebenen HOA Decoder und Verfahren zur Binauralsynthese im Zeitbereich, präsentiert diese Arbeit einen alternativen Ansatz zur Binauralisierung von HOA Inhalten, der einen geringeren Rechenaufwand erfordert. Eine Softwareimplementierung für den vorgeschlagenen Algorithmus wurde realisiert und dieser anschließend mit dem aktuellen Binauralrenderer von MPEG-H 3D Audio verglichen. Eine erkennbare Einsparung in der Anzahl benötigter Rechenoperationen wurde erreicht und der subjektive Hörtest zeigte keinen signifikanten Unterschied für die verglichenen räumlichen Audio-Qualitätsmerkmale. Obwohl eine genauere Analyse des vorgeschlagenen Verfahrens notwendig ist, um eine abschließende Beurteilung zu treffen, lässt sich ein Vorteil für Anwendungsszenarien mit begrenzter Energiekapazität erkennen. Eine einfache Integration in den bestehenden Rahmen von MPEG-H 3D Audio ist gewährleistet.



Krüger, Tobias;
3D-Blickrichtungsschätzung. - 59 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Ziel und Thema der Arbeit ist es, ein bestehendes Verfahren zur Bestimmung der Kopfposition im Raum um ein Augenmodell zu erweitern. Durch die Kombination des Augenmodells mit einem Kopfmodell können die Informationen über Rotation und Lage des Kopfes dazu dienen, um genauere Blickrichtungen zu erzielen. In der Arbeit wird die Kopfpose mittels POSIT bestimmt, welches in der Lage ist, die Position jedes beliebigen Objektes im dreidimensionalen Raum zu bestimmten. Damit POSIT die Rotation und Translation eines Kopfes relativ zur Kamera berechnen kann, benötigt es ein Kopfmodell. Da das zu entwerfende System kalibrationsfrei arbeiten und trotzdem einen großen Anwendungsbereich bieten soll, empfiehlt sich das Anthropometrische Kopfmodell, was einen "Durchschnittskopf" repräsentiert. So kann die Pose eines in der Bildebene gelabelten Gesichtes mithilfe von POSIT und dem Anthropometrischen Kopfmodell bestimmt werden. Für das Augenmodell werden die in der Bildebene gelabelten Augenmerkmals-punkte mithilfe der der Projektionsmatrix und der vom POSIT ausgegebenen Transformationsmatrix zurück in das dreidimensionale Kopfmodell projiziert. Diese rückprojizierten Augenpunkte ersetzen die Augenpunkte des Anthropometrischen Kopfmodells. Damit die Gaze berechnet werden kann, benötigt das Augenmodell die 3D-Informationen von Augapfelmittelpunkt und Pupillenmittelpunkt sowie den Augenradius. Ersteres wird durch den geometrischen Flächenschwerpunkt bestimmt. Bei Tests basierend auf synthetisch erzeugten Daten konnte der entwickelte Ansatz überzeugen. Bei anschließenden praxisnahen Versuchen zeigten sich akzeptable Ergebnisse, der entwickelte Ansatz bedarf jedoch noch Anpassungen bzw. Verbesserungen, um Schwächen bei der Gaze-Bestimmung zu eliminieren.



Gerhardt, Christoph;
Selektive Verschlüsselung von Gesichtern in Videos unter Verwendung des H.264-Standards. - 136 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

Überwachungskameras werden heutzutage immer häufiger an unterschiedlichen Orten eingesetzt, um für ein höheres Sicherheitsgefühl zu sorgen. Dabei leidet allerdings die Privatsphäre der aufgenommenen Personen. Um dieses Problem zu vermeiden existieren unter anderem Ansätze zur selektiven Verschlüsselung von Videodaten. Solche Verfahren ermöglichen es, einen Teil des Videos zu verschlüsseln während der Rest frei zugänglich und für jeden sichtbar bleibt. Das Ziel dieser Arbeit ist es, ein vollständiges System zur selektiven Verschlüsselung von Videodaten zu entwickeln und zu implementieren. Das beschriebene System basiert dabei auf dem weit verbreiteten H.264-Standard und besteht aus verschiedenen unabhängigen Komponenten. Durch die Modularität der Komponenten ist es möglich, diese für spätere Verwendungen anzupassen oder sie komplett durch weiterentwickelte Komponenten auszutauschen. Das System ermöglicht es, den Videostrom bereits während der Encodierung unter Verwendung verschiedener Blockschlüssel kryptografisch sicher zu verschlüsseln. Außerdem bietet es die Möglichkeit lediglich einzelne Teile des Videos und sogar Gesichter individuell zu entschlüsseln.



Harms, Henning;
Implementierung einer Methode zur Evaluierung von Mehr-Zonen-Beschallung. - 66 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Personal Sound Zones sind Bereiche, in denen Audiosignale wahrgenommen werden können, die nur für diesen bestimmten Bereich vorgesehen sind. Das Fraunhofer-Institut für Digitale Medientechnologie IDMT hat ein Lautsprecherarray entwickelt, mit dem solche Sound Zones erzeugt werden können. Dabei werden Audiosignale mit Hilfe von beamforming in unterschiedliche Richtungen abgestrahlt. Ziel dieser Bachelorarbeit ist es, diese so erstellten Sound Zones in Bezug auf Interferenzen, d.h. Übersprechen der Signale, zu evaluieren. Dies geschieht mit Hilfe von Probandentests, in denen zunächst akzeptable Lautstärken eingestellt werden, die in einem weiteren Test in Bezug auf dirstraction (dt. Ablenkung) bewertet werden. Dabei geht es darum, wie sehr ein Signal, das von außerhalb der Zone kommt, in der sich der Proband befindet, von dem Signal ablenkt, welches für die Zone bestimmt ist. Die Auswertung ergibt im Allgemeinen, dass die Bewertung umso besser ausfällt, je leiser das Störsignal ist. Allerdings werden Signale, bei denen teilweise Frequenzen abgeschnitten sind, in manchen Fällen sogar besser bewertet als unbeschnittene Signale, die leiser sind. Auf Grundlage der gewonnenen Erkenntnisse werden weiterführende Fragestellungen und Tests aufgezeigt.



Hempel, Jessica;
Detektion von Credits in Videos. - 92 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Diese Bachelorarbeit beschreibt die Entwicklung eines Systems zur Detektion von Credits in Videos. Dabei werden die eingebetteten Texte mithilfe einer kombinierten Verwendung des Artihmetischen Mittelwert- und Medianfilters mit der Sobel- und Canny-Kantendetektion ermittelt. Zur Identifikation von Textbewegungen kommt das Blockmatching-Verfahren zum Einsatz, mit dem die Textblöcke über die Dauer ihres Auftretens verfolgt werden. Das ermöglicht es den Rechenaufwand erheblich zu reduzieren, da es nicht länger notwendig ist den Textdetektionsschritt für jedes einzelne Frame durchzuführen. Ausgewählte morphologische Operationen und statistische Verfahren dienen zur Eliminierung von Fehlern und verbessern das Ergebnis. Neben einem umfangreichen Grundlagenteil, der für das System wichtige Verfahren erläutert, wird der Stand der Forschung im Bereich der Textdetektion beschrieben. Mithilfe einer Analyse der in Filmen und Serien auftretenden Credits werden Erkenntnisse über notwendige Anforderungen an den zu implementierenden Algorithmus gewonnen. Weiterhin werden Textmerkmale definiert durch deren Verwendung Textbereiche von anderen Objekten im Bild unterschieden werden können. Anschließend wird der entwickelte Algorithmus zur Detektion der Credits vorgestellt und implementiert. Den Abschluss der Arbeit stellt eine Evaluation des Algorithmus dar, bei dem seine Genauigkeit und Treffsicherheit ermittelt und die Ergebnisse diskutiert werden.



Weiss, Benjamin;
Automatische Detektion von Audiosignalstörungen unter Berücksichtigung ihrer psychoakustischen Relevanz. - 89 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

Die zunehmende Masse an digitalen Audiodaten macht eine automatische Detektion von Fehlern immer wichtiger. Eine manuelle Auswertung ist zeitaufwändig und deshalb teuer. In der vorliegenden Masterarbeit wird ein Algorithmus zur Detektion von Klickstörungen in der Qualitätskontrolle entwickelt, optimiert und evaluiert. Der entwickelte Algorithmus basiert auf dem bewährten modellbasierten Ansatz. Das verwendete Modell ist das bekannte AR-Modell. Mit Hilfe des AR-Modells wird durch geeignete Wichtung der vorhergehenden Samples der aktuelle Samplewert geschätzt. Klickstörungen lassen sich durch dieses Modell nicht gut abbilden und machen sich dadurch als starke Ausreißer im Fehler zwischen tatsächlichem Signal und geschätztem Signal bemerkbar. Der RLS Algorithmus zeigte bei der Untersuchung die besten Eigenschaften zur Berechnung des Fehlersignals. Bei der Ausreißerdetektion ist der Huber-k-Schätzer als geeignete Methode ermittelt worden. Nach der Optimierung der restlichen Parameter ergibt sich ein F_0.5-Maß von über 0.8 bei einem SNR von weniger als 30 dB. Die Evaluation des Algorithmus wird unter Berücksichtigung der psychoakustischen Relevanz durchgeführt. Da erkannte Fehler nachträglich immer noch händisch überprüft und entfernt werden müssen, führt jede falsch-positiv Detektion zu zusätzlichen unnötigen Kosten. Aus diesem Grund sollen zwar vorhandene, aber nicht hörbare Klicks, idealerweise vom Algorithmus nicht als Klickstörung detektiert werden. Hierzu wird ein Hörversuch durchgeführt, um sowohl die Wahrnehmungsgrenze als auch die Toleranzgrenze für Klickstörungen zu ermitteln. Abhängig von der Signalart (Sprache, E-Musik, U-Musik) liegt die Wahrnehmungsgrenze im Bereich zwischen 40 dB und 50 dB und die Toleranzgrenze jeweils ungefähr 5 dB tiefer.



Preuße, Sebastian;
Entwicklung eines Algorithmus zur segmentweisen Klassifikation von Instrumentenfamilien. - 47 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Die vorliegende Bachelorarbeit befasst sich mit der automatischen Segmentierung von Audiodaten. Anhand von Ergebnissen einer Instrumentenklassifikation sollen Segmente aggregiert werden, die bezüglich ihrer Instrumentenklasse homogen sind, d.h. jedes Segment enthält genau eine Klasse bzw. ein aktives Instrument. Dazu soll untersucht werden, inwieweit sich standardisierte Clusterverfahren dafür eignen, Daten dieser Art zu segmentieren. Um valide Aussagen treffen zu können werden auf der Basis eines erstellten Klassikdatensatzes Referenzdaten annotiert und anschließend mit den automatisch bestimmten Segmenten verglichen. Zur Bewertung der Ergebnisse werden gängige Evaluationsmaße der Audiosegmentierung genutzt. Nach der Untersuchung fünf ausgewählter Verfahren sollen Tendenzen hinsichtlich besonderer Eignung einiger Algorithmen erkannt werden. Abschließend werden Freiheitsgrade dieser Verfahren bestimmt, deren Änderung experimentell auf ihre Fähigkeit hinsichtlich einer Verbesserung der Segmentierung untersucht wird.



Shahabi Ghahfarokhi, Samar;
On the influence of visual feedback on the externalization of the percieved sound sources. - 102 Seiten.
Technische Universität Ilmenau, Masterarbeit 2016

Um räumliches Hören herzustellen, welches Zuhörern hohe Wahrnehmungsempfindungen bietet, eignet die Binauralwiedergabe sich als Ansatz. Richtigkeit von Synthese in Binauralsystemen fordert individuelle Messungen für Binaural Room Impulse Responses. Plus, um authentische Raumillusion zu liefern, müssen Kopfhörer mittels adäquater Filter individuell entzerrt werden. Die Wahrnehmung von Schallrichtungen und die Externalisierung von Klangbildern ist hingegen eine multisensorische Aufgabe, die sowohl Hör- als auch Sehvermögen einbezieht. Audiovisuelle Interaktion wurde bereits zutiefst untersucht. Die Externalisierung als Wahrnehmung eines Schallereignisses außerhalb des Kopfes ist stark verbunden mit Merkmalen wie Plausibilität, im Sinne davon, dass der Mangel an Plausibilität die menschlichen Sinne daran hindert, dass das präsentierte audiovisuelle Ereignis als wahr anerkennen und ein unplausibles Ereignis wird eventuell ins Kopfinnere verstellt. Das Ziel dieser Dissertation ist, das Problem anzusprechen, ob die Winkelabweichung zwischen Schall- und Sehreizen die Externalisierung des Klangbildes beeinflussen. Bisher haben ungenügende Untersuchungen dieses Problem in Betracht gezogen.



Schultheis, Ruth;
Analyse und Definition einer geeigneten Testumgebung zur Qualitätsbeurteilung mit einem autostereoskopischen Display. - 66 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Durch eine enorme Entwicklung in der 3D-Displaytechnik ist die Verfügbarkeit von unterschiedlichen Displays auf dem Markt angestiegen. Zum einem gibt es stereoskopische Displays, bei denen eine spezielle 3D-Brille benötigt wird, und zum anderem autostereoskopischen Displays, die ohne Hilfsmittel auskommen. Es ist fraglich, welche Displaytechnik eine gute Qualität aufweist und einen zufriedenstellenden 3D-Eindruck beim Zuschauer hinterlässt. Die vorliegende Arbeit stellt eine Testumgebung zur subjektiven Qualitätsbeurteilung mit einem autostereoskopischen Display vor, welche mittels einer Probandengruppe erprobt wurde. Dazu wird zuvor auf die stereoskopische Wahrnehmung, die verwendete Displaytechnik und die 3D-Videoqualität eingegangen. Anschließend werden bestehende Möglichkeiten zur Qualitätsbeurteilung und die Forschungsfrage der Testumgebung vorgestellt. Gefolgt vom Ablauf der Testumgebung und Ergebnisse der Durchführung.



http://www.gbv.de/dms/ilmenau/abs/857355260schul.txt
Ma, Hong;
Entwicklung einer Evaluierungsmethodik zur Bewertung der Position von bewegten Schallquellen. - 72 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Heutzutage gibt es zwei Möglichkeiten, um die Position eines Hörereignisses im Raum zu erkennen. Es gibt die egozentrische Methode, welche besagt, dass ein Referenzpunkt innerhalb des Kopfes des Hörers simuliert wird. Die zweite Methode ist die exozentrische Methode. Bei dieser Methode wird im Raum projiziert, dass ein Testsignal in einer planaren Zeigetechnik realisiert wird. In dieser Bachelorarbeit wird die Entwicklung eines Hörtestdesigns zur intuitiven Eingabe der wahrgenommenen Schallquellenbewegungen mit Programmrealisierung durch HTML beschrieben. Das Programm bezieht sich auf einen Hörtest mit unterschiedlichen Hörsamples. Weiterhin wird eine Evaluierungsmethodik zur Bewertung der Position von bewegten Schallquellen dargestellt. Die Auswertung der Hörversuche wird in dieser Arbeit aufgezeigt.



http://www.gbv.de/dms/ilmenau/abs/857324144ma.txt
Schwarzmüller, Bastian;
Untersuchung zur Verwendung eines Miniatur-Beamforming-Arrays zur räumlichen Wiedergabe kanalbasierter Audioinhalte. - 60 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

In dieser Bachelorarbeit wird ein Beamforming Array untersucht, das in Verbindung eines Algorithmus des Fraunhofer IDMT eine erheblich kleinere Bauform als üblich zulässt. Die Untersuchung bezieht sich dabei auf die räumliche Wiedergabe stereofoner Musikstücke. Dazu wurden verschiedene Verfahren entwickelt und getestet.



Peter, Julia;
Qualität von räumlicher Musikwiedergabe in Abhängigkeit des Wiedergaberaumes. - 81 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Diese Arbeit beschäftigt sich mit dem Einfluss von Raumgrößen und Raumeigenschaften des Wiedergaberaumes auf das Qualitätsempfinden von binauraler Musikwiedergabe. Zusätzlich wird dabei ein Blick auf die Externalisierung gelegt und versucht, Präferenzen und Zusammenhänge bezüglich einzelner Musikgenres zu ermitteln. Um dies zu untersuchen, wurde ein Probandentest in divergenten Räumen durchgeführt. In ihm sollte die wahrgenommene Qualität von verschiedenen Musikstücken, gefalten mit unterschiedlichen binauralen Raumimpulsantworten, untereinander verglichen und bewertet werden, sowie deren Externalisierung. Verwendet wurden dazu einkanalige Raumimpulsantworten und binaurale Raumimpulsantworten aus Räumen mit verschiedenen Größen und Halleigenschaften. Als Ergebnis zeigte sich, dass für die einzelnen Stücke der reale Wiedergaberaum weniger Einfluss auf die Bewertung hat, als angenommen. Außerdem wirken sich auf die Qualitätsbewertung der Kontext in Form von Inhalt und Art der Wiedergabe und das Musikgenre bei der Wiedergabe mehr mit aus als erwartet. Dies stellte sich sowohl in Interviews, die mit den Probanden nach den Bewertungen geführt wurden, als auch in den Ergebnissen aus den verschiedenen Bewertungsverfahren heraus. Schließlich konnte für die binaurale Musikwiedergabe festgestellt werden, dass für die Hörer bevorzugte Raumeigenschaften und -größen für die Wiedergabe mehr von inhaltlichem Kontext und wiedergegebenem Genre abhängen und dass es dabei weniger Zusammenhang mit dem realen Wiedergaberaum gibt. Derartige Auswirkungen ergaben sich auch für die wahrgenommene Externalisierung. Bei den Hörern spielt hier sehr stark ihre Vorstellung mit ein und der sichtbare Wiedergaberaum wird zum Teil gänzlich ausgeblendet. Als Präferenz bezüglich der Musikgenres resultierte, dass Binauralität gerade für klassische und instrumentale Musikstücke stark bevorzugt wird, weniger aber für modernere Musik. Dahingehend bleibt nun Raum für weitere Arbeiten auf diesem Gebiet und noch umfangreichere Tests.



http://www.gbv.de/dms/ilmenau/abs/856454249peter.txt
Zerlik, Anna Maria;
Einfluss selbst ausgelöster Geräusche bei der Orientierung in einer virtuellen auditiven Szene. - 66 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Virtuelle auditive Umgebungen, bei denen virtuelle Hörer durch eine ausschließlich auditive Darbietung durch eine Szene bewegt werden, finden immer häufiger Anwendung. Die Wahrnehmung der eigenen Raumposition ist jedoch nicht einfach. In dieser Arbeit wird untersucht, ob selbstausgelöste Geräusche wie die eigene Stimme oder Schrittgeräusche die Orientierung in einer virtuellen auditiven Szene verbessern können. Zunächst werden die Grundlagen des räumlichen Hörens beim Menschen, der Schallausbreitung in Räumen und mögliche Raumsimulationsverfahren vorgestellt. Nach der Recherche und der Voruntersuchung mit In-Ear-Mikrofonen in einem realen Raum wurde sich für die Untersuchung der Orientierung mit der eigenen Stimme entschieden. Mit einem Raumsimulationsprogramm, das ein Schubox-Modell verwendet, werden orale binaurale Raumimpulsantworten für verschiedene Raumpositionen berechnet, die später in einem mit mehreren Übungsphasen konzipierten Hörversuch mit der eigenen Stimme des Probanden in Echtzeit gefaltet werden. Die Ergebnisse des Hörversuchs zeigen, dass eine Orientierung anhand der eigenen Stimme möglich ist.



http://www.gbv.de/dms/ilmenau/abs/853168148zerli.txt
Hiltscher, Christian;
Untersuchung zur automatischen Analyse von objektbasierten Tonszenen. - 47 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Die objektbasierte Tonwiedergabe bringt dem Zuhörer ein völlig neues Hörerlebnis durch individuelles personalisieren von Tonszenen. Jede Schallquelle eines Filmes oder eines Musikstückes ist dabei ein Audioobjekt. Jedes dieser Objekte lässt sich individuell anpassen. Zum Beispiel kann man beim Hören von Musik einzelne Instrumente lauter oder leiser stellen oder auch ganz ausschalten. Bisher wurden bei der kanalbasierten Tonproduktion, fertige Signale für jeden Lautsprecher generiert und gespeichert. Bei der objektbasierten Tonproduktion speichert man Audioobjekte bestehend aus einem Audiosignal und Metadaten in einer Datei ab. Die Metadaten beinhalten Eigenschaften der Schallobjekte und können über die Zeit variieren. Beim Abspielen erfolgt ein synchroner Stream dieser Daten an einen Audiorenderer, der die Lautsprechersignale live berechnet. Dadurch ergeben sich neue Möglichkeiten für Toningenieure. Das Fraunhofer Institut für Digitale Medientechnologie bietet ein Produktions- und Wiedergabesystem für objektbasierte 3D-Tonszenen namens "SpatialSound Wave". Im Rahmen dieser Bachelorarbeit entstand eine prototypische Softwarebibliothek, welche Meta- und Audiodaten einer Tonszene einliest, analysiert und anschließend visuell darstellt. Somit ist es einem Toningenieur möglich, sich einen Überblick über eine vorliegende Szene zu verschaffen und eventuell auftretende Fehler zu diagnostizieren. In dieser Arbeit werden Funktionen des Programms vorgestellt und anschließend auf eine Auswahl an Szenen angewendet. Bei den Untersuchungen der Szenen zeigten sich Auffälligkeiten, welche dabei helfen könnten, den Wiedergabealgorithmus des Renderers zu optimieren und den benötigten Speicherplatz von Tonszenen zu komprimieren. Durch gewonnene Erkenntnisse werden zum Schluss Ideen für die Weiterentwicklung der Softwarebibliothek gegeben.



http://www.gbv.de/dms/ilmenau/abs/847776794hilts.txt
Kästner, Michael;
Erstellung einer Applikation für die Langzeitmessung von Lärm. - 60 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Mit dieser Bachelorarbeit ist eine Applikation entwickelt, welche es ermöglicht, objektiv gemessene Lärmparameter mit subjektiven Einschätzungen zu korrelieren. Viele Menschen erkranken durch eine zunehmende Lärmbelastung. Die gesundheitsschädliche Wirkung mancher Schallgrößen ist zwar bekannt, es gibt jedoch Größen, deren Einflüsse auf die menschliche Gesundheit weitestgehend unklar sind. Die Erkennung und Beschreibung dieser Größen kann voraussichtlich dabei helfen, die Wahrnehmung und Wirkung von Schall (im Besonderen: Lärm) auf den Menschen besser zu verstehen. Diese Bachelorarbeit beschreibt die Konzeption und erste prototypische Entwicklung einer Applikation, welche eine Erfassung dieser Größen ermöglicht. Zudem bietet die Applikation die Möglichkeit, subjektive Schallbewertungen zu erfassen. Somit ermöglicht die Applikation eine Korrelation der objektiven Schallgrößen mit der menschlichen Wahrnehmung. Hierzu sind zuerst akustische Grundlagen sowie der aktuelle Stand der Technik aufgezeigt. Es ist erarbeitet, welchen Anforderungen die Applikation entsprechen soll und die praktische Umsetzung dargestellt.



Rolapp, Georg;
Wahrnehmung der eigenen Hörposition im Raum nach einer Bewegung. - 85 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Die vorliegende Bachelorarbeit befasst sich mit der Fragestellung, ob es durch rein akustische Informationen möglich ist, die eigene Position in einem Raum zu ermitteln. In einer früheren Arbeit wurde dies bereits für Aufnahmen ohne Bewegung untersucht. Ziel der gegenwärtigen Arbeit war die Überprüfung der Verbesserungsmöglichkeiten der Positionserkennung durch Bewegungen während der Aufnahme im Raum. Es wurde ein Überblick über die physikalischen Grundlagen der Schallausbreitung von der Quelle bis zum Hörer, ihrer Wahrnehmung und Lokalisierung gegeben. Zu Beginn wurden Aufnahmen mit In-Ear-Mikrofonen in einem Raum ohne und mit Translations- und Rotationsbewegungen durchgeführt. Aus diesen Aufnahmen wurde ein Hörtest für die Positionserkennung in einer virtuellen akustischen Umgebung angefertigt. Die erhobenen Daten dieses Hörtests und der anschließend durchgeführten Leitfrageninterviews wurden analysiert und interpretiert.



http://www.gbv.de/dms/ilmenau/abs/847420647rolap.txt
Graeber, Hagen;
Development and evaluation of filters in order to compensate a surface on back side integrated micro-loudspeakers of a mobile device. - 85 Seiten.
Technische Universität Ilmenau, Bachelorarbeit 2016

Die Wiedergabe von Audioinhalten über die Lautsprecher von mobilen Geräten, wie Smartphones und Tablets, unterliegt einer Vielzahl von klangbeeinträchtigenden Einschränkungen und Bedingungen. Oft werden die Lautsprecher in die Geräterückseite verbaut und auf spezifische Wiedergabebedingungen abgestimmt. Wird das Gerät auf einer Oberfläche platziert, verändern sich diese Wiedergabebedingungen und damit auch der Klang. Ursache hierfür sind unter anderem Reflexions- und Körperschalleffekte. Subjektiv ist besonders eine Veränderung der Klangfarbe wahrnehmbar. Ziel der Arbeit ist es, die hervorgerufene Klangveränderung zu analysieren und zu vermindern. Dafür wurde ein Verfahren entwickelt, das den Klang auf eine gegebene statische Wiedergabebedingung anpasst. Dieser Algorithmus besteht aus digitalen Filtern, die auf der Grundlage einer gerätespezifischen Messanalyse entwickelt wurden. Die Filter wurden in einem Hörtest direkt am Gerät in der Wiedergabebedingung evaluiert. Dabei wurde herausgefunden, dass die Filter den hörbaren Oberflächeneinfluss deutlich reduzieren.



http://www.gbv.de/dms/ilmenau/abs/847294609graeb.txt
Paulke, Tolomej;
Design und Implementierung einer Smartphone-Anwendung für die mobile Lernerfolgskontrolle im Umfeld eines adaptiven E-Assessment Systems. - 85 Seiten.
Technische Universität Ilmenau, Diplomarbeit 2016

Die Welt wird mobil beziehungsweise ist es bereits. So gut wie jeder von uns ist im Besitz eines Smartphones (mobilen Endgerätes), das uns täglich begleitet und unser Leben beeinflusst. Der Trend geht von der stationären Desktop- zur mobilen Smartphone- bzw. Tablet-Nutzung und ist kaum noch zu übersehen. Im Bereich des E-Learnings muss sich etwas tun, um den Trend nicht zu verpassen und den Anschluss nicht zu verlieren. Die vorliegende Arbeit beschäftigt sich mit der Konzeption und Implementierung einer Smartphone-Anwendung für die mobile und personalisierte Lernerfolgskontrolle auf Basis von askMe!, einem adaptiven E-Assessment System, das aktuell am Fraunhofer Institut IDMT entwickelt wird. Dabei wird zunächst untersucht, welche Arten von mobilen Anwendungen existieren und anhand ihrer Vor- und Nachteile sowie technischer Realisierbarkeit miteinander verglichen. Bei der Konzeption werden die zuvor gewonnen Informationen zusammen mit den nforderungen unter der Berücksichtigung der gegebenen Voraussetzungen analysiert und ein geeigneter Lösungsansatz vorgestellt. Abschließend wird der konzeptionelle Entwurf der mobilen App in das askMe! System implementiert und die dabei aufgetretenen Probleme und Besonderheiten beschrieben.



http://www.gbv.de/dms/ilmenau/abs/847234304paulk.txt
Vaidya, Vyasraj;
Development and evaluation of methods for classification of acoustic scenes. - 90 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die vorliegende Masterarbeit befasst sich mit der automatischen Klassifizierung und Analyse von akustischen Szenen. Der Datensatz von urbanen Klängen (Urban Sounds), der auf Freesound powered projects verfügbar ist, wird als Klangquelle verwendet. Die Datenbank Urban Sounds DB besteht aus 1302 Klängen, die in 10 Kategorien eingeordnet werden zum Beispiel air conditioner und street music. Die Datenbank setzt sich aus Liedern unterschiedlicher Länge zusammen. Zuerst wird ein Beispiel-Set mit kürzeren Liedlängen generiert. Eine Überprüfung des Datenansatzes wird durchgeführt, damit die Duplikate entfernt werden. Folgend wird der Extraktor vom Institut verwendet, um eine Datei für jeden Song zu erzeugen. Mit Anwendung der Datei-Lesegeräte verfügbar im Institute wird eine Feature Matrix für jedes Lied generiert. Diese Feature-Matrix hilft die Analyse der Songs, da sie die inhärente Information des Songs enthält. Diese Information wird in Arrays umgewandelt und für die Verarbeitung verwendet. Bei der Klassifizierung der akustischen Szenen ist die Anzahl der Merkmale proportional zu der Genauigkeit der Klassifikation. Deshalb werden alle niedrige Merkmale, die in einem Song vorhanden sind, entnommen. Die Cepstral-Koeffizienten bei Eigenschaft erfassen nur die globalen spektralen Signal Angaben. Die Cepstralkoeffizienten die detaillierte und subtil Veränderungen in Spektrum zu analysieren versagen, weil sie im Laufe der Zeit ändert. Demzufolge wird ein neues Feature, das nicht in dem Extraktor vorhanden ist, nämlich das Modulation Feature, entworfen. Die Modulation Features erfassen inhärente Eigenschaften unterschiedlicher akustischen Szenen und sind als robuster angesehen. Da das Modulation Feature eine alternative Methode zur Beschreibung der Signalfrequenzen ist, können die Modulationsspektren in verschiedenen technischen Anwendungen eingesetzt werden. Eine Klassifizierung mit dem Feature-Set bestehend aus dem Standard-Feature von der extraktor, die Modulation-Funktion und den Cepstral-Merkmale durchgeführt wird. Die Experimente werden durchgeführt, um die besten Klassifikationsschemata für Szenen zu verstehen. Klassifizierung des reduzierten Datensatzes und die 8K-Datensatzes durchgeführt. Die Klassifizierung mit Urban-Sound 8K unter Verwendung des gute Ergebnisse erzielt. Die Implementaion wurde in Python durchgeführt.



Gräfe, Robert;
Automatische Analyse und Klassifizierung von Audiodaten anhand von Tonartverläufen. - 60 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Die vorliegende Bachelorarbeit befasst sich mit dem Thema der automatischen Analyse von Audiodaten. Anhand lokaler Tonartänderungen soll eine Segmentierung von Musiksignalen realisiert werden. Darüber hinaus soll untersucht werden, ob sich Tonartverläufe als Kriterium zur stilistischen Klassifizierung der Audiodaten eignen. Dabei wird die tonale Segmentierung zunächst separat und anschließend auch in Verbindung mit der stilistischen Klassifizierung betrachtet. Zur Umsetzung der automatischen Segmentierung wird ein Merkmal zur Beschreibung des lokalen tonalen Inhaltes von Musiksignalen vorgestellt. Anschließend werden drei verschiedene Verfahren zur automatischen Detektion von Segmentgrenzen mit Hilfe eines Datensatzes aus 30 Pop-Songs evaluiert und verglichen. Für die stilistische Klassifizierung werden Merkmale zur Beschreibung der Art und Häufigkeit auftretender Modulationen in einem Musikstück eingeührt. Diese Merkmale werden einzeln, in Kombination und ergänzt durch weitere Audiofeatures zu zwei Szenarien einer stilistischen Klassifizierung herangezogen: (1) zur historischen Einordnung klassischer Kompositionen in die vier Epochen Barock, Klassik, Romantik und Moderne; (2) zur Identifizierung abendändischer Komponisten. Dafür wird im ersten Szenario ein Datensatz aus 1600 Kompositionen (400 Werke pro Epoche) zur Evaluierung verwendet. Das zweite Szenario wird auf einem Datensatz aus insgesamt 1100 Musikstücken von elf verschiedenen Komponisten (100 Werke pro Komponist) evaluiert.



Gabb, Timo;
Untersuchungen zum Einsatz von Schallführungen bei MEMS-Lautsprechern. - 67 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Die Nachfrage nach Mobilgeräten wie Smartphones oder Tablets mit einem flachen Gehäuse sowie der wachsende Anspruch an die akustische Leistungsfähigkeit dieser Geräte erfordern den Einsatz neuer Lautsprechertechnologien. Aus dem Bereich der Elektroakustik ist bereits bekannt, dass sich das Abstrahlverhalten eines Lautsprechers durch konstruktive Maßnahmen der Schallführung beeinflussen bzw. verbessern lässt. Die vorliegende Arbeit befasst sich mit der Frage, ob sich diese Formen der Schallführung soweit miniaturisieren lassen, dass sie in Verbindung mit Lautsprechern auf Basis mikroelektromechanischer Systeme verwendet werden können. Zu diesem Zweck wurde die Auswirkung der Miniaturisierung auf das Resonanzverhalten von Helmholtz-Resonatoren sowie auch auf das Abstrahlverhalten von Schalltrichtern untersucht. Die Simulationsergebnisse haben gezeigt, dass mit zunehmender Verkleinerung des nach Herrmann von Helmholtz benannten Resonators, die Berechnungsvorschrift zur Ermittlung der Resonanzfrequenz stark von den Simulationsergebnissen abweicht und daher nicht mehr verwendet werden kann. Diese Abweichung lässt sich durch die Effekte an Grenzschichten erklären, welche auch die Effizienz miniaturisierter Resonatoren stark beeinflussen. Eine Verwendung miniaturisierter Resonatoren in Verbindung mit diesen Kleinstlautsprechern ist dennoch möglich. Die Berechnungs- und Simulationsergebnisse haben darüber hinaus gezeigt, dass der Einsatz von Schalltrichtern für diese Lautsprecher aufgrund der kleinen Membranfläche prinzipiell auch möglich ist. Für die Ausnutzung der erwarteten leistungssteigernden Effekte des Schalltrichters sind jedoch Abmessungen des Trichters nötig, die eine Umsetzung in Verbindung mit diesen Lautsprechern aus praktischer Sicht beinahe unmöglich machen.



Brand, Konstantin;
Entwicklung eines Verfahrens zur automatischen Transkription von Walking Bass-Linien aus kommerziellen Jazzaufnahmen. - 57 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Durch die rasante Entwicklung der digitalen Medien, vor allem von digitalem Audiomaterial, wird derzeit an innovativen Technologien für Music Information Retrieval (MIR) geforscht. Im Feld der automatischen Transkription ist es das Ziel dieser Arbeit, ein spezielles Verfahren der Bass-Transkription aus Chroma-Features, mit Einschränkung auf den Walking Bass, zu erstellen. Dabei sollen unterschiedliche Vor- und Nachverarbeitungsschritte sowie Chromaverfahren genutzt und verglichen werden. Im ersten Teil werden ein Tiefpass-Filter und ein Harmonic/Percussion-Filter implementiert und auf verschiedene Chromaverfahren wie Non-negative Least Squares (NNLS), Chroma Pitch (CP), Chroma Log Pitch (CLP), Chroma Energy Normalized Statistics (CENS), oder Chroma DCT-Reduced Log Pitch (CRP) angewendet. Es wird untersucht inwieweit sich diese Methoden für eine Bass-Transkription eignen und welche das beste Ergebnis liefert. Dabei zeigt sich, dass das NNLS-Verfahren in Kombination mit einem Tiefpass-Filter die beste Erkennungsrate von 72 % erzielt, wobei dies einem Verfahren aus dem Stand der Technik entspricht. Ein Harmonic/Percussion-Filter zeigte keinen positiven Einfluss auf die Erkennungsrate. Im zweiten Teil wird durch eine Implementierung des Viterbi-Algorithmus der wahrscheinlichste Melodieverlauf, aufgrund einer statistischen Analyse der Intervallsprünge von Walking Bass-Linien bestimmt. Dabei wird als Grundlage das beste Verfahren des vorherigen Abschnitts genutzt, um eine Optimierung zu erzielen. Es stellt sich jedoch heraus, dass mit diesem Verfahren keine Verbesserung festzustellen ist. Zuletzt werden bei den Chromaverfahren die Fenstergrößen die für die Berechnungen ausschlaggebend sind variiert. Hierbei wird untersucht, welche Parameter für eine Bass-Transkription geeignet sind. Es zeigt sich, dass sich eine Blockgröße von 8192 Samples (0.18 sec) und eine Hopsize von 512 (0.01 sec) bis 2048 Samples (0.05 sec) sich ideal für eine Bass-Transkription eignen.



Boley, Tobias;
Identifikation relevanter Parameter zur Orientierung in einer virtuellen auditiven Szene. - 62 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Diese Bachelorarbeit untersucht eine Methode, mittels derer, eine virtuelle akustische Umgebung erstellt werden kann (virtual acoustic environment - VAE). Diese wird mit In Ear Mikrofonen erzeugt, während einer Bewegung im Raum. Es soll geprüft werden, wie detailliert dieses Vorgehen in der Akustik simuliert werden muss, um den Hörer eine auditive Orientierung zu ermöglichen. Dazu wurde an der TU Ilmenau ein geeigneter Seminarraum gewählt, in welchem die Bewegungsabläufe, für den Hörer, aufgezeichnet wurden. Durch ein variieren der Lautsprecherpositionen und das verwenden verschiedener Geräusche, wurden unterschiedliche binaurale Aufnahmen, angefertigt. In einem anschließendem Hörtest, wurde anhand von drei Aufgaben, die VAE untersucht. Hierbei wurden, in einer quantitativen Befragung, die Eindrücke der Hörer erfasst. Des Weiteren wurden die auditiven Parameter, welche die Erzeugung der VAE beeinflussten, untersucht. Es stellte sich heraus, dass die individuelle Kopfform der Aufnahmeperson, die Orientierung der Hörer am deutlichsten beeinträchtigte. Ebenfalls wurde dadurch das Empfinden, sich in einer VAE aufzuhalten, vermindert. Durch Einsetzen von visuellen Information über den Raum, konnte dem Hörer eine verbesserte Orientierung ermöglicht werden. In einem ersten Versuch, konnte mit der in dieser Arbeit beschriebenen Vorgehensweise, bereits einige Erkenntnis, über VAEs gewonnen werden.



Kuntze, Mathias;
Detektion von Tieren mittels Deformable Part-Based Models. - 99 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Der rasante Fortschritt der technischen Entwicklung findet immer mehr Anwendung in der Erforschung von Tieren und deren Spezies. Zoologen gelingt es zunehmend eine enorme Menge an Daten zu sammeln. Um Bewegungsmuster und Populationsgrößen zu analysieren werden unter anderen in vielen Gebieten Fotofallen aufgestellt. Diese erzeugen eine große Menge an Bildern, die verarbeitet werden muss. In der heutigen Zeit werden diese Aufnahmen manuell sortiert und annotiert. Diese Arbeit beschäftigt sich mit Algorithmen, die diese Verarbeitung ersetzen sollen. Dabei sollen Tiere automatisch in Bildern erkannt werden. Es wird zunächst auf aktuelle Forschungen eingegangen. Im Speziellen wird der zur Personendetektion entwickelte Detektor Histograms of Oriented Gradients (HOG) von Dalal und Triggs vorgestellt. In dieser Arbeit wird darauf eingegangen, inwiefern sich Deformable Part-Based Models (DPM) von Felzenszwalb et al. für dieses Einsatzgebiet eignen. Sie basieren ebenfalls auf den Merkmalen des HOG - Verfahrens und nutzen eine lose Anordnung von mehreren Modellen zur Detektion. Die anschließende Evaluierung umfasst den Vergleich des von Felzenszwalb et al. implementierten DPM Detektors und deren Erweiterung um formale Grammatiken (DPM + Grammer). Die Grammatikvorschriften wurden um für den Anwendungsfall der Tierdetektion angepassten Variationen erweitert. Zur Klassifizierung findet eine Support Vector Machine (SVM) Anwendung. Als Referenz wird eine in OpenCV entwickelte Variante des HOG Detektors verwendet. Es wurde ein Datensatz aus Bildern mit verschiedenen Tierspezies als Motiv angelegt. Basis ist hier eine vorsortierte Bilderdatenbank des "Snapshot Serengeti" - Projektes von Zooniverse.org. Alle Tiere wurden im Laufe dieser Arbeit annotiert und mit Metadaten hinterlegt. In der Evaluation werden zunächst die Detektoren mit verschiedenen Datensätzen trainiert und anschließend auf andere Datensätze angewendet. Dabei wird in verschiedene Tiergruppen und Schwierigkeitsstufen der Datensätze unterschieden. In dieser Arbeit wurde ein Evaluations Framework entwickelt. Damit ist es möglich mehrere verschiedenen Algorithmen zur Detektion miteinander zu vergleichen. Das Verfahren DPM und die Erweiterung um formale Grammatiken erzielten vielversprechende Ergebnisse. Die eigens für diese Arbeit entwickelten Grammatikvorschriften erzeugten kaum verwertbaren Ergebnisse.



Würsig, Albrecht;
Entwicklung und Evaluation eines Verfahrens zur Detektion unerwünschter Frequenzmodulationen in Audiomaterial. - 67 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Digitale Daten, Signale und Informationen sind aus der heutigen Zeit nicht mehr wegzudenken. Der Lebens- und Arbeitsalltag vieler Menschen ist durchzogen von digitaler Kommunikation, Organisation, Steuerung und Unterhaltung. Bevor jedoch die Entwicklung und Evolution moderner Medien von der Digitalisierung bestimmt wurde, stellten für viele Jahrzehnte analoge Speichermedien die wichtigste Möglichkeit dar, Informationen verschiedenster Art aufzubewahren. Im Audiobereich waren Tonträger wie Magnetbandsysteme, Walzen oder Grammofon- und Langspielplatten die erste Wahl, um Musik und Ton zu speichern und zu verbreiten. So existiert bis heute eine Vielzahl analoger Tonaufnahmen, die den Sprung in die digitale Welt noch nicht oder gerade erst vollzogen haben. Aber analoge Audiosysteme und -speichermedien sind durch Lagerschäden, wiederholte Übertragungen und Alterungserscheinungen einem nicht zu unterschätzenden Qualitätsproblem unterworfen. Ein häufiger Fehler bei Tonträgern, die durch rotierende Systeme ausgelesen oder beschrieben werden müssen, sind Ungenauigkeiten in der Motorik der Geräte, die sich periodisch als unerwünschte Frequenzmodulationen im Audiomaterial fortpflanzen. Im Fachjargon haben sich dafür die Begriffe Wow und Flutter durchgesetzt. Und obwohl die ursächliche Problematik in der digitalen Welt keine Rolle mehr zu spielen scheint, ist sie heute umso relevanter, wenn es beispielsweise um die Wartung von Archiven, Überwachung der Digitalisierung alter Tonträger, Audioforensiken oder die Qualitätskontrolle und -sicherung beim Broadcasting geht. In der vorliegenden Arbeit wird die Entwicklung und Evaluation eines Verfahrens zur Detektion solcher Frequenzmodulationen in digitalen Audiomaterialien dokumentiert. Dazu wird ein Überblick zu den theoretischen und technischen Grundlagen gegeben, aktuelle Technologien resümiert und ein neues Verfahren konzipiert. Anschließend wird im Hauptteil die Programmierung und Implementierung der Algorithmen besprochen, bevor im Abschluss eine Evaluation die Möglichkeiten des Verfahrens darlegt. Dabei wird gezeigt, dass die Ergebnisse unter anderem stark vom Zustand der verwendeten Audiomaterialien abhängen.



Männchen, Andreas;
Entwicklung und Implementierung eines Verfahrens zur automatischen und echtzeitfähigen Erkennung von Akkorden sowie wiederholten Harmoniefolgen in Gitarrensignalen. - 86 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

In dieser Arbeit wird ein Verfahren zur automatischen und echtzeitfähigen Erkennung von Akkorden und wiederholten Harmoniefolgen in Gitarrensignalen vorgestellt. In diesem System werden vorhandene Technologien zur Berechnung von Chromamerkmalen und für die Musiktranskription kombiniert. Im Rahmen der Arbeit werden übliche Chromamerkmale mit Chromamerkmalen auf Basis polyphoner Tonhöhenerkennung im Hinblick auf die resultierenden Erkennungsraten bei der automatischen Akkorderkennung verglichen. Zudem wird eine Kombination der beiden Merkmalstypen untersucht. Die Akkorderkennung in dieser Arbeit basiert auf Distanzmaßen zwischen den Chromamerkmalen und binären Akkordvorlagen. Zwei Klassifikationsansätze werden betrachtet: die Akkordklassifikation aufgrund der kleinsten Distanz und die Klassifikation mittels einer Support Vector Machine. Im Zuge dieser Arbeit wurde ein Datensatz mit über vier Stunden Gitarrenaufnahmen erstellt und manuell mit Akkordsymbolen annotiert. Dieser dient dazu, die Leistungsfähigkeit des vorgestellten Systems zu beurteilen und direkt mit dem Akkorderkennungssystem Chordino zu vergleichen. Abschließend werden die Genauigkeit und Robustheit der Erkennung wiederholter Harmoniefolgen sowie die Echtzeitfähigkeit des Gesamtsystems untersucht.



Greif, Jakob;
Untersuchung zur Verhinderung von Richtungseindrücken bei der Wahrnehmung diffuser Schallfelder in Multikanal-Lautsprechersystemen. - 83 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

In Systemen zur Wiedergabe von Audiomaterial spielt die Simulation räumlichen Klangs eine bedeutende Rolle. Moderne mehrkanalige Wiedergabesysteme, wie das "Spatial Sound Wave" System des Fraunhofer Instituts, versuchen räumliche Schallfelder plausibel darzustellen. Im Zuge dessen wird großer Aufwand betrieben, auch raumakustische Merkmale klanglich und räumlich realistisch nachzubilden. In dieser Arbeit wird die Methode der Dekorrelation untersucht, um den Nachhallanteil einer Raumsimulation in einem mehrkanaligen autsprechersystem zu realisieren. Dazu wurde ein System aus Funktionen entwickelt, welches es ermöglicht mit einem Eingangssignal eine Vielzahl spezifisch dekorrelierter Ausgangssignale zu generieren. Diese wurden genutzt, um mit mehreren, symmetrisch angeordneten Lautsprechern ein diffuses Schallfeld zu erzeugen. In einem Probandentest wurde die Qualität der Schallumhüllung durch das so erzeugte diffuse Schallfeld evaluiert. Es wurde die Lautsprecheranzahl des Setups, die Kopfbewegung der Probanden, der Korrelationsgrad der Lautsprechersignale sowie die Hörerposition in die Evaluation eingebunden. Die Auswertung der Ergebnisse bestätigt die Annahme, dass starke Dekorrelation allgemein bessere Ergebnisse für die Schallumhüllung liefert. Ebenso wird die Annahme gefestigt, dass Lautsprechersetups mit vielen Lautsprechern besser für die Wiedergabe diffuser Schallfehler geeignet sind, als kleinere mit weniger Lautsprechern. Die Ergebnisse lassen außerdem darauf schließen, dass Kopfbewegungen das Hörereignis in rein diffusen Schallfeldern, welche mit Hilfe von Dekorrelation erzeugt wurden, beeinflusst. Es wurde ebenfalls festgestellt, dass die Auswirkungen der Dekorrelation stark von den Eigenschaften der Testsignale abhängt, was weitere Fragen für das Filterdesign aufwirft.



Jurgeit, Kai-Peter;
Qualitätsanalyse von Kugelarrayauralisationen basierend auf Open Profiling of Quality. - 84 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Im Forschungsgebiet der virtuellen Akustik versucht man den steigenden Anforderungen für ein immersives räumliches Hörerlebnis mit neuen Technologien der Schallfeldsynthese entgegenzukommmen. Die Auralisation von akustischen Raumdaten, die mit einem sphärischen Mikrofonarray aufgezeichnet wurden, ist Gegenstand aktueller Forschung und bietet ein Verfahren zur Reproduktion dreidimensionaler Schallfelder mithilfe von Kugelflächenfunktionen. Ziel dieser Arbeit ist die Qualitätsanalyse von Kugelarrayauralisationen. Sie ermöglichen es den richtungsabhängigen Charakter virtueller akustischer Räume authentisch abzubilden. Die Qualität der Auralisation hängt jedoch von den gewählten technischen Parametern ab. Im Rahmen der Untersuchungen wurden Testsignale mit realen und simulierten Kugelarraymessdaten gefiltert und binaural auralisiert. In einem Hörtest wurde der Einfluss der Genauigkeit bei der Schallfeldreproduktion auf die Qualitätswahrnehmung evaluiert, um daraus Anforderungen an die Genauigkeit der Schallfeldabtastung ableiten zu können. Grundlage für das Hörtestdesign bildet die Methode Open Profiling of Quality (OPQ). Sie kombiniert eine quantitative Evaluierung der wahrgenommenen Gesamtqualität und die deskriptive, sensorische Profilbildung zur Erhebung individueller Qualitätsfaktoren. OPQ ermöglicht über die allgemeine Beurteilung der Gesamtqualität hinaus, ein tieferes Verständnis der Qualitätswahrnehmung. Aus den Ergebnissen dieser Arbeit geht hervor, dass die Anforderungen an die Genauigkeit in Bezug auf die gewählte Ordnung einer statischen Kugelarrayauralisation für eine hohe Qualitätswahrnehmung vergleichsweise gering sind. Außerdem zeigte sich, dass OPQ sich gut zur Qualitätsevaluierung binauraler Auralisationen durch naive Probanden eignet. Jedoch sollte die Anwendung der Methode besser in einem audiovisuellen Kontext stattfinden, da sich die Untersuchung sehr ähnlicher, unimodaler Signale als problematisch erweist.



Eppler, Arndt;
Entwicklung und Implementierung eines Verfahrens zur automatischen und echtzeitfähigen Erkennung von wiederholten rhythmischen Patterns sowie der rhythmischen Stilistik von Gitarrensignalen. - 119 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die automatische Analyse von Rhythmus in Musiksignalen wird oft erschwert durch Mehrdeutigkeiten in der Tempo- und Takterkennung. Insbesondere im Rahmen von Musiklernanwendungen sind jedoch robuste und genaue Methoden gefordert, um negative Auswirkungen auf den Lernprozess zu vermeiden. In dieser Arbeit wird ein automatisches und echtzeitfähiges Verfahren für die rhythmische Analyse eines Gitarrensignals vorgestellt, welches die Erkennung von sich wiederholenden rhythmischen Strukturen (Patterns) und deren Stilklassifikation umfasst. Der neue Ansatz die Takt- und Tempoinformation aus einem Steuersignal, welches zu Beginn der Aufnahme mit der Gitarre eingegeben wird zu extrahieren verbindet eine robuste Rhythmusanalyse mit der intuitiven Eingabe auf Seiten des Benutzers. Für die weitere interne Verarbeitung des eingespielten Gitarrensignals wird ein Übergang zu einer symbolischen Repräsentation - den Onsetpatterns - vorgeschlagen. Dafür werden die gespielten Noten als zeitliche Ereignisse im Audiosignal identifiziert. Weitere Eigenschaften dieser sogenannten Onsets werden dann durch Ebenen bezüglich Energie und Polyphoniegrad abgebildet. Die Erkennung von wiederholten rhythmischen Patterns erfolgt durch einen Vergleich der Onsetpatterns von aufeinanderfolgenden Taktabschnitten auf Basis der Earth Mover's Distance (EMD). Im Rahmen dessen werden Schwellenwerte für unterschiedliche Patternlängen ermittelt und deren gegenseitige Abhängigkeit untersucht. In dieser Arbeit wurde ein Datensatz von 507 Gitarrenaufnahmen bestehend aus acht Stilrichtungen erstellt. Zur algorithmischen Abgrenzung der Stile wurden zunächst Merkmale aus den unterschiedlichen Ebenen der Onsetpatterns abgeleitet. Diese lassen sich in Merkmale allgemeiner Rhythmusinformation und Merkmale bezogen auf die relative Position der Onsets in den Patterns aufteilen. Neben der Untersuchung der Aussagekraft von einzelnen Merkmalen sowie Merkmalsgruppen wird untersucht, wie sich deren Berechnung bezüglich einzelner Takte, einzelner Patterns sowie zusammengefassten Patterns auf das Klassifikationsergebnis auswirken. Für die Stilklassifikation konnte letztlich für die 8 Klassen eine Treffergenauigkeit von 62,05% erzielt werden. Die Erkennung der drei dominierenden Patternlängen in einem Stück funktioniert dagegen mit 59,80% Genauigkeit.



Afghah, Tahereh;
Perception/evaluation of distance after a continuous change of distance. - 85 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die Wahrnehmung der Entfernung einer Schallquelle in einer virtuellen Szene ist nicht einfach einzuordnen, wenn die Audioszene und die Schallquelle dem Hörer bisher nicht bekannt waren. Wenn der Hörer sich bewegt und die Entfernung sich ändert, scheint sich die Einordnung zu vereinfachen. Im Fall von virtuellen auditiven Umgebungen nutzen Hörer dynamische Informationen wie das "akustische Tau", als auch statische Informationen wie Intensität/Lautstärke, um die die Entfernung von Schallquellen zu beurteilen. Es ist das Ziel dieser Masterarbeit, mehr Details über die Wahrnehmung von Entfernungen in Aufnahmen herauszufinden, welche während einer Bewegung mit verschiedenen Rahmenbedingungen aufgezeichnet wurden. Für die Untersuchung wurden reale Szenen aufgenommen. Fünf stationäre Positionen mit einem Abstand von 2m und 20 Bewegungen der Längen 2m, 4m, 6m und 8m zur Quelle hin und von der Quelle weg wurden aufgezeichnet. Die Ergebnisse der Experimente zeigen, dass Bewegungen mit einem Endpunkt bei 6m oder 8m die Beurteilung der Entfernung signifikant verbesserten. In diesen Fällen erzeugen längere Bewegungen präzisere Ergebnisse. Bewegungen nah an der Schallquelle (kleiner oder gleich 4m) wirkten sich nicht auf die Distanzeinschätzung aus. Kurze Bewegungen nah an der Quelle wurden akkurater beurteilt, als kurze Bewegungen in größerer Entfernung. Die genauesten Ergebnisse wurden bei Bewegungen mit einem Endpunkt bei 0m (genau vor dem Lautsprecher) erzielt, was den starken Einfluss der Lautstärke auf die Distanzbeurteilung verdeutlicht.



Mayenfels, Thomas;
Untersuchung zum Einfluss von Training auf die Wahrnehmung von Externalität. - 81 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die Binauralsynthese stellt eine Schlüsseltechnologie zur authentischen Reproduktion räumlicher Schallfelder dar. Mittels dieser Technologie ist es möglich, auch bei einer Abweichung der wiedergegebenen Raumakustik von der des Abhörraumes (Raumdivergenz), eine realistische, auditive Illusion zu schaffen. In einem AB-Vergleich der Synthese zur realen Akustik des Abhörraumes kann bei großer Divergenz die Synthese jedoch nicht standhalten und bricht unter Umständen zu Im-Kopf-Lokalisation zusammen. Es wurde gezeigt, dass individuell aufgenommene binaurale Raumimpulsantworten einen Schritt zur Minimierung dieses Phänomens darstellen. Des Weiteren sind die Effekte von Training auf die Wahrnehmung des Menschen bekannt. Die vorliegende Arbeit untersucht den Einfluss von Training auf die Adaption an eine divergente Raumsituation. Dies geschieht durch den Vergleich zweier Gruppen, von welchen eine auf die reale Raumsituation, die andere auf die divergente, synthetisierte Raumsituation trainiert wird. Von allen Probanden wurden dazu individuelle binaurale Raumimpulsantworten in beiden Räumen aufgenommen. In separaten Testteilen werden der Effekt des Trainings sowie die Reaktion der Probanden auf die ihnen unbekannte Raumsituation überprüft. Als Bewertungsschlüssel dient die wahrgenommene Externalität. Abschließend fand eine Probandenbefragung zum allgemeinen Ablauf und zur Eruierung möglicher Verfahrensfehler statt. Durch die Gegenüberstellung der Gruppen konnte ein Adaptionseffekt der divergent trainierten Gruppe an die divergente Raumsituation festgestellt werden. Hinzu kommt der Effekt der verstärkten Ablehnung der divergenten Raumsituation durch die konvergent trainierte Gruppe. Schließlich konnte die Wirkung unterschiedlicher Halligkeit auf das Externalitätsempfinden erneut bestätigt werden.



Stantzsch, Anja;
Entwicklung und Evaluation eines Fitness-Spiels für HOPSCOTCH. - 92 S.. : Ilmenau, Techn. Univ., Diplomarbeit, 2015

Diese Arbeit beschäftigt sich mit der Entwicklung eines Fitnessspiels für das Spielekonzept HOPSCOTCH. HOPSCOTCH als Lern-Bewegungs-Spiel (Exer-Learning Game) besteht aus einer Sensormatte und einer Software. Auf einem Monitor werden Fitnessübungen vorgegeben, welche auf der Sensormatte durchgeführt werden. Die Überprüfung der richtigen Ausführung der Übungen und die Ermittlung des Energieumsatzes des Nutzers erfolgen über die HOPSCOTCH-Matte und einen Microsoft Kinect-Sensor. Das Fitnessspiel umfasst drei Schwierigkeitsgrade: Nicht-Sportler, Gelegenheitssportler und Freizeitsportler. In einer Evaluation des Spiels wurden anschließend mit Hilfe von Referenzsystemen sowohl die Durchführbarkeit der Übungen und die Einteilung der Schwierigkeitsgrade als auch die Berechnung des Energieumsatzes überprüft und bewertet.



Thron, Thomas;
Raumakustische Simulation auf Basis geometrischer und optischer Raumparameter. - 119 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die vorliegende Arbeit beschäftigt sich mit der Entwicklung einer Raumakustiksimulation auf Basis der geometrischen Beschreibung eines Raumes. Diese kann anhand einer 3D-Grafik-Software wie Blender modelliert werden. Ein akustisches Raytracing-Verfahren sowie eine Methode zur Nachhallerzeugung erstellen eine positionsabhängige Beschreibung der Raumakustik. Mit dieser soll die nachgebildete Szene binaural auralisiert werden mit dem Ziel, ein realistisches Raumgefühl hervorzurufen. Die Raumakustiksimulation soll dazu genutzt werden, Untersuchungen zum Raumdivergenzeffekt in einer virtuellen Umgebung durchführen zu können. Der audiovisuelle Raumeindruck kann mit dem entwickelten Werkzeug gezielt manipuliert werden, um konkrete Untersuchungen vorzunehmen. In einem Hörtest wurde die Raumakustiksimulation zunächst mit anderen Simulationsverfahren und realen Messungen verglichen. Dabei wurden die Hörsituationen auf die empfundene Plausibilität hin bewertet. Das vorgestellte Verfahren stellte sich als geeignet heraus, die modellierte Szene plausibel zu simulieren. In einem zweiten Teil wurde eine Untersuchung zum Raumdivergenzeffekt durchgeführt. Den Hörtestprobanden wurden Kombinationen von kongruenten und divergenten Raumansichten und Raumakustiken präsentiert, für die sie jeweils die empfundene Externalität bewerten sollten.



Schneiderwind, Christian;
Die Wahrnehmung der Abweichung früher Reflexionen eines virtuellen auditiven Raumes von der realen Umgebung. - 55 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Die vorliegende Arbeit beschäftigt sich mit dem Einfluss früher Reflexionen auf die Wahrnehmung von binauralem Audiomaterial. Es soll untersucht werden, inwiefern sich eine Abweichung von dem natürlichen Reflexionsmuster auf die empfundene Externalität auswirkt. In diesem Zusammenhang wurden Messungen von binauralen Raumimpulsantworten in einem Seminarraum der TU Ilmenau durchgeführt. Durch unterschiedliche Anordnung von Kunstkopf und Lautsprechern wurde Einfluss auf die Ausprägung der frühen Reflexionen in den Impulsantworten genommen. In einem anschließenden Hörtest wurden die Probanden angewiesen, die virtuelle Schallquelle der Hörbeispiele im Raum zu lokalisieren. Dabei zeigte sich, dass Hörbeispiele, bei denen das Reflexionsmuster nicht mit dem Original übereinstimmt dazu tendieren, weniger extern empfunden zu werden. Signifikante Unterschiede konnten jedoch nicht festgestellt werden. Es scheint, dass der Mensch eine gewisse Toleranz gegenüber einer Abweichung im Reflexionsmuster besitzt, wenn es darum geht, ob ein Hörbeispiel extern wahrgenommen oder "im Kopf" lokalisiert wird.



Ritter, Robin;
Virtuelle Räume für plausible Binauralwiedergabe. - 58 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Die Bachelorarbeit befasst sich mit der Fragestellung nach einer Abhängigkeit zwischen dem Raum, in dem sich ein Hörer befindet und dem, der auf den Kopfhörern abgebildet wird. Da der Hörer eine ganz bestimmte Vorstellung vom Klang eines Raumes hat, liegt die Vermutung nahe, dass eine Abweichung dieser Vorstellung zu einem unrealistischen Klangeindruck führt. Inwieweit sich dieser Fakt auf die Plausibilität der Binauralwiedergabe auswirkt, soll in dieser Arbeit untersucht werden. Hierbei liegt die Betrachtung ausschließlich auf der Manipulation der Nachhallzeit von original gemessenen binauralen Raumimpulsantworten, um ein genaues Verständnis für den Zusammenhang zwischen diesem Parameter und der Externalität einer Binauralwiedergabe zu bekommen. Die erlangten Ergebnisse stützen sich auf einen Hörversuch, der im Rahmen dieser Arbeit durchgeführt wurde.



Knoop, Niklas;
Der Einfluss visueller Eindrücke auf die auditive Raumwahrnehmung. - 76 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Das Hören von Audiomaterial über Kopfhörer hat eine große Bedeutung im Alltag vieler Menschen. Während bei einem Lautsprecher der physische Abstand zum Hörenden dafür sorgt, dass eine Distanz auch auditiv wahrgenommen wird, bleibt bei einem Kopfhörer das Hörereignis im Kopfbereich beschränkt. Die binaurale Synthese ist jedoch eine Möglichkeit, dieses fehlende Raumgefühl dennoch zu implementieren. Allerdings müssten durch die häufige mobile Nutzung von Kopfhörersystemen unzählige binaurale Raumimpulsantworten (BRIRs) angefertigt werden, um entsprechend auf wechselnde Räumlichkeiten reagieren zu können. Um diese Anzahl zu reduzieren, wäre es sinnvoll, Räume nach einem bestimmten Schema zusammenzufassen. Demzufolge müssen jedoch zunächst entsprechende Toleranzen gefunden werden. Diese Bachelorarbeit widmete sich der weiteren Untersuchung der "Raumdivergenz-Effekte". Sie beschreiben die unterschiedliche Wahrnehmung eines identischen Audiosignals bei wechselndem Raumeindruck. Mit einem durchgeführten Hörtest wurden zu diesem Zweck die "Externalisierung", also die Lokalisation eines Hörereignisses außerhalb des Kopfes, sowie die subjektive Übereinstimmung von Bild und Ton durch die Probanden bewertet. Die Auswertung dieser Faktoren soll zeigen wie sich die Bilder auf die Wahrnehmung der Externalisierung auswirken und ob sich Gesetzmäßigkeiten beobachten lassen Die Ergebnisse haben letztendlich gezeigt, dass Raumdivergenz-Effekte bei kleinen Unterschieden zwischen visuellen und auditiven Eindruck nicht nachgewiesen werden konnten. Bei größeren Disparitäten zwischen Bild und Ton sind diese Effekte jedoch erkennbar. Eine Zusammenfassung ähnlicher Raumgrößen, bei gleichzeitiger Gewährleistung einer überzeugenden binaurale Synthese, scheint demnach grundsätzlich möglich. Die generelle Fähigkeit zur Externalisierung konnte allerdings auch bei großen Unterschieden zwischen Bild und Ton festgestellt werden bzw. nicht drastisch eingeschränkt werden.



Schäfer, Florian;
Vergleich verschiedener Evaluierungsmethoden für die Untersuchung der wahrgenommenen Qualität von räumlichen Signalen. - 100 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Natürliche räumliche Wiedergabe von audiovisuellen Medien ist der Wunsch der Rezipienten. Gutes räumliches Hören ist mit herkömmlichen Heimkino-Soundsystem nur am sogenannten Sweet Spot möglich. Aktuelle Forschungsarbeiten untersuchen und entwickeln Systeme für binaurales Hören. Diese neuen Verfahren müssen darauf getestet werden, ob sie den Erwartungen der Allgemeinheit entsprechen. Da es bisher kein objektives Messsystem zur 'multi-dimensionalen Qualitätsbewertung räumlicher Audiosignale' gibt, muss zunächst ein Modell entwickelt werden, welches die Wahrnehmung von räumlichen Audiosignalen widerspiegelt. Zur Ermittlung dieses Modells eignen sich perzeptive Hörtests, die im Allgemeinen akzeptiert werden, ein zuverlässiges Mittel zur Bestimmung der subjektiv wahrgenommenen Qualität zu sein. Zur Konzeption eines solchen zuverlässigen Hörtests zur multi-dimensionalen Qualitätsbewertung von räumlichen Audiosignalen muss erforscht werden, welche Methode und welche Skala sich am besten zur Evaluierung eignen. Diese Masterarbeit untersucht dazu zwei verschiedene Hörtest-Methoden, welche sich zur multi-dimensionalen Qualitätsbewertung eignen: eine Multi Stimulus with Single Attribute Test-Methode, bei der jeweils mehrere Stimuli anhand eines Qualitätsattributes bewertet werden und eine Single Stimulus with Multiple Attributes Test-Methode, bei der jeweils nur ein Stimulus anhand von mehreren Qualitätsattributen bewertet wird. In der statistischen Auswertung des Hörtests werden beide Methoden auf Gemeinsamkeiten und Unterschiede untersucht. Vor allem die Nutzung der Skalen unter Verwendung von räumlichen Qualitätsattributen steht dabei im Fokus. Beide Hörtestmethoden erzielen ähnliche Ergebnisse. Während die Single Stimulus-Methode weniger Zeit in Anspruch nimmt, ist die Multi Stimulus-Methode besser dazu geeignet kleine Unterschiede zwischen den Stimuli zu erkennen, da die Hörtestteilnehmer in der Multi Stimulus-Methode kritischer mit dem Hörtest-Material verfahren.



Rueppel, Anna;
Qualitätsbewertung räumlicher Schallfelder unter Berücksichtigung realer Messbedingungen. - 111 S.. : Ilmenau, Techn. Univ., Masterarbeit, 2015

Bei der Aufnahme räumlicher Schallfelder mithilfe sphärischer Mikrofonarrays können Messfehler auftreten, die Einfluss auf die Wiedergabequalität haben. Hierzu zählen beispielsweise räumliches Aliasing, Positionierungsfehler und Mikrofonrauschen. In dieser Arbeit sollen auralisierte Mikrofonarraydaten zum einen mithilfe eines Hörtests und zum anderen über ein auditorisches Prädiktionsmodell in drei unterschiedlichen simulierten Umgebungen untersucht werden. Zusätzlich erfolgt die Anwendung mehrerer Arrayordnungen mit unterschiedlicher Mikrofonanzahl. Die Bewertung der binauralen Auralisation erfolgt über die raumakustischen Parameter Apparent Source Width (ASW) und Listener Envelopment (LEV). ASW beschreibt die wahrnehmbare Breite einer Schallquelle und LEV definiert das Gefühl der Schallumhüllung. Beide Parameter finden Anwendung in der Bewertung von Konzerthallenakustik. Anhand des Hörexperiments und des Room Acoustical Perception (RAP) Modells werden umgebungs-, ordnungs- und signalabhängige Einflüsse auf die Wahrnehmung der Mikrofonarraydaten untersucht. Die Ergebnisse der Werte ASW und LEV aus dem RAP Modell zeigen hierbei eine weitgehende Übereinstimmung mit den Hörtestresultaten. Die Güte der Ergebnisse ist jedoch vom Raum, Testsignal und der gewählten Arraykonfiguration abhängig.



Schaab, Maximilian;
Automatische Klassifikation klassischer Musikstile anhand relativer Tonhöhenklassen. - 100 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Diese Bachelorarbeit befasst sich mit der Klassifikation von Audioaufnahmen westlicher klassischer Musik im Bezug auf die Stilistik. Dazu wird untersucht, inwieweit der Ausgang der Klassifikation von der Information über die jeweilige Tonart der Stücke profitiert. Um die Tonart eines Stückes bestimmen zu können, bedarf es im realen Anwendungsfall einer automatischen Erkennung dergleichen. In dieser Arbeit werden vier gängige Verfahren zur automatischen Tonarterkennung untersucht. Dazu werden zunächst die Erkennungsraten auf geeigneten Datensätzen ermittelt und die zugehörigen Parameter optimiert. Die Klassifikation in die Epochen westlicher Musik Barock, Klassik, Romantik und Moderne wird auf einem 1600 Stück großem Datensatz getestet. Mittels der Tonart werden die Stücke nach Tongeschlecht (Dur/Moll) aufgeteilt. Für jedes Stück wird eine globale Chromastatistik extrahiert, welche anschließend zirkulär rotiert wird, bis der Grundton der jeweiligen Tonart an erster Stelle steht. Anhand dieser relativen Tonhöhenklassen werden für die Dur-, als auch für die Moll-Stücke separate Modelle trainiert und die Testdaten anschließend entsprechend klassifiziert. Es wird gezeigt, dass relative Tonhöhenklassen, welche sich die Information über die Tonart zu Nutze machen, das Klassifikationsergebnis gegenüber einfachen Chromamerkmalen deutlich verbessern. Eine gute Methode zur automatischen Tonarterkennung führt wiederum zu guten Klassifikationsergebnissen und übertrifft in manchen Fällen sogar die korrekt annotierten Tonarten. Ein ausführlicher Vergleich mit weiteren chromabasierten Merkmalen zeigt, dass relative Tonhöhenklassen in vielerlei Hinsicht stabile und effiziente Merkmale darstellen. Die Klassifikation auf Basis von globalen Chromamerkmalen erreicht jedoch nicht den Stand der Technik auf dem Gebiet der stilistischen Klassifikation.



Fischer, Georg;
Untersuchungen zur perfekten Audiorekonstruktion von Kugelarraydaten. - 62 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

Ziel der vorliegenden Arbeit ist es, eine Filterbank mit der Eigenschaft perfekter Audiorekonstruktion auf sphärische Arrays anzuwenden. Untersucht werden soll, ob eine Frequenzabhängige Verarbeitung der Arraydaten, erreicht werden kann, wobei ein Fokus dieser Arbeit auf der Reduktion der Schallfelddaten liegt. Darüber hinaus soll untersucht werden, inwieweit eine Filterbankanwendung zur Reduktion von Messfehlern verwendet werden kann. Zum Erreichen der Ziele wurde eine MDCT-Filterbank auf simulierte Kugelarraydaten angewandt. In den Experimenten wurden verschiedene Arraykonfigurationen und Testsignale untersucht. Für unterschiedliche Filterbankkonfigurationen wurde die Qualität der Filterung in einem Hörexperiment analysiert und evaluiert. In den Hörtests konnte gezeigt werden, dass eine Filterbank ein flexibles Werkzeug darstellen kann, um die Arrayverarbeitung effizienter zu gestalten. Darüber hinaus war es möglich, den Einfluss von unkorreliertem Rauschen mithilfe der Filterbank zu reduzieren.



Jung, Lorenz;
Entwicklung und Evaluierung einer Hörtrainings-Applikation für mobile Endgeräte als Beitrag zur Rehabilitation nach Versorgung mit einem Cochlea-Implantat. - 80 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Menschen mit hochgradigem Hörverlust werden vermehrt mit Cochleaimplantaten (CIs) versorgt. Um die kommunikative Situation von CI-Trägern nachhaltig zu verbessern, ist die CI-Versorgung mit einer intensiven Rehabilitation verbunden. Durch Hörübungen erlernen die Patienten dabei die korrekte Interpretation der elektrischen Stimulationsmuster des Implantats. Für die therapeutischen Maßnahmen, aber auch für das selbstständige Hörtraining zu Hause, stehen Übungsmaterialien - meist in Form von Audio-CDs mit Begleitheft - zur Verfügung. Diese behandeln überwiegend das Sprachverständnis im lexikalischen Sinne; die Wahrnehmung von Intonation oder rhythmischen Spracheigenschaften, sog. prosodischen Merkmalen, wird hingegen kaum trainiert. In dieser Arbeit wird der Entwurf einer Anwendungssoftware beschrieben, die speziell für das CI-Hörtraining bestimmt ist. Aufgrund der weiten Verbreitung und der unkomplizierten Bedienung dienen Tabletcomputer als Plattform für die Applikation. Das Trainingsprogramm beinhaltet Übungen zum Sprachverständnis auf Wort- und Satzebene, zur Wahrnehmung prosodischer Merkmale und zur Schalllokalisation. Der Benutzer erhält visuelles Feedback zu seinen Antworten und kann die Ergebnisse vorangegangener Übungssessions aufrufen. Die Evaluation der Applikation mit 27 CI-Trägern anhand eines Vorher-Nachher-Vergleichs zeigt, dass bereits eine kurzzeitige Benutzung des Trainingsprogramms die Wahrnehmung von Intonation signifikant verbessert. Die Ergebnisse einer zusätzlichen Usability- und User Experience-Befragung bestätigen die einfache Bedienbarkeit des Systems und weisen auf eine positive Einstellung der Probanden gegenüber der Trainingsapplikation hin.



Heinl, Tobias;
Untersuchung zur Anwendung eines Spatial-Audio-Systems in Verbund mit konventioneller Bühnenbeschallung. - 88 S.. Ilmenau : Techn. Univ., Bachelorarbeit, 2015

SpatialSound Wave ist ein wellenfeldsynthese-basiertes Audiosystem zur räumlichen Wiedergabe virtueller Audioszenen auf reduzierten Lautsprechersetups. Es wurde am Fraunhofer-Institut für Digitale Medientechnologie IDMT in Ilmenau entwickelt und wird unter anderem in Planetarien, Tonstudios sowie als mobiles System verwendet. Um SpatialSound Wave auch zur Beschallung von Bühnen nutzen zu können, bedarf es umfangreicher Erweiterungen der bisherigen Audio-Rendering-Struktur. Zusätzlich müssen geeignete Lautsprechersetups entwickelt werden. Der Zuhörer soll schlussendlich in der Lage sein, das Geschehen auf der Bühne nicht nur in angemessener Lautstärke sondern auch räumlich transparent wahrnehmen zu können. Um virtuelle Quellen möglichst präzise und unabhängig von der Position des Hörers erzeugen zu können, müssen die konventionellen Stereo-Setups um zusätzliche Lautsprecher erweitert werden. Die entstehenden Teilsysteme werden unter Beachtung des Haas-Effektes aufeinander abgestimmt und können so unterschiedlich dimensioniert werden. In dieser Arbeit wird zunächst die bisherige Rendering-Struktur von SpatialSound Wave um die Möglichkeit für front-orientierte Bühnenbeschallung erweitert und anschließend entsprechende Lautsprechersetups entwickelt. Im Rahmen eines Probandentests wurden die Lokalisationseigenschaften sowie der relative Höreindruck der jeweiligen Systeme evaluiert. Die Auswertung der Daten bestätigt, dass die neu entwickelten Setups bezüglich beider Kriterien einem konventionellen Stereosystem deutlich überlegen sind. Durch Messungen konnte bei allen Testsystemen eine gute bis sehr gute Sprachverständlichkeit festgestellt werden. Zur späteren Nutzung wurde ein Entwurf für eine grafische Benutzeroberfläche ausgearbeitet, deren Bedienstruktur speziell zur Verwendung mit den entwickelten Lautsprechersystemen ausgelegt ist.



Goecke, David;
Konzept und Evaluierung zur Untersuchung des Einflusses visueller Stimuli auf die auditive Wahrnehmung. - 155 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die vorliegende Masterarbeit beschäftigt sich mit der multimodalen Wahrnehmung von Stimuli in Bezug auf die Lokalisations-Genauigkeit auditiver Stimuli durch einen Rezipienten. Bekannt ist, dass eine gewisse Wechselwirkung bei der Wahrnehmung audiovisueller Stimuli besteht. Für die Beurteilung von Einflüssen visueller Stimuli auf die auditive Wahrnehmung werden im Rahmen der vorliegenden Arbeit Wahrnehmungstests konzipiert und durchgeführt. Als Ergebnis kann festgestellt werden, dass bewegte audiovisuelle Stimuli ab einem räumlichen Versatz von 7 cm als nicht mehr kongruent verlaufend wahrgenommen werden. Es kann ebenfalls festgehalten werden, dass dieser Wert unabhängig von der Art der verwendeten auditiven Stimuli (Sprache und Rosa-Rauschen) und unabhängig der Anordnung der Stimuli ("Ton läuft dem Bild voraus" und vice versa) anzunehmen ist. Außerdem ist eine Tendenz zu erkennen, dass der Wert von der Bewegungsrichtung (von links nach rechts und vice versa) abhängt.



Bönsel, Carsten;
Development and implementation of a method for automatic best-take detection in monophonic vocal and guitar recordings. - 138 S.. Ilmenau : Techn. Univ., Masterarbeit, 2015

Die vorliegende Forschungsarbeit ist ein erster Versuch, die Qualität einer musikalischen Darbietung bei Studioaufnahmen automatisch zu schätzen. Das primäre Ziel ist es, einen Algorithmus zur Detektion des besten Takes zu entwickeln. Die Aufgabenstellung ist auf monophone Tonfolgen von E-Gitarre und Gesang in U-Musik eingegrenzt. Analysierte musikalische Bereiche umfassen Rhythmus und Tonhöhe. Im Gegensatz zu bisherigen Arbeiten ist die tatsächlich gespielte Melodie unbekannt und kann daher für die Bewertung nicht einbezogen werden. Stattdessen stehen jeweils ein synchronisierter Klick-Track und ein Backing-Track als Referenz zur Verfügung. Vier professionelle Toningenieure dienten in einer Vorstudie als Interviewpartner. Darüber hinaus wurde für diese Studie ein spezieller Datensatz zusammengestellt, um den verwendeten Ansatz zu trainieren und zu evaluieren. Hierfür wurden zwei Gruppen von Musikern gebildet (jede aus fünf Gitarristen bzw. Sängern bestehend), um geeignete Audio-Sequenzen aufzunehmen und zu annotieren. Timing- und Intonations-Features werden von Tempogramm- und Chromagramm-Repräsentationen abgeleitet, bzw. aus den Informationen einer automatisch ausgeführten Melodie-Transkription berechnet. Die meisten implementierten Features nutzen entweder Quantisierungs-Kosten-Funktionen oder Histogramm-basierte Zusammenhänge. Verschiedene maschinelle Lernverfahren für die Klassifikation des besten Takes und das Bilden einer Rangliste werden für die finale musikalische Qualitäts-Prädiktion angewendet.



Dannehl, Jill;
Untersuchung zur Verifikation von einem emotionsbasierten Lärmemissionstest in unterschiedlichen Testumgebungen. - 70 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2015

In der vorliegenden Bachelorarbeit werden die Erkenntnisse einer Masterarbeit aufgegriffen, in der eine Erhebungsmethode zur Beschreibung der Wahrnehmung von Hydraulikgeräuschen durch Experten entwickelt worden ist. Zwar konnten in dieser nachvollziehbare Ergebnisse gewonnen werden, eine Verifikation wurde jedoch nicht durchgeführt. Ziel dieser Bachelorarbeit war es daher, die Reproduzierbarkeit der Ergebnisse in einer unterschiedlichen Testumgebung und mit Laien als Probanden zu untersuchen. Dazu werden zunächst die Forschungsgebiete der Emotionen und Lärm näher betrachtet. Ein Überblick über die verschiedenen Verfahren zur Messung von Lärm, sowie Methoden der Emotionsmessung wird gegeben. Im Weiteren wird die Hörtestmethode des Free Choice Profiling, dessen Anpassung und Durchführung näher erläutert. Die erhobenen Daten werden durch eine Hauptkomponentenanalyse analysiert und interpretiert. Ein Vergleich der erzielten Ergebnisse beider Studien wird durchgeführt und eine Prognose über die Reproduzierbarkeit des Wahrnehmungstest abgegeben.



Müller, Jan;
Medientechnologie für die interaktive Lagekarte: Spezifikation eines Datenformats und Implementierung der erforderlichen Schnittstellen zum Datenaustausch. - 70 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Für die Verbesserung der Ausbildung von Stabskräften beim Bundesamt für Bevölkerungsschutz und Katastrophenhilfe wurde das Projekt Medientechnologie für die interaktive Lagekarte, kurz MiLK, ins Leben gerufen. Es soll eine webbasierte Lernumgebung entstehen, die ein interaktives Training an der Lagekarte ermöglicht. Die Lernumgebung besteht aus einer Lehrer- und einer Schüleranwendung. In der Lehreranwendung können Übungen erstellt werden, die durch den Schüler später gelöst werden müssen. Aufbauend auf einer ersten Implementierung der Lehreranwendung befasst sich diese Arbeit mit der Speicherung von Übungsdaten in einer RDF-Datenbank, um Übungen zu einem späteren Zeitpunkt abrufen oder verändern zu können. Hierzu werden die von der Benutzeroberfläche generierten Daten für die Speicherung in eine RDF/XML-Darstellung überführt. Des Weiteren beschreibt diese Arbeit die Implementierung einer Datenschnittstelle, welche die Daten mittels Konvertierung für die Speicherung in der RDF-Datenbank vorbereitet und gespeicherte Daten aufbereitet zur Verfügung stellt. Weiterhin wird eine Lösung entwickelt und prototypisch implementiert, mit der, mittels einer WebSocket-Verbindung, Änderungen in der Datenbank an andere Systeme weitergegeben werden können, ohne dass diese die Daten explizit abrufen müssen.



Gotsch, Marcel;
Analyse und Optimierung von segmentbasiertem Video-Matching. - 66 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Das massive Aufkommen von Videoinhalten im Internet verlangt nach neuen Methodiken, welche zum Schutz des Urheberrechts, der Überwachung von Werbeausstrahlungen, der Suche nach Inhalten und zur Reduktion von redundantem Videomaterial innerhalb von Datenbanken eingesetzt werden können. Diese Arbeit gibt einen Überblick über zwei wichtige Verfahren und präsentiert eine prototypische Applikation, welche ähnliche Videosegmente innerhalb einer Datenbank identifiziert. Dazu wird ein State of the Art Hash-Algorithmus verwendet, der robust gegen typische Transformationen, wie Weichzeichnung, Rotation, Beschnitt, Einfügen eines Logos, Helligkeits- und Kontrastveränderung und starkes Rekodieren ist. Das Verfahren wurde mit realen und synthetisch erzeugten Datensätzen evaluiert.



Hohlfeld, Julian;
Untersuchung zur Beeinflussung emotionaler Reaktionen durch die Interaktion auditiver und visueller Reize. - 102 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

In dieser Arbeit wird untersucht, welchen Einfluss Musik auf die wahrgenommene Emotion bei der Rezeption von Spielfilmszenen hat. Im Vordergrund stehen dabei Emotionen des Ekels, der Angst sowie starker (negativer) Aktivierung, welche durch den Einsatz bestimmter Musikstücke verstärkt oder abgeschwächt werden sollten. Hierfür wurden fünf Filmszenen kommerzieller Spielfilme ausgewählt und anschließend mit verschiedenen Musikstücken unterlegt, um unterschiedliche Stimuli hinsichtlich der emotionalen Qualität und Intensität zu erzeugen. Neben Grundlagen der kognitiven Emotionsforschung werden dabei auch Erkenntnisse und die geschichtliche Entwicklung der zeitgenössischen Emotionsforschung sowie Besonderheiten film- und musikinduzierter Emotionen näher beleuchtet und in die Konzeption der Stimuli integriert. Die emotionalen Reaktionen der Probanden wurden im Rahmen eines Laborexperimentes anhand einer modifizierten Version des Positive and Negative Affect Schedule (PANAS) nach Watson & Tellegen (1988) erfasst und anschließend statistisch ausgewertet. Die einzelnen Film- und Audiosequenzen wurden hierfür zuerst in ein mehrdimensionales Modell eingeordnet, anschließend wurden die statistischen Messwerte hinsichtlich ihrer zentralen Tendenz miteinander verglichen. An dem Experiment nahmen 37 Personen einer selektiven Stichprobe teil. Dabei zeigten sich signifikante Unterschiede zwischen den emotionalen Reaktionen der einzelnen Stimulusgruppen. Bei drei der fünf Filmszenen ließen sich Hinweise dafür finden, dass Musik spezifische emotionale Wirkungen im Kontext aktivierender Filmsequenzen auslösen kann. Hierbei ließen sich deutliche Zusammenhänge zwischen der emotionalen Wirkung eines Musikstückes und der emotionalen Wirkung der Filmsequenz, in welchem dieses Musikstück eingesetzt wurde, erkennen. Weiterhin konnte beobachtet werden, dass die Konfrontation der Probanden mit einem stark negativen visuellen Reiz zu einem geringeren Einfluss von Musik auf die emotionale Reaktion führte.



Oertel, Jonas;
Raumakustische Klassifizierung und Vergleich verschiedener Hörumgebungen für Lautsprecherwiedergabe. - 63 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Diese Arbeit befasst sich mit den raumakustischen Eigenschaften von Räumen, die für die Wiedergabe von Audioinhalten über Lautsprecher genutzt werden. Da das Wohnzimmer im privaten Bereich als die bevorzugte Umgebung hierfür gelten kann, wird dieser Raum genauer untersucht. Anhand von Messungen der Raumimpulsantwort in sechs Beispielräumen und der daraus abgeleiteten Kenngrößen wird eine vergleichende Untersuchung der raumakustischen Eigenschaften durchgeführt und eine Klassifizierung der Nutzungsumgebungen erstellt. Hierfür werden Nachhallzeit, Anfangsnachhallzeit, Schwerpunktzeit, Klarheits- und Deutlichkeitsmaß sowie interauraler Kreuzkorrelationskoeffizient und Seitenschallgrad verwendet. Es ergeben sich mehrere Kriterien, die eine Bewertung der raumakustischen Eigenschaften ermöglichen. Diese können bei der Erforschung und Entwicklung von Audioverarbeitung und -geräten für den Heimgebrauch als Hilfsmittel dienen, diese an die Raumakustik der Nutzungsumgebungen anzupassen.



Spandel, Matthias;
Implementierung, Anpassung und Evaluierung eines Teilmodells des menschlichen Gehörs für die Anwendung in Cochlea-Implantaten. - 104 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

Cochlea-Implantate (CI) sind elektronische Reizprothesen, die der teilweisen Wiederherstellung des Hörvermögens von Menschen mit hochgradiger Hörschädigung dienen. Ein Ziel der gegenwärtigen CI-Forschung ist es, das Hören in komplexen Geräuschkulissen und von Musik zu verbessern. Am Fraunhofer-Institut für Digitale Medientechnologie wurde zu diesem Zweck eine Signalverarbeitungsstrategie für Cochlea-Implantate namens SAM (Stimulation based on Auditory Modeling) entwickelt. Diese verwendet zur Nachbildung der cochleären Schallverarbeitung ein komplexes auditorisches Gehörmodell. Ein Teilmodell des auditorischen Gehörmodells beschreibt die Funktionsweise der Basilarmembran (BM), die für die Spektralanalyse des menschlichen Gehörs verantwortlich ist. Da das aktuell verwendete BM-Modell den rechenaufwendigsten Teil des Gesamtsystems darstellt, soll es durch ein einfacheres ersetzt werden. Im Rahmen dieser Arbeit wurde untersucht, ob die Rechenkomplexität der SAM-Strategie durch die Integration eines effizienteren auditorischen Teilmodells bei gleichzeitigem Erhalt der psychoakustischen Eigenschaften reduziert werden kann. Dazu wurde ein auditorisches Teilmodell nach Meddis und Lopez-Poveda implementiert, das die Schallverarbeitung des menschlichen Gehörs, beginnend beim Außenohr bis zur Verarbeitung durch die Basilarmembran, nachmodelliert. Hauptbestandteil des auditorischen Teilmodells ist eine sogenannte DRNL-Filterbank. Nach der Implementierung des DRNL-Filtermodells wurde dieses in die SAM-Strategie integriert und an das bestehende auditorische Teilmodell angeglichen. Durch Letzteres sollte eine Veränderung der Stimulationsmuster bei der Verwendung des DRNL-Filtermodells in der SAM-Strategie vermieden werden. Dazu erfolgte zunächst ein Vergleich der beiden auditorischen Teilmodelle anhand verschiedener Modellcharakteristiken. Hierbei wurden zum Teil große Unterschiede festgestellt, sodass eine Anpassung des neu integrierten DRNL-Filtermodells durchgeführt wurde. Die Anpassung erfolgte über die Modifikation von geeigneten Parametern der DRNL-Filter sowie durch selbst entwickelte und implementierte Methoden. Durch Evaluierungstests wurde nachgewiesen, dass die Rechenzeit der SAM-Strategie durch die Integration des DRNL-Filtermodells reduziert werden konnte und ein Erhalt der psychoakustischen Eigenschaften durch die Modellanpassung gewährleistet wird. Abschließend wurden Empfehlungen über weiterführende Untersuchungen gegeben und Arbeitsschritte aufgezeigt, durch die eine weitere Reduzierung der Rechenkomplexität der SAM-Strategie erreicht werden könnte.



Kaiser, Christian;
Evaluation von Methoden zur automatischen Erkennung von Fehlern in Audio-Metadaten. - 89 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Die vorliegende Arbeit untersucht Fehler in Metadaten von Musikstücken. Sie wird durch das Bedürfnis motiviert, qualitative Informationssysteme ohne Duplikate mit geringem manuellen Aufwand zu realisieren. Fehler werden dabei als Ursache dieser Duplikate betrachtet. Ziel der Arbeit ist es, grundlegende Techniken zur Identifikation von Audio-Metadaten-Dubletten zu beschreiben und anschließend ihre Eignung durch reale Testdaten zu überprüfen. Die vier Phasen, die für eine erfolgreiche Duplikaterekennung notwendig sind, werden vorgestellt. Besonders Distanzmaße zur Messung der Ähnlichkeit zweier Zeichenketten und Klassifikationsmethoden werden im Detail beschrieben.



Schlöffel, Silvio;
Evaluation von Maßnahmen und Werkzeugen zur Verbesserung der Verfügbarkeit F&E-unterstützender IT-Infrastrukturen. - 129 S.. : Ilmenau, Techn. Univ., Diplomarbeit, 2014

In der Arbeit werden Maßnahmen und Werkzeuge zur Verbesserung der Verfügbarkeit F&E-unterstützender IT-Infrastrukturen untersucht. Ziel der Untersuchungen ist die Bewertung von auszuwählten Open Source Monitoring Werkzeugen mit Hilfe eines neu entwickelten Kriterienkataloges. Zusätzliche Betrachtungen zur vorhanden IT-Struktur und dem Notfallmanagement sollen Möglichkeiten und Abschätzungen für zukünftige Überlegungen der IT-Planung aufzeigen. Zunächst werden die notwendigen Grundlagen aus den Bereichen Netzwerkarchitektur, Netzwerkprotokolle und IT-Notfallmanagement betrachtet. Anschließend werden aktuelle Open Source Werkzeuge zum Monitoring von Netzwerken vorgestellt. Im Rahmen einer Fallstudie wird der Zustand und die Struktur des zu überwachenden Netzwerkes dokumentiert. Weiterhin wird eine Bedarfsanalyse zu den geforderten Fähigkeiten der Monitoring Werkzeuge in Zusammenarbeit mit der IT-Abteilung des Unternehmens durchgeführt. Aus den Ergebnissen der Netzwerk- und Bedarfsanalyse werden Kriterien abgeleitet, die eine Bewertung der Monitoring Werkzeuge ermöglichen. Im Rahmen eines mehrstufigen Prozesses erfolgt eine Vorauswahl von drei Werkzeugen, die unter dem Gesichtspunkt der Verbesserung des Notfallmanagements bewertet werden. In dieser Arbeit werden des weiteren die untersuchten Werkzeuge, OpenNMS, NetXMS und Check\_MK unter Gesichtspunkten von Vorgaben aus Normen und Standards bewertet. Als Ergebnis der durchgeführten Untersuchungen wird festgestellt, dass keines der vorgestellten Werkzeuge ohne Einschränkungen empfohlen werden kann. Es werden Lösungsvorschläge unterbreitet, um durch Anpassungen der Kriterien die gestellten Ziele ohne Verlust von Funktionalitäten erreichen zu können. Eine abschließende Bewertung der ermittelten Dienste und Dokumentationen zeigt notwendige und empfohlene Veränderungen in den betrachteten Bereichen auf.



Rekitt, Martin;
Bestimmung der Häufigkeitsverteilung von Quadrantenfehlern bei der Lokalisation von Hörereignissen unter Verwendung einer binauralen Kopfhörerwiedergabe. - 70 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Das auditive System des Menschen ermöglicht durch die Verarbeitung von akustischen Eigenschaften des Schallsignals eine dreidimensionale Klangwahrnehmung. Werden diese Merkmale gestört oder nicht eindeutig verarbeitet, können Lokalisationsfehler auftreten. In der Binauralsynthese, bei der die Filterwirkung der Ohrmuschel durch Kopfbezogene Übertragungsfunktionen (HRTF's) simuliert wird, sind Anomalien in der Richtungswahrnemung häufig präsent. Die vorliegende Bachelorarbeit befasst sich mit dem sogenannten Quadrantenfehler. Untersucht wird dessen Häufigkeitsverteilung in der Horizontalebene. Dazu wird ein Hörtest unter der Verwendung einer binauralen Kopfhörerwiedergabe konzipiert. Im ersten Teil der Arbeit erfolgt die Planung und Durchführung von Raumimpulsantwortmessungen. Die Ergebnisse werden analysiert und für die mit MATLAB durchgeführte Binauralsynthese vorbereitet. Aufbauend auf den Resultaten des Algorithmus, wird der Hörtest konzipiert und realisiert. Weitere Überlegungen während des Bearbeitungsprozesses wie die Auswahl der Messpositionen, Wahl der Signale oder räumlicher Aufbau des Hörtests werden ausführlich erklärt. Die Bewertungen der Probanden ergaben häufig vorkommende Quadrantenfehler im Bereich der direkten Richtungen vorn und hinten. Mit steigender lateraler Auslenkung treten diese immer seltener auf. Für die linke und rechte Seite zeigt sich ein nahezu identisches Verhalten. Im hinteren Halbkreis sind im Gegensatz zum vorderen Teil leicht verbesserte Resultate zu erkennen. Weiterhin hat sich die Notwendigkeit der monauralen Signalverarbeitung zur Vermeidung des Quadrantenfehlers erwiesen. Zusätzlich wird die Abhängigkeit binauraler Signalmerkmale in Bezug auf die Verteilung des vorliegenden Problems untersucht. Mit Hilfe der Hörtestergebnisse erfolgt außerdem eine Auswertung der Externalisation des Signals in Abhängigkeit von der Wiedergabeposition.



Gerhardt, Christoph;
Entwicklung eines Verfahrens zur Verbesserung von Mikrofonklassifizierung basierend auf der Analyse von Umwelteinflüssen. - 58 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Die Anzahl täglich erstellter Audioaufnahmen ist vor allem durch die zunehmende Verbreitung von mobilen Aufnahmegeräten in den letzten Jahren enorm gestiegen. Allerdings ist durch vielfältige Bearbeitungsmöglichkeiten nicht immer gewährleistet, dass der Inhalt einer Datei auch dem der originalen Aufnahme entspricht. Um mögliche Bearbeitungen zu entdecken, wurden in den letzten Jahren verschiedene Ansätze entwickelt. Einer dieser Ansätze basiert darauf, dass für die Aufnahme verwendete Mikrofon zu identifizieren und damit zu gewährleisten, dass die gesamte Aufzeichnung mit dem selben Gerät durchgeführt wurde. Ziel dieser Arbeit ist es, ein solches Verfahren zur Mikrofonklassifizierung durch die Analyse und Verarbeitung von Umgebungseinflüßen zu erweitern und so die Genauigkeit der Ergebnisse zu verbessern um eine höhere Zuverlässigkeit zu erreichen.



Schubert, Markus;
Entwicklung eines Hörtests zur Prosodiewahrnehmnung als Diagnosetool in der Rehabilitation nach Versorgung mit einem Cochlea-Implantat. - 54 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

In der vorliegenden Masterarbeit wird ein Hörtest für Träger von Cochleaimplantaten entwickelt. Mit diesem kann die Unterscheidungsschwelle von Tonhöhenunterschieden bestimmt werden. Den Probanden werden dabei vorher aufgezeichnete Sätze präsentiert, die im Test mit einem adaptiven Verfahren modifiziert werden. Die Implementierung des Hörtests erfolgt in C++ und bietet eine benutzerfreundliche grafische Oberfläche. So kann er in Zukunft in der Rehabilitation von CI-Patienten als Diagnosetool Anwendung finden oder zur Evaluation verschiedener Signalverarbeitungsstrategien von CI-Prozessoren dienen. In einem abschließenden Hörtest mit CI-Trägern wird der Test evaluiert.



Clauß, Tobias;
Entwicklung eines emotionsbasierten Lärmemissionstest zum Beispiel der Geräuschbewertung von hydraulischen Bauteilen. - 120 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

In dieser Masterarbeit ist eine Erhebungsmethode entwickelt, mit welcher ein Vokabular zur Beschreibung der Wahrnehmung von Hydraulikgeräuschen generiert und evaluiert ist. Die permanente Lärmbelastung ist eine immer häufiger indizierte Ursache für viele Krankheiten. Eine gezielte Gestaltung und Regulierung von Schallen kann helfen, der Lärmbelästigung vorzubeugen. Für diese gezielte Kontrolle ist das Wissen um die subjektive Wahrnehmung von Schallen eine elementare Grundlage. Aus dieser Sicht heraus beschreibt die Masterarbeit eine exemplarische Entwicklung einer Erhebungsmethode zur Beschreibung der Wahrnehmung von Geräuschen. Durch Probandentests ist ein Vokabular zur emotionalen und wahrnehmungsbezogenen Beschreibung von Hydraulikgeräuschen generiert. Hierzu sind zunächst die Grundlagen der Wahrnehmungs- und Emotionsforschung, der aktuelle Stand der Technik sowie medientechnologsiche Systementwicklungsmethoden erarbeitet. Darüber hinaus sind die im Probandentest verwendeten Hydraulikgeräusche einer Analyse der psychoakustischen Einflussparameter unterzogen. Eine Korrelation des subjektiven Vokabulars zur Beschreibung dieser Geräusche mit der objektiven psychoakustischen Audioanalyse ist untersucht. Außerdem ist eine Korrelation der Probandenbewertungen mit den psychoakustischen Einflussparametern beleuchtet. Die Probandenbewertungen unterscheiden sich vor allen Dingen zwischen den einzelnen präsentierten Geräuschklassen. Auch mit der psychoakustischen Audioanalyse ist hier eine Differenzierung möglich. Abschließend sind sowohl die entwickelte Methode als auch das generierte Vokabular evaluiert. Um mit dieser Masterarbeit Anstoß zu weiteren Forschungsarbeiten geben zu können, ist zudem das Potential für weitere Forschungen aufgezeigt.



Brass, Tobias;
Raumakustische Parameter von Räumen. - 59 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Das Ziel akustischer Aufnahme- und Wiedergabesysteme ist es, beim Rezipienten eine perfekte auditive Illusion zu erzeugen. Aus diesem Grund beschäftigen sich verschiedene Einrichtungen mit der Weiterentwicklung von Audiosystemen wie der binauralen Kopfhörerwiedergabe, der Wellenfeldsynthese oder Ambisonics. Im Rahmen eines Forschungsprojekts an der Technischen Universität Ilmenau sollen Untersuchungen durchgeführt werden, die unverstandene Faktoren bezüglich der Aufnahme und Wiedergabe dieser Verfahren klären sollen. Beispielhafte Aspekte der Untersuchung sind die Divergenz zwischen Aufnahme- und Wiedergaberaum oder die Komplexität der Szene. Um dieses Projekt zu unterstützen wird in dieser Arbeit anhand raumakustischer Messungen eine Auswahl raumakustischer Parameter untersucht. Basierend auf Messungen von Raumimpulsantworten werden Räume mit unterschiedlichen akustischen Eigenschaften akustisch gemessen und ausgewertet. Das Ziel der Auswertung ist es, den Räumen eine akustische Charakteristik zuzuschreiben.



Anton, Markus;
Raumakustische Messungen und akustische Bewertung von Seminarräumen an der TU Ilmenau. - 48 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Diese Bachelorarbeit befasst sich mit der Messung und Auswertung raumakustischer Parameter von Seminarräumen an der Technischen Universität Ilmenau hinsichtlich der Sprachverständlichkeit. Hierzu wird im ersten Schritt der Messvorgang erläutert. Im Fokus der Betrachtung befinden sich die Nachhallzeit, die frühe Abklingzeit, das Deutlichkeitsmaß, der Deutlichkeitsgrad und der Schalldruckpegel. Die Parameter werden für fünf Räume unterschiedlichen Charakters erhoben und anschließend verglichen.



Büchel, Danny;
Entwicklung und Evaluation von Verfahren zur Detektion von Störgeräuschen in Audiomaterial. - 103 S.. : Ilmenau, Techn. Univ., Diplomarbeit, 2014

Seit dem Technischen Wandel und der Digitalisierung der Medien werden Jahr für Jahr immer mehr digitale Daten erzeugt, übertragen, verarbeitet und gespeichert. Aufgrund dieser Menge an Daten, speziell im Medienbereich, ist es daher nicht mehr möglich, ausreichende und umfangreiche Qualitätskontrollen ohne automatisierte Algorithmen zur Überprüfung und Fehlerdetektion durchzuführen. Diese Diplomarbeit konzentriert sich auf die Fehlererkennung in den verschiedenen Verarbeitungsprozessen von Audiomaterial. Zunächst werden bekannte und regelmäßig auftretende Störgeräusche in Audioinhalten und ihre Ursachen dargestellt und voneinander abgegrenzt. Das Hauptaugenmerk der Arbeit liegt auf der Untersuchung und Identifikation von zwei konkreten Fehlertypen: zum einen den sogenannten Klicks, also "Knackgeräusche" und 50- bzw. 60 Hz-Netzbrummen. Dazu werden erst benötigte mathematische und signaltheoretische Grundlagen erarbeitet und anschließend Algorithmen entwickelt, die diese Störungen nach ihrer Position im Audiomaterial erkennen sollen. Abschließend wird die mittels geeigneten Testdatensätzen durchgeführte Evaluation dargelegt. Die Detektion der Klicks erfolgt dabei im Zeitbereich mithilfe eines AR-Modells und Schwellenwertbildung und erreicht auf Basis der Testdaten bei geeigneter Parameterkombination eine Precision von 0.71 bei einem Recall von 0.63. Daraus ergibt sich ein F-Score von 0.67. Um Netzbrummen zu detektieren, wird das Signal mittels DFT in den Frequenzbereich überführt und die relevanten Frequenzbins einem kombinierten Schwellenwertvergleich unterzogen. Die Bewertung des Verfahrens wird anhand von Testdaten mit Signal-Rausch-Abständen von 0 bis 40 dB durchgeführt. Dabei ergibt sich für Signale mit einem SNR von 0 dB eine Precision von 0.83 und ein Recall von 0.92, was einen F-Score von 0.87 zur Folge hat. Für Signale mit einem SNR von 40 dB werden noch Werte für die Precision von 0.61, für den Recall von 0.14 und daraus resultierend ein F-Score von 0.23 erreicht.



Reiter, Carlo;
Entwicklung und Evaluation von Verfahren zur Detektion von Videofehlern in Magnetbandaufzeichnungen. - 98 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

Zur Aufzeichnung von Videomaterialien kommen seit vielen Jahrzehnten Magnetbänder zum Einsatz. Trotz der fortschreitenden Verwendung bandloser Workflows bleiben insbesondere digitale Magnetbänder noch einige Jahre in Verwendung. Im Broadcast-Bereich ist die Qualität der Videomaterialien ausschlaggebend für deren Verwendbarkeit und somit von hoher Bedeutung. Die hohe Menge an visuellen Materialien verlangt eine automatische und zuverlässige Qualitätskontrolle. Das Fraunhofer Institut für Digitale Medientechnologien entwickelt Komponenten zur Analyse von audiovisuellen Daten. Ein Schwerpunkt liegt dabei bei der Detektion von visuellen Fehlern, wie bspw. Kodierartefakte. In dieser Masterarbeit wird ein Algorithmus zur magnetbandspezifischen Blockingdetektion vorgeschlagen. Zunächst wird ein Überblick über visuelle Fehler gegeben, die von Magnetbändern stammen. Dazu werden zunächst die grundlegenden Prinzipien von Videomagnetbandsystemen beschrieben und beispielhaft Formate, sowie deren Bedeutung erläutert. Anschließend werden typische Fehler von analogen und digitalen Formaten, sowie deren Merkmale und technische Ursachen geschildert. Dabei wird ausführlich auf digitale Blockartefakte eingegangen. Weiterhin werden Projekte beschrieben, die sich mit der Detektion und Restauration von fehlerhaften Archivmaterialien auseinandersetzen. Zudem werden wissenschaftliche Verfahren betrachtet, die sich bereits mit der Detektion von fehlerhaftem Magnetbandmaterial beschäftigten und den aktuellen Stand der Forschung darstellen. Der im Rahmen dieser Arbeit entwickelte Algorithmus zur Detektion von Blocking ist an einem der Verfahren angelehnt. Das Prinzip, welches auf einer Erkennung von auffälligen Kanten im Raumbereich basiert, wird zunächst in einem Grobkonzept und anschließend im Detail erläutert. Die Methode wurde praktisch in MATLAB umgesetzt und anhand einer Evaluation beurteilt. Diese basiert auf Videoclips, deren fehlerhafte Kanten von Probanden annotiert wurden. Das dazu notwendige Werkzeug wurde ebenfalls im Rahmen dieser Arbeit entwickelt. Aus den Annotationsdaten wurde anschließend eine Grundwahrheit generiert. Die Testdaten werden einer Fehlerdetektion unterzogen und mit der Grundwahrheit verglichen. Ein kleiner Teil der Testdaten diente zur Ermittlung der Parameter. Die restlichen Daten wurden zur Evaluation verwendet. In der Auswertung werden die Ergebnisse erörtert und ihre Gültigkeit kritisch diskutiert, sowie zu lösende Probleme aufgezeigt.



Kuhnke, Felix Konstantin;
Implementation and evaluation of a real-time pitch range extension algorithm for cochlear implants. - 67 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

In der heutigen Zeit ermöglichen es Cochlea-Implantate (CIs) den meisten ihrer tauben Träger an lautsprachlicher Kommunikation teilzunehmen. Trotz gutem Sprachverständnis ist die Fähigkeit zur Wahrnehmung von Tonhöhenänderungen und Tonhöhenunterschieden bei CI-Trägern stark begrenzt. Diese Tatsache bewirkt auch eine gestörte Wahrnehmung von Intonation und somit im weiteren Sinne auch von Prosodie. Diese Arbeit schlägt deshalb eine neue Methode vor, die Wahrnehmung von Intonation bei CI-Trägern zu verbessern. Der Grundgedanke ist es, einen Vorverarbeitungsalgorithmus zu entwerfen, welcher die Spannweite der Tonbewegungen in Sprachsignalen vergrößert. Um die prinzipielle Durchführbarkeit dieser Technik zu belegen, wurde der pitch range extension (PREX) Algorithmus entworfen. Dieser ermöglicht die Veränderung der Tonhöhe von Sprachsignalen bei sehr kleinen Latenzen. Basierend auf Regeln der Intonation, werden die Tonhöhenbewegungen des Signals automatisch verstärkt. In einem mit 23 CI-Trägern durchgeführten Hörtest, nach dem Prinzip "Frage oder Aussage", konnte der Algorithmus die Wahrnehmung von Intonation signifikant verbessern. Die Ergebnisse blieben dabei trotzdem unter denen einer normalhörenden Kontrollgruppe. Die Ergebnisse beweisen die Machbarkeit von sprachverändernden Vorverarbeitungsmethoden und zeigen neue Forschungsmöglichkeiten für CI-Signalverarbeitung und CI-Rehabilitationsmaßnamen auf.



Schreindorfer, David;
Vorverarbeitung für die Extraktion von visuellen Merkmalsdeskriptoren in Nachrichtenvideos. - 66 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Die vorliegende Bachelorarbeit beschäftigt sich mit dem Thema der Vorverarbeitung für die Extraktion von visuellen Merkmalsdeskriptoren in Nachrichtenvideos. Dazu werden Overlay-Grafiken detektiert. Zu den hier behandelten Grafiken zählen Picture-in-Pictures, Logos, Untertitel und Bauchbinden. Es werden Algorithmen zur Detektion der Grafiken vorgestellt, implementiert und evaluiert. Neben einem umfangreichen Grundlagenteil, der für diese Arbeit wichtige Verfahren erläutert, werden aktuelle Forschungsergebnisse im Bereich der Detektion dieser Grafiken gezeigt. Abschließend werden die Ergebnisse der Algorithmen anhand eines Datensatzes ausgewertet. Dabei wird eine Genauigkeit von bis zu 75 % erzielt.



Singh, Gyan Vardhan;
Psychoacoustic investigation on the auralization of spherical microphone array data using wave field synthesis. - 109 S.. : Ilmenau, Techn. Univ., Masterarbeit, 2014

Mikrofonarrays sind geometrische Strukturen, die mit zwei oder mehr Mikrofonen an verschiedenen Positionen den Raum abtasten, um die räumlichen Eigenschaften eines Schallfeldes aufzuzeichnen. Insbesonders für 3-dimensionale Schallfeldanalysen eignen sich kugelförmige Mikrofonarraygeometrien. Die so aufgezeichneten Daten können auf einem Wiedergabesystem, dass die räumlichen Eigenschaften wiederzugeben vermag auralisiert, also hörbar gemacht werden. Dadurch kann man einem Hörer den Eindruck vermitteln, er befände sich in dem gemessenen Raum. Dies kann z.B. nach dem Verfahren der Wellenfeldsynthese (WFS) realisiert werden, bei der lautsprecherbasiert räumliche Schallfelder synthetisiert werden. Wie in jeder realen Messsituation wird die räumliche Antwort des Arrays durch verschiedene Fehlerquellen beeinflusst, wie zB räumliche Abtastfehler (Aliasing), Mikrofonrauschen, oder Positionierungsfehler in horizontaler und vertikaler Richtung. Derartige Fehler wurden bisher nur analytisch beschrieben, da aber bei Auralisationsanwendungen das menschliche Gehör das wichtigste Qualitätsmaß darstellt, ist es unabdingbar, Mikrofonarrays auch nach perzeptiven Gesichtspunkten zu untersuchen. Im Rahmen dieser Arbeit werden Kugelarrayschallfelder unter Freifeldbedingungen simuliert und über WFS auralisiert. Verschiedene Fehler werden dabei in die Simulationen mit einbezogen und mithilfe von Hörtests perzeptiv untersucht.



Schubert, Julia;
Storyboard-Patterns in digitalen Spielen. - 52 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Diese Arbeit beschäftigt sich mit der Identifizierung und Beschreibung von Strukturen, sogenannten Patterns, in Anwendungen des Game-Based Learnings, welche die Lernprozess von Nutzern unterstützen. Als Grundlage für deren Beschreibung dient das Storyboarding, welches gleichzeitig auch in der Spielentwicklung als Element eines Spieles angewendet werden kann. Für die Herausarbeitung dieser Storyboard-Patterns muss eingangs auf das Storyboarding selbst als Werkzeug eingegangen werden. Im weiteren Verlauf werden Patterns und Instanzen durch Hinzunahme dieser Storyboards erläutert und abgegrenzt, um auf diese Weise eine Grundlage für die weitere Arbeit mit pädagogischen Patterns zu erhalten. Ziel dieser Arbeit ist die konkrete Identifizierung von pädagogischen Patterns in den Lernspielen "1961", "TraSt" und "GERA", anhand der zuvor festgelegten Eigenschaften. Zusätzlich soll im Rahmen dieser Arbeit eine Anwendung entstehen, die den Einsatz eines digitalen Storyboards zeigt.



Mittag, Christina;
Untersuchung zur Berechnung von Lautsprechersignalen bei wellenfeldsynthese-basierter Tonwiedergabe mit reduzierter Lautsprecheranzahl. - 62 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Die Wellenfeldsynthese ist ein räumliches Audiowiedergabeverfahren, bei dem das Schallfeld einer virtuellen Schallquelle für einen definierten Hörbereich synthetisiert wird. Hierzu wird für jeden Lautsprecher mit Hilfe von Verzögerungs- und Verstärkungskoeffizienten ein individuelles Signal berechnet, so dass durch die Überlagerung der Einzelsignale das Schallfeld der virtuellen Quelle entsteht. Dafür wird eine sehr hohe Anzahl an Lautsprechern benötigt, deren Anschaffungskosten und Raumanspruch vor allem für kleine Einrichtungen und Privatpersonen eine große Hürde darstellen. Das Fraunhofer Institut für Digitale Medientechnologie IDMT in Ilmenau forscht seit einigen Jahren an einer Technologie, die wellenfeldsynthese-basierte Audiowiedergabe auch mit reduzierter Lautsprecheranzahl ermöglichen soll. Bei der Darstellung bewegter virtueller Quellen können jedoch hörbare Klangartefakte entstehen. Diese sind vermutlich auf die Überlagerung der unterschiedlich verzögerten Signale zurückzuführen. In dieser Bachelorarbeit wird der Algorithmus, der die zur Synthese benötigten Koeffizienten berechnet, analysiert und ein Ansatz zur Optimierung gesucht. Aufbauend auf Beschreibungen der Funktionsweise des Algorithmus und vorangegangenen Untersuchungen zu Frequenzverschiebungen bei Wellenfeldsynthese werden zwei Parameter des Algorithmus näher betrachtet. Ihre Auswirkung auf die Wiedergabequalität und den Bewegungsfluss der Quelle wird in einem Hörtest evaluiert. Die Auswertung der erhobenen Daten bestätigt die Abhängigkeit der Artefakte von der Verwendung von Verzögerungskoeffizienten. Ein Einfluss der Parameter auf den wahrgenommenen Bewegungsfluss ist kaum zu erkennen. Auf Grundlage der gewonnenen Erkenntnisse werden Anwendungsempfehlungen für die zukünftige Arbeit mit dem Algorithmus gegeben.



Morgenstern, Wieland;
Keyframe-Selektion zur Erhöhung der Erkennungsrate von Primaten in Videos. - 122 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

Die Ergründung des Verhaltens von Tieren ist für viele Forschungsbereiche wie Artenerhaltung und Populationsüberwachung von hoher Bedeutung. Für eine umfassende Überwachung der Lebewesen werden häufig Videokameras eingesetzt. Die entstehenden Datenmengen können zur Entlastung des Menschen durch einen Computer analysiert werden und automatisch Informationen wie Spezies, Alter, Geschlecht und die Identität der einzelnen Tiere erkennen. Diese Arbeit setzt es sich zum Ziel, die Erkennungsrate eines bereits vorhandenen Systems zur Identifikation von Primatengesichtern in Videos zu erhöhen. Es wird ein System implementiert, das aus einer Reihe von Aufnahmen desselben Individuums (einem Facetrack, der aus mehreren bis vielen hundert Frames bestehen kann) die besten Aufnahmen (Keyframes) extrahiert, um diese zur Identifikation zu verwenden. Dabei werden verschiedene Module implementiert, die Kriterien für die Auswahl aus den Frames ermitteln: Beleuchtung, Kontrast, Schwärzeanteil, Unschärfe, sowie die verschiedenen Varianten zur Erkennung der Pose des abgebildeten Tieres. Als beste Methode zur Posenerkennung stellt sich eine Klassifikation mit einer Support Vector Machine auf Gabor-Features heraus. Aus den verschiedenen Parametern wird ein globaler Score berechnet, der zur Auswahl der Keyframes verwendet wird. Die Ergebnisse der Identifikation auf mehreren Key-frames können gewichtet miteinander verrechnet werden, um ein Gesamtergebnis zu erhalten. Gegenüber der bisherigen Variante, die Identifikation auf dem ersten Frame des Facetracks auszuführen, kann die Erkennungsrate deutlich gesteigert und unter bestimmten Umständen sogar verdoppelt werden.



Fiedler, Bernhard;
Untersuchung zur Umsetzung einer interaktiven Raumsimulation zur Distanzdarstellung virtueller Schallquellen. - 69 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Im Bereich der Virtuellen Realität gibt es stets neue technologische Fortschritte, um den akustischen Eindruck so realitätsnah wie möglich zu gestalten. Eine wirklichkeitsgetreue Simulation von audiovisuellen Inhalten erfordert neben der Richtungswahrnehmung zusätzlich die Darstellung räumlicher Tiefe. Insbesondere mit der Entwicklung von mobilen Virtual-Reality-Brillen steigt das Interesse an personengebundenen Wiedergabesystemen zur dreidimensionalen Klangabbildung. Die binaurale Kopfhörerwiedergabe eignet sich dafür im besonderen Maße. Das Ziel der Arbeit ist die Entwicklung eines Raumsimulationskonzeptes zur Distanzdarstellung von virtuellen Schallquellen unter Verwendung der Binauralsynthese. Als Grundlage dient die objektbasierte Wiedergabe virtueller Klangszenen, die eine getrennte Betrachtung von Schallquellen unabhängig vom Wiedergabesystem ermöglicht. Die Arbeit analysiert zwei bisherige Ansätze der objektbasierten Raumsimulation und vergleicht diese hinsichtlich ihrer Vor- und Nachteile zur akustischen Realitätstreue sowie zur Signalverarbeitung. Auf Basis der gewonnenen Erkenntnisse gibt die Arbeit einen Vorschlag zur Vereinigung der Algorithmen in einem einzigen Konzept. Unter Berücksichtigung der Mechanismen des menschlichen Entfernungshörens erfolgt die detaillierte Vorstellung der entworfenen Algorithmen. Diese werden zudem in einem Software-Prototypen implementiert und evaluiert. Die Ergebnisse der objektiven Vergleiche zwischen gemessenen und simulierten Raumimpulsantworten zeigen eine realitätsnahe Abbildung der Initialzeitlücken auf. Auch hinsichtlich anderer Distanzmerkmale, wie das Verhältnis von Direktschallenergie zu Nachhallenergie sind grundsätzliche Ähnlichkeiten erkennbar. Da die Wahrnehmungsqualität von den Eigenschaften des zu simulierenden Raumes und der verwendeten Kopfübertragungsfunktionen abhängt, muss der Parametersatz für die Simulation besonders sorgsam ermittelt werden. Insgesamt gibt das entworfene Rendering-Konzept einen Vorschlag zur Erweiterung der binauralsynthesebasierten Raumsimulation, um den Eindruck räumlicher Entfernung virtueller Schallquellen zu vermitteln. Aus den informellen Hörtests ist zu entnehmen, dass die Integration entfernungsabhängiger Eigenschaften unter Einschränkungen zu einem gewünschten relativen Entfernungseindruck führt.



Hellmich, Mathias;
Perzeptive Bewertung von Fehlereinflüssen bei der binauralen Auralisation von Kugelarraydaten unter Verwendung des Spatial Audio Quality Inventory - SAQI. - Ilmenau : ilmedia. - Online-Ressource (PDF-Datei: III, 94 S., 2,54 MB). : Ilmenau, Techn. Univ., Masterarbeit, 2014

Bei der Aufnahme von Schallfelder durch Kugelmikrofonarrays treten Messfehler auf. Diese Fehler können zum Beispiel räumliches Aliasing, Mikrofonrauschen und Positionierungsfehler sein. Bemerkbar machen sich diese Fehler als tieffrequentes Rauschen sowie Verzerrungen im hochfrequenten Bereich. Bei der Wiedergabe von räumlichen Schallfeldern, welche mittels Kugelmikrofonarrays aufgenommen werden können, wirken sich diese Fehler ebenso negativ auf die Auralisationsqualität aus. In dieser Arbeit sollen diese Fehler bei der binauralen Wiedergabe über Kopfhörer perzeptiv untersucht werden. Dazu werden zwei Hörtests durchgeführt. Ein Hörtest wurde konzipiert, um den Schwellwert der Wahrnehmung dieser Fehler zu bestimmen. Der zweite Hörtest, welcher auf der Repertory Grid Technik basiert, dient der Zuordnung von einzelnen Fehlern zu akustischen Merkmalen. Zur Beschreibung der Fehler wird das Spatial Audio Quality Inventory (SAQI) herangezogen, welches eine aktuelle Sammlung qualitätsbeschreibender Merkmale darstellt. Die verwendeten Merkmale aus SAQI beschreiben räumliche Eigenschaften und Artefakte wie beispielsweise eine Anhebung des tieffrequenten Bereichs oder eine metallische Klangfarbe. Eine Hauptkomponentenanalyse wurde durchgeführt um die Daten zu ordnen und zu bewerten. Damit ist es möglich, wichtige Merkmalsgruppen zu identifizieren und die perzeptiven Merkmale der Fehlereinflüsse zu bewerten.



http://www.db-thueringen.de/servlets/DocumentServlet?id=24144
Haigis, Michael;
Automatische Detektion und Klassifikation von Tieren in Videos. - 109 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Die heutige Artenforschung nutzt zunehmend technische Möglichkeiten, um das Verhalten verschiedener Spezies zu untersuchen. Dabei steht sie vor der Herausforderung, die enorme Datenmenge, die Videofallen produzieren, zu verarbeiten. In dieser Arbeit sollen automatisierte Algorithmen vorgestellt werden, die das lineare Sichten dieses Materials nicht nur unterstützen, sondern ganz ersetzen. Zunächst wird auf vorrangegangene Forschungen eingegangen. Innerhalb des Forschungsprojektes SAISEBCO des Max-Planck-Instituts für evolutionäre Anthropologie, des Fraunhofer Instituts für Digitale Medientechnologie und des Fraunhofer Institut für Integrierte Schaltungen werden hierbei Algorithmen zur Detektion und Klassifikation verschiedener Menschenaffenarten entwickelt. Ausgangspunkt für den entwickelten Algorithmus sind Videoaufnahmen, aus denen in regelmäßigen Abständen Einzelbilder extrahiert wurden. Als Detektionsalgorithmus zur Bestimmung der "region of intrest" wird ein auf einem Hintergrund basierender Selektionsalgorithmus (GoDec) verwendet, dessen Kernfunktionalität durch eine Abwandlung der "Principal Component Analysis" (PCA) realisiert wird. Als Ergänzung zu den so gewonnenen ROIs werden die Ergebnisse mit einem den optischen Fluß definierenden Algorithmus verifiziert. Eine anschließende Evaluation dieses Detektionsblocks erbrachte zufriedenstellende Ergebnisse. Für die Klassifikation der Tierart wurde die klassische Pipeline "Vorverarbeitung", "Merkmalsextraktion" und "Klassifikation" verwendet. Während sich die Vorverarbeitung auf das Anpassen der Beleuchtungssituation beschränkte, wurden als Merkmalsdeskriptoren GABOR, "Diskrete Cosinus-Transformation" (DCT), "Weber Local Descriptor" (WLD), "Local Binary Pattern" (LBP), "Local Tenary Pattern" (LTP), PIXEL und "Histogram of Oriented Gradients" (HOG) verwendet. Als Klassifikatoren werden "Support Vector Machine" (SVM), "K-Nearest Neighbor" (KNN) und "Sparse Representation Classification" (SRC) mit den Merkmalsraumtransformationen "Principal Component Analysis" (PCA) und "Linear Preserving Projection" (LPP) kombiniert und untereinander verglichen. Am erfolgversprechendsten erwies sich "K-Nearest Neighbor" mit dem Merkmalsdeskriptor LTP und der Merkmalsraumtransformation LPP.



Pawlus, David;
Implementierung der interaktiven Lagekarte für Training im Bevölkerungsschutz und Katastrophenhilfe. - 90 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Extreme Wetterphänomene, bedingt durch den voranschreitenden Klimawandel, und terroristische Anschläge stellen nur zwei aus einer Vielzahl von Situationen dar, die ein hohes Gefährdungspotential für die Menschheit mit sich bringen. Kommt es zu einem Katastrophenfall, so ist die Lage oft unübersichtlich und erfordert enorme technische und organisatorische Einsatzmaßnahmen, um die Gefahr einzudämmen. Für diese Aufgabe muss bei den Verantwortlichen der Katastrophenabwehr fundiertes Wissen über die Maßnahmen und Werkzeuge des Krisenmanagements vorhanden sein. Die Ausbildung der Führungskräfte für den Einsatz übernimmt in Deutschland das BBK (Bundesamt für Bevölkerungsschutz und Katastrophenhilfe). Bei den Lehrgängen hat sich gezeigt, dass das vermittelte theoretische Wissen durch das Fehlen von realitätsnahen praktischen Übungsmöglichkeiten nur teilweise angewendet werden kann. Um die Qualität der Lehrgänge zu verbessern, soll auf Basis der Webble-Technologie eine interaktive Lernumgebung entwickelt werden, die sich auf die Vermittlung der Grundlagen der Lagedarstellung konzentriert. Dafür werden in der vorliegenden Arbeit sowohl ein Konzept als auch ein Design und das User Interface für dieses System nach den Grundsätzen der Usability (deutsch: Gebrauchstauglichkeit) entwickelt. Ziel dabei ist die Implementierung eines funktionsfähigen Prototyps, welcher das entwickelte Konzept veranschaulicht.



Seideneck, Mario;
Implementierung eines Systems zur automatisierten Klangpositionierung auf Basis von 3D-Tracking-Systemen. - 111 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

Mit dieser Arbeit wird das am Fraunhofer IDMT entwickelte 3D-Audio-System SpatialSound Wave um die Anbindung von Trackingsystemen erweitert. Während der Darbietung von Live-Shows wie Musicals oder Theateraufführungen wird es immer wichtiger, dem Publikum ein dreidimensionales Klangerlebnis zu bieten. Bewegt sich ein Darsteller auf der Bühne von links oben nach rechts unten, so muss sich auch die Wiedergabe über das Beschallungssystem von links oben nach rechts unten bewegen. Dazu werden Werkzeuge zur Klangpositionierung verwendet. Ab einer gewissen Zahl an sich gleichzeitig bewegenden Schauspielern wird das manuelle Positionieren für den zuständigen Tontechniker jedoch nahezu unmöglich. Aus diesem Grund kommen Technologien zur automatischen Klangpositionierung zum Einsatz. Im Rahmen dieser Masterarbeit wird die Entwicklung und Implementierung einer Applikation beschrieben, welche die Integration solcher Trackingsysteme in SpatialSound Wave ermöglicht. Ausgehend von den Grundlagen des Trackings wird der aktuelle Stand der Technik im Bereich der 3D-Audio-Produktion analysiert und am Markt verfügbare Trackinglösungen vorgestellt. Auf Basis einer Situations- und Anforderungsanalyse ist zur Beschreibung der Einbindung in die bestehende Infrastruktur ein Nutzerkonzept entstanden. Das Resultat dieses Konzepts ist eine webbasierte Anwendung, welche unter Verwendung des Frameworks UI.FM prototypisch implementiert ist. Dieser Prototyp wird mittels geeigneter Methoden des Usability-Engineerings auf software-ergonomische Qualität evaluiert. Abschließend wird Stellung zu weiteren Entwicklungen an der realisierten Software bezogen und ein Ausblick auf mögliche Zukunftsszenarien des Trackings gegeben.



Winges, Manuel;
Untersuchung und Implementierung von Verfahren zur Klangquellentrennung in Schlagzeugaufnahmen. - 95 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

Ein wesentlicher Bestandteil des Music Information Retrieval ist die Trennung von Quellen in Klanggemischen. So wurden in den vergangenen Jahren viele Ansätze mittels nichtnegativer Matrixfaktorisierung (NMF) realisiert. Gerade für Echtzeitanwendungen, wie z.B. Online-Schlagzeugtranskription, eignet sich die NMF wegen ihrer geringen Komplexität und benötigten Rechenleistung. Trotz guter Transkriptionsergebnisse wurde deutlich, dass die Qualität der zugrundeliegenden Quellentrennung noch Verbesserungspotenzial hat. - Im Rahmen dieser Arbeit wurde sich daher mit echtzeitfähigen Verfahren der Quellentrennung von Schlagzeugklängen beschäftigt, die die bisherigen Ansätze erweitern sollen. So bildeten im Speziellen die Non-Negative Matrix Factor Deconvolution (NMFD) und die Non-Negative Matrix Factorization mit Markov Chained Bases (MNMF) den Kern der Untersuchung und Implementierung. Ihre Algorithmen wurden zur Anwendung in einem echtzeitfähigen Framework modifiziert. - Die Evaluation wurde über ein Testset mit synthetisch erzeugten Schlagzeugklängen evaluiert. Besonderes Augenmerk lag bei der Untersuchung auf der Qualität der getrennten Quellen. Dafür wurden bewährte perzeptuelle Evaluationsmaße verwendet. Es konnte festgestellt werden, dass die Qualität gegenüber der NMF für bestimmte Parameterkonstellationen verbessert werden kann. Diese sind jedoch vom Einzelfall abhängig und konnten bisher nur durch aufwendige Parameterraumsuchen bestimmt werden.



Räth, Hans-Jürgen;
Konzeption und Umsetzung eines Systems zur automatischen Evaluation von Annotatoren. - 71 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

Ausgehend davon, dass Mediendateien durch Bearbeitung einer anderen Datei entstehen können, und Metadaten vorliegen, die diese Bearbeitung beschreiben, wird in dieser Arbeit eine Datenbankstruktur erstellt, die diese Metadaten speichern kann. Ebenso beschäftigt sie sich damit, wie diese Informationen abgefragt werden können. Besonderer Wert liegt dabei auf der Abbildung der Vernetzung der voneinander abgeleiteten Dateien, wofür sich die Graphdatenbank OrientDB als bestes Framework zeigte. Die Suche nach Dateien, die bestimmte Parameter haben oder durch bestimmte Operationen erstellt wurden, kann damit performant erfolgen.



Pöpperl, Maximilian;
Design and analysis of dual polarized antenna arrays for channel sounding application. - 111 S.. Ilmenau : Techn. Univ., Masterarbeit, 2014

MIMO Verfahren werden heutzutage in verschiedensten Anwendungen verwendet. Besonders das sogenannte Beam-forming ist weit verbreitet. Mit dieser Methode ist es möglich die Sendequalität von drahtlosen Übertragungssystemen zu verbessern oder eine Lokalisierung des Senders durchzuführen. Dazu gibt es verschiedenste Anwendungsmöglichkeiten. Um einen solchen komplexen Algorithmus anwenden zu können, müssen besondere Vorgaben erfüllt sein. Insbesondere die Hardware muss den Herausforderungen eines MIMO Systems angepasst werden. Dazu gehören auch die verwendeten Antennen. In dieser Arbeit werden verschiedene Antennenkonzepte für den Einsatz in einem zirkularen, dual-polarisierten Antennen-Array für MIMO Anwendungen bei 2,53 und 5,2 GHz erstellt und untersucht unter Verwendung des Simulationstools Ansoft HFSS. Schließlich wird die gefertigte Gruppenantenne vermessen und damit die simulierten Ergebnisse verifiziert.



Bauer, Mathias;
Untersuchung zu Bewertungsunterschieden im Zusammenhang von Musik und Emotionen in Abhängigkeit von der Wahl des Antwortformates. - 60 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2014

Der Begriff "Emotion" ist gemäß dem derzeitigen Forschungsstand nicht exakt definierbar, weshalb es eine Vielzahl an unterschiedlichen Erklärungsversuchen und Emotionsmodellen gibt. Besonders im Bereich Musik gestalten sich die Klassifizierungsversuche bisher schwierig. Ein Anliegen dieser Arbeit ist es daher einen möglichst umfangreichen und differenzierten Einblick in das Feld der musikinduzierten Emotionen zu geben. Mit den, aus dem Bereich der Psychologie bereitgestellten, Self-Report Methoden können zunehmend klar verwertbare Resultate bezüglich der individuellen Bewertungen eines Menschen gewonnen werden. In der vorliegenden Arbeit soll der Fokus daher besonders auf verschiedene Arten dieser subjektiven Befragungsmethoden gelegt werden, sowie deren Auswirkungen auf die Beurteilungen in einer Testsituation. Auf Grundlage der Daten einer Studie bezüglich der Verwendung des Free-Choice Profiling und des Self-Assessment Manikin, soll in einem neu konzipierten Test mittels paarweisen Vergleichs geklärt werden, inwieweit sich die bereits erhaltenen Ergebnisse reproduzieren lassen. Die Auswahl geeigneter Teststimuli ist dabei ebenso Gegenstand der Arbeit, wie die umfassende Erläuterung der Testkonzeption, -durchführung und -auswertung. Eine abschließende Gegenüberstellung der drei Verfahren soll deren Vor- und Nachteile zutage fördern und Anhaltspunkte liefern, inwiefern die Bewertungen von Testteilnehmern durch die Eigenarten der einzelnen Methoden beeinflusst oder verzerrt werden können. Darüber hinaus werden bestehende Emotionsmodelle und Self-Report Methoden kritisch hinterfragt und Versuche unternommen neue Ansätze zu liefern, um zukünftige Bearbeitungen besser dem Bereich der Musik-Emotionsforschung anpassen zu können.



Hellfritzsch, Mathias;
Untersuchungen und Vergleich zur Definition der Nutzungsumgebung und des Einsatzes von Videokommunikation im professionellen und im privaten Bereich. - 229 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

Immer häufiger ist in Auslagen großer Technikanbieter und -konzerne zu beobachten, dass eine Vielzahl an Kommunikations- und Interaktionssystemen mit der Videokommunikation ausgestattet ist. Mit der Vielzahl an Möglichkeiten, die dem Nutzer hinsichtlich der Videokommunikation geboten werden, entstehen für den Nutzer ebenso viele Nutzungsumgebungen. Ziel der Arbeit ist, die realen Nutzungsumgebungen des Nutzers hinsichtlich der Videokommunikation abbilden zu können. Dabei wird der Fokus auf die private und professionelle Nutzungsumgebung gelegt. Hierzu ergeben sich folgende Forschungsfragen, die im Zentrum der Arbeit stehen: Wie ist der aktuelle Stand der Videokommunikation im privaten und im professionellen Environment? Welche Gemeinsamkeiten und welche Unterschiede bestehen zwischen privatem und professionellem Environment (Nutzungsangelegenheiten, Nutzungsumgebung, Nutzungsverhalten, Nutzungshäufigkeit, Stellenwert, Einflussfaktoren)? Der erste Teil der vorliegenden Arbeit gibt einen Einblick in die theoretischen Grundlagen der Videokommunikation. Neben der Klärung diverser Begrifflichkeiten wird ein Einblick in die Entwicklung der Videokommunikation und ein Überblick der aktuellen Marksituation der Videokommunikation gegeben. Im zweiten Teil der Arbeit wird sich mit den theoretischen Konzepten der jeweiligen Environments sowie deren Analysemöglichkeit auseinandergesetzt. Zentraler Punkt dieses Abschnitts ist, die theoretischen Vorüberlegungen aus dem ersten Teil der Arbeit mit der empirischen Untersuchung aus dem dritten Teil der Arbeit zu verbinden. Ausgehend von den jeweiligen Context-Kategorien werden hypothetisch Szenarien für potentielle Einflussfaktoren in den jeweiligen Environments entwickelt. Die hypothetischen Vorüberlegungen sind Grundlage für die im dritten Teil der Arbeit vorzustellenden Fragebögen. Die Fragebögen dienen der Untersuchung der realen Videokommunikationsgegebenheiten im privaten und im professionellen Environment. Erklärungen zum Aufbau und zur Zusammensetzung der Fragebögen sowie deren Auswertung ist Bestandteil des dritten Teils der Arbeit. Die gewonnenen Ergebnisse der Fragbögen der jeweiligen Environments sollen Antworten auf die Forschungsfragen geben, aus denen wiederum ein Abbild der Videokommunikationsnutzung in den beiden Environments erzielt werden kann. Die Arbeit endet mit einer Schlussbetrachtung, in der eine Einschätzung der Ergebnisse und deren Repräsentativität vorgenommen wird. Zudem wird ein Ausblick für die Nutzung der Videokommunikation gewagt.



Betz, Lorenz;
Vibroakustische Untersuchungen eines elektrodynamischen Wandlers in geschlossenen Gehäusen unterschiedlicher Geometrien. - 79 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Die Arbeit befasst sich mit dem Einfluss der Gehäusegeometrie auf das Schwingungsverhalten und die akustischen Übertragungseigenschaften geschlossener Lautsprecher. Bei sehr flachen und gleichzeitig langen Gehäuseformen treten Effekte auf, die durch die klassischen Berechnungsvorschriften geschlossener Lautsprecher nicht erklärt werden können. Im Detail ist dies ein Absinken der Resonanzfrequenz sobald die Gehäusetiefe bei konstantem Volumen reduziert wird. Dieser Effekt wird verstärkt, wenn zudem eine zweite Dimension verkleinert wird, so dass ein langes, flaches Lautsprechergehäuse entsteht. Der Einfluss der Gehäusegeometrie auf das Schwingungsverhalten wurde in vorangegangenen Arbeiten aufgezeigt und lässt sich durch die Oszillationseigenschaften der Luft im Gehäuseinneren sowie durch Grenzschichteffekte erklären. In dieser Arbeit werden die akustischen Auswirkungen der tieferen Resonanzfrequenz untersucht sowie weitere Parametervariationen durchgeführt. Neben einer Variation der Wandlerposition und der Membranmasse wird der Effekt an einem zweiten Wandler überprüft. Die Messergebnisse zeigen einen geringfügig höheren Schalldruckpegel unterhalb der Resonanzfrequenz, sobald die Gehäusetiefe bei konstantem Volumen reduziert wird. Verstärkt wird dieser Trend, wenn eine zweite Dimension des Lautsprechers minimiert und die Wandlerposition Richtung Rand verschoben wird. Eine interessante Beobachtung ergibt der Verlauf nichtlinearer harmonischer Verzerrung unterhalb der Resonanzfrequenz, der trotz größerer Membranauslenkung geringere Werte aufweist. Dies könnte ein Vorteil flacher, langer Gehäuse gegenüber konventionellen Gehäuseformen sein. Gleichzeitig steigt mit der Variation der Gehäusegeometrie aber auch der Einfluss von Stehwellen im Lautsprechergehäuse, der zu lokalen Minima und Maxima im Frequenzgang führt. Die Messungen an einem zweiten Wandler zeigen, dass der Einfluss der Gehäusegeometrie von verschiedenen Parametern, insbesondere der Membranmasse sowie der Steifigkeit der Aufhängung abhängt und dementsprechend unterschiedlich stark auftritt.



Sturm, Michael;
Untersuchung zur raumakustischen Entzerrung von Multikanallautsprechersystemen. - 118 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Bisherige Bemühungen zur raumakustischen Entzerrung von 3D-Audio-Applikationen sind in ihrer Komplexität oftmals praxisfern und deshalb in ihren Ergebnissen unzureichend. Die Equalisierung spielt jedoch bei der Anwendung von Multikanallautsprechersystemen eine entscheidende Rolle, da die erfolgreiche Synthetisierung des Zielschallfelds innerhalb einer Hörfläche von ihr abhängig ist. Diese Bachelorarbeit analysiert deshalb, mittels Messungen von Raumimpulsantworten, die Auswirkung von Reflexionen unterschiedlicher Lautsprecherpositionen auf verschiedene Punkte einer definierten Fläche. Auf dieser Grundlage wird anschließend ein Ansatz zu deren digitalen Entzerrung präsentiert, der ein Mittelungsschema über Raumimpulsantworten ausgewählter Messpositionen, inklusive einer ausreichenden spektralen Auflösung für das Filterdesign, umfasst. Durch die Berücksichtigung raumakustischer Grundlagen wird die Komplexität der Entzerrung reduziert und eine Praxistauglichkeit hergestellt, die eine Equalisierung von Hörflächen unterschiedlicher Räume ermöglichen soll. In einer Entzerrung mittels programmierter FIR-Filter wird dies, bezüglich spektraler Linearisierung der Hörfläche eines stark reflektiven Raumes, bestätigt. Weiterhin besitzt der Ansatz eine Gültigkeit für verschiedene Höhen dieses Bereichs. Die Grenzen des dabei verwendeten Filterdesigns verhindern allerdings bessere Ergebnisse. Mit diesem Ansatz findet eine tendenzielle Verringerung der Nachhallzeit, aber nur eine geringfügige Auswirkung auf Reflexionen innerhalb der Hörfläche statt, womit die Frage nach der erfolgreichen Equalisierung von 3D-Audio-Anwendungen offen bleibt. Die Übertragbarkeit auf beliebige Räume kann ebenfalls nicht geklärt werden.



Neute, Erik;
Exploration of webble technology for direct execution games. - 53 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2013

Diese Diplomarbeit erkundet die Möglichkeiten, die Webble Technology für Direct Execution Spiele bietet. Ein digitales Spiel wird als Direct Execution Spiel klassifiziert, wenn Meme Media Charakteristika relevant sind, das Spiels zu spielen. Dabei wird der Unterschied zwischen Spielen unterstrichen, bei denen Meme Media Objekte lediglich als Elemente visueller Programmierung genutzt werden und solchen Spielen bei denen die wichtigen inneren Funktionen auf den Eigenschaften der Technologie aufsetzen. Um den Umfang von Webble Technologie als wichtigste aktuelle Meme Media Plattform für die Erzeugung von Direct Execution Spielen zu erkunden, wird ein einfaches "Memory" Spiel erzeugt. So kommt man zu einer Einschätzung wie Webble Technologie für Direct Execution Spiele genutzt werden kann.



Pälchen, Sascha;
Anwendung von Methoden zur Bandbreitenerweiterung zur Optimierung von Kugelarrayauralisationen. - 80 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Mikrofonarrays mit kugelförmig angeordneten Mikrofonen erlauben eine dreidimensionale Abtastung räumlicher Schallfelder. Die so aufgezeichneten Messdaten können auf beliebigen Wiedergabesystemen, wie z.B. mithilfe der Wellenfeldsynthese (WFS) oder für die binaurale Wiedergabe über Kopfhörer auralisiert, also hörbar gemacht werden. Somit soll einem Hörer der Eindruck vermittelt werden, sich in dem gemessenen Raum zu befinden. Der Frequenzbereich, der fehlerfrei durch ein Mikrofonarray aufgezeichnet werden kann, ist stark von der verwendeten Array-Konfiguration abhängig. Auch Messfehler, wie räumliches Aliasing oder Mikrofonrauschen schränken die verwendbare Bandbreite des Arrays bei hohen bzw. niedrigen Frequenzen ein. Mithilfe von Verfahren zur psychoakustischen Bandbreitenerweiterung soll der Frequenzbereich bei der binauralen Auralisation von Kugelarraydaten erweitert werden. Basierend auf dem Prinzip der "missing fundamental" (deutsch: fehlender Grundton) kann dem Menschen auch beim Fehlen niedriger Frequenzen ein Tieftoneindruck vermittelt werden. Die Qualität der Tieftonwiedergabe wurde in einem subjektiven Hörtest untersucht und bewertet. Dabei wurde gezeigt, dass eine Bandbreitenerweiterung die Qualität der Wiedergabe bandbegrenzter räumlicher Schallfelder verbessern kann.



Richter, Daniel;
Erweiterung eines Verfahrens zur Bestimmung der Phasenkohärenz von komplexen Signalen. - 88 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Die Phasenkohärenz von komplexen Signalen ist ein neuer, vielversprechender Ansatz zur Beschreibung von raumakustischen Phänomenen. Es wird angenommen, dass sie unter anderem in Verbindung mit der Entfernung einer Schallquelle zum Hörer steht. Mit ihrer Hilfe soll sich weiterhin beschreiben lassen, wie stark ein Hörer an einem bestimmten Ort im Raum seine meist unbewusste Aufmerksamkeit auf eine akustische Darbietung fokussiert. In der Literatur wird eine Verringerung der Phasenkohärenz auf eine steigende Veränderung des Signals durch gleichzeitig beim Hörer eintreffende Reflexionen zurückgeführt. In dieser Arbeit wird ein bereits bestehendes Modell zur Bestimmung der Phasenkohärenz verbessert und um ein komplexes Gehörmodell erweitert. Das Gehörmodell bildet dabei die einzelnen Verarbeitungstufen des Gehörs vom Außenohr bis zu den ersten Synapsen am Ende des Innenohrs nach. Dadurch soll sowohl der Einfluss des Gehörs auf die resultierende Phasenkohärenz, als auch die Art und Weise wie sie durch das menschliche Gehör ausgewertet werden könnte, simuliert werden. Des Weiteren wurde das anschließende Verfahren zur Bestimmung der Phasenkohärenz überarbeitet und die Leistungsfähigkeit seiner einzelnen Verarbeitungsstufen gesteigert. Ziel der Arbeit ist die Überprüfung des vermuteten Zusammenhangs zwischen der Entfernung eines Schallereignisses und der Phasenkohärenz. Es wird weiterhin der Frage nachgegangen, in wie weit auch die Position des Hörers / der Schallquelle im Raum und bei binauralem Hören die Einfallsrichtung des Schalls neben der Entfernung eine Rolle spielen. Aus den Ergebnissen geht hervor, dass neben der Entfernung auch der jeweilige Raum, das dargebotene Signal und der Schalleinfallsrichtung gewisse Einflüsse auf die Phasenkohärenz haben. Es wurde festgestellt, dass die Mediane aller für eine Entfernung ermittelten Phasenkohärenzen mit zunehmender Distanz abnehmen, die Breite der Verteilung der Werte dagegen zunimmt und das der Quelle zugewandte Ohr in der Regel höhere Phasenkohärenzen aufweist, als das der Quelle abgewandte Ohr. Vereinzelt wurden jedoch auch Abweichungen von diesen Eigenschaften festgestellt.



Wronka, Johannes;
Design und Verifikation von Soundbeispielen zur Beschreibung der Emotionsdimensionen "Valence" und "Arousal". - 38 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Diese Bachelorarbeit beschreibt den Vorgang des Designs und der anschließenden Verifikation von Soundbeispielen, um diese in einem zweidimensionalen Modell mit den Achsen Valenz und Erregung abzubilden. Ziel der Arbeit ist es, 18 geeignete Beispiele zu erstellen, welche anhand der fünf Basisemotionen Freude, Angst, Wut, Ekel bzw. Ablehnung und Trauer, definiert nach Charles Darwin, klassifiziert werden können. Diese sollen danach in einem eigenen Hörtest geprüft werden. Anhand der zwei Dimensionen Valenz, Erregung, sowie der zusätzlichen dritten Dimension Dominanz, besteht die weitere Aufgabe in der grafischen Abbildung dieser Beispiele. Weiterführend soll untersucht werden, inwiefern die Manipulation dieser Sounds durch das Hinzufügen einer wahrnehmbaren Distanz eine Rolle für die emotionale Bewertung spielt und somit auch für die Abbildung im Valenz-Erregungs-Modell. Die Arbeit gliedert sich in vier Teile. Der erste behandelt die theoretischen Grundlagen und zeigt mögliche Messmethoden und Verfahren zur Evaluierung von Emotionen. Anhand dieser wird im zweiten Abschnitt die Planung, Erstellung und Durchführung des eigenen Hörtests erläutert. Den Abschluss bildet die Auswertung der ermittelten Daten sowie die anschließende Diskussion über die Ergebnisse. Es wird dargelegt, dass sich die erstellten Soundbeispiele zu weiten Teilen in den Bereichen des Valenz-Erregungs-Modells wiederfinden, die sich auch in anderen Studien ergaben. Weiterhin zeigen die Eintragungen, dass die überwiegende Mehrheit der manipulierten Sounds signifikante Änderungen bei der Bewertung von Erregung sowie Dominanz aufweisen und sich somit eine Abhängigkeit der dimensionalen Bewertung des Hörers bzgl. der wahrgenommenen Distanz ergibt.



Albrecht, Alexander;
Psychoakustisch motivierte Schallfeldzerlegung bei der Auralisation von Kugelarraydaten. - 80 S.. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2013

Kugelmikrofonarrays erlauben eine räumliche Analyse von Schallfeldern. Die daraus gewonnen Daten können anschließend weiterverarbeitet und wiedergegeben werden, um dem Hörer den Eindruck zu vermitteln er befinde sich im gemessenen Raum. Dieser Prozess wird als Auralisation bezeichnet. Die Verarbeitung der gemessenen Daten erfolgt über rechenaufwändige Algorithmen. In diesem Zusammenhang werden alle Schritte der Arraysignalverarbeitung für die Auralisation vorgestellt. Diese Bachelorarbeit beschäftigt mit der Analyse der Raumdaten in Bezug auf psychoakustische Effekte. Basierend auf den Ergebnissen der Analyse werden mögliche Optimierungsansätze der Datenverarbeitung vorgestellt. Der Fokus liegt hierbei auf einer Optimierung im Zeitbereich, wobei das Schallfeld in einen frühen und späten Anteil zerlegt wird. Der frühe Anteil wird mit einer höheren Genauigkeit berechnet als der späte Anteil. Eine Optimierung im Frequenzbereich wird konzeptionell dargestellt. Zur Evaluierung der Optimierungsansätze werden diese mittels eines Hörtest analysiert und ausgewertet. Die Ergebnisse zeigen, dass mit dem präsentierten Ansatz eine deutliche Beschleunigung der Datenverarbeitung und Reduzierung des Speicherbedarfs erreicht werden kann.



Krieg, Fabian;
Investigation of support vector machines for rhythm pattern classification. - 129 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Im Rahmen dieser Bachelorarbeit wurde untersucht, in wie weit eine Software zur Klassifikation von Musik nach ihren rhythmischen Eigenschaften durch die Nutzung von Support Vektor Maschinen ausgebaut werden kann. Dabei kam in der Referenzimplementierung ein k-Nearest-Neighbour Verfahren zum Einsatz, wobei eine Vorselektion relevanter Pattern über andere Audiomerkmale vorgenommen wurde. Für die Beschreibung der rhythmischen Eigenschaften wurden die Log-Lag-AKF sowie eine Darstellung im Zeitbereich genutzt. Zum Abgleich der Pattern kamen mehrere Ähnlichkeitsmaße auf Basis der Kreuzkorrelation zum Einsatz. Dabei wurde die Nutzung weicher Maxima eruiert, über die durch eine Summierung aller Überlagerungen eine mathematisch valide Kernfunktion definiert werden kann. Weiterhin wurde eine Kernfunktion entwickelt, die eine Begrenzung auf wenige Verschiebungen ermöglicht. Außerdem wurde untersucht, inwieweit sich über einfache synthetisierte Referenzpattern eine ausreichende Abbildung der Pattern entwickeln lässt. Die einzelnen Verfahren wurden bei Tests an zwei verschiedenen Datensätzen hinsichtlich ihrer Klassifikationsgüte sowie ihres Rechenaufwands geprüft. Dabei hat sich gezeigt, dass keines der Verfahren die Referenzimplementierung in beiden Aspekten übertreffen kann. Die Gründe hierfür werden untersucht und dargestellt.



Krüger, Stefan;
Untersuchung drahtloser Musikübertragungstechniken und Integration in einen Flachlautsprecher. - 99 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Die Arbeit befasst sich mit der Untersuchung drahtloser Musikübertragungstechniken und deren prototypischer Integration in ein Flachlautsprechersystem des Fraunhofer IDMT. Es werden technische Grundlagen zu den Verfahren Bluetooth, UPnP/DLNA und AirPlay erläutert, genutzte Protokolle analysiert und verwendete Codecs betrachtet. Im Anschluss erfolgt die Entwicklung eines Demonstrator-Systems, mit dem die untersuchten Verfahren in die Schaltungselektronik des Flachlautsprechersystems integriert werden können. Die Standardschnittstelle IS, zur Übertragung digitaler Audiodaten zwischen integrierten Schaltkreisen, wird vorgestellt und zur Anbindung des Demonstrators an den Signalprozessor des Flachlautsprechers implementiert. Ein MUSHRA-Hörtest und Messungen anhand des Demonstrators liefern Aufschluss darüber, inwiefern sich die drahtlosen Musikübertragungstechniken hinsichtlich ihrer Audioqualität am Flachlautsprecher unterscheiden. Gleichzeitig wird der Vergleich zur kabelgebundenen Zuspielung angestellt. Unter Berücksichtigung weiterer, für den Einsatz im Flachlautsprecher relevanter, Faktoren wird schließlich die Empfehlung für eine der Technologien ausgesprochen. Hinwiese zur schaltungstechnischen Integration eines marktüblichen drahtlosen Audiomoduls in die Flachlautsprecherelektronik schließen die Arbeit ab.



Leimeister, Matthias;
Implementation and evaluation of a system for drum pattern detection and retrieval in polyphonic music. - 80 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

Diese Masterarbeit beschreibt ein System zur Erkennung und Klassifizierung von Schlagzeugpattern in polyphonen Musikstücken. Basierend auf Quellentrennung durch nichtnegative Matrixfaktorisierung (NMF) wird das Vorkommen von Bass und Snare Drums im Eingangssignal erkannt. Das Ergebnis dieser automatischen Transkription wird anschließend einer Mustererkennung unterzogen, die mit Hilfe von Deep Learning den Taktanfang bestimmt und das gefundene Muster anhand einer Datenbank von typischen rhythmischen Stilen klassifiziert. Das System wurde im Hinblick auf die Verwendung in einer elektronischen DJ-Software entwickelt.



Pabst, Kai;
Evaluierung einer binauralen Simulation einer zweikanaligen Stereo-Lautsprecherwiedergabe. - 60 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Die binaurale Wiedergabe von Audiosignalen über Kopfhörer ermöglicht die gehörrichtige Abbildung auditiver Umgebungen. Diese Arbeit umfasst eine Untersuchung der gehörrichtigen Kopfhörerwiedergabe unbearbeiteter zweikanaliger Stereo-Signale durch die binaurale Simulation einer optimal positionierten zweikanaligen Lautsprecherwiedergabe für zwei auditive Umgebungen. Anhand der Messung von individuellen Raumimpulsantworten wird die binaurale Simulation über ein zweikanaliges Shaping- und Panning-Verfahren erstellt. Die halbautomatisierten MATLAB-Verfahren ermöglichen eine individuelle Anpassung. Die Evaluierung erfolgt über einen dreiteiligen Hörtest der Grundgesamtheit von 28 Nicht-Experten Hörern. Diese Arbeit untersucht Ursachen und Zusammenhänge der Distanzwahrnehmung, der Richtungswahrnehmung sowie der subjektiv wahrgenommenen Klangqualität für zweikanalige Stereo-Signale. Die Ergebnisse des Hörtests zeigen, dass über die vorgestellten Verfahren eine gezielte Veränderung des auditiven Distanzeindruckes möglich ist ohne die Lokalisationsgenauigkeit zu verringern. Die Klangqualität der zweikanaligen Stereo-Audiosignale ist hierdurch beeinträchtigt. Die binaurale gehörrichtige Simulation einer zweikanaligen Stereo-Lautsprecherwiedergabe ist mit Einschränkungen dazu geeignet, die subjektive Wahrnehmung einer auditiven Umgebung gezielt zu verändern.



Weber, Feliks;
Development of a real-time algorithm for drum-sound detection. - 76 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2013

Musik Transkription hat sich über die Jahre zu einem breit gefächerten Forschungsfeld entwickelt. Ein spezieller Fall dessen ist die automatisierte Schlagzeug Transkription, für die im Zuge dieser Diplomarbeit ein Echtzeitalgorithmus zur Detektion von Schlagzeugsignalen, mit dem Schwerpunkt auf Bassdrum, Snare und Hi-Hat, entwickelt werden sollte. Zur Quellentrennung dienen bereits implementierte Methoden, mittels denen ein den Echtzeitalgorithmus beinhaltendes System zur Schlagzeugdetektion implementiert wird. Wie bereits in der Literatur erwähnt, benutzt dieses System die so genannte nicht-negative Matrix Faktorisierung zur Quellentrennung. Diese zerlegt ein polyphones Schlagzeugsignal in seine Komponenten und wird von einer Onset Detektion gefolgt. Zur Evaluation wurde ein ca. neun-minütiges Test Set mit 3219 annotierten Onsets erstellt, welches sich aus drei verschiedenen Schlagzeugkategorien zusammensetzt. Diese Schlagzeugkategorien orientieren sich dabei am späteren Anwendungsfall für das Songs2See Spiel und beinhalten Sounds von synthetischen, sample-basierten und realen Schlagzeugen. Die besten Ergebnisse erziehlte das implementierte System bei den realen Schlagzeugen mit einer Genauigkeit von 98 %. Dieses System dient somit als technologische Grundlage für eine spätere Implementierung in Songs2See.



Kruh-Elendt, Andre;
Untersuchungen zum Einfluss der Abtastfrequenz auf die binaurale Auralisation. - 60 S.. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2013

Interaurale Laufzeitunterschiede (ITDs) spielen in der Schallquellenlokalisation eine große Rolle. Höhere Abtastraten bewirken eine bessere Zeitauflösung bei binauralen Aufnahmen. Da diese Zeitauflösung bei den ITDs eine Rolle spielt, könnte dadurch auch die Schallquellenlokalisation verbessert werden. Anhand eines Hörversuches wurden Veränderungen in der Wahrnehmung der Winkelauflösung und in der Bewegungswahrnehmung von Schallquellen in der Horizontalebene untersucht. Die Ergebnisse zeigen eine leichte Tendenz für die Verbesserung der Winkelauflösung im frontalen Bereich. Eindeutige, signifikante Ergebnisse, die für die Vorteilhaftigkeit von höheren Abastraten in der Binauraltechnik sprechen, konnten anhand der Untersuchungen jedoch nicht gefunden werden.



Tobian, Denise;
Klassifikation von Videoszenen auf Basis visueller Eigenschaften. - 182 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

Die Anzahl an Multimediadaten wächst stetig, weshalb eine automatisierte Organisation und Verwaltung unumgänglich wird. Ein wichtiger Schritt in diesem Zusammenhang besteht in der automatisierten Klassifikation der Semantik des Datenmaterials. Diese Semantik spiegelt sich jedoch in einer Vielfalt an Konzepten wider, die es nach Möglichkeit individuell zu betrachten gilt. So wurden im Rahmen dieser Arbeit häufig verwendete Konzepte identifiziert und bzgl. ihrer charakteristischen Merkmale untersucht, um im Rahmen des maschinellen Lernens jedes Konzept anhand der jeweils relevanten Merkmale zu repräsentieren. Zur Klassifikation wurden dabei Konzepte genutzt, die unter anderem die Tageszeit bzw. die räumliche Umgebung eines Bildes näher beschreiben. Zusätzlich fanden Stimmungskonzepte sowie detaillierte Beschreibungen Anwendung. Dabei wurde im Rahmen der Evaluationen eine Vielzahl an Farb- und Texturmerkmalen so reduziert, dass bzgl. der Charakteristik eines jeweiligen Konzepts schließlich die Merkmalskombination gefunden wurde, welche die Klassifikationsgüte steigert. Diese Auswahl wurde auf ihre Gültigkeit für unterschiedliche Daten analysiert sowie durch zusätzliche Untersuchungen verifiziert. Darüber hinaus wurden weitere Einflussparameter, die sich auf den Klassifikationsprozess auswirken, identifiziert und anhand unterschiedlicher Evaluationen optimiert, bspw. die Bildauflösung zur Merkmalsextraktion, die Zusammenstellung des Datensatzes bzgl. Video- und Fotodaten sowie die Klassifikation von semantischen Konzepten unter Berücksichtigung von Beziehungen. Weiterhin wurde die Klassifikation und Evaluation von Multi-Labels optimiert, um auch an der Stelle die Klassifikationsgüte zu steigern. Ein wichtiger Punkt dabei bestand darin, Schwellwerte zu ermitteln auf deren Basis die Klassifikation erfolgen kann. Aufbauend auf den Erkenntnissen der durchgeführten Evaluationen wurde ein Framework entwickelt, das die einzelnen Optimierungsschritte berücksichtigt und die weitere Evaluation bzw. Klassifikation von Bilddaten vornimmt. Schließlich konnte die Klassifikationsgüte für die einzelnen Konzepte im Rahmen dieser Arbeit in jedem Fall gesteigert werden. Die Klassifikation von Multi-Labels auf Basis der optimierten Schwellwertbestimmung sowie die Berücksichtigung von Beziehungen erzielten dabei die größte Verbesserung der Klassifikationsgüte.



Männchen, Andreas;
Entwicklung eines echtzeitfähigen Verfahrens zur automatischen Saitenerkennung in monophonen und polyphonen Gitarrenaufnahmen. - 59 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Diese Arbeit befasst sich damit, ein Verfahren zu entwickeln, dass die Saitenerkennung auf Basis von monophonen und polyphonen Gitarrenaufnahmen in Echtzeit ermöglicht. Das hier vorgestellte Gesamtsystem behandelt zwei Teilprobleme der Gitarrentranskription: die reine Transkription, bestehend aus Onset- und Tonhöhenerkennung, die in diesem Fall Mehrstimmigkeit unterstützen muss, und die Zuordnung der Töne zu den entsprechenden Saiten. Die polyphone Tonhöhenerkennung wird durch das Einbetten einer dem Stand der Technik entsprechenden Methode in ein Teilsystem zur Extraktion von Tonkandidaten aus dem Signal realisiert. Aufbauend auf den Ergebnissen dieses ersten Teilschritts werden die spektralen Positionen und Amplituden der Harmonischen der Tonkandidaten abgeleitet, die zur frameweisen Feature-Extraktion und anschließenden Klassikation mittels einer Support Vector Machine (SVM) genutzt werden. Der Klassikationsprozess beruht auf einem maschinellen Lernverfahren und wird durch die Aggregation der Klassikationsergebnisse der einzelnen Frames und einen Plausibilitätslter erweitert. Das System wurde in MATLAB implementiert und zur Umsetzung mit Echtzeitfähigkeit nach C++ portiert. Die Evaluation der Leistungsfähigkeit des präsentierten Verfahrens erfolgt in einer Reihe von Experimenten mit unterschiedlichem Fokus anhand eines manuell annotierten Datensatzes bestehend aus Aufnahmen unterschiedlicher E-Gitarren.



Li, Wei;
Individuelle Auswahl nicht individueller Außenohrübertragungsfunktionen auf Basis von optimierten Datensätzen. - 75 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

In den letzten Jahren haben sich die Multimedia-Technologien schnell entwickelt. Es werden immer höhere Anforderungen an die Qualität gestellt. Die audiovisuelle Technik zieht immer mehr Aufmerksamkeit auf sich, z.B. die binaurale Technik. In dieser Technik spielt die Außenohrübertragungsfunktion (engl.: Head Related Transfer Function, HRTF) eine wichtige Rolle. Die Richtungsdarstellung kann durch die Faltung des HRIRs bzw. HRTFs mit den Audiosignalen realisiert werden. Die HRTFs sind für jeden Benutzer individuell. Für jeden Benutzer soll ein HRTF-Set aus einer Datenbank individuell ausgewählt werden. Eine große Datenbank führt allerdings zu einer längeren Auswahlprozedur. Das bedeutet erhöhten Zeitaufwand im Auswahlverfahren. Um diesen Zeitaufwand zu beseitigen, legt diese Arbeit den Fokus auf die Gruppierung der HRTF-Sets in einer Datenbank. Vier Gruppierungsmethoden werden in dieser Arbeit entwickelt und vorgestellt. Außerdem wird ein passendes Auswahlverfahren entwickelt, das Auswahl-Tool. Für einen Lokalisierungstest wird ein Test-Tool entwickelt. Alle Programme wurden in MATLAB realisiert. Die Optimierungsmöglichkeiten für bessere Ergebnisse werden in dieser Arbeit vorgeschlagen.



Zahn, Alexandra;
Entwicklung und Evaluation von Verfahren zur Detektion von rhythmischen Mustern in Videos. - 123 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

Die vorliegende Masterarbeit beschreibt die Entwicklung eines Systems zur Detektion und Klassifizierung von rhythmischen Mustern in Videosequenzen. Der äußere visuelle Rhythmus manifestiert sich in Form von Montagestrukturen. Diese entsprechen den Konzepten "regular", "progressive", "alternating" und "random" und werden vom System unter Verwendung von eindeutigen Vorschriften hierarchisch erfasst und differenziert. Einheiten des inneren visuellen Rhythmus kommen in ihrer Ausprägung globalen Bewegungsvarianzen gleich, die den Klassen "no motion", "fluid" und "staccato" gerecht werden. Grundlage für die Erkennung rhythmischer Patterns innerhalb der Einstellungen bildet eine frameweise globale Bewegungsschätzung, die unter Einsatz eines Gaussian Mixture Models (GMM) sowie einer Support Vector Machine (SVM) realisiert wird. Auf Basis dieser Klassifikation können zeitliche Bewegungsänderungen in Art und Tempo in einem Deskriptor festgehalten werden. Das Merkmal dient im Verlauf zur Klassifizierung der rhythmischen Elemente, wiederum mithilfe einer SVM. Um die Teilkomponenten des Systems in ihrem Funktionsumfang hinreichend bewerten zu können, wurde ein Datenset bestehend aus 136 Schnittfolgen und 7953 Einstellungen aus den Kategorien Werbung, Spielfilm, Musik und Sport angelegt. Die besten Parameterkonfigurationen der implementierten Module lieferten diesbezüglich eine maximale mittlere Detektionsgenauigkeit von 79% für die Patterns des äußeren visuellen Rhythmus. Muster innerhalb der Shots konnten mit einer mittleren Genauigkeit von 66,5% klassifiziert werden.



Menzel, Franz;
Entwicklung und Evaluation von Technologien zur verlaufsbezogenen Videoanalyse für cross-modales Mapping. - 136 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

Die Vertonung von Fernseh- oder Kinofilmen stellt für Produktionsfirmen einen zeit- und kostenaufwändigen Prozess dar. Hier sind Verfahren erwünscht, die die Suche nach einer musikalischen Untermalung anhand passender dramaturgischer Eigenschaften aus verfügbaren Musikdatenbanken automatisiert durchführen können. Vor diesem Hintergrund wurde im Rahmen der vorliegenden Arbeit ein entsprechendes System zur Prädiktion zeitlicher Stimmungsverläufe in Bewegtbildfolgen entwickelt. Ein bestehendes Set an visuellen Merkmalen ist diesbezüglich um relevante Methoden zur Erkennung der Stimmung erweitert worden. Zur Evaluation des konzipierten Systemablaufs wurde ein Datensatz aus 200 Videosequenzen zusammengestellt und durch Probanden hinsichtlich der zeitlichen Verläufe bewertet. Dabei erfolgte eine genauere Betrachtung der Stimmungsdimensionen Valence und Arousal sowie der fünf Low-Level Konzepte Helligkeit, Farbigkeit, Farbtemperatur, Detailgrad und Bewegungsintensität. Die Regressionsmethoden Multiple Linear Regression (MLR), Partial Least Square Regression (PLSR) und Support Vector Regression (SVR) wurden zur Prädiktion unbekannter Verläufe herangezogen und miteinander verglichen. Das System erzielte eine maximale Genauigkeit von 35% für Valence und 48% für Arousal. Die beste Vorhersage konnte dabei durch die MLR in Kombination mit einer zeitlichen Glättung sowie Box-Cox-Transformation der Merkmale erreicht werden. Auf Grundlage der geschätzten Verläufe wurde die Möglichkeit zur Erfassung des Stimmungstrends untersucht. Eine Klassifikation in "steigend", "konstant" und "fallend" erreichte eine Genauigkeit von 49% für Valence und 60% für Arousal.



Schnemilich, Marcel;
Untersuchung des Einflusses der Geometrie eines Lautsprechergehäuses auf das Schwingungsverhalten eines elektrodynamischen Wandlers. - 91 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

In der Dissertation "Untersuchungen zum Einsatz von Flachlautsprechern an schallreflektierenden Grenzflächen" von Daniel Beer wurden drei Lautsprecher mit gleichem Innenvolumen, aber unterschiedlicher Innentiefe dieses Volumens vermessen. Entgegen der klassischen theoretischen Betrachtung von Lautsprechern, wurde dabei ein Einfluss der Form des Gehäuses auf die Resonanzfrequenz der Lautsprecher beobachtet. Je geringer die Gehäusetiefe bei dieser Untersuchung war, desto tiefer lag die Resonanzfrequenz. Anhand der Messergebnisse wurden naheliegende Vermutungen innerhalb dieser Dissertation angestellt, wie sich diese Beobachtung erklären lässt. Es konnte allerdings keine abschließende Klärung dieses Effektes vollzogen werden. Das Ziel dieser Arbeit bestand in der weiteren Untersuchung dieses beobachteten Effektes. Es sollte dabei die Abhängigkeit der Form des Lautsprechergehäuses auf das Verhalten des Lautsprechers untersucht werden. Dazu wurde die Dimensionierung des benötigten Luftvolumens über die Thiele- & Small-Parameter analysiert. Hierbei findet keine Berücksichtigung der Form des Luftvolumens statt. Es wurde vermutet, dass es in wandnahen Bereichen des Lautsprechergehäuses zu einer Herausbildung einer akustischen Grenzschicht kommt und durch diese die Herabsenkung der Resonanzfrequenz zu erklären ist. Die Berechnungen an geschlossenen Lautsprechersystemen berücksichtigen, in Folge der Vernachlässigung von Viskosität und Wärmeleitfähigkeit der Luft, keine Effekte in der akustischen Grenzschicht. Durch die Simulation von Lautsprechermodellen konnte das Entstehen einer akustischen Grenzschicht nachgewiesen werden. Auch deren Einfluss auf die Verschiebung der Resonanzfrequenz wurde herausgestellt. Die Simulation zeigte allerdings, dass bereits mit der mathematischen Beschreibung der Modelle unter Vernachlässigung von Viskosität und Wärmeleitung der Luft, eine Verschiebung der Resonanzfrequenz zu erklären ist. Hierzu wurde unter anderem eine Eigenfrequenzanalyse eines Modells durchgeführt. Es lässt sich ein Zusammenhang zwischen der Schallschnelle im Gehäuse und der Resonanzfrequenz des Systems erschließen. Da bei einer Kugelschallwelle die Schnelle einen Blindanteil besitzt und dieser die mitschwingende Mediumsmasse charakterisiert, legt dies den Verdacht nahe, dass die Verschiebung der Resonanzfrequenz im Zusammenhang mit dieser Masse steht. Durch diese Relation kann die Verschiebung der Resonanzfrequenz bei den unterschiedlichen Lautsprechergehäusen mit unterschiedlicher Form, aber gleichem Volumen erklärt werden. Weiterhin konnte gezeigt werden, dass sich bei einer zusätzlichen Variation des Lautsprechergehäuses eine weitere Herabsenkung der Resonanzfrequenz vollzieht. Ist das Luftvolumen nicht nur besonders flach, sondern zusätzlich auch besonders lang, wurde nahezu eine Halbierung der Resonanzfrequenz in der Simulationssoftware festgestellt. Diese weitere Verschiebung konnte mit einer realen Messung an einem gebauten Lautsprecher nachgewiesen werden.



Orben, Frank;
Klassifikation von Fernsehsendern in mobilen Videoaufnahmen. - III, 131 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2013
- Enth. außerdem: Thesen

Die vorliegende Diplomarbeit beschäftigt sich mit dem Thema der Detektion und Klassifkation von TV-Sender Logos. Es wird ein Algorithmus zur Detektion von Senderlogos vorgestellt, implementiert und evaluiert. Eine Anschließende Merkmalsextraktion und Klassifkation mit Hilfe von maschinellem Lernen wird durchgeführt und evaluiert. Ein Alternativer Prozess der Logoklassifkation, basierend auf einem Verfahren, welches markante Punkte im Bild auswählt und beschreibt, wird vorgestellt und evaluiert. Aktuelle Forschungsergebnisse auf dem Feld der TV-Logo Detektion und Klassifkation werden in dieser Arbeit recherchiert und zusammengefasst. Es wird überprüft ob und wie Ansätze aus der Literatur auf Videoaufnahmen, welche mit einem mobilen Endgerät angefertigt worden, angewandt werden können und welche Herausforderungen solche Aufnahmen mit sich bringen. Umfangreiche Datensätze, welche auch für zukünftige Arbeiten verwendet werden können, werden in dieser Arbeit erstellt. Für bestimmte Szenarien werden Klassifkationsergebnisse mit einer Genauigkeit von über 95% erreicht.



Trier, Oliver;
Distanzabbildung in Binauralsystemen. - 47 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Realistisch wirkende virtuelle Umgebungen werden sowohl in der Industrie, als auch in der Forschung immer wichtiger, um verschiedenste Szenarien visuell als auch akustisch naturgetreu simulieren zu können. Um die akustische räumliche Wahrnehmung zu realisieren, bietet sich dafür die binaurale Kopfhörerwiedergabe an. Für eine virtuelle räumliche Darstellung scheint die genaue Wahrnehmung der Schallquellendistanz von Bedeutung zu sein. Dahingehend wird in dieser Arbeit eine Kunstkopfmessung durchgeführt, in der die Ü bertragungsfunktionen von 0 bis 180 in fein abgestuften Distanzen im Nahfeld gemessen werden, um entstandene binaurale Raumimpulsantworten hinsichtlich verschiedener Distanzmerkmale genauer zu untersuchen. Als Ergebnis zeigt sich, dass insbesondere im Nahfeld die verschiedenen Distanzmerkmale unterschiedlich stark ausgeprägt sind. Eine präzise Parametrisierung von Distanzeigenschaften könnte somit eine wichtige Rolle für das menschliche Entfernungshören spielen, da kleine Distanzänderungen von wenigen Zentimetern die Übertragungsfunktionen, aufgrund von Abschattungs- und Beugungseffekten an Torso, Kopf und Ohrmuschel, stark beeinflussen.



Meißner, Henri;
Vergleich unterschiedlicher Fokussierungsverfahren mit Lautsprecheranordnungen im Mittel-/Hochtonbereich. - 69 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Räumliche Audiowiedergabeverfahren wie die Wellenfeldsynthese oder das Beamforming ermöglichen die Erzeugung von fokussierten Schallquellen zwischen Lautsprecheranordnung und Hörer. Da das erzeugte Schallfeld dem einer realen Schallquelle sehr ähnlich ist, kann akustische Nähe mit fokussierten Schallquellen erreicht werden. Die verwendeten Wiedergabeverfahren sind aber zumeist mit einer großen Lautsprecheranzahl und dementsprechenden Abmessungen verbunden. Es gilt zu untersuchen, ob Aufwand (Qualität und Anzahl der Lautsprecher) und Abmessungen (Größe und Abstand der Lautsprecher) der Wiedergabeverfahren reduziert werden können, wenn diese ausschließlich fokussierte Schallquellen für eine einzelne Person erzeugen sollen. Es wird ein Versuchsaufbau vorgestellt, der es gestattet, die Auswirkung der Reduzierung fokussierender Verfahren auf die menschliche Wahrnehmung von akustischer Nähe zu untersuchen. Der Versuchsaufbau besteht aus einem modularen Lautsprecherarray und einer Algorithmenberechnung in Matlab und erlaubt die Variierung von Anzahl und Abstand der Lautsprecher sowie der Berechnung der Ansteuerungsfunktionen. In einem Hörtest werden der akustische Näheeindruck dieser Faktoren von 17 Probanden relativ zu einer realen Schallquelle auf Lautsprecherebene bewertet. Die Ergebnisse werden durch Messungen der interauralen Pegeldifferenz mithilfe eines Kunstkopfes ergänzt und mit ähnlichen Untersuchungen aus der Literatur verglichen.



Veit, Quirin;
Softwarearchitektur und -implementierung für ein Werkzeug zur semi-automatischen Annotation von Videos. - 137 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

Am Fraunhofer IDMT werden Anwendungen im Bereich des maschinellen Sehens entwickelt. Hierfür werden \emph{Ground Truth} Daten benötigt, die den semantischen Inhalt, die Struktur oder Eigenschaften einer Mediendatei beschreiben und von einem oder mehreren Menschen erstellt werden. Auf Basis dieser Referenzdaten können Algorithmen semantische Konzepte antrainiert werden. Um die Auswirkungen von Anpassungen während der Entwicklung und/oder die Leistungsfähigkeit unterschiedlicher Algorithmen vergleichen zu können, sind ebenfalls Groud Truth Daten notwendig. Die Verfügbarkeit und Qualität dieser Daten ist dabei von entscheidender Bedeutung, um aussagekräftige Ergebnisse zu erhalten. Während für Bilddaten zahlreiche öffentlich zugängliche und umfangreiche Daten-Sets existieren, besteht für Videos ein Mangel derartiger Datenbanken. Ein Grund dafür ist der hohe zeitliche Aufwand bei der manuellen Erstellung von Annotationen durch die Beschaffenheit von Videodaten. Ein weiterer Grund ist ein Mangel an ausgereiften und flexibel einsetzbaren Annotationswerkzeugen, welche neben zeitlichen örtliche Annotation ermöglichen. Im Rahmen dieser Arbeit wurde ein Werkzeug zur raum-zeitlichen Annotation von Videodaten entwickelt, das flexibel eingesetzt und über Schnittstellen erweitert und angepasst werden kann. Um den zeitlichen Annotationsaufwand zu reduzieren wurden Automatismen integriert, welche dem Nutzer eine effiziente Annotation zeitlicher wie auch örtlicher Eigenschaften ermöglicht. Zur Gewährleistung einer hohen Nutzerfreundlichkeit wurde die Software unter Berücksichtigung von Usability-Aspekten konzipiert.



Spindler, Philipp;
Entwicklung eines Wiedergabesystems für 3D-Klangregie. - 75 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

Audiowiedergabeverfahren wie die Wellenfeldsynthese (WFS) ermöglichen die synthetische Rekonstruktion akustischer Wellenfelder. Durch Positionierung virtueller Schallquellen können virtuelle Klangszenen geschaffen und beispielsweise Orchester realitätsgetreu nachgebildet werden. Auf Grund der bei der Wellenfeldsynthese benötigten hohen Anzahl an Lautsprechern arbeitet das Fraunhofer IDMT in Ilmenau an 3D-Audiowiedergabeverfahren wie dem SpatialSound Wave (SSW), welches dreidimensionale Klanggestaltung mit einer deutlich niedrigeren Lautsprecheranzahl ermöglicht. Selbst Systeme mit z.B. 60 Lautsprechern stellen an kleine Räumlichkeiten wie häusliche Tonstudios hohe finanzielle sowie Platzanforderungen. In der vorliegenden Masterarbeit wird ein Wiedergabesystem auf Basis von SSW vorgestellt, welches räumliche Audiowiedergabe mit weniger als zehn Lautsprechern ermöglicht. Es werden informell zwei Lautsprecheranordnungen in Form von Empfehlungen für den Endanwender erarbeitet, die diesem als Orientierung dienen. Die Aufstellung der Lautsprecher ist an die Gegebenheiten des Endanwenders flexibel anpassbar. Das Wiedergabesystem ist zusätzlich in der Lage größere Lautsprecheranlagen zu simulieren. Toningenieuren wird die Möglichkeit einer Vorproduktion von Audiomaterial eröffnet, die diese zu Hause im Tonstudio oder im Übertragungswagen von Rundfunkanstalten mobil leisten können. Für die Untersuchungen dieser Masterarbeit wird die Simulation von Lautsprechersetups konzeptioniert und mit einem Hörversuch evaluiert. Letzterer wird entworfen, durchgeführt und ausgewertet. Die Evaluation des entwickelten Wiedergabesystems berücksichtigt die Richtungs- und Entfernungswahrnehmung virtueller Quellen in realen und virtuellen Produktionsumgebungen.



Amer, Abdullah;
Further development of primates identification system. - 77 S.. Ilmenau : Techn. Univ., Masterarbeit, 2013

Anhand mehrerer unabhängiger Studien wurde gezeigt, dass das Artensterben in den letzten Jahrzehnten immer mehr zugenommen hat. Zur Überwachnung der verbleibenden Populationen gefährdeter Arten werden immer häufiger autonome Video- oder Audioaufnahmegeräte benutzt. Um die resultierende Menge an Daten effizient auswerten zu können, werden automatisierte Algorithmen benötigt. Im Rahmen der vorliegenden Arbeit zum Thema Identifikation von Primaten wurden mehrere Algorithmen analysiert und modifiziert um ausreichend gute Erkennungsleistungen zu gewährleisten. Dabei wurden verschiedene globale Merkmale, wie z.B. Gabor Wavelets, und lokale Merkmale, wie z.B. SIFT oder SURF, durch verschiedene Fusionstechniken kombiniert um eine möglichst hohe Identifikationsrate zu erreichen und gleichzeitig das System robuster gegenüber Posen- und Lichtveränderungen zu machen. Verschiedene Klassifikatoren, wie z.B. Sparse Representation Classification oder Support Vector Machines, wurden genutzt um detektierte Gesichter einzelnen Individuen zuzuordnen. In einer Reihe durchgeführter Experimente wurden vielversprechende Ergebnisse erzielt.



Frutos Bonilla, Javier;
Development of an application for the integration of room simulation and reverberation time extension into 3D sound systems. - V, 94 S.. : Ilmenau, Techn. Univ., Masterarbeit, 2013

Diese Masterarbeit beschäftigt sich mit der Konzeption und Integration eines Raumsimulationsmoduls in Beschallungssysteme zur räumlichen Schallfeldwiedergabe des Fraunhofer IDMT. Gefordert wird, dass die Raumsimulation nicht nur für große Hörerflächen, sondern auch in kleineren Veranstaltungsorten anwendbar ist. Das konzipierte Modul nutzt psychoakustische Prinzipien aus, um in Abhängigkeit der Quell- und Zuhörerpositionen einen plausiblen räumlichen Klangeindruck zu schaffen. Dafür werden dedizierte Lautsprecher verwendet, um Reflexionen zu simulieren und somit den Klangeindruck für verschiedene Hörerflächen zu optimieren. Ein Prototyp wird in Matlab implementiert und im 3D-Präsentationsraum von Fraunhofer IDMT installiert. In einem subjektivem Hörtest werden 3 Konditionen evaluiert: die Lokalisation von Quellen in verschiedenen virtuellen Umgebungen, die Plausibilität des räumlichen Eindrucks und die Stabilität der Raumsimulation über allen Zuhörerspositionen.



Goecke, David;
Erstellung und psychoakustische Bewertung verschiedener Presets für ein räumliches Klangeffektgerät. - 42 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2013

Der Einsatz von Effekten für die Stereo-Soundwiedergabe von Audiosignalen ist bereits gängige Praxis geworden. Diese Arbeit beschreibt Voruntersuchungen, die als Basis für die Entwicklung eines 3D-Klangeffektgerätes dienen. Eine Anwendung ist für verschiedene Wiedergabeverfahren denkbar. Hier werden Untersuchungen für die Wellenfeldsynthese und das SpatialSound Wave des Fraunhofer IDMT durchgeführt. Beide Methoden ermöglichen die akustische Darstellung von Audiosignalen als virtuelle Schallquellen mit real wirkender Raumakustik und mit kreativ erzeugten Effekten. Mithilfe psychoakustischer Bewertungen neuer Effekte, mit denen das Potenzial eines 3D-Klangeffektgerätes analysiert werden kann, wird eine erste Konzeptidee eines 3D-Klangeffektgerätes erarbeitet, und wichtige Eigenschaften vorgestellt.



Jauch, Christian;
Untersuchungen zur Definition der geeigneten Testumgebung für subjektive Qualitätsbeurteilung von visuellen Darstellungen im Heimkontext. - V, 77 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2013

Diese Arbeit stellt die Fortsetzung einer im Vorfeld gelaufenen Studie dar. Ziel war es, den Heimbereich hinsichtlich der Fernsehnutzung zu untersuchen. Es sollten durchschnittliche Werte gefunden werden, um eine standardisierte Umgebung zu finden, in der subjektive Tests von Fernsehgeräten durchgeführt werden können. Momentan gibt es zu diesem Thema keine ausreichenden Untersuchungen. Die Studioumgebung hingegen wird umfassend beschrieben und stellt die Referenz dar. In ihr werden Fernsehgeräte einem kritischen Umfeld ausgesetzt. Die Definition des Home Environments im Standard ITU-R BT.500-13 diente als Ausgangspunkt der Studie. Mehrere Datenerhebungsmethoden standen zur Auswahl, wobei das Interview vor Ort den Vorrang erhielt. Bei jeder Testperson wurden anschließend Beleuchtungswerte und raumspezifische Daten erfasst. Die Werte der im Vorfeld gelaufenen Studie und die der neuen wurden in einen Gesamtdatensatz mit insgesamt 61 Testreihen zusammengefasst und ausgewertet. Es entstand ein Profil, das kritische Werte für die Überprüfung von Fernsehgeräten im Heimbereich enthält. Die Umgebungsdetails wurden gesondert ausgewertet. Das hierbei entstandene Modell konnte auf Grund mangelnder Daten nur grob umrissen werden. Die Studie stellt einen weiteren Schritt auf der Suche nach einer standardisierten Heimumgebung dar. Es ist davon auszugehen, dass diesbezüglich noch einige umfangreichere Studien durchgeführt werden, bis ein Durchbruch zu erwarten ist.



Rueppel, Anna;
Interaktives Audio-Display: theoretische und praktische Aspekte. - 52 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2012

Die Möglichkeit Informationen akustisch über ein auditives Display darzustellen ist ein vielseitiges Mittel der Informationsdarstellung und -verarbeitung. Klängen wird eine festgelegte Bedeutung oder Funktion zugeordnet und kann die visuelle Informationsverarbeitung ergänzen oder ersetzen. Die Interaktion mit Klängen bietet die Möglichkeit Informationen zu manipulieren und dessen Verständnis zu steigern. Werden Klänge oder Geräusche in einem räumlichen Umfeld wiedergegeben, sind zusätzliche Aspekte der Lokalisation von Bedeutung. Die Bestimmung der Herkunftsrichtung akustischer Ereignisse ist hauptsächlich von den Klangeigenschaften abhängig. Im Rahmen dieser Arbeit wurde eine Beispielimplementierung in der Form eines räumlichen auditiven Spiels erstellt um, die Interaktion mit unterschiedlichen Klängen zu untersuchen. Da das Spiel für eine große Lautsprecherwand entwickelt wurde, spielen weiterhin die Unterscheidung, sowie die vertikale und horizontale Lokalisation mehrerer zeitgleicher Schallquellen eine wichtige Rolle. Die Auswahl geeigneter Klänge und Verbesserung der Spieleigenschaften wurde mithilfe eines Probandentests durchgeführt.



Zabel, Anett;
Vergleich von Hörtestmethodiken zur Beurteilung der räumlichen Wahrnehmung bei binauraler Kopfhörerwiedergabe. - 70 S.. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2012

In dieser Arbeit werden drei Hörtestmethoden auf ihre Eignung zur Untersuchung der räumlichen Wahrnehmung bei binauraler Wiedergabe untersucht. Als quantitative Methoden werden dabei eine Zeiger- und die Herstellungsmethode, als qualitative Methode die Repertory - Grid - Methode verwendet. Eine besondere Analyse und Protokollierung findet dabei über die Anwendung letzterer statt. Die daraus gewonnenen Erkenntnisse sollen als Anwendungs- und Hilfestellungsrichtlinien für weitere Untersuchungen dienen. Neben dem Vergleich der Hörtestmethoden findet eine Zusammenstellung von Parametern und deren Einfluss auf die räumliche Wiedergabe statt. Die Ergebnisse dieser Arbeit zeigen, dass die quantitativen Methoden schnell und vergleichsweise präzise messen, wohingegen die qualitative Methode die umfangreichsten Ergebnisse liefert. Ein weiteres Ergebnis ist, dass die wichtigsten Parameter für die räumliche Wahrnehmung bei binauraler Wiedergabe die Externalität, Natürlichkeit und das Zusammenspiel von Content und Klanggestaltung sind.



Heise, Georg;
Untersuchungen zum Zusammenhang zwischen der Ohrkanalresonanzfrequenz und den richtungsabhängigen Merkmalen der Außenohrübertragungsfunktion. - 135 S.. Ilmenau : Techn. Univ., Masterarbeit, 2012

Das Erzeugen von virtuellen akustischen Welten bietet viel Potential. An dem Thema wird stetig geforscht und bereits vorhandene Technologien verbessert. Diesbezüglich ist es wichtig zu verstehen, wie die menschliche Schallwahrnehmung genau funktioniert. Außenohrübertragungsfunktionen (engl.: HRTF) beschreiben im Wesentlichen die Veränderung des Schalls von einer Schallquelle bis zum Trommelfell. Es ist bereits bekannt, dass sie einen wesentlichen Teil zur Schalllokalisation beitragen. In dieser Arbeit werden Untersuchungen durchgeführt, um herauszufinden, ob eventuell ein Zusammenhang zwischen der richtungsunabhängigen Ohrkanalresonanzfrequenz und den richtungsabhängigen Merkmalen der Außenohrübertragungsfunktion besteht und ob die Ohrkanalresonanzfrequenz unter Umständen als eine Art Referenz für die Schallanalyse des menschlichen Gehirns dienen könnte. Um dies zu erreichen werden zunächst individuelle Messungen durchgeführt. Daraufhin werden auf deren Basis diverse binaurale Ohrsignale für anschließende Hörversuche generiert. Bei diesen Ohrsignalen wird die Hauptohrkanalresonanzfrequenz durch Modifizierungsfilter in unterschiedliche Frequenzbereiche künstlich verschoben. Die Hörversuche gliedern sich zum Einen in einen Selbstversuch, welcher auf individuell gemessenen HRTFs basiert, und zum Anderen in einen Probandentest auf Grundlage einer HRTF-Datenbank. Untersucht wird dabei im Wesentlichen, ob die Modifizierung der Ohrkanalresonanz Einfluss auf die Kriterien Entfernung, Richtung bzw. Richtungsänderung und Quellenbreite hat. Als Ergebnis werden teilweise interessante Schallquellenbewegungen beobachtet, welche als Grundlage für weitere Arbeiten dienen könnten. Bezüglich der Entfernung und der Quellenbreite lassen sich kaum Veränderungen feststellen. Insgesamt lassen sich keine Erkenntnisse gewinnen, die mit Sicherheit auf die Verschiebung der Ohrkanalresonanzfrequenz zurückzuführen sind.



Sass, Rebecca;
Synthese binauraler Raumimpulsantworten. - 113 S.. Ilmenau : Techn. Univ., Masterarbeit, 2012

Mit Hilfe der Binauraltechnik können dreidimensionale akustische Szenen gehörrichtig wiedergegeben werden. Sowohl die Position einer Schallquelle relativ zum Hörer als auch die räumliche Beschaffenheit des Hörerumfeldes lassen sich authentisch reproduzieren. Alle Informationen, die das Gehör benötigt, um einen dreidimensionalen Höreindruck zu schaffen, sind dabei für Freifeldbedingungen in kopfbezogenen Übertragungsfunktionen beziehungsweise in Gegenwart von Reflexionen in binauralen Raumimpulsantworten kodiert. Ihr Einsatz ermöglicht die gehörrichtige Wiedergabe akustischer Szenen und stellt somit einen essentiellen Bestandteil der Binauraltechnik dar. Im Rahmen dieser Arbeit wird ein Algorithmus entwickelt, der durch Interpolation zwischen zwei gemessenen Datensätzen binaurale Raumimpulsantworten synthetisiert. Im Vordergrund steht dabei die Interpolation zwischen Entfernungen sowie zwischen verschiedenen Räumen. Es werden zwei Syntheseverfahren implementiert. Das erste Verfahren basiert auf einer linearen Interpolation der Amplitudenwerte jedes Samples im Zeitbereich für die Erzeugung neuer Datensätze. Im zweiten Verfahren wird dieser Ansatz um eine vorherige ideale Ausrichtung der beiden zu interpolierenden binauralen Raumimpulsantworten zueinander auf der Zeitachse durch Dynamic Time Warping erweitert. In zwei Räumen werden binaurale Raumimpulsantworten für verschiedene Distanzen als Grundlage für die Synthese neuer Datensätze mit dem entwickelten Algorithmus aufgenommen. Für jeden der Räume wird mit beiden implementierten Verfahren eine Interpolation zwischen den binauralen Raumimpulsantworten verschiedener Schallquellenentfernungen durchgeführt. Außerdem findet eine Interpolation mit beiden Verfahren zwischen den Räumen statt. Die Syntheseergebnisse werden in einem Hörversuch evaluiert. Anhand der Distanzwahrnehmung und der wahrgenommenen Externalität für alle Synthesereihen werden die prinzipielle Eignung der synthetisierten Impulsantworten für die binaurale Wiedergabe, die Plausibilität der mit ihnen reproduzierten akustischen Szenen und die dabei auftretenden Wahrnehmungseffekt untersucht.



Hesse, Markus;
Mikrofonierung mit dem "Motion Tracked Binaural" Verfahren. - 90 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2012

Die vorliegende Diplomarbeit befasst sich mit der Konzeption und Konstruktion des "Motion Tracked Binaural" Mikrofonarrays sowie mit dessen messtechnischer Untersuchung. Dazu wird zuerst eine Simulationssoftware entwickelt. Mit Hilfe dieser werden durch die Variation von Schlüsselparametern eine geeignete Anzahl von Mikrofonen und das fehlerärmste Interpolationsverfahren für die Rekonstruktion des Schallfeldes um die Kugel gefunden. Aufbauend auf den Ergebnissen wird ein MTB Mikrofonarray gebaut und der Einfluss der Kugel im freien Schallfeld mit den Resultaten der Simulation verglichen. Die Entwicklung einer Wiedergabesoftware rundet die vorliegende Arbeit ab. Die Messungen zeigten prinzipiell ähnliche Ergebnisse wie die Simulation. Die größten Interpolationsfehler bei der Rekonstruktion des Schallfeldes um die Kugel entstanden dabei auf der schallabgewandten Seite. Weiterhin erwies sich die Interpolation im Frequenzbereich als fehlerärmste Methode. Die daraufhin entwickelte Wiedergabesoftware bedient sich dieser Ergebnisse und ermöglicht eine gleichzeitige Aufnahme aller Mikrofone und die Wiedergabe der interpolierten Ohrsignale.



Göbel, Klemens;
Gegenüberstellung sensorischer Profile von Testsets guter und schlechter Qualität. - 61 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2012

In der Qualitätsevaluation von audiovisuellen Inhalten reichen rein objektive Maße zur Bewertung von Qualität oft nicht aus, denn mit Ihnen kann keine Aussage getroffen werden, in wiefern ein Nutzer Fehler überhaupt wahrnimmt und bewertet. Aber auch rein quantitative Tests auf perzeptiver Ebene geben nicht genügend Einblicke in die Hintergrundmechanismen der Bewertungen. In der modernen Qualitätsforschung setzen sich daher bereits neue Methoden, die unter anderem die erlebte subjektive Qualität des Nutzers in den Mittelpunkt ihrer Betrachtung stellen, durch. Eine Voruntersuchung und Analyse bereits durchgeführter sensorischer Studien an der TU Ilmenau ergab die Anhaltspunkte, dass sich die Bewertung guter zu derjeniger schlechter Qualität hinsichtlich der benutzten Qualitätsbewertungskriterien unterscheiden könnten. Es ist daher von Interesse zu untersuchen, wie sich tatsächliche sensorische Profile verhalten, wenn 'nur gute' oder 'nur schlechte' audiovisuelle Inhalte im Vergleich bewertet werden. Dazu ist eine Studie entwickelt und durchgeführt worden. Diese greift in einem kombinierten Ansatz aus psychoperzeptiver und deskriptiver sensorischer Methode die aufgeworfene Fragestellung auf und zeigt die sich ausprägenden Charakteristiken der Profile.



Krasser, Johannes;
Implementierung und Untersuchung von Merkmalen und Algorithmen für die Berechnung musikalischer Ähnlichkeit auf Basis von Klangobjekten. - 107 S.. Ilmenau : Techn. Univ., Masterarbeit, 2012

Aufgrund der steigenden Zahl an online verfügbarer Musik, wächst der Bedarf an automatischen Verfahren zur Musiksuche und -empfehlung. Das Ziel dieser Masterarbeit ist die Entwicklung eines Systems, das eine verbesserte, inhaltsbasierte musikalische Ähnlichkeitssuche auf Basis von Tonobjekten ermöglicht. Die Ähnlichkeitssuche wird als Genre-Klassifikationsaufgabe aufgefasst. - Tonobjekte werden mit Hilfe von Algorithmen zur zeitlichen und spektralen Separation extrahiert. Der vorgestellte Ansatz wird mit einem Basissystem verglichen, welches mit Frames arbeitet, deren zeitliche Auflösung festgelegt ist. Außerdem wird das Verfahren mit einem neu entworfenen System verglichen, das mit den einzelnen Instrumentalspuren von 75 Mehrspuraufnahmen arbeitet, die fünf musikalischen Genres zugeordnet sind. Für alle Experimente werden zwei Audiomerkmale extrahiert, die Aussagen über das Timbre treffen. Anschließend werden mit Verfahren des maschinellen Lernens Modelle trainiert. - Der entwickelte Ansatz erreicht F-Maße von etwa 0,93 und erzielt damit deutlich bessere Ergebnisse als das Basissystem. Ähnliche Verbesserungen können festgestellt werden, wenn ein größerer Datenbestand mit 1000 Musikstücken und einer Taxonomie von zehn Genres verwendet wird. Dies demonstriert die Anwendbarkeit des Verfahrens auf realistische Musikdatensätze. Die Ergebnisse zeigen, dass ein Tonobjekt-basierter Ansatz die musikalische Ähnlichkeitssuche verbessert, da er stärker musikalisch motiviert ist als eine Frame-basierte Methode.



Bönsel, Carsten;
Entwicklung eines Videoanalyseverfahrens zur automatischen Erkennung der Handposition der Greifhand in Gitarrenaufnahmen. - 110 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2012

Die vorliegende Bachelorarbeit befasst sich mit der Detektion der Greifhandposition aus einzelnen Videoframes in Gitarrenaufnahmen. Neben den Ergebnissen einer Grundlagenrecherche und der Beleuchtung verwandter Forschungsarbeiten aus dem Bereich der multimodalen Musiktranskription wird ein neuer Ansatz vorgestellt, der über ein mehrstufiges Videoanalyseverfahen die Bundlage berechnet. Diese wird nach beendeter Analyse über den Zeitverlauf des Musikstücks ausgegeben. Der ermittelte Parameter kann als Vektor gelesen und im Rahmen des Information Retrievals weiter verwertet werden. Darüber hinaus liegt der Arbeit eine Sammlung von Teststücken unterschiedlicher Spieltechniken, Stilistiken und Genres, sowie entsprechende Videoaufnahmen bei, welche eigens zu Evaluationszwecken erstellt wurden. Alle Noten stehen in verschiedenen, zum Teil offenen Formaten zur Verfügung. Das hier entwickelte Verfahren erreichte in praktischen Tests eine je nach Analysematerial schwankend hohe Erkennungsrate größer 70%. Anhand der gewonnenen Ergebnisse kann der Einsatz visueller Analyse zu Zwecken der Fehlerkorrektur und der Eliminierung von musikalischen Mehrdeutigkeiten in der automatischen Musiktranskription empfohlen werden.



Kuhnke, Felix Konstantin;
Entwicklung eines echtzeitfähigen Time-Stretching Algorithmus unter Einbeziehung von transkriptionsbasierten Metadaten. - 46 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2012

Diese Arbeit ist Teil des Forschungsprojekts "Songs2See - Musikvisualisierung und Musiksuche für interaktive Anwendungen anhand transkriptionsbasierter Analyseverfahren", welches derzeit am Fraunhofer Institut für Digitale Medientechnologie erforscht wird. Ziel dieser Arbeit ist die Entwicklung eines echtzeitfähigen Time-Stretching und Pitch-Shifting Algorithmus für Musiksignale unter Einbeziehung von transkriptionsbasierten Metadaten. Der Algorithmus soll abschließend als Teil einer Anwendung der Adobe Flash-Plattform implementiert werden. Neben der Auswahl und Implementierung eines geeigneten Algorithmus beschäftigt sich die Arbeit mit der Verwendung von transkriptionsbasierten Metadaten. Dazu wurde analysiert, in welcher Form diese zur Verbesserung des Algorithmus eingesetzt werden können. Ergebnis der Arbeit ist die Auswahl und Implementierung des Phase Vocoder Algorithmus. Zusätzlich wurde eine Möglichkeit zur Nutzung von transkriptionsbasierten Metadaten in Form von Notenanschlägen zur Verbesserung der Audioqualität entwickelt. Der anschließende Hörtest zeigte, dass die Einbeziehung der Metadaten die Audioqualität in den meisten Fällen verbessern kann.



Sammer, Sven;
Untersuchungen zu Probanden-Auswahlverfahren für auditive Qualitätsuntersuchungen. - 106 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2012

Die Probandenauswahl spielt im Rahmen von auditiven Qualitätsuntersuchungen eine wesentliche Rolle, um Testergebnisse zu erhalten, mit welchen Aussagen über die zu analysierende Zielstellung getroffen werden können. Die für diese Thematik notwendigen Grundlagen und Definitionen zur Schallwahrnehmung sowie eine Analyse der bereits bekannten Methoden zu Lokalisationsuntersuchungen werden erläutert und gegeneinander abgewägt. Weiterhin wird der Aufbau des konzipierten Probandenauswahlverfahrens beschrieben und dessen Wirksamkeit anhand der Durchführung getestet. Da bei bisherigen auditiven Untersuchungen meist nur einfache Hörtests zur Untersuchung der Eignung der Probanden stattfinden ist das Ziel im Rahmen dieser Arbeit mittels einer Kombination aus webbasiertem Fragebogen, Audiogramm und Lokalisationstest auf Basis der Plantechnik eine geeignete Auswahl an Testpersonen zu erhalten, die der definierten Zielstellung entsprechen. Dabei sollen vor allem die auditiven Fähigkeiten der Versuchspersonen im Zusammenhang mit der Lokalisation des akustischen Schallereignisses und Externalisierung bei der binauralen Kopfhörerwiedergabe überprüft werden. Als Resultat werden Vorschläge bzw. Empfehlungen für die Anwendung der ausgewählten Auswahlverfahren für Studien zur auditiven Qualitätswahrnehmung aufgestellt.



Füg, Simone;
Untersuchungen zur Distanzwahrnehmung von Hörereignissen bei Kopfhörerwiedergabe. - 133 S.. Ilmenau : Techn. Univ., Masterarbeit, 2012

Im Zeitalter der virtuellen Realität ist es für ein realistisches Zusammenspiel von visuellem und auditivem Eindruck sinnvoll, neben der Richtung einer Schallquelle auch ihre Distanz reproduzieren zu können, ohne dass dabei die Menge der benötigten Daten immens ansteigt. Eine denkbare Wiedergabeart dazu ist die binaurale Kopfhörerwiedergabe. In dieser Arbeit werden zwei Algorithmen für eine gezielte Veränderung der Distanzwahrnehmung bei binauraler Kopfhörerwiedergabe entwickelt. Die Algorithmen verändern systematisch entfernungsabhängige Eigenschaften von binauralen Raumimpulsantworten. Die Zusammenhänge zwischen der Entfernung von Quelle und Abhörpunkt und ausgewählten Merkmalen basieren auf einer ausführlichen Auswertung gemessener binauraler Impulsantworten und einer detaillierten Betrachtung der Mechanismen des menschlichen Entfernungshörens. Zahlreiche entfernungsabhängige Eigenschaften der Impulsantworten ermöglichen es dem Menschen, die Distanz von Schallquellen wahrzunehmen. Diese Eigenschaften sind unter anderem die Anfangszeitlücke, das Verhältnis von Direktschall- zu Nachhallenergie sowie die Maße C50 und C80 und die Nachhallmerkmale T20 und T30, die sich in der Energieabklingkurve wiederfinden lassen. In den entwickelten Algorithmen werden ausgewählte Merkmale in binauralen Impulsantworten gezielt in Abhängigkeit des gewünschten Entfernungseindrucks angepasst. Die Evaluation geschieht über einen Multi-Stimulus-Hörversuch mit versteckter Referenz. Das Ergebnis des Hörversuchs zeigt, dass sich der Entfernungseindruck durch Anwendung der Algorithmen beeinflussen lässt. Die Leistungsfähigkeit der Algorithmen hängt nicht vom wiedergegebenen Signal, wohl aber vom auralisierten Raum ab. Die algorithmische Änderung entfernungsabhängiger Eigenschaften in binauralen Raumimpulsantworten eignet sich also mit Einschränkungen dazu, bei binauraler Kopfhörerwiedergabe einen gewünschten Entfernungseindruck hervorzurufen.



Hellmich, Mathias;
Erstellung einer Datenbank von kopfbezogenen Impulsantworten. - Online-Ressource (PDF-Datei: V, 46 S., 6,64 MB). Ilmenau : Techn. Univ., Bachelorarbeit, 2012
- Enth. außerdem: Thesen

Dreidimensionale Wiedergabe von Bild und Ton sind derzeit einige der wichtigsten Forschungsfelder für die Medienwiedergabe. Um eine binaurale Tonwiedergabe, mit der ein dreidimensionales Tonerlebnis erzeugt wird, ermöglichen zu können, werden kopfbezogene Übertragungsfunktionen eines Kunstkopfes aufgenommen und in einer Datenbank gespeichert. Diese Funktionen beschreiben sehr präzise die Richtungsmerkmale von Schallquellen anhand von nur zwei Wiedergabequellen. Die Wiedergabe findet dabei über Kopfhörer statt. Da diese Übertragungsfunktionen stark von individuellen Hörern abhängig sind, konnte noch keine kommerzielle Verwendung gefunden werden. Diese Arbeit beinhaltet die Grundlagen, auf denen die binaurale Wiedergabe basiert. Sie befasst sich mit binauralen Merkmalen sowohl im allgemeinen als auch speziell bei kopfbezogenen Übertragungsfunktionen. Ebenso werden verschiedene Mikrofonierungsverfahren angesprochen. Es wird eine Datenbank von kopfbezogenen Übertragungsfunktionen anhand eines Kunstkopfes aufgenommen. Die Durchführung des Vorhabens wurde mitsamt dem Aufbau und den auftretenden Problemen erläutert. Das Endergebnis dieser Arbeit ist eine umfangreiche und möglichst genaue Datenbank aus kopfbezogenen Übertragungsfunktionen für die horizontale Ebene. Vergleiche zu Messungen mit Probanden wurden durchgeführt und analysiert, um eine Grundlage für die effektive Erstellung einer individualisierten Datenbank zu liefern. Die entstandene Datenbank soll später sinnvoll zu weiteren Forschungszwecken eingesetzt werden können.



http://www.db-thueringen.de/servlets/DocumentServlet?id=20448
Heyder, Kerstin;
Konzeption eines Adaptivitätsmodells und dessen Implementierung in einem benutzerorientierten Autorenwerkzeug für die personalisierte Lernerfolgskontrolle. - 154 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2012

Assessments in E-Learning-Umgebungen sind in den letzten Jahren zunehmend beliebt geworden. Der orts- und zeitunabhängige Charakter und die steigende Interaktivität durch neue Formen der zwischenmenschlichen Kommunikation sind hauptsächlich dafür verantwortlich. Um eine möglichst reale Lernsituation auf ein Computersystem zu übertragen, kommen immer häufiger adaptive Methoden zum Einsatz, die den Verlauf eines Assessments an individuelle Eigenschaften des Lernenden, wie bspw. seinen Wissensstand, anpassen. Ziel dieser Arbeit ist die Konzeption und Implementierung der Adaptivitätskomponente des Systems askme!, das gegenwärtig am Fraunhofer IDMT mit dem Bestreben nach personalisierter Lernerfolgskontrolle entwickelt wird. Die Grundlage der Adaptivitätskomponente ist ein Adaptivitätsmodell, welches den Prozess der Adaption innerhalb des Systems charakterisiert und beschreibt, wie die Adaption erreicht wird. Anhand des Adaptivitätsmodells wird ein Autorenwerkzeug zur Erstellung adaptiver Tests konzipiert und in askme! integriert.



Jürgens, Frank;
Kurven gleicher Lautheit bei binauraler Kopfhörerwiedergabe. - 88 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2012

Aus der Literatur ist bekannt, dass sich für gleichlaut empfundene Schalle, vergleichend für Lautsprecher- und Kopfhörerwiedergabe, unterschiedliche Schalldruckpegel im Gehörgang ergeben. Diese Differenzen werden als frequenzabhängige Schalldruckpegel-Lautheits-Divergenzen (kurz SLD) definiert. Erfolgt die Kopfhörerwiedergabe jedoch mit binauralen kopfbezogenen Schallsignalen ergibt sich die idealisierte Hypothese, dass keine SLD auftreten kann. In der vorliegenden Arbeit wird diese These mittels der Kurven gleicher Lautheit für Lautsprecher- und Kopfhörerwiedergabe sowie über direkte Lautstärkevergleiche beider Beschallungsarten untersucht. Dafür wurde mittels adaptiven 1 up / 1 down (2-AFC) Test der Frequenzbereich von 920 Hz bis 6400 Hz mit frequenzgruppenbreitem Schmalbandrauschen analysiert. Aufgrund einer eventuellen Richtungsabhängigkeit der SLD wurden die gleichlaut empfundenen Schalle für die horizontalen Schallquellenpositionen 0 Grad und 60 Grad bestimmt. An den Hörversuchen nahmen insgesamt 23 Versuchspersonen im Alter zwischen 18 und 29 Jahren teil. Das Durchschnittsalter betrug 22 Jahre. Die Untersuchung ergab, dass bei nicht-individueller binauraler Synthese Kopfhörer und Lautsprecher bei gleichem Schalldruckpegel als unterschiedlich laut empfunden wurden. Das Ausmaß der Lautheitsdifferenzen variierte dabei frequenzabhängig, wobei sich aber beide Hörtestergebnisse voneinander unterscheiden. Des Weiteren ergab ein Vergleich der frontalen zur seitlichen Beschallung, dass die SLD weitgehend unabhängig von der horizontalen Schalleinfallsrichtung ist.



Dörr, Martin;
Verlaufsbezogene Stimmungsannotation von Musikstücken. - 126 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2012

Mit der steigenden Anzahl an weltweit verfügbaren Musiktiteln wird die Organisation von Musikdatenbanken zu einer immer größeren Herausforderung. Die bisherigen Strategien zur Organisation von Musikdatenbanken sind mitunter für große Datenmengen ineffizient. Es ist daher sinnvoll, weitere Möglichkeiten zur Charakterisierung von Musik zu untersuchen. Die Emotion in der Musik ist eine dieser Möglichkeiten. In dieser Arbeit wurde die automatische Annotation von zeitabhängigen Stimmungsverläufen mithilfe eines Regressionsansatzes untersucht.



Frohberg, Sören;
Materialaktive Lautsprecher basierend auf Array-Technologie. - 108 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2012

Der thematische Gegenstand dieser Diplomarbeit ist die Realisierung und anschließende messtechnische Untersuchung eines Flachlautsprecher-Demonstrators. Die Verwendung einer ausgewählten, alternativen Wandlertechnologie zur Schallerzeugung soll im Vergleich zum elektrodynamischen Wandlerprinzip eine deutlich geringere Bautiefe des Lautsprechers ermöglichen. Die Grundlagen zu Biegewellen in dünnen, isotropen Platten und die Recherche zu den Eigenschaften piezoelektrischer Werkstoffe bilden die Basis für den Entwurf des Demonstrator-Konzepts. Durch Aufbringen eines piezoelektrischen Schwingerregers auf eine dünne Plattenmembran soll diese durch die Auslenkungen des Wandlers zu Biegeschwingungen angeregt und dadurch eine Luftschallabstrahlung hervorgerufen werden. Messungen zu den technischen und akustischen Eigenschaften des Demonstrators geben Aufschluss über das Potenzial des entwickelten Lautsprecherkonzeptes. Ausgehend von den erzielten Ergebnissen einer einzelnen Plattenmembran werden durch Kombination mehrerer Einzelplatten zu einem Array die sich daraus ergebenden Eigenschaften ebenfalls messtechnisch erfasst und herausgearbeitet. Zielstellung hinsichtlich der akustischen Lautsprechereigenschaften ist ein breites Wiedergabespektrum bis zu den tiefen Frequenzen des Hörbereichs und die Realisierung eines möglichst hohen Schalldruckpegels.



Winges, Manuel;
Untersuchung und Visualisierung von Rhythmus- und Samplingplagiaten in Musik. - 64 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2012

Die Gruppe Semantische Musik Technologien am Fraunhofer Institut für Digitale Medientechnologie beschäftigt sich mit Methoden zur automatischen Analyse von Musik. In der Vergangenheit wurden unter anderem Verfahren zur Bestimmung von Ähnlichkeiten zwischen Musikstücken und Algorithmen zur Transkription der Hauptmelodie und Rhythmusspur entwickelt. Ziel der Arbeit ist es, zwei gegebene Musikausschnitte auf den Verdacht des Plagiarismus zu untersuchen. Dabei sollen Ähnlichkeiten im Rhythmus, sowohl Wiederverwendung von Originalaufnahmen (Sampling) erkannt werden. Rhythmusplagiate beinhalten sowohl Ähnlichkeiten im Zeitverlauf der Rhythmuskomponenten als auch Klangfarbenähnlichkeiten. In der Tonhöhe oder Geschwindigkeit manipulierte Rhythmusinstrumente und Samples werden ebenfalls identifiziert. Für die Bestimmung rhythmischer Ähnlichkeit werden die Musikausschnitte mittels Nicht-negativer Matrix-Faktorisierung (NMF) in rhythmische Basisvektoren zerlegt. Zeitlich korrelierende Vektoren werden dabei gruppiert und zu Instrumenten rekonstruiert. Die separierten Quellen werden über Korrelationsansätze miteinander verglichen. Für die Samplingdetektion werden die Segmente ebenfalls mittels NMF zerlegt und das Auftreten ähnlicher Klänge verglichen. Die Algorithmen werden in ein bereits existierendes Framework integriert und visuell dargestellt.



Genthner, Johannes;
Konzeption und Implementierung eines Autorenwerkzeugs zur benutzerorientierten Modellierung von Domänen für ein webbasiertes System zur adaptiven Lernerfolgskontrolle. - 181 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Das Domänen-Modell bildet die Wissensbasis eines adaptiven Systems. Es beschreibt die elementare Struktur einer Domäne oder eines Wissensgebiets mithilfe von Konzepten und Konzeptbeziehungen. Das Nutzer- und Adaptivitätsmodell können diese Repräsentation im Anschluss nutzen, um adaptive Entscheidungen zu treffen, die das Systemverhalten zum Zwecke der Personalisierung und Individualisierung an den einzelnen Nutzer anpassen. Dabei hängt die Zusammensetzung sowie die Granularität der einzelnen Domänen-Elemente maßgeblich von der zu erreichenden Adaptivität sowie den Bedürfnissen der weiteren, in den Assessment-Prozess involvierten Systemkomponenten ab. Auch sind geeignete Autorenwerkzeuge nötig, die den Nutzern das Erstellen der Wissensgebiete und ihrer Zusammenhänge über eine graphische Oberfläche ermöglichen. Hier zeigt sich, dass diese im Bereich adaptiver Systeme größtenteils funktional ausgelegt sind und nur wenig Potential im Hinblick auf eine einfache und benutzerorientierte Modellierung der Domänen bieten. Im Rahmen dieser Arbeit soll für das adaptive Assessment-System \textit{askme!} die Domänen-Komponente, bestehend aus dem zugrunde liegenden Domänen-Modell sowie dem Autorenwerkzeug, entworfen und anschließend implementiert werden. Dabei steht vor allem das Autorenwerkzeug im Fokus, welches in Bezug auf Nutzerfreundlichkeit die Defizite älterer Umsetzungen erfassen und beheben soll.



Seideneck, Mario;
Entwicklung einer Testumgebung für personalisierbare mobile Rundfunkdienste. - 64 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2011

Diese Bachelorarbeit beschäftigt sich mit der Entwicklung einer Testumgebung für personalisierbare mobile Rundfunkdienste. Im Rahmen dieser Arbeit findet eine Analyse mobiler Endgeräte sowie ihrer Besonderheiten statt und es wird ein Überblick über existierende Übertragungsverfahren gegeben, die speziell auf die Erfordernisse dieser Gerätetypen zugeschnitten sind. Des Weiteren werden verschiedene Forschungsprojekte zu ähnlichen Themen untersucht und dort verwendete Komponenten analysiert. - Basierend auf DVB-H (Digital Video Broadcasting for Handhelds) wird ein Gesamtkonzept zur Übertragung audiovisueller Inhalte, Daten und interaktiver Dienste entworfen, das die spezischen Systemanforderungen konkretisiert sowie die Zusammenstellung und Aufgaben einzelner Tools definiert. - Bei der Umsetzung der Konzeption wird auf frei verfügbare existierende Programme zurckgegriffen und durch Modizierung für eigene Szenarien nutzbar gemacht. Unter Verwendung von verschiedenen Endgeräten entsteht ein erweiterbares Ende-zu-Ende-System, dessen Setup und Möglichkeiten verdeutlicht werden. - Innerhalb der Ergebnisse werden die Funktionstüchtigkeit des Testsystems und mögliche Einsatzgebiete dargestellt sowie Möglichkeiten weiterführender Arbeiten aufgezeigt.



Klengel, Daniel;
Entwicklung eines Systems zur automatisierten Erkennung von Fehlern und Qualitätsproblemen in A/V-Material. - 80 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2011

In Rundfunk- und Archivsystemen fallen täglich dutzende Stunden Audio- und Videomaterial an. Diese Daten durchlaufen grundsätzlich von der Produktion über Ingest, Schnitt, Postproduktion und Distribution zahlreiche Verarbeitungsstufen, welche in der Regel durch Transfer- und Transkodierprozesse miteinander verknüpft sind. Jeder dieser Bearbeitungsschritte führt dabei neue potentielle Fehlerquellen ein. Es besteht daher im Allgemeinen die Notwendigkeit, Material einer technischen Abnahme zu unterziehen, um etwaige Probleme möglichst frühzeitig in der Kette erkennen und beheben zu können. In der Praxis werden diese Tätigkeiten derzeit noch zu einem großen Teil von menschlichen Gutachtern ausgeführt, was jedoch zeitaufwändig und fehleranfällig ist. Im Rahmen der vorliegenden Arbeit werden die Anforderungen an automatisierte Systeme zur Qualitätsüberwachung im Broadcastbereich analysiert und der aktuelle Stand der Technik dargestellt. Basierend auf dem am IDMT entwickelten Signalanalyse-Framework "Broadcast Error Monitoring" wird im weiteren Verlauf schwerpunktmäßig die Möglichkeit der Performanceverbesserung hin zu Echtzeitfähigkeit untersucht. Hierfür werden die Detektionsmodule Blocking-, Blur- und Ringing-Detection mithilfe der CUDA-Technologie implementiert und über ein Interface angebunden. Anschließend werden die erzielten Verbesserungen evaluiert.



Krawetzke, Martin;
Bewegungskompensierte Tiefenanalyse. - 62 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2011

Die vorliegende Arbeit beschäftigt sich mit der Verbesserung von Tiefenkarten im Bereich der Stereoanalyse. In Videokonferenzsystemen wird die Kamera typischerweise so positioniert, dass kein direkter Augenkontakt zwischen den Teilnehmern möglich ist. Mit Hilfe der Tiefenkarten kann eine virtuelle Blickrichtungskorrektur in solch einem Videokonferenzsystem ermöglicht werden. Hierfür werden Tiefeninformationen aus den vorhandenen Stereoaufnahmen extrahiert. Diese Informationen tragen zur Erstellung virtueller Ansichten des Nutzers bei. Da die Tiefenkarten fehlerbehaftet sind, wirkt das synthetisierte Material oft unnatürlich. Für eine Verbesserung ergibt sich die Möglichkeit, Wissen auch aus anderen Bereichen der Bildverarbeitung in die Stereonanalyse einzubeziehen. Es werden gängige Methoden der Bewegungskompensation vorgestellt und implementiert. Die Implementierung erfolgt als Unterstützung der Stereoanalyse während der Tiefenkartenberechnung und als Nachfilterung der erstellten Tiefenkarten. Für die Bewegungsberechnung werden Block-Struktur-Algorithmen ähnlich der Nutzung in Videokodern und die klassische Horn-Schunck-Methode der optischen Flussbestimmung implementiert. Anhand vorhandener und speziell erstellter Testsets wird die Robustheit und Wirkung der erstellten Algorithmen analysiert.



Richter, Andreas;
Implementierung und Evaluation merkmalsbasierter Verfahren zur Gesichtserkennung bei Menschenaffen. - 146 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

In den letzten Jahrzehnten ist ein globaler Rückgang der Arten aufgrund der Ausbreitung des Menschens zu verzeichnen. Zu den bedrohten Tierarten zählen die den Menschen nächsten Verwandten, die Primaten. Geeignete Maßnahmen, wie das Einrichten von Schutzgebieten, sollen den natürlichen Lebensraum der Primaten bewahren. Um die Populationen von Primaten ungestört beobachten zu können, wurden in dem natürlichen Lebensraum versteckte Aufnahmegeräte installiert. Anhand des entstehenden Bild- und Tonmaterials kann das Sozialverhalten der Primaten studiert und die Effektivität der Schutzmaßnahmen überprüft werden. Ein notwendiger Bestandteil der Verhaltensforschung ist die visuelle Identifikation der Individuen, die aufgrund des Umfangs an Bildmaterial durch eine automatisierte Erkennung erfolgen muss. In der Arbeit wurde das Primate Recognition Framework, ein System zur Evaluierung globaler Verfahren, durch die lokalen Verfahren der Gesichtserkennung erweitert und angepasst. Dazu wurden drei lokale Grid-basierte State-of-the Art Deskriptoren der Objekt- und Szenenerkennung (DenseSIFT, OpenSURF und HOG), eine effektive Merkmalsreduktion (k-Means / Bag-of-Features) mit einer klassenspezifischen Auswahl und eine Generalisierung des Hybridverfahrens des Primate Recognition Frameworks, implementiert. Die Deskriptoren wurden in umfangreichen Tests mit vier Klassifikatoren, unterschiedlichen Bildauflösungen und unterschiedlicher Beleuchtungsnormalisierung an vier verschiedenen Datensätzen (Schimpansen und Gorillas) evaluiert. Die Evaluierung zeigte, dass lokale Verfahren der Gesichtserkennung robust gegenüber lokalen Veränderungen durch extrinsische oder intrinsische Faktoren sind und für einen Einsatz in nicht kontrollierbarer Umgebung geeignet sind. Der Durchschnitt der Erkennungsrate der Gorillas lag über 92% und erreichte maximal 99%. Die Schimpansen wurden mit durchschnittlich 86%, maximal mit 93%, korrekt identifiziert.



Schirmer, Christopher;
Detektion von Duplikaten und Integritätsprüfung in Video-Produktionsarchiven. - 129 S.. Ilmenau : Techn. Univ., Masterarbeit, 2011

In Video-Produktionsarchiven existieren exorbitant große Mengen an Daten, von denen eine Vielzahl identisch oder perzeptuell identisch ist, bzw. auch kurze Abschnitte innerhalb von Medienelementen doppelt auftreten können. Diese redundante Speicherung erzeugt neben dem zusätzlich benötigten Speicherplatz auch hohe Kosten, welche die Speicherverwaltung betreffen; die Suche von Elementen wird erheblich erschwert. In dieser Ausarbeitung wird eine Applikation entwickelt, welche in der Lage ist, selbst sehr kurze exakte oder perzeptuelle Duplikate innerhalb großer Datenmengen zu identifizieren, wobei besonderes Augenmerk auf die Laufzeit der Identifizierung von Duplikaten gelegt wird. Zusätzlich wird eine Integritätsprüfung vorhandener Daten deren Unverfälschtheit sicherstellen. Die resultierenden Informationen detektierter Duplikate werden für die Weiterverarbeitung in einer Datenbank abgelegt. Um zu dieser Lösung zu gelangen, wird zunächst eine Recherche bezüglich existierender Lösungen durchgeführt, welche die Untersuchung einer von Fraunhofer IDMT entwickelten Software zum Thema VideoID einschließt. Aus dieser Software können einige Teilkonzepte und Algorithmen wiederverwendet werden.



Wiesner, Maria;
Entwicklung von Analyseverfahren zur Detektion von Fehlern in audiovisuellen Daten. - 134 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Im digitalen Zeitalter wächst die Zahl der Inhalte ständig. Durch die unterschiedlichen Formate und Kodierungverfahren liegen die Audiovisuellen Inhalte in unterschiedlicher Qualität vor, so dass es für die Distributoren dieser Inhalte zunehmens wichtiger ist, die Qualität automatisch zu überwachen. Da die wahrgenommene Qualität von audiovisuellen Inhalten abhängig ist von der Existenz von sichtbaren Fehlern, kann die Qualitätseinstufung auch über eine Fehlerdetektion erfolgen. Dies ist Forschungs- und Entwicklungsgegenstand des Projektes "Broadcast Error Monitoring" am Fraunhofer Institut für digitale Medientechnologie in Ilmenau, in dessen Rahmen diese Arbeit entstand. In dieser Arbeit werden Analysemethoden zur Qualitätsüberwachung und Fehlerdetektion vorgestellt und voneinander abgegrenzt. Es wird ein umfassender Überblick über mögliche Fehler in audiovisuellen Daten gegeben, um eine Grundlage für weitere Entwicklungen zu schaffen. Es wurde ein Schwerpunkt auf Kodierungsfehler im Videobereich gelegt. Exemplarisch für die Detektion von Kodierungsfehlern wurden ein blockbasiertes und ein multiflexibles Verfahren zur automatischen Detektion des Artefakts Ringings auf Pixelebene vorgeschlagen, umgesetzt und evaluiert. Ringing tritt an kontrastreichen Kanten auf und wird als heller Schimmer an den Kanten wahrgenommen. Die Detektionverfahren versuchen anhand von typischen Merkmalen das Ringing im Bild zu erkennen. Für die Evaluierung der Detektionverfahren wurde ein Testset generiert, das die Bilder und das darin von Testpersonen wahrgenommene Ringing enthält. Hierfür zeichneten Probanden mit Hilfe der dafür entwickelten Grafischen Benutzeroberfläche, das von ihnen wahrgenommen Ringing ein. Mit Hilfe der Mehrheitsentscheidung wurde eine Grundwahrheit erzeugt. Für die beiden Detektionsverfahren wurde eine Ermittlung der dafür benötigten Schwellwerte durchgeführt und diese abschließend getestet. Das blockbegrenzte Verfahren erreichte eine Precision von x und einen Recall von y. Das mutliflexible Verfahren hatte eine Precision von x und einen Recall von y.



Kronsweide, Georg;
Verbesserung von Disparitätskarten auf Basis eines generischen 3D-Kopfmodells. - 64 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Diese Arbeit befasst sich mit der Verbesserung von Disparitätskarten auf Basis eines generischen 3D-Kopfmodells. In vorangegangenen Arbeiten am Institut für Medientechnik der Technischen Universität Ilmenau wurde ein Verfahren entwickelt, um über eine Korrektur des Blickpunkts in Videokonferenzen Augenkontakt mit dem Gesprächspartner herstellen zu können. Dieses Verfahren verwendet dazu die aus zwei Kamerabildern gewonnenen Disparitätskarten. Da verschiedene Faktoren wie fehlerhafte Disparitätsbestimmung bei homogenen Flächen Fehler bei der Blickpunktkorrektur hervorrufen, ist es wünschenswert, diese zu reduzieren. In dieser Arbeit wird versucht, die für die Korrektur benötigte Disparitätskarte über ein menschliches 3D-Modell zu generieren. Dazu ist das Modell an die Kamerabilder anzupassen. Die generelle Realisierbarkeit der Methode wird in einem Proof-of-Concept untersucht und darauf aufbauend eine Automatisierung des Prozesses entwickelt.



Hadam, Ann-Christine;
Konzeptionelle Integration des PATTI-Demonstrators in die Prozesse eines Informationssystems für adaptives Assessment. - 72 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2011

Assessment wird in heutigen E-Learning-Systemen immer gefragter. Des Weiteren steht Personalisierung an oberster Stelle, wenn es um Weiterentwicklungen im E-Learning-Bereich geht. Beide Konzepte werden am Fraunhofer IDMT im adaptiven Assessment-System askme! vereint und miteinander kombiniert. Das entwickelte System strebt neben der Personalisierung des Assessment-Prozesses auch die Möglichkeit der Integration von simulativen Werkzeugen an. Simulationen haben gegenüber anderen multimedialen Applikationen, wie Animationen und Grafiken, den Vorteil, dass sie die kognitiven Lernziele höherer Ordnung nach der Bloom'schen Taxonomie ansprechen können. Die Taxonomie teilt die Lernziele in die Bereiche Wissen, Verständnis, Anwendung, Analyse, Synthese und Evaluation ein. Simulationen können diese Ziele vor allem deshalb erfüllen, weil mit ihnen die Hypothesenbildung und deren Test besonders einfach sind. Diese Bachelorarbeit beschäftigt sich daher mit der konzeptionellen Integration einer Simulation in das adaptive Assessment-System askme!. Diese Simulation ist die Demonstrationssoftware PATTI, die am Institut für Medientechnik der TU Ilmenau entstand und Effekte der Psychoakustik zeigt. Zur Konzeption werden die Potenziale beider Programme bei der gemeinsamen Anwendung im Assessment vorgestellt und in Verbindung zueinander gebracht. Daraus entwickelt sich ein Szenario, das eine Möglichkeit aufzeigt, wie die Integration in der Praxis umgesetzt werden kann. Dieses Szenario beinhaltet die Erstellung eines vereinfachten Domänen- und Lerner-Modells sowie die Erarbeitung von Beispielfragen für das durchzuführende Assessment. Darauf aufbauend wurde ein Konzept entworfen, das die auszutauschenden Informationen vorstellt und Empfehlungen zur Integrationsumsetzung bietet. Dieses Konzept bildet dann die Grundlage für die spätere Implementierung.



Spundflasch, Sebastian;
Analyse von Pervasive Games und theoriegeleitete Entwicklung eines technologisch getriebenen Konzeptes für ein Spiel im urbanen Raum. - 80 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Diese Arbeit analysiert die theoretischen und praktischen Probleme von Pervasive Games. Die vorgeschlagenen Lösungsalternativen beinhalten ein entwickeltes Modell, mit dem sich, im Gegensatz zu den bisherigen Ansätzen, Pervasive Games beschreiben und von anderen Spielformen abgrenzen lassen, sowie ein konzipiertes Pervasive Game namens Mining Anarchy, bei dem besonderer Wert auf Umsetzbarkeit und Aussicht auf kommerziellen Erfolg gelegt wurde.



Räth, Hans-Jürgen;
Entwicklung einer automatisierten Testumgebung für Geräte der Unterhaltungselektronik. - 54 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2011

In dieser Arbeit wurde eine Testumgebung für Geräte der Unterhaltungselektronik entwickelt und umgesetzt. Die Arbeit beschreibt ausgehend vom Stand der Technik, in welcher Form Befehle an das Gerät gesendet werden und geht darauf ein, wie diese Befehle erzeugt und übermittelt werden. Es wird die Entwicklung eines IR-Sendemoduls und dessen Ansteuerung sowie der Protokollierung der gesendeten Befehle beschrieben. Bei der Prüfung, ob übliche Fernbedienungssysteme so zu adaptieren sind, dass sie im Rahmen der Testumgebung zur Ansteuerung der Testgeräte verwendet werden können, zeigte sich, dass die Adaptionen sehr aufwändig wären. Dieser Aufwand steht in keinem Verhältnis zum gewünschten Ergebnis. Es wurde eine Mikrocontroller-Plattform gesucht, die die Generierung und Aussendung von IR-Befehlen übernehmen kann. Aufgrund der kompletten Vorkonfiguration und der einfachen Programmierbarkeit fiel die Entscheidung auf die Arduino-Plattform. Der einfache Aufbau der Plattform ermöglicht den direkten Anschluss der Infrarot-LED, mit der die Signale ausgesendet werden. Das Sendemodul erhält vom angeschlossenen Computer lediglich die zu sendende Bitfolge und Informationen über das zu verwendende Übertragungsprotokoll. Mit der zum Arduino gehörenden Programmiersprache "Wiring" wurde ein Programm geschrieben, das diese eingehenden Informationen verarbeitet und die IR-LED aktiviert. Das Sendemodul erhält seine Steuerinformationen durch eine Java-Anwendung, die auf dem angeschlossenen PC läuft. Da für zur Wiederverwendbarkeit diese Informationen speicherbar sein sollen, wurde eine einfache XML-Struktur geschaffen, die die Speicherung in einfachen Textdateien zulässt. Die Java-Anwendung protokolliert die gesendeten Befehle mit Hilfe einer MySQL-Datenbank, die aus zwei Tabellen besteht. Zur späteren manuellen Prüfung der Ausführung eines gesendeten Befehls muss Ablauf der Testsequenz videoüberwacht und aufgezeichnet werden.



Fiedler, Paul;
Schallfeldanalyse und Anpassung eines Übersprechkompensationsfilters für binaurale Wiedergabe. - 79 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2011

Mittels binauralen Wiedergabesystemen ist es möglich, naturgetreue Richtungseindrücke von Schallereignissen beim Zuhörer hervorzurufen, obwohl dieser nur über zwei Schallquellen für die Wiedergabe verfügt. Die meisten binauralen Wiedergabesysteme wurden in der Vergangenheit über Kopfhörer realisiert, da bei diesen die Kanaltrennung bis zum Empfänger, dem menschlichen Ohr, problemlos aufrecht zu erhalten ist. Grenzen dieser Technik werden jedoch durch Phänomene wie die Im-Kopf-Lokalisation oder die Vorne-Hinten-Vertauschung deutlich. Im Rahmen dieser Arbeit wurde eine binaurale Wiedergabe mittels zwei Lautsprechern in Stereoanordnung untersucht. Bei der normalen Stereowiedergabe sprechen Signalanteile vom linken Lautsprecher auf das rechte Ohr über und umgekehrt. Bei der binauralen Wiedergabe über Lautsprecher in Stereoanordnung ist dieses Übersprechen jedoch unerwünscht und muss durch einen Algorithmus kompensiert werden, da ansonsten der räumliche Höreindruck verloren geht. Analysiert wurde ein implementiertes Verfahren zur Übersprechkompensation, zusätzlich wurden Einflüsse des Mess- und Abhörraums kompensiert. Ziel der Untersuchungen dieser Arbeit war es, die unmittelbare Umgebung der Ohren des Zuhörers in Bezug auf die Übersprechkompensation zu analysieren. Für die Simulation eines Zuhörers wurde ein Kunstkopf im erzeugten Schallfeld platziert. Weiterhin wurde dabei von einem statischen System ausgegangen, d.h. Stereoanordnung, Hörerposition sowie Ausrichtung des Zuhörers blieben während der Messungen konstant. Einen Großteil der vorbereitenden Maßnahmen der Untersuchungen stellte dabei die Entwicklung einer geeigneten Messvorrichtung dar. Diese ermöglichte es, Messpunkte in der Umgebung der Ohren des Kunstkopfes präzise, stabil und rekonstruierbar anzufahren. Die Messungen selbst sowie deren Analyse stellte den zweiten großen und wichtigen Teil dieser Arbeit dar. Auch die computergestützte Simulation des Anwendungsfalles wurde eingehend beleuchtet.



Pfitzer, Martin;
Vergleich von Verfahren zur Gesichtserkennung bei Primaten. - 132 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

In den letzten Jahrzehnten hat das Artensterben auf der ganzen Welt bedenklich zugenommen. Auch Menschenaffen wie Schimpansen oder Gorillas gehören bereits zu den bedrohten Tierarten. Aus diesem Grund gewinnt eine Überwachung der aktuellen Bestände zunehmend an Bedeutung. In den letzten Jahren wurden vielerorts versteckte digitale Aufnahmegeräte angebracht, um die Primaten ungestört zu beobachten. Da jedoch eine manuelle Auswertung des umfangreichen Audio- und Videomaterials kaum möglich ist, sollen einige Routine-Prozeduren automatisiert werden. Dazu zählt auch die automatische Erkennung und Identifizierung von Individuen, die u.a. durch Methoden der Bildverarbeitung erreicht werden soll. Diese Arbeit beschäftigt sich mit der automatischen Identifizierung von Primaten durch Anwendung von Algorithmen zur automatischen Gesichtserkennung. Es wurde ein System entwickelt, um Algorithmen in Verbindung mit verschiedenen Klassifikatoren testen zu können. Einige etablierte Algorithmen (Eigenfaces, Fisherfaces, Laplacianfaces und Tensor Subspace Analysis), moderne Verfahren (Volterrafaces und Randomfaces) sowie ein eigener Ansatz, der als Hybridfaces bezeichnet werden soll, wurden implementiert. Diese Algorithmen wurden mit mehreren Klassifikatoren und unterschiedlicher Vorverarbeitung ausführlich verglichen. Für die Evaluation wurde anhand annotierter Bilddaten je ein Datenset für die beiden untersuchten Spezies (Schimpansen und Gorillas) erstellt. Die besten Ergebnisse erzielte der Tensor Subspace Analysis Algorithmus für das Schimpansen-Datenset und der Hybridfaces Algorithmus für das Gorilla-Datenset. Für beide Verfahren wurde eine geeignete Vorverarbeitung und eine Sparse Representation Classification gewählt. Auf diese Art konnten 85,89% der Schimpansen und 76,40% der Gorillas korrekt identifiziert werden.



Schneemann, Friederike;
Gesichtsdetektion zur Verbesserung von Tiefenkarten. - 81 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2011

Diese Arbeit befasst sich mit der Entwicklung eines Gesichtsdetektionsverfahrens zur Verbesserung von Tiefenkarten für Videokommunikationsanwendungen. Der Aufbau eines Videokommunikationssystems führt typischerweise dazu, dass der für die menschliche Kommunikation enorm wichtige Blickkontakt nicht zustande kommt. Das Setzen einer virtuellen Kamera entgegen der Blickrichtung der kommunizierenden Person kann dieses Problem lösen. Hierzu ist eine dreidimensionale Repräsentation des Nutzers nötig. Diese kann über extrahierte Tiefeninformationen der abgebildeten Szene erzeugt werden. Die zum Beispiel mit Hilfe eines Stereo-Kamera-Systems ermittelten Tiefeninformationen sind jedoch häufig fehlerbehaftet, was zu einem unnatürlich wirkenden 3D-Modell der kommunizierenden Person führt. Zur Verbesserung der Tiefenextraktion können Zusatzinformationen über die Szenenstruktur verwendet werden. Im Bereich der Videokommunikation bietet es sich an, Gesichtsdetektoren einzusetzen und die damit gewonnenen Informationen in der Tiefenanalyse zu nutzen. Diese Arbeit gibt einen ausführlichen Überblick über bestehende Verfahren zur Detektion von Gesichtern und analysiert diese hinsichtlich ihrer Eignung für 3D-Videokommunikation. Auf Hautfarbensegmentierung basierende Verfahren werden als gut geeignet bewertet und deshalb detailliert vorgestellt. Ein, mit einem personalisierten Hautmodell arbeitendes Verfahren wird zur Detektion des Gesichtsbereichs implementiert. Um Gesichtsmerkmale wie die Augen und den Mund zu finden, wird der gefundene Gesichtsbereich auf seine Farb- und Symmetrieeigenschaft untersucht. Über Modellwissen wird eine, die Gesichtsgrenzen beschreibende Ellipse ermittelt. Mit einer handelsüblichen Webcam selbst aufgenommenes Bildmaterial, sowie einer Bilddatenbank entnommenes Material dient exemplarisch der Evaluation des neu entwickelten Verfahrens. Abschließend werden die Ergebnisse diskutiert und Verbesserungsmöglichkeiten vorgestellt.



Becker, Merlin;
Entwicklung und Implementierung technologischer Verfahren zur Realisierung situationsbezogener Adaptivität bei der Bereitstellung digitaler Medien im schulischen Umfeld. - 140 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Das digitale Zeitalter stellt das schulische Umfeld vor neue Herausforderungen. Doch bisherige Ansätze konnten den erhofften Mehrwert nicht erbringen. Einen Lösungsansatz bietet das Softwaresystem "adaptives Schulbuch". Das Hybridmedium ermöglicht die Verbindung gedruckter Schulbücher mit digitalen Medien. Ziel der vorliegenden Arbeit ist die Entwicklung und Implementierung von Verfahren zur Realisierung situationsbezogener Adaptivität. Auf der Grundlage von Anforderungen aus Expertengesprächen und einer Evaluation wurden Anwendungsszenarios zur Integration des ASB-Systems in das schulische Umfeld ermittelt und konzipiert. Besonderen Stellenwert nehmen dabei die Anbindung an vorhandene Lernsysteme, sowie der portable Einsatz des Systems ein. Situationsbezogene Adaptivität ist die zentrale Unterstützungsleistung zur Gewährleistung der Praxistauglichkeit. Hierzu wurde ein Konzept für die Diagnose und Modellierung geeigneter technischer Parameter entwickelt. Sie bilden die Grundlage für Anpassungsentscheidungen. Die Implementierung der Konzepte und Anforderungen in das Softwaresystem "adaptives Schulbuch" schließt die Arbeit ab.



Wagner, David;
Implementierung und Evaluation einer interaktiven Fingersatz-Animation in Musiklernsoftware. - 143 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Die vorliegende Arbeit beschäftigt sich im Rahmen des Projekts "Songs2See"' mit der automatischen Generierung und Visualisierung von Fingersätzen für die Instrumente: Gitarre, Piano, Saxophon, Trompete und Querflöte. Zu diesem Zweck wurde der aktuelle Stand der Technik bereits vorhandener Fingersatz-Algorithmen, sowie Visualisierungen des Instrumentenspiels in frei verfügbaren und kommerziellen Softwareprodukten untersucht. Aufbauend auf diesem Wissen und der Philosophie von Songs2See wurde ein System entwickelt, das polyphone Fingersätze mit Hilfe des Paradigmas zur Dynamischen Programmierung erzeugt und diese als Echtzeit-Animation veranschaulicht. Abschließend wurde das System gemeinsam mit Musikern unterschiedlichen Bildungsgrads in einer qualitativen Nutzerstudie evaluiert. Anmerkungen und Verbesserungsvorschläge der Probanden bezüglich der Visualisierungen wurden festgehalten und Unstimmigkeiten in den Fingersätzen im bestehenden Software-Framework hinsichtlich einer möglichen Korrektur durch Parameteranpassungen betrachtet. Das System wurde als sinnvolle Unterstützung für Anfänger und Wiedereinsteiger bewertet.



Zahn, Alexandra;
Detektion und Analyse von Bewegung in Filmszenen. - 80 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2011

Die vorliegende Bachelorarbeit beschreibt die Entwicklung eines Systems zur Detektion und Klassifizierung von Bewegungen in Filmsequenzen. Dabei werden globale und lokale Bewegungskomponenten geschätzt und entsprechend differenziert. Zur Klassifizierung von Bewegungen globaler Art kommen Merkmale zum Einsatz, die mithilfe des optischen Flusses zuvor extrahiert und den Eigenschaften charakteristischer Strömungsfelder in einer Gegenüberstellung zugewiesen werden konnten. Die Richtungsschätzung erfolgt mit Bestimmung des Zentrums einer aufnahmebedingten Bewegung und gibt Aufschluss darüber, ob und wie oft sich die Kamera innerhalb eines Filmshots entlang oder um die optische Achse gedreht anderenfalls in horizontale oder vertikale Richtung bewegt hat. Resultierende Zeitintervalle werden im Verlauf auf ihre Art als translatorische oder rotatorische Bewegungsphase hin untersucht. Ausgewählte statistische Verfahren zur Eliminierung von Ausreißern verbessern die Ergebnisse und erhöhen die Robustheit gegenüber Bildstörungen oder veränderten Beleuchtungssituationen. Um die Bewegungserfassung auf die lokale Ebene zu erweitern, wird die zuvor registrierte globale Bewegung mittels affiner Transformation jeweils frameweise kompensiert. Auf diese Weise lassen sich Bewegungen lokaler Art anhand ihrer Positionsänderungen relativ zum unbewegten Hintergrund auch unter dem Umstand einer bewegten Kamera detektieren. Die anschließende Verfolgung sich bewegender Objekte unter Verwendung des CamShift-Algorithmus ermöglicht Aussagen über mittlere Bewegungsgeschwindigkeit, deren Richtung und die Größe bewegter Bildbereiche.



Nagel, Karolin;
Multimodale Detektion und Annotation von Konzepten in Fotos. - 129 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

In dieser Diplomarbeit wird ein System vorgestellt, welches Bildern anhand von visuellen und textbasierten Informationen automatisch Konzepte zuordnet. Zu Trainings- und Testzwecken wird ein Teil der Bilder des MIR Flickr 25.000 Image Dataset verwendet. Der visuelle Bildinhalt wird durch Farb- und Texturmerkmale sowie RGB-SIFT-Deskriptoren repräsentiert. Zu den Bildern werden die zugehörigen Flickr User Tags zur Verfügung gestellt. Deren TF-IDF-Werte werden berechnet und daraus textbasierte Merkmale konstruiert. Für einen multimodalen Ansatz werden die Ergebnisse der einzelnen Klassifikatoren gemittelt. Zur Nachbearbeitung findet ein Vergleich zwischen Tags eines Bildes und Konzeptnamen statt. Um alle Merkmale und Methoden evaluieren zu können, wurden auf Basis von 4.000 Bildern für alle Merkmalszusammenstellungen und Konzepte SVM-Klassifikatoren trainiert. Mit diesen wurden insgesamt 10.000 Bilder klassifiziert. Das System erzielte eine Mean Average Precision von 38,8 % und ein example-based F-Measure von ca. 40 %.



Pöschel, Kristin;
Automatisierte Filmanalyse auf Basis von Shots und logischen Einheiten. - 110 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Die steigende Verfügbarkeit von Videodaten verlangt nach besseren Such- und Zugriffsmöglichkeiten um die Daten effektiv verwalten zu können. Die vorliegenden Diplomarbeit befasst sich mit der Entwicklung eines Verfahrens zur automatisierten Filmanalyse basierend auf strukturierenden Filmelementen wie Shots und logischen Einheiten. Das entwickelte System besteht aus mehreren Arbeitsschritten. Zu Beginn erfolgte eine Detektion der Einstellungen. Als Erweiterung dieser Schnittdetektion wurde eine Blendenerkennung basierend auf den im Bild enthaltenen Kanten realisiert. Die anschließend implementierte Keyframe-Extraktion dient der Verringerung der Redundanz in einer Einstellung. Auf Grundlage dieser Verfahren wurde eine Detektion von logischen Einheiten umgesetzt. Innerhalb dieser Szenenerkennung wurden Einstellungen auf ihren semantischen Zusammenhang mit Hilfe von visuellen Merkmalen untersucht. Daraus resultierten potentielle Szenengrenzen, die mit Verfeinerungen abgeleitet aus den filmtheoretischen Grundlagen geprüft und korrigiert wurden. Die Umsetzung der Komponenten erfolgte sowohl auf bestehenden Verfahren als auch auf neu entwickelten Ansätzen. Die Evaluierung der Komponenten fand auf einem entwickelten Datenset aus 15 Filmsegmenten mit 273 Minuten Videomaterial statt. Die automatisierte Filmanalyse erzielte durchschnittlich einen Recall von 66,0 % und eine Precision von 46,3 %.



Kruspe, Anna Marie;
Automatische Klassifikation von Musikstücken zu globalen Kulturräumen. - 100 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Music Information Retrieval (MIR) kann für eine große Anzahl von Anwendungsfällen genutzt werden. Einer davon, welcher in der Literatur noch nicht viel Aufmerksamkeit erhalten hat, ist die Nutzung für nicht-westliche Musik ("Weltmusik"). Ähnlich der Genre-Klassifikation wird in dieser Diplomarbeit versucht, Musikstücke ihrer (kulturellen) Herkunftsregion zuzuordnen. Als Basis einer solchen Klassifikation wird eine Taxonomie mit drei Ebenen erstellt, welche auf musikalischen und geographischen Eigenschaften beruht. Eine Datenbank mit ca. 4400 Musikstücken, welche die taxonomischen Klassen repräsentieren, wird zusammengestellt und annotiert. Mit Hilfe eines existierenden Frameworks und im Voraus implementierter Features werden Modelle trainiert und evaluiert. Werden die Musikstücke zu neun großen Weltregionen zugeordnet, lassen sich Accuracy-Werte von 70% erreichen. Zwölf neue Features, die besonders auf die musikalischen Merkmale von Weltmusik zugeschnitten sind, werden implementiert. Sie verbessern das Klassifikationsergebnis leicht. Zum Vergleich wird ein Hörtest mit Laien durchgeführt, welcher eine durchschnittliche Accuracy von 52% erreicht. Schließlich werden detailliertere Experimente durchgeführt, die zur Charakterisierung der Eigenschaften der Weltmusik-Klassifikation dienen.



Klein, Florian;
Individualisierte Entzerrung von Außenohrübertragungsfunktionen. - 90 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2011

Im Rahmen der Binauraltechnik muss den Außenohrübertragungsfunktionen (Head-Related Transfer Functions - HRTFs) besondere Aufmerksamkeit gewidmet werden. Die Verwendung nicht-individualisierter HRTFs, wie sie beispielsweise durch Messungen mit einem Kunstkopf entstehen, führt zu Fehlern bei der auditiven Wahrnehmung. Die Folgen sind erhöhte Lokalisationsunschärfen sowie fehlende Externalisierung von Hörereignissen. Es wird ein Algorithmus zur Bestimmung individualisierter HRTFs auf Basis von anthropometrischen Daten vorgestellt. Die CIPIC HRTF-Datenbank, welche zusätzlich anthropometrische Daten von 45 Probanden enthält, dient als Grundlage für den Algorithmus. Zur Reduktion der Komplexität der HRTF-Daten wird eine Hauptkomponentenanalyse durchgeführt. Mit Hilfe einer Regressionsanalyse werden Zusammenhänge zwischen den anthropometrischen Daten und dem Verlauf des HRTF-Amplitudenspektrums aus einer bestimmten Richtung bestimmt. Für die anthropometrischen Daten neuer Probanden lässt sich somit eine HRTF-Prädiktion durchführen. Anhand sechs neu vermessener Probanden wurde das Verfahren getestet. Die Ergebnisse zeigen starke Unterschiede in der Prädiktionsleistung zwischen den HRTFs verschiedener Ohren. Dies ist auf niedrige Korrelationskoeffizienten zwischen anthropometrischen Daten und den HRTF-Amplitudenspektren zurückzuführen. Als ein erschwerender Faktor stellte sich die mangelhafte Reproduzierbarkeit von akustischen und anthropometrischen Messungen heraus. In einem MUSHRA-Hörtest mit den vermessenen Probanden konnten in Hinsicht auf Externalität, Lokalisationsunschärfe und Klangfarbenveränderungen keine wesentlichen Verbesserungen gegenüber Kunstkopfaufnahmen für die meisten Probanden festgestellt werden. Die erwarteten Verbesserungen bezüglich der Prädiktionsergebnisse spiegeln sich nur unzureichend in dem durchgeführten Hörtest wieder. Bei der Verwendung eines ABX-Hörtests mit einer größeren Anzahl von Probanden wird ein aussagekräftigeres Ergebnis erwartet.



Peine, Matthias;
Untersuchungen zur gerichteten Schallwiedergabe in Wellenfeldsynthese. - 128 S.. : Ilmenau, Techn. Univ., Diplomarbeit, 2010

Die Wellenfeldanalyse (WFS) stellt ein räumliches Audiowiedergabeverfahren dar, welches es ermöglicht, komplexe Wellenfelder zu generieren. Üblicherweise werden in Wellenfeldsynthese sphärische oder ebene Schallwellen erzeugt, welche eine gleichförmige Schallabstrahlung im Raum aufweisen. Darüber hinaus existieren Ansätze, die es ermöglichen Schallquellen zu erzeugen, die eine richtungsabhängige Abstrahlcharakteristik aufweisen. Diese Arbeit befasst sich daher mit einem analytisch vollständig beschriebenen Vorschlag zur Implementierung von Schallquellen mit komplexer Richtcharakteristik in WFS. Die praktisch notwendige Überführung der mathematischen Beschreibung der Wellenfeldsynthese führt zu Artefakten im reproduzierten Schallfeld. Daher wird in der Simulation eines idealen WFS Systems aufgezeigt, welche Limitierungen in Hinblick auf die Erzeugung gerichteter Schallquellen in WFS entstehen. Es wird Bezug darauf genommen, dass aufgrund der endlichen Längen verwendeter Lautsprecherarrays Auslöschungen im Schallfeld nicht exakt reproduziert werden können. Sowohl die Intensität als auch der Frequenzbereich der Wiedergabe werden hierdurch bedingt. Außerdem wird auf die räumliche Abtastung der Schallquelle durch das Lautsprecherarray eingegangen und gezeigt, dass hierdurch unterschiedliche Grenzen entstehen, in denen die Richtcharakteristik einer Schallquelle nicht wiedergegeben werden kann. Die Simulation erfolgt dabei im Vergleich zweier Syntheseoperatoren zur Lautsprecheransteuerung. Diese unterscheiden sich durch die Fernfeldapproximation der Hankelfunktion voneinander. In der Arbeit wird daher darauf eingegangen, welchen Einfluss die Approximation auf die Verwendung der untersuchten Operatoren hat. Die Simulation zeigte dabei vielversprechendes Potential des untersuchten Ansatzes, um die Erzeugung von Schallquellen beliebiger Richtercharakteristik in WSF zu ermöglichen und liefert erste Grenzen der Wiedergabe, die durch die Überführung der theoretischen Beschreibung in der Praxis entstehen.



Eulenberg, Katja;
Untersuchung zum Einfluss von Kontext auf sensorische Profile. - 71 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Sensorische Profiling Methoden können für die Evaluierung von Qualität genutzt werden, um mobile Endgeräte und deren Service zu untersuchen. Der Vorteil dieser Methoden liegt in der detaillierten Beschreibung von Qualitätsfaktoren, welche die Nutzer während der Benutzung der mobilen Endgeräte wahrnehmen. Da reale Nutzungsumgebungen für mobile Endgeräte sehr dynamisch und heterogen sind, ist davon auszugehen, dass diese Nutzungskontexte einen Einfluss auf Qualitätswahrnehmung haben, wie er bei einer Evaluierung mobiler Endgeräte in kontrollierter Laborumgebung nicht auftritt. Quasi Experimente konnten bereits einen signifikanten Unterschied in der Akzeptanz und Bewertung der Gesamtqualität audiovisueller Contents zwischen Laborumgebungen und realen Nutzungskontexten nachweisen. Es konnte jedoch keine Studie gefunden werden, die sich mit den Kontexteinflüssen auf sensorische Profile von Qualitätswahrnehmung mobiler Endgeräte beschäftigt. Die vorliegende Arbeit versucht daher, Erkenntnisse darüber zu erlangen, welche Auswirkungen Kontext auf sensorische Profile hat. Zu diesem Zweck wurden zwei Studien durchgeführt, eine in einer kontrollierten Laborumgebung, die andere in realem Nutzungskontext. Die beiden Studien kombinieren sensorisches Profiling mit Psychowahrnehmungsmethoden und Interviewtechniken, um detaillierte Informationen zum Kontexteinfluss auf Nutzerverhalten und Qualitätswahrnehmung zu erhalten. Der Kontext ist bei der Evaluierung audiovisueller 3D Clips auf einem mobilen Endgerät als veränderliche, abhängige Variable zu betrachten. Mit Hilfe der gewonnenen Daten beschreibt diese Studie die Charakteristik des Einflusses von Kontext auf sensorische Profile.



Al Ali, Abbas;
Bio-inspired high level vision - from images to shape models for object detection. - 55 S.. : Ilmenau, Techn. Univ., Masterarbeit, 2010

In dieser Arbeit wird ein bio-inspiriertes Translationsinvariantes High-Level Objekterkennungssystem entworfen, implementiert und evaluiert. Das System kombiniert die parallele Hough-Transformation PHT, als Feature-Extraktor und Informationsfilter, mit der generalisierten Hough-Transformation GHT und basiert auf ein Mid-Level-Vision-Modul, das parallele Hough-Transformation-Modul, das ein Konturbild in eine Kanten-Featureliste umwandelt. Aus der Featureliste wird eine Referenztabelle R-Tabelle erzeugt, die nach dem Votierprinzip der generalisierten Hough-Transformation in ein Akkumulator-Array votiert. Das Lokalmaximum im Akkumulator wird ermittelt und mit einem Schwellwert verglichen. Ein PHT-Core der Größe 8x8 zur Detektierung von Geradenstücken wurde verwendet. Zur Beurteilung des Erkennungssystems wurde die Receiver Operating Characteristic ROC-Kurve, mit Verwendung der Schwellwerte 5,15,...,95%, als Gütekriterium eingesetzt. Die Auswirkung der PHT-Parameter auf den Erkennungsprozess wurde untersucht. Tests an synthetisierten Bildern zeigten ideale Klassifkationseigenschaften (eine Erkennungsrate von 100% mit einer Falsch-Positiv-Rate von 0%).



Hüttner, Lorenz;
Analyse und Bewertung überlagerter HF-Signale im Audio-Bereich durch digitale Muster- und Signalerkennungsalgorithmen. - 88 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

In der Antennenentwicklung der Audi AG werden neben der Serienentwicklung auch zahlreiche Grundlagenuntersuchungen und Systemanalysen zur Steigerung der Leistungsfähigkeit von Infotainment- und Antennensystemen durchgeführt. In dieser Arbeit werden subjektive Tests zur Bewertung von Hochfrequenzstörungen im UKW-Rundfunk um ein objektives und rechnergestütztes System ergänzt. Ziel ist es, den Einfluss der beiden Störungen Intermodulation und Multipath mittels eines Gütemaßes auf Audioebene zu bewerten. Dazu wurde ein Hardwareaufbau spezifiziert und aufgebaut, mit dem die Aufzeichnung und Analyse von Radiosignalen möglich ist. Mit dieser Hardware wurde für beide Störungen an bereits erprobten Teststrecken eine repräsentative Datenbasis aufgebaut, um damit jeweils ein Mustererkennungssystem zu entwickeln und abzustimmen. In der Phase der Merkmalsextraktion zeigte sich, dass die Erkennung von Multipath-Störungen am besten durch Audiomerkmale zur Beschreibung der Rauschhaftigkeit funktioniert. Für die Intermodulation erwiesen sich Deskriptoren, welche zusätzlich aufgezeichnete Referenzsignale mit in Betracht ziehen, als zielführend. Durch die entwickelten Mustererkennungssysteme gelingt die Detektion von Multipath-Störungen mit einer Erkennungsrate von 87, 00 %, bei der Intermodulation beträgt diese 88, 12 %. Im realen Feldeinsatz überzeugt das System zur Intermodulationsbewertung durch eine zuverlässige Klassenerkennung und ein valides Gütemaß. Das Multipath-Testsystem ist dagegen noch verbesserungswürdig, da reproduzierbare Ergebnisse nur unter bestimmten Bedingungen möglich sind.



Egerer, Christoph;
Untersuchungen zur Raumakustik virtueller Räume. - 93 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Wellenfeldsynthese ist ein Wiedergabeverfahren, das eine korrekte Reproduktion von Schallfeldern zum Ziel hat. Dabei werden Lautsprecherarrays zur Wiedergabe eingesetzt. Die Steuersignale der Lautsprecher werden aus Impulsantwortaufnahmen eines Originalraums berechnet. Für die Messung der Impulsantworten werden Mikrophonarrays eingesetzt. Sowohl bei der Aufnahme, als auch bei der Wiedergabe, werden Vereinfachungen vollzogen, die einer praktischen Realisierung geschuldet sind. In beiden Fällen spielt die Reduzierung von drei auf zwei Dimensionen eine große Rolle. Bei der Verwendung von kreisförmigen Mikrophonarrays werden Boden- und Deckenreflexionen fehlinterpretiert. Linienförmige Lautpsprecherarrays erzeugen einen Pegelabfall, der nicht einer realen Schallquelle entspricht. In dieser Arbeit werden raumakustische Parameter zur Beurteilung von Schallfeldern herangezogen und dienen dem Vergleich der Akustik zwischen realen Räumen und deren virtueller Repräsentation mittels Wellenfeldsynthese. Der reale Raum wird dabei mit simulierten Impulsantworten beschrieben, die mit Hilfe des Spiegelschallquellenmodells berechnet werden. Als raumakustische Parameter kommen die Schwerpunktzeit Ts, die Nachhallzeit T30 und die frühe Abklingzeit EDT zum Einsatz. Die Unterschiede dieser Parameter, die beim Vergleich von realem mit virtuellem Raum auftreten, geben Aufschluss über die Hörbarkeit und die Effekte, die durch die Vereinfachungen bei der Wellenfeldsynthese verursacht werden.



Treutner, Niklas;
Blickkorrektur bei Videokonferenzen mittels Stereoanalyse. - 90 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Dank der zunehmenden Verbreitung von Breitbandanschlüssen ist die Nutzung von Videokonferenzen mittels Internet nicht mehr auf Unternehmen beschränkt. Doch erlaubt der typische Aufbau von Kamera und Bildschirm keinen direkten Blickkontakt zwischen den Gesprächspartnern. Eine Möglichkeit, dieses Problem zu lösen, besteht in der Korrektur des übertragenen Bildes mittels komplexer Algorithmen zur Blickkorrektur. Diese können dank neuer Entwicklungen im Bereich Consumer-Hardware auch auf handelsüblichen Computern nahezu in Echtzeit berechnet werden, so dass kaum Neuanschaffungen nötig sind und eine solche Anwendung dadurch auch für Privatanwender geeignet ist. In dieser Arbeit werden optimierte Algorithmen und Methoden zur Berechnung korrigierter Bilder vorgestellt, die diesen Bedingungen entsprechen. Diese Algorithmen nutzen Matrizen und Tiefenkarten, die durch Stereoanalyse generiert werden. Hierbei wird die Ansicht einer virtuellen Kamera aus den Bildern zweier oberhalb des Monitors angebrachten Kameras generiert. Diese virtuelle Kamera wird hinter dem eigentlichen Monitor so positioniert, dass der Eindruck entsteht, der Nutzer blicke direkt in das Objektiv. Zu den zentralen Elementen dieser Methode gehört die Bestimmung korrekter Tiefenkarten, die aus den Abweichungen der beiden realen Kameras gewonnen werden. Durch die Nutzung der 2008 veröffentlichten Programmierplattform OpenCL werden die für den konkreten Anwendungsfall optimierten Algorithmen auf der Grafikkarte parallelisiert ausgeführt. Die Bildsynthese erfolgt mittels eines Trifokaltransfers.



Mahr, Johannes;
Konzeption und prototypische Entwicklung eines kompakten 2-Wege Audioverstärkers zum Einsatz im Gehäuse eines Flachlautsprechers. - 75 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2010

Eine unauffällige und platzsparende Integration von Audiowiedergabesystemen in Räumen mit Hilfe von Flachlautsprechern war bisher kaum oder nur mit inakzeptablen klanglichen Einbußen möglich. Zur Lösung dieses Problems wurden am Fraunhofer-Institut für Digitale Medientechnologie (IDMT) in Ilmenau Flachlautsprecher mit einer Tiefe von 2,4cm entwickelt, die eine Wiedergabe des Frequenzbereichs von 100Hz bis 20kHz bei einem Schalldruckpegel von 94dB ermöglichen. Anders als bisherige Flachlautsprechertechnologien ermöglichen diese einen Einsatz direkt an der Wand des Hörraumes zur Wiedergabe mit hoher Klangqualität. Bisher wurden diese Flachlautsprecher mit externen Controllern und Verstärkern betrieben. Wichtige Schritte zur Weiterentwicklung der Flachlautsprecher sind die Entwicklung eines effizienten Audioverstärkers sowie eines Filternetzwerks, das Hoch- und Tieftonsignal trennt sowie den Amplitudenfrequenzgang bei tiefen Frequenzen anhebt. Damit sollen die externen Controller und Verstärker ersetzbar sein. Beide sollen in das Flachlautsprechergehäuse integriert werden und dürfen daher eine Bauhöhe von 12mm nicht überschreiten. In dieser Arbeit wurden prototypisch eine Audioverstärker-Schaltung und eine Frequenzweiche entwickelt, die den Anforderungen an einen Einsatz in dem Gehäuse eines 2-Wege Flachlautsprechers genügen. Hierfür wurde zunächst der Markt für integrierte Audioverstärker sowie aktive und passive elektrische Bauelemente zur Realisierung von Audiofilterschaltungen analysiert. Die aktuell verfügbaren Verstärkertechnologien sowie mögliche Filterarten für Frequenzweichen wurden verglichen. Insbesondere auf die aktuell immer mehr an Bedeutung gewinnende Klasse-D Audio-Verstärkertechnik wurde detailliert eingegangen. Auf der Basis dieser Recherchen wurde ein Klasse-D Verstärker und eine analoge aktive Filterschaltung realisiert. Die Schaltung ist inklusive ausreichender Kühlvorrichtungen und bei sehr geringem Volumenbedarf in die Flachlautsprecherbox integrierbar. Im Vergleich zu alternativen Umsetzungsmöglichkeiten, wie z.B. der Verwendung einer digitalen oder passiven Frequenzweiche, ist die entwickelte Platine zudem sehr kostengünstig. - Das Ergebnis dieser Arbeit ist seit Juni 2010 im Ausstellungs-Truck der Fraunhofer-Gesellschaft, sowie in mehreren Flachlautsprechern zu Ausstellungszwecken im Einsatz.



Ziegler, Stefan;
Isolation von Vokalanteilen im Musiksignal. - 109 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Musik ist ein Mixture aus mehreren zeitgleich aktiven Quellen. Bei Popmusik handelt es sich bei diesen Quellen um Vokalanteile und verschiedene Musikinstrumente. Die Wiederherstellung der Quellen, bei gegebenem Mixture, ist als Blind Audio Source Separation Problem bekannt. Diese Diplomarbeit beschäftigt sich mit einem speziellen Fall dieses Problems, und zwar der Isolation von Vokalanteilen aus Mono-Mixtures. Um die Vokalanteile eines Musikstücks zu isolieren, werden aus dem Spektrogramm eines Mixtures instrumentale Passagen detektiert. Aus den detektierten Spektren wird mittels Non-negative Matrix Factorization eine Sammlung von Basisvektoren der Begleitmusik erstellt. Damit können die Vokal-Basisvektoren adaptiv aus dem Mixture bestimmt werden. Das Mixture-Spektrogramm wird anschließend in eine Linearkombination dieser Musik- und Vokal-Basisvektoren zerlegt, woraus sich das Vokal-Spektrogramm schätzen lässt. Die Leistungsfähgigkeit dieses Separationsansatzes wird anhand von über 100 Songs aus dem Hip-Hop-Genre evaluiert. Dabei können mehrere Zusammenhänge zwischen verschiedenen Parametern des Separationsansatzes und der erreichbaren Separationsqualität festgestellt werden.



Krasser, Johannes;
Automatische Detektion von Spielfehlern in Aufnahmen von polyphonen Instrumenten. - 61 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2010

In der Abteilung Metadaten des Fraunhofer Instituts für Digitale Medientechnologie in Ilmenau wird an innovativen Technologien für das Information Retrieval aus audio-visuellen Daten, insbesondere aus Musik geforscht. Das Ziel dieser Arbeit ist die Entwicklung eines Programms zur automatischen Detektion von Spielfehlern in Aufnahmen polyphoner Instrumente. Das polyphone Instrument wird von einem Musikschüler gespielt und dabei aufgezeichnet. Für jedes Musikstück existiert zusätzlich eine Referenz in symbolischer Form, z.B. als MIDI-Datei. Im Rahmen dieser Arbeit werden Verfahren zur Detektion von Fehlern implementiert und untersucht. Zunächst werden dazu Ansätze verfolgt, welche auf Chromagrammen basieren. Es wird gezeigt, dass damit die Erkennung von Abschnitten, die Spielfehler enthalten, mit ausreichend geringer Falsch-Positiv-Rate möglich ist. Anschließend sollen mögliche erkannte Fehler genauer aufgeschlüsselt werden. Dafür werden aktuelle Algorithmen zur Multi-Pitch-Estimation vorgestellt und implementiert. Für eine spätere Evaluation wird ein kleiner, aber repräsentativer Testdatensatz erstellt. Anschließend wird das Programm mit diesem Datensatz getestet.



Durhold, Michael;
Entwicklung einer Applikation zur Beurteilung und Auswertung von Videoqualität auf einem Multi-Touch . - 55 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Multi-touch Displays bieten intuitive Möglichkeiten der Mensch-Maschine Interaktion. Sie ermöglichen durch die Eingabe mit mehreren Fingern eine Bedienmöglichkeit, die wesentlich natürlicher ist als mit der Maus. Gesten ermöglichen eine intuitive Steuerung von häufig genutzten Funktionen, wie z.B. das Scrollen. Für die Nutzung bei Qualitätstests hat solch ein Display enorme Vorteile, da die Daten durch die digitale Eingabe direkt erhoben und anschließend visualisiert werden können. In dieser Arbeit wird ein Überblick über die Entwicklung einer Applikation für multi-touch Displays gegeben. Bekannte multi-touch Hardwareprinzipien und multi-touch Frameworks werden gezeigt. Ebenfalls werden verschiedene Graphical User Interface (GUI) Application Programming Interfaces (API's) aufgelistet. Abschließend wird ein geeignetes Framework und API ausgewählt und eine Applikation für Videoqualitätstests mit Free Choice Profiling entwickelt.



Schoder, Claudia;
Beitrag zur Messung der visuellen Qualität einer 3D Videoobjekt Darstellung. - 40 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Die vorliegende Arbeit befasst sich mit dem Herstellungsprozess von 3D Videoobjekten und der Umschreibung und Analyse der Qualität dieser Objekte. Der erste Teil der Arbeit befasst sich mit den Grundlagen der 3D Videoerstellung und geht danach auf die notwendige Unterscheidung von technischen und empirischen Qualität und deren Merkmalen ein. Der zweite Teil befasst sich mit den möglichen Verfahrung zur Messung von empirischer Qualität sowie den im Rahmen der Arbeit durchgeführten Probandentests.



Vogler, Thomas;
Untersuchungen zum Zusammenhang von kollaborativer Mediennutzung und der Wahrnehmung von Videoqualität . - 106 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Die Erfahrungen (Experience) der Nutzer werden verstärkt in Entwicklungsprozesse einbezogen. Design und Funktionalität sollen nicht mehr vordergründig die Aspekte beschreiben, die Anwender bevorzugen. Vielmehr spielt auch das subjektive Empfinden am jeweiligen Ort und der persönlichen (Wohlfühl-)Situation eine Rolle. Zur Untersuchung dieser kontextabhängigen Beeinflussung auf die subjektive Wahrnehmung von Videoqualität liefert diese Arbeit einen Beitrag zur Findung neuer Herangehens- und Sichtweisen. Hierbei wird versucht einen einzelnen Faktor aus der Vielfältigkeit des Begriffes Kontext (Umgebungs-/Umweltbeschreibung) zu untersuchen. Die Beschränkung liegt auf dem kollaborativen Kontext, der gemeinschaftlichen Nutzung von Videoinhalten. Unter dieser Voraussetzung wurden kombinierte Untersuchungen mit Probanden durchgeführt. Es wurden quantitative Ansätze zur Bewertung der Qualität angewendet, welche sich an den Empfehlungen der ITU orientieren und zusätzlich sozialwissenschaftlich qualitative Methoden zur Erforschung der subjektiven Einflüsse, welche sich durch quantitative Messungen nicht umfassend erfassen ließen. Durchgeführt wurden Einzel- und Gruppentests, welche Einflüsse auf die Qualitätswahrnehmung nachweisen sollen. Hierbei ließen sich nicht alle Einflussgrössen ausschließen, sodass ein Nachweis in der Aussage der Ergebnisse nicht hergestellt werden konnte. Der Beitrag dieser Arbeit liegt in der Beschreibung der Methodenauswahl und Auswertung gefundener kontextueller Störgrössen, welche für nachfolgende Untersuchungen herangezogen und betrachtet werden können.



Möller, Robert;
Untersuchungen zum Zusammenhang von subjektiver Qualitätswahrnehmung und Biosignalen bei monomodaler Stimulation . - 101 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Die schnelle technische Wandlung lässt den Qualitätsanspruch der Nutzer steigen, besonders im Videobereich. Aus diesem Grund spielt die vom Nutzer wahrgenommene Qualität bei der Entwicklung moderner Videoanwendungen eine wichtige Rolle. Neben objektiven technischen Parametern wird die Videoqualität durch standardisierte Testszenarios bestimmt. Dabei werden die subjektiven Einschätzungen der Nutzer ermittelt. Eine weitere Möglichkeit zur Bewertung stellen Biosignale dar. Sie geben Auskunft über die Auswirkung von Videoqualität auf den Nutzer. In Stresssituationen reagiert der Körper unbewusst mit bestimmten Anpassungen. Unzureichende Videoqualität kann solch ein Stressauslöser sein. In dieser Arbeit wird das Bestehen eines Zusammenhanges zwischen subjektiven Videoqualitätsbewertungen und parallel abgeleiteten Biosignalen hinterfragt und bearbeitet. Zur Untersuchung dient ein Wahrnehmungstest, bei dem Videos mit unterschiedlich stark ausgeprägten Fehlern die Qualitätsunterschiede bilden. Jeweils die subjektiven Bewertungen sowie drei Biosignale - die Herzrate, der Hautleitwert und Muskelaktivität - werden einzeln untersucht und im Zusammenhang miteinander verglichen. Es zeigt sich, dass den Fehlern entsprechend bewertet wird. Bei den Biosignalen verändert sich einzig die Herzratenvariabilität aufgrund der Fehler. Sie veringert sich mit stärkerem Fehler, was einen Stressindikator bedeutet. Jedoch stehen subjektive Qualitätsbewertung und Herzratenvariabilität dabei in keinem statistischen Zusammenhang.



Post, Johannes;
Evaluation of acoustic room simulation methods and implementation of a real time acoustic room simulation algorithm for reproduction via headphones . - 94 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Die Wiedergabe von Audiomaterial mittels Kopfhörern führt zu Im-Kopf-Lokalisation und einem künstlichen Höreindruck. Um die Illusion von natürlichem Raumklang bei Kopfhörerwiedergabe zu erreichen, wird akustische Raumsimulation benötigt (neben binauraler Synthese). - Schwerpunkt dieser Arbeit ist die Auswahl und Implementierung einer Methode der akustischen Raumsimulation, die für Echtzeitverarbeitung geeignet ist. Verschiedene Methoden werden dafür in Bezug auf benötigte Rechenleistung, Komplexität und Ergebnisqualität untersucht. Die Implementierung eines hybriden Ansatzes, basierend auf dem bekannten Spiegelquellenverfahren und einem Halleffekt wird präsentiert: Frühe Reflektionen werden innerhalb eines 3D Raummodells berechnet und mit späten (diffusen) Reflektionen kombiniert, die mit einem Feedback Delay Network erzeugt werden. Durch diese Vorgehensweise wird Rechenleistung eingespart und gleichzeitig ein überzeugendes Klangergebnis erzielt. Direktschall und frühe Reflektionen werden - Effekten der Schallausbreitung entsprechend - individuell gefiltert. Zu Evaluationszwecken werden Ergebnisse der Simulation mit gemessenen Impulsantworten des echten Raumes (auf dem das Modell basiert) verglichen. Vorschläge zur Optimierung des Verfahrens in Bezug auf die benötigte Rechenleistung werden dargelegt.



Sass, Rebecca;
Vergleich des Einflusses kopfbezogener Übertragungsfunktionen auf die Ausprägung binauraler Merkmale bei Verwendung unterschiedlicher Aufnahmeverfahren. - 61 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2010

Kopfbezogene Übertragungsfunktionen beschreiben die Veränderung, die eine Schallwelle auf dem Weg von der Quelle zu den Trommelfellen einer Person durch Beugung, Reflexion und Abschattung am Körper erfährt. In ihnen sind räumliche Informationen über ein Schallereignis kodiert, die das menschliche Gehirn zu einem dreidimensionalen Höreindruck verarbeiten kann. Mit Hilfe der kopfbezogenen Übertragungsfunktionen lässt sich die binaurale Wiedergabe realisieren, die ein räumliches Hörerlebnis mit nur zwei Schallquellen ermöglicht. - Die Aufnahme der kopfbezogenen Übertragungsfunktionen sowie der kopfbezogenen Impulsantworten kann auf verschiedene Weise geschehen. Im Rahmen dieser Arbeit wurden drei Aufnahmeverfahren unter gleichen Bedingungen umgesetzt und ihre Ergebnisse analytisch verglichen. Alle Aufnahmen wurden an einem Kunstkopf unter Verwendung unterschiedlicher Mikrofonierungen durchgeführt. Bei den eingesetzten Mikrofonen handelt es sich um die im Kunstkopf integrierten Mikrofone, um Originalkopfmikrofone an einem Kopfbügel sowie um selbstgebaute Sondenmikrofone. - Anhand der aufgenommenen Daten wurden rechnerisch die kopfbezogenen Übertragungsfunktionen und Impulsantworten ermittelt. Aus ihnen wurden die interauralen Laufzeit- und Pegeldifferenzen berechnet. Für Vergleichszwecke wurden die ermittelten Daten weiter aufbereitet und grafisch veranschaulicht. Die Aufnahmeverfahren und ihr Einfluss auf die Ausprägung der binauralen Merkmale wurden betrachtet und bewertet.



Hoffmann, Danilo;
Weiterentwicklung eines Autorenwerkzeugs zur intuitiven Erstellung von Diensten für das digitale Fernsehen. - 110 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2010

In der heutigen Zeit der stetigen Weiterentwicklung des Internets haben Nutzer immer vielfältigere Möglichkeiten, bestimmte Informationen, wie beispielsweise Nachrichten- oder Wissensdienste, bequem über angebotene Anwendungen abzufragen. Jedoch ist die Einstiegsschwelle zur Inanspruchnahme dieser Dienste vergleichsweise hoch. Anwender müssen sich meist mit der grundlegenden Inbetriebnahme von Endgeräten, wie beispielsweise PCs, auseinandersetzen, um an die gewünschten Informationen zu gelangen. - Das iKabel-Projekt am Fraunhofer Institut für Digitale Medientechnologie (IDMT) hat es sich zur Aufgabe gemacht, Informationsdienste und interaktive Dienste, die im Internet verbreitet sind, auf herkömmlicher Weise über breitbandige TV-Kabelnetze zu verteilen, um sie so auch für unerfahrene Nutzer, die lediglich mit der Bedienung eines Fernsehers vertraut sind, verfügbar zu machen. Es wird eine Technologie-Plattform entwickelt, die vorhandene Infrastrukturen nutzt, und sie um Komponenten auf Verteiler- und Empfängerseite erweitert. Die Erstellung und Verteilung von Diensten kann für erfahrene, in der Programmierung geübte Autoren schon vollzogen werden, allerdings müssen auch Autorensysteme für unerfahrene Benutzer implementiert werden. - Diese Ausarbeitung greift die Entwicklung des im iKabel-Projekts entworfenen iKabelAuthors auf und beschäftigt sich mit der Weiterentwicklung dieses Programms, sodass es an die gegenwärtigen Anforderungen angepasst wird. Es soll möglich sein, auf grafische Weise neue Dienste zu erstellen und vorhandene Dienste zu bearbeiten. Da das Autorenprogramm besonders für unerfahrene Nutzer verwendbar sein soll, müssen Aspekte der Benutzerfreundlichkeit in die Gestaltung einfließen. - Für die Weiterentwicklung es ist notwendig, eine Analyse am Programm zu vollziehen, um den aktuellen Stand in den Punkten Funktionalität und Anwenderfreundlichkeit zu untersuchen. Hierbei ist es erforderlich, Grundlagen der Softwareentwicklung zu legen, um den iKabelAuthor effizient weiter zu entwickeln. Verschiedene Methoden der systematischen Konzeption von Software werden vorgestellt und bewertet, aktuelle Ausgangspunkte und strukturelle Ansätze der Softwaretechnik werden präsentiert. Nur eine konsequent durchgeführte und gut dokumentierte Umsetzung der geplanten Vorgehensweise kann zu einer erfolgreichen Weiterentwicklung des Autorenprogramms führen.



Sieweke, Tilman;
Wie organisieren und verwalten Hobbyfotographen ihre Fotosammlungen? : Analyse und Definition von visuellen Konzepten anhand von Probandentests . - 103 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Die vorliegende Arbeit geht der Frage nach, welche visuellen Konzepte und Attribute Hobbyphotographen benutzen, um ihre Photosammlungen zu strukturieren. Hierfür wird nach umfassender Recherche und theoretischen Analyse von Erhebungsmethoden subjektiver Qualitätsmerkmale und relevanter Methoden im Forschungsgebiet der Photokategorisierung eine geeignete Methode zur Definition zu visuellen Konzepten anhand von Probandentests konzeptioniert und evaluiert. Mit dieser Untersuchungsmethode, bestehend aus einer Sortierungs- und Verschlagwortsaufgabe, werden verwendeten visuellen Konzepte identifiziert, eine hierarchische Ordnung dieser vorgeschlagen, sowie Ähnlichkeiten von Konzepten detektiert. Als Testset wird ein Teilset des MIR-Flickr-Datensatzes verwendet.



Völkel, Thomas;
Automatische Klassifikation lateinamerikanischer Musik durch charakteristische rhythmische Pattern und rhythmische High-Level-Features. - 73 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Musik besteht zu einem hohen Anteil aus sich ständig wiederholenden rhythmischen Strukturen (Patterns). Vor allem in lateinamerikanischer Musik können einzelne Stile durch bestimmte Charakteristiken dieser Patterns unterschieden werden. In der vorliegenden Arbeit wurde daher versucht, eine automatische Klassifikation verschiedener Genres aus der Region Mittel- und Südamerika durch rhythmische Patterns zu erreichen. Der Ansatz gründet auf der Erstellung einer Basismenge von typischen Referenzpatterns für jedes Genre. Um eine tempounabhängige Repräsentation zu erhalten, wurde die Scale-Transformation angewendet und die logarithmierte Autokorrelationsfunktion eingesetzt. Zur Extraktion von Patterns aus realer Musik kam ein neu konzipierter Algorithmus zum Einsatz. Um die Ähnlichkeit der Patterns zu den Referenzdaten zu messen, fanden verschiedene Distanzmaße Verwendung. Diverse Experimente wurden durch verschiedene Vorverarbeitungsschritte durchgeführt und ergaben im besten Fall eine Klassifikationsrate von 47,9 % für neun unterschiedliche Genres. Darüber hinaus konnten Erkenntnisse zur rhythmischen Ähnlichkeit von einzelnen Stilen gewonnen werden. Die Diplomarbeit stellt mit dem Fokus auf nicht-westliche Musik ein einsatzfähiges Verfahren zur Genre-Klassifikation im Feld der Computational Ethnomusicology dar.



Schulz, André;
Entwicklung technologischer Verfahren zur adaptiven Bereitstellung von digitalen Schulbuchinhalten. - 150 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Die Bestrebungen zur Mediatisierung der Schulen zeigen, dass digitale Medien allein keine Verbesserung des Lehrens und Lernens garantieren. Vielmehr wird ein geeigneter Medien-Mix als didaktisch vorteilhaft angesehen. Der in der Arbeit verfolgte Ansatz basiert auf der Verbindung des gedruckten Schulbuches mit digitalen Medien. Ziel der Arbeit ist die Untersuchung und Entwicklung von Verfahren zur adaptiven Bereitstellung von digitalen Schulbuchinhalten. Interdisziplinäre Betrachtungen zu aktuellen Entwicklungen auf dem Gebiet der Adaptivität und Lernermodellierung bilden dabei die Grundlage. Die Einflussfaktoren und Rahmenbedingungen des Anwendungsbereiches adaptiver Systeme stellten sich als ausschlaggebend für die Wahl geeigneter adaptiver Methoden heraus. Unter spezieller Betrachtung des schulischen Umfelds wurden Einflussfaktoren, Anforderungen und Kriterien für den Einsatz und die Bereitstellung digitalen Medien im Schulunterricht zusammengestellt. Auf Grundlage dieser Kriterien wurde ein Konzept für die Verbindung des gedruckten Schulbuches mit digitalen Medien entwickelt. Als Ergebnis der Arbeit ist ein erster Prototyp zur Veranschaulichung des Konzeptes entstanden.



Mank, Christoph;
Evaluation und Implementierung eines Verfahrens zur Schallquellenlokalisierung auf Basis von Pegeldifferenz-Stereophonie. - 92 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Gegenstand dieser Arbeit ist die Entwicklung eines Verfahrens zur Schallquellenlokalisation auf Basis koinzidierender Mikrofonierung. Unter diesem Kontext liegt die Zielstellung darin, charakteristische Pegeldifferenzen von Gradientenmikrofonen zu untersuchen und zur Bestimmung des horizontalen Schalleinfalls heranzuziehen. Dazu wurden die sensorabhängigen Richtungsmerkmale theoretisch analysiert und mit den Einflussgrößen der Schallausbreitung in einem parametrischen Modell zusammengeführt. Auf Basis der Modellierung wurden die Amplitudendifferenzen an den Mikrofonausgängen simuliert und hinsichtlich eindeutiger, richtungsbestimmender Merkmale untersucht. Durch analytische Invertierung des Modells konnte ein Ansatz zur Lokalisation hergeleitet werden. In einer abschließenden Validierung wurde gezeigt, dass mit einer Achter- und einer Nierencharakteristik die eindeutige Bestimmung des horizontalen Schalleinfalls für koinzidierende Mikrofonierung möglich ist.



Schmidt, Andreas;
Schallfeldanalyse auf Basis von Arraymessungen. - 120 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Diese Arbeit beschäftigt sich mit der Schallfeldanalyse auf Basis von Arraymessungen, insbesondere mit linien- und flächenförmigen Mikrofonanordnungen. Durch mehrdimensionale Fouriertransformation werden Wellenfelder in elementare Wellen unterschiedlicher Frequenzen und Richtungen zerlegt. Es werden Funktionen zur Erstellung von Testdatensätzen und zur Analyse der Datenmatritzen in MATLAB erarbeitet. Ausgehend von simulierten Testdaten bis hin zu realen Messdaten werden die verschiedenen Darstellungsmöglichkeiten zur Analyse vorgestellt und ihre Eignung für die Schallfeldanalyse diskutiert. Die verschiedenen Abbildungsmöglichkeiten mehrdimensionaler Datenräume und ihrer Bildräume wie dreidimensionale Darstellungen und zweidimensionale Projektionen oder Schnittebenen, werden vorgestellt und die Beziehungen dieser zueinander aufgezeigt und erläutert. Durch räumliche Filterung wird anschließend die Schallfeldanalyse erweitert. Mit ihr können Wellenfelder anhand der Einfallsrichtungen und Elevationen ihrer Schallereignisse aufgetrennt werden. Die räumliche Filterung wird auf simulierte und reale Daten einer Flächenarraymessung angewandt und ihre Möglichkeiten aufgezeigt und diskutiert.



Fröhlich, Daniel;
Untersuchung und Implementierung von Methoden zur Evaluierung von Video- und Bildqualität. - 111 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Bei der Übertragung und Speicherung von digitalen Bildern und Bildfolgen können große Datenmengen anfallen. Um das Datenvolumen zu verringern, wird eine Komprimierung dieser angestrebt. Diese ist nach dem heutigen Stand der Technik in effizienter Weise nur verlustbehaftet möglich. Bei der Übertragung der Daten können darüber hinaus Störungen die Qualität des empfangenen Bildes beeinflussen. Damit sichergestellt werden kann, dass automatische Qualitätsbewertungsmethoden die Bildqualität möglichst nahe der menschlichen Wahrnehmung beurteilen, ist bei deren Entwicklung eine Überprüfung diesbezüglich anhand von Bilderdatenbanken mit dazugehörigen Qualitätsbewertungen notwendig. Diese werden durch die subjektive Bewertung von Testpersonen aufgebaut. Je nach Modell der automatischen Bewertungsmethode kommen dabei mehrere subjektive Methoden infrage. Gegenstand dieser Arbeit ist daher die Entwicklung eines Computerprogramms, welches eine Auswahl an subjektiven Evaluationsmethoden für den Aufbau solcher Datenbanken zur Verfügung stellt. Um die korrekte Funktion des Programms zu überprüfen, wird ein Test mit Probanden durchgeführt. Die daraus entstehende Datenbank wird genutzt, um eine automatische Bewertungsmethode zu überprüfen. Diese Überprüfung zeigt, dass die Ergebnisse der automatischen Bewertungsmethode mit denen des Probandentests korrelieren.



Lanz, Cornelia;
Video-Klassifikation mit Schwerpunkt filmische Gestaltungsmerkmale. - 135 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Die vorliegende Diplomarbeit beschreibt die Entwicklung eines Verfahrens zur automatisierten Klassifikation von Filmsequenzen. Die dabei verwendeten Kategorien wurden in fünf Gruppendiskussionen mit mehreren Teilnehmern ermittelt. Diese fünf Kategorien - Dynamik, Valenz, Spannung, Interaktion und Zentrale Eigenschaften - umfassen je zwei bis neun Subkategorien. Durch Analyse von filmischen Gestaltungsmerkmalen konnten vier Hauptdimensionen des Filmes abgeleitet werden, das Standbild, die Bildfolge, der Ton und der Plot. Sie beinhalten die für die Wirkung eines Filmes wesentlichen Aspekte. Anhand dieser Aspekte wurden visuelle Merkmalsextraktoren aus der Literatur und nach eigener Konzeption entwickelt und implementiert. Die Merkmalsextraktoren von Standbildern erfassen die Charakteristik der Beleuchtung, der Farbe, der Einstellung und den Aufbau des Bildraumes. Die Merkmalsextraktoren der Bildabfolge ermitteln die Schnittfrequenz und die Art und Quantität der Bewegung. Um eine Evaluation der Merkmale mit einem Support Vector Machine Klassifikator durchführen zu können, wurde ein Datensatz von 432 Sequenzen erstellt. Mit einer Accuracy von 84,68 % ergaben sich für die zwei Subkategorien umfassende Klasse Dynamik die besten Resultate.



Brückner, Shenja;
Konzeption und prototypische Implementierung eines digitalen Spiels für Menschen mit geistiger Beeinträchtigung. - 75 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Diese Arbeit beschäftigt sich mit Computerspielen für Menschen mit sonderpädagogischem Förderbedarf, mit denen das Wissen und bestimmte Fähigkeiten der Spieler trainiert werden können. Adaptive Methoden, die bislang vorwiegend in intelligenten Tutorensystemen, adaptiven Hypermediaanwendungen, intelligenten Multimeidaanwendungen und bei adaptiven Benutzerschnittstellen zum Einsatz kommen, wurden auf oben genannte Spiele bezogen. Untersucht wurde, wie ein Computerspiel aufgebaut sein kann, das selbstständig auf Bedürfnisse von Personen mit Beeinträchtigungen reagiert und die Selbstständigkeit der Spieler im Umgang mit dem Computer fördert. Dazu wurde eine neue Spielumgebung entwickelt, in der verschiedene Aufgaben zu bewältigen sind. Es gelang adaptive Methoden einzubinden, die auf Benutzereigenschaften reagieren, dem Spieler Hilfen anbieten und die Lernentwicklung in gewisser Weise steuert. Computerspiele für Menschen mit sonderpädagogischem Förderbedarf lassen sich durch adaptive Methoden so erweitern, dass sie in der Lage sind, auf verschieden starke Ausprägungen an Beeinträchtigungen zu reagieren. In der Folge ist zu untersuchen, wie sich die Anpassungsleistung des Spiels auf den Spieler auswirkt.



Schmetzer, Tobias;
Enwicklung eines (Multi-)Touch Systems zur Durchführung subjektiver Tests. - 114 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Multitouchgeräte sind visuell interaktive Eingabesysteme, die über einen Touch\-screen mehrere Berührungen von Fingern gleichzeitig registrieren und verarbeiten können. - In dieser Arbeit wird der Aufbau eines solchen Systems mitsamt seiner enthaltenen Komponenten detailliert beschrieben. Geeignete Compliant Layer und dazugehörige Trennschichten oder Trennmittel sowie Foliensysteme für das verwendete Prinzip der Frustrated Total Internal Reflection (FTIR) werden untersucht. Ebenfalls wird die Problematik geeigneter Infrarotfilter erörtert. Das System wird gezielt für das Anwendungsszenario benutzerfreundlicher, subjektiver Qualitätsbewertungstests. Ferner werden vorhandene Softwareschnittstellen mit Multitouch-Fähigkeiten untersucht, Anforderungen an die Softwaregestaltung für subjektive Qualtitätsbewertungsmethoden aufgezeigt und Anregungen für die Umsetzung gegeben.



Gehlhaar, Tobias;
Konzeptionierung und prototypische Umsetzung eines Musikspieles. - 113 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Diese Arbeit befasst sich mit der Konzeptionierung und Umsetzung eines musik-basierten Videospieles, um dem Spieler die Vorzüge des Musizierens näher zu bringen. Diese Erfahrungen sollen durch das Spiel transportiert und ausgelöst werden. Mit dem durch diese Arbeit entwickelten Prototypen INCant besteht die Möglichkeit in einer gewohnten Rhythmusspiel-Umgebung frei zu musizieren. Abschließend wurde das Spielkonzept anhand einer Evaluation auf Spielspaß, Zugänglichkeit und Improvisation untersucht. Die Untersuchung ergab, dass der Prototyp INCant Spielspaß erzeugt, er als nicht zu schwer empfunden wird und die Möglichkeit der Improvisation ein wichtiges Spielelement darstellt.



Berghaus, Dirk;
Konzeption und Implementierung eines Client-Server-Systems zur Multi-View Aufnahme. - 76 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Am Institut für Medientechnik der Technischen Universität Ilmenau existiert seit einigen Jahren ein System zur Multi-View Aufnahme. Dieses System ermöglicht es mit mehreren Kameras 3D-Videoobjekte aufzunehmen. Die Aufnahmen können aber nur in SD-Auflösung erstellen werden und das Aufnahmesystem weist weitere Schwächen und Einschränkungen auf. Hinsichtlich zukünftiger Entwicklungen im Fernsehbereich sollen HD-Videodaten aufgenommen werden. Durch den Aufbau eines neuen Systems sollen die alten Schwächen und Einschränkungen aufgehoben werden. An das neue System werden hohe Anforderungen gestellt. Die Aufnahme muss synchron erfolgen und die dabei entstehenden großen Datenmengen müssen hochqualitativ und mit hoher Geschwindigkeit gespeichert werden. - Im Rahmen der Diplomarbeit wird ein neues Multi-View Aufnahmesystem konzipiert und aufgebaut. Die Implementierung erfolgt mit Hilfe eines Client-Server-Systems, das die zentrale und einfache Steuerung der Aufnahme ermöglicht. Diese Arbeit untersucht dafür zunächst das vorhandene System und zieht daraus Erkenntnisse für den Aufbau des neuen Systems. Es wird eine Anforderungsanalyse erstellt und Hardwaretests werden durchgeführt, die die Basis für den Systementwurf bilden. Der Systementwurf wird daraufhin entwickelt und ausführlich vorgestellt.



Schmidt, Julia;
Bildsegmentierung für ein 3D Videokonferenzsystem. - 104 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2010

Die Idee der Videokonferenz ist keine neue und kann in ihren Anfängen bis zu den ersten Versuchen der Videotelefonie, welche mit dem Aufkommen des Fernsehens in den 1930er Jahren unternommen wurden, zurück verfolgt werden. Die Fortschritte in der Technik machen es möglich, Tiefeninformationen in Konferenzsystemen zu verarbeiten und so, durch dreidimensionale Repräsentation des Konferierenden, die soziale Präsenz zu erhöhen. Ziel der vorliegenden Arbeit soll die Umsetzung eines Verfahrens zur Trennung von Vordergrund (Person) und Hintergrund (Umgebung), zur Verbesserung dieser Repräsentation sein. Dazu werden zunächst, nach einer kurzen Einführung in die Geschichte der 3D Videokonferenzsysteme, mögliche Segmentierungsnsätze vorgestellt und verglichen, um eine für den Anwendungsfall geeignete Methode zu finden. Markov Random Fields und morphologische Operationen sollen in der Folge helfen, die Segmentierungsmasken zu verbessern. Da die Segmentierung allerdings eine Lücke im Hintergrund hinterlässt, muss diese für eine dreidimensionale Ansicht geschlossen werden. Ein Verfahren, welches Sampling und Differenzbildung kombiniert, wird zur Rekonstruktion des Hintergrundes vorgestellt. Nach der Beschreibung der Umsetzung verschiedener, meist Mixture of Gaussian basierter, Segmentierungsverfahren, werden die implementierten Methoden anhand von fünf Testsequenzen unter Betrachtung verschiedener Gesichtspunkte ausgewertet. Abschließend werden Verbesserungsmöglichkeiten und neue Herangehensweisen an die vorgestellte Problematik diskutiert.



Spindler, Andreas;
Konzeption und Implementierung einer Client-Server Applikation zur Generierung von personalisierten Empfehlung für Radiodienste. - 138 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Im Laufe dieser Arbeit wurde ein Client-Server System entwickelt, das personalisierte Empfehlungen für Radiosendungen und Podcasts generiert und in, auf das Zielsystem angepasster Weise, darstellt. Das entwickelte System nutzt einen Profilgenerator, der aus Metadaten im TV-Anytime Standard und Bewertungen ein Nutzerprofil erstellt. Auf Basis dieses Profils ermittelt ein inhaltsbasiertes Empfehlungssystem personalisierte Vorschläge für lineare und nicht-lineare Radioinhalte. Die Anforderungen an diese Applikation und die Umsetzung auf Client- und Serverseite werden in dieser Arbeit erläutert. Verwirklicht wurde das System in einer prototypischen Webapplikation, welche auf "Hybrid Broadcast Broadband TV" - fähigen Endgeräten lauffähig sein sollte.



Sun, Rongze;
Konzeption und Implementierung eines Web-Demonstrators für geometrische Tonräume. - 111 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Am Fraunhofer IDMT wird an der Erforschung von Tonräumen zum Einsatz in der automatischen Audioanalyse sowie der Synthese von Musik gearbeitet. In diesem Zusammenhang ist bereits eine Reihe von Tonräumen entstanden. Bei einem Tonraum werden Töne in einer Art und Weise angeordnet, dass bestimmte Aspekte der tonalen bzw. musikalischen Wahrnehmung geometrisch repräsentiert werden. - In dieser Arbeit wird ein flash-basierter Web-Demonstrator mittels Adobe Flash ActionScript 3.0 entwickelt, welcher die wichtigen Eigenschaften vorgegebener Tonräume visualisiert, der eine Benutzerschnittstelle zur Interaktion mit den Tonräumen ist und zur Anwendung und Verbreitung der Tonraumtheorie und darauf basierenden Technologien im Internet verwendet wird. Zu diesem Zweck wurden die dynamische Webapplikationen analysiert und verglichen und die Entwicklungssysteme ausgewählt. Ein Klangsynthesizer zur Auralisierung der Tonräume wurde entwickelt. - In einer Usability Studie wird die Benutzbarkeit des entwickelten Web-Demonstrators ermittelt. Die Evaluation ergab, dass der flash-basierte Web-Demonstrator eine übersichtliche Oberfläche hat und sehr einfach zu bedienen ist. Die kodierten Sounds aus Flash sind zufriedenstellend. Die weiteren Entwicklungsmöglichkeiten sind das Hinzufügen vielfältiger Instrumentensounds und neue Steuerungsfunktionen, Übereinanderlegen mehrerer Tonräume und anderes. Der Web-Demonstrator ist deshalb verwendbar für dynamische Webapplikationen, und die Entwicklung kann noch weitergehen.



Wadewitz, Kristin;
Untersuchung unerwünschter Phänomene bei der Berechnung musikalischer Ähnlichkeiten. - 137 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

In dieser Diplomarbeit soll das Phänomen der Existenz von Hubs und Anti-Hubs bei der Berechnung musikalischer Ähnlichkeiten untersucht und möglichst unterbunden werden. Dafür wurde ein Maß hergeleitet, mit dem bestimmt werden kann, welche Songs als Hubs bzw. Anti-Hubs gelten und ihnen ein Wert für die Ausprägung dieser Eigenschaft (Hubness bzw. Antihubness) zugeordnet. Dieses Maß kann ebenso für die Bestimmung der Hubness und Antihubness des gesamten Datensatzes verwendet werden und dient somit als Evaluationsgrundlage für alle nachfolgend implementierten Modifikationen des Ausgangs-Algorithmus’ zur Bestimmung musikalischer Ähnlichkeiten. Verschiedene Versuche wurden durchgeführt, die die Anzahl der kritischen Songs und ihre Ausprägung verringern sollten: - Transformationen des Feature-Raumes: Durch Linearisierung und Box-Cox-Transformation des Feature-Raumes sollte eine Gleich- bzw. Normalverteilung der Features der einzelnen Songs erreicht werden, um somit eine bessere Modellierung dieser Features zu gewährleisten. - Substitution der Distanzmetrik: Die euklidische Distanz wurde im direkten Vergleich zur City-Block-Distanz untersucht, ob die Performance in Verbindung mit den durchgeführten Transformationen weniger Hubs bzw. Anti-Hubs erzeugt. - Variation des Aggregationsvorganges: Durch gezielte Behandlung in Form von Abschwächung bzw. Verstärkung von erkannten Hub- bzw. Anti-Hub-Songs sollte bei diesem Versuch nachträglich eine Reduzierung des Auftreten von Hubs und Anti-Hubs erreicht werden. Die Ergebnisse der Untersuchungen haben gezeigt, dass die Transformationen des Feature-Raumes und die Veränderung der Distanzmetrik durchaus die Ausprägung der Hubness vermindern können. Die Antihubness blieb dabei fast unverändert. Auf die generelle Existenz der Phänomene hatten diese Maßnahmen keinen Einfluß, die Anzahl der kritischen Songs und ihre Verteilung im Datensatz blieben nahezu unverändert. Die nachträgliche Behandlung der kritischen Songs hat eine starke Verbesserung der Hubness gezeigt, jedoch auf Kosten der Ähnlichkeitsrate, welche sich bei diesem Versuch drastisch verschlechtert hat.



Muschiol, Katja;
Entwicklung und nutzerorientierte Evaluierung von Mustern zur Kombination audiovisueller Medien auf Basis automatisch gewonnener Metadaten. - 138 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die vorliegende Diplomarbeit beschreibt die Entwicklung, Evaluierung und Optimierung von Basismustern, zur automatisierten Abstimmung audiovisueller Medien in Präsentationen. Der Schwerpunkt liegt in der Untersuchung auditiver und visueller Merkmale und Merkmalsausprägungen sowie deren Kombinationsmöglichkeiten. Grundannahmen und Hypothesen formulieren Aussagen zur Wirkung und Kombinationsmöglichkeiten von Merkmalen. Mit rund 150 Testclips werden Merkmale und deren Ausprägungen erfasst und potentielle Kombinationen bewertet. Aus den Ergebnissen der Voruntersuchung werden Musterprototypen erstellt. Deren Wirkung und Akzeptanz werden in einer empirischen Untersuchung analysiert. Zur Evaluierung bewerten Probanden die Musterprototypen anhand eines Fragebogens. Aus den Ergebnissen der empirischen Untersuchung werden Regeln abgeleitet, die Merkmale bestimmten Mustern zuordnen, Ausprägungsgrenzen festlegen sowie Kombinationsmöglichkeiten vorgeben oder ausschließen. Zwei fertige Basismuster ermöglichen die automatisierte Erstellung von direkten und indirekten Präsentationen und werden strukturiert dargestellt. Ein Metadatenkonzept beschreibt Schritte zum automatisierten Aufbau spezifischer Muster, basierend auf standardisierten Basismustern sowie automatisiert erfassten Merkmalen für bekannte oder neue Medien. Ein abschließender Ausblick beschreibt Umsetzungsmöglichkeiten dieses Konzeptes und liefert Ansatzpunkte zur Weiterentwicklung einzelner Basismuster.



Kunze, Kristina;
Designing a sensory profiling method for mobile 3D video and television. - 132 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Mobiles 3D Fernsehen verbindet mobiles Fernsehen mit innovativer 3D Technologie. Für den Erfolg dieser neuen Technik ist es wichtig die Wünsche und Erwartungen der Nutzer zu kennen und zu erfüllen. Mit Hilfe von subjektiven Qualitätstests ist es möglich die Präferenzen der Nutzer und ihre wahrgenommenen Qualitätsfaktoren herauszufinden. Diese Kenntnisse können dann vorteilhaft in der Produktentwicklung und -optimierung eingesetzt werden. Das Ziel dieser Arbeit ist es eine passende Methode zur Bewertung der Qualität von mobilem 3D Fernsehen zu entwickeln. Ein kombinierter Ansatz, der qualitative und quantitative Forschungsmethoden verbindet, wird in einer Studie zur Qualitätsuntersuchung von mobilem 3D Fernsehen angewendet. Dabei kommen drei qualitative Methoden zum Einsatz - eine Methode die auf dem Free-Choice Profiling basiert und zwei auf Interviews basierende Methoden. Für den Vergleich der Methoden werden Vergleichskriterien entwickelt. Gütekriterien aus der Sozialforschung sowie Kriterien aus anderen Forschungsbereichen werden dafür untersucht. Es wird gezeigt, dass für die Auswahl einer passenden Methode das Ziel einer Untersuchung das wichtigste Kriterium ist. Anhand dieses Kriteriums ist es jedoch nicht möglich eine eindeutige Aussage darüber zu treffen, welche Methode für Untersuchungen von mobilem 3D Fernsehen am geeignetsten ist. Für zukünftige Qualitätsuntersuchungen von mobilem 3D Fernsehen sollten geeignete Evaluationsmethoden immer in Anbetracht des Ziels der Forschung, der vorhandenen Ressourcen und den gewünschten Ergebnissen ausgewählt werden.



Lieb, Thomas;
Werkzeugentwicklung für die empirische Untersuchung des Musikerlebens in digitalen Spielen. - 44 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Ziel dieser Diplomarbeit war es, eine Software zur Untersuchung der Wirkung von Musik in digitalen Spielen zu entwickeln. Mithilfe dieser Software können Versuche durchgeführt werden, die individuell konfigurierbar sind. Anhand statistischer Daten, die über Eingabeereignisse von der Software aufgenommen werden, können die Nutzer das Verhalten der Probanden analysieren. Für die Entwicklung der Software wurden wissenschaftliche Befunde aus der Neurobiologie und Musikpsychologie zu Grunde gelegt. Theoretische Vorlagen und Erkenntnisse halfen den Kern der Software zu gestalten. Dabei spielt die sensomotorische Phasenkopplung mit musikalischen Akzenten eine entscheidende Rolle. Als Entwicklungsumgebung wurde das Adobe Flex 3 SDK verwendet. Die entstandene Software baut sowohl auf die Komponenten des Flex Frameworks, als auch auf die objektorientierte Programmierung mit Actionscript 3 auf. Die verwendete Laufzeitumgebung war Adobe AIR. Für die Untersuchungen wurde ein einfaches Spiel implementiert. Der Versuchsaufbau wird über ein Interface eingestellt. Die Konfigurationen können in XML Dateien abgespeichert werden. Nach jeder Versuchsdurchführung wird eine Datendatei erzeugt. Musikalische Ereignisse und Steuerungseingaben des Spielers werden hier abgespeichert. Das Datenformat ist wiederum XML. Die entstehenden Daten sollen Aufschluss über das Verhalten des Spielers und dabei indirekt über die Wirkung und den Einfluss von unterschiedlichen Musikstücken geben.



Korn, Torsten;
Kalibrierung und Blickrichtungsanalyse für ein 3D Videokonferenzsystem. - 117 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Ein großes Problem aller Videokonferenzsysteme ist die Vermittlung des Blickkontaktes der Konferenzteilnehmer. Eine Möglichkeit dieses Problem zu lösen ist eine Blickrichtungskorrektur mittels Bildverarbeitungsmethoden. Ein an der TU Ilmenau entwickeltes modulares Bildverarbeitungsframework ist in der Lage mithilfe einer Bildsynthese den gleichzeitigen Bildkontakt zu ermöglichen. Im Rahmen der Diplomarbeit werden Verfahren der Kamerakalibrierung und Blickrichtungsanalyse diskutiert. Ein ausgewähltes Kalibrierungsverfahren basierend auf der OpenCV-Bibliothek sowie eine Blickrichtungsanalyse basierend auf der Beschreibung der Kamera-Monitor-Anordnung werden implementiert. Zusätzlich werden weitere notwenige Strukturen für eine funktionstüchtige Testapplikation auf Basis des Frameworks implementiert. Die Testapplikation dient als Demonstration einer Blickrichtungskorrektur und dient als Basis weiter Betrachtungen dieses Forschungsbereiches.



Schirmer, Christopher;
Konzeption und prototypische Entwicklung von Tools für den Zugriff auf Medieninhalte über eine XML-Repräsentation. - 64 S.. Ilmenau : Techn. Univ., Bachelor-Arbeit, 2009

In der heutigen Zeit existieren eine Vielzahl von Datei- und Multimediaformaten. Um auf ein bestimmtes Format zuzugreifen und daran Änderungen vornehmen zu können, werden stets spezielle Tools benötigt, die oft nur mit diesem einen Format arbeiten. Diese Arbeit beschäftigt sich mit dem formatunabhängigen Zugriff und der Modifikation von Binärdaten und Metadaten, genauer gesagt von Multimediadaten. Dabei wird die Struktur einer Binärdatei innerhalb einer XML-Repräsentation beschrieben. Zunächst werden aktuelle Standards und existierende Lösungen untersucht. Anschließend wird ein Konzept für ein Toolkit erarbeitet, das den Zugriff und die Modifikation von Binärdateien und gegebene Anwendungsfälle unterstützt. Abschließend wird dieses Konzept prototypisch umgesetzt und ein Ausblick für die Anwendung in zukünftigen Anwendungsfällen gegeben.



Wiebel, Stefan;
Das Fahrzeug als Teil der vernetzten Welt - Anforderungsanalyse, Software-Engineering, prototypische Implementierung und Evaluierung von Funktionen aus dem Bereich "Fahrzeug zu Infrastruktur Kommunikation". - 147 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die Vernetzung des Fahrzeuges mit seiner Umgebung über zellulare Kommunikationstechniken sowie über drahtlose lokale Netzwerke wird in Zukunft einen immer größeren Stellenwert einnehmen. Weltweit arbeiten Automobilhersteller daran, Fahrzeuge untereinander und mit benachbarter Infrastruktur drahtlos kommunizieren zu lassen. In dieser Diplomarbeit wird die Entwicklung einer auf OSGi-Komponenten basierenden Softwarearchitektur vorgestellt, welche die komfortable, automatische Nutzung von Diensten aus dem Fahrzeug-zu-Infrastruktur-Bereich im Automobil ermöglicht. Das Fahrzeug muss dafür in ein drahtloses Netzwerk eingebunden werden. Da bisher keine geeigneten Protokolle existieren, um dem Fahrzeug im Netzwerk angebotene Dienste bekannt zu geben, wurde ein neues Protokoll entworfen. In Abhängigkeit gewisser Parameter, wie z.B. der Entfernung zum Dienstpunkt, können die offerierten Dienste dem Fahrer dann zur Verfügung gestellt werden. Neben der Fokussierung auf IEEE 802.11 Netzwerke unterstützt die entworfene Softwarearchitektur ebenso Dienste, die über zellularen Mobilfunk im Fahrzeug angeboten werden können. Um die entwickelte Architektur zu evaluieren, wurden darauf aufbauende Funktionen aus dem Fahrzeug-zu-Infrastruktur-Bereich prototypisch in einem Versuchsfahrzeug implementiert und getestet. Diese Systemtests haben demonstriert, dass die Architektur die an sie gestellten Anforderungen erfüllt. Im Netzwerk angebotene Dienste wurden im vorbeifahrenden Fahrzeug erkannt und konnten im Anschluss genutzt werden. Die Dauer, die zum Zutritt des Fahrzeuges in ein lokales Netzwerk benötigt wird, bedarf allerdings weiterer Optimierungen.



Dümke, Volker;
Entwicklung eines Systems zur Detektion und Dezimierung von Störsignalen in Sprachaufzeichnungen. - 69 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die vorliegende Diplomarbeit befasst sich mit Detektion von Störsignalen in deutschen Sprachaufzeichnungen. Unter Störsignalen werden hier die Fülllaute "äh" und "ähm" der menschlichen Spontansprache verstanden. Die Untersuchung spontaner Sprache mit Hilfe einer Datenbank lieferte Erkenntnisse über akustische Merkmale, die solche Laute charakterisieren. Diese Erkenntnisse wurden konzeptionell in entsprechende Komponenten des Systems umgesetzt und implementiert. Im vorliegendem System werden die Sprachdateien mit Hilfe einer Pausendetektion in einzelne Segmente aufgespaltet. Segmente, die theoretisch Fülllaute beinhalten, werden aufgrund unterschiedlichem Energieverlauf, Nulldurchgangsrate und Tonhöhe extrahiert. Die extrahierten Segmente werden mit einer SVM-Klassifikation in Fülllaute und normale Sprachsegmente unterteilt. Die Ergebnisse des Systems wurden an der Sprachdatenbank "Kiel Korpus" evaluiert. Die Auswertung zeigt, dass die automatische Detektion von Fülllauten prinzipiell möglich ist und liefert Ansatzpunkte für die Weiterentwicklung eines derartigen Systems.



Treichel, Toni;
Abstimmung auditiver Anzeigen für Fahrerassistenzsysteme. - 100 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Auditive Anzeigen mit Hilfe von definierten Klangzeichen werden im Fahrzeug vor allem im Bereich der Fahrerassistenzsysteme eingesetzt. Dabei soll die Aufmerksamkeit des Fahrers aktiviert und eine Orientierungsreaktion ausgelöst werden. Der Status einzelner Systeme im Fahrzeug wird dadurch bewusst überwacht, Funktionsstörungen und erforderliche Servicemaßnahmen können erkannt werden. Die Arbeit befasst sich mit dem teilautomatischen Abstimmvorgang der Klangzeichen im Fahrzeug, es werden geeignete Messmethoden hierfür entwickelt. Das Schallfeld an der Hörposition des Fahrers im Fahrzeuginnenraum wird dabei untersucht und mit Hilfe eines Mikrophonaufbaus werden reproduzierbar messbare Kenngrößen zur Charakterisierung der entsprechenden Wiedergabelautstärke ermittelt. Die gewonnenen Erkenntnisse sind Basis für die Einbindung der teilautomatisierten Klangzeichenabstimmung zur Optimierung des Audioabstimmprozesses bei der BMW Group in Fahrzeugen im Entwicklungsprozess. In Vergleichsmessungen und Hörversuchen wird die Anwendbarkeit des Messaufbaus nachgewiesen, eindeutige Messablaufpläne werden aufgestellt.



Wallebohr, Martin;
Implementierung eines Bildsyntheseverfahrens für Kamerafahrten um Momentaufnahmen. - 106 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Kamerafahrten um scheinbar eingefrorene Szenarien sind in Filmen wie "The Matrix" durch Anwendung der Bullet Time Technologie sehr populär geworden. Der manuelle Aufwand für derartige Effekte ist jedoch enorm hoch und die Geschwindigkeit der virtuellen Kamerafahrt ist aufgrund der verwendeten Interpolationstechnik nach unten hin begrenzt. In dieser Arbeit wurde ein automatisches Bildsyntheseverfahren umgesetzt, welches beliebig viele Zwischenbilder zweier horizontal angeordneter Kameras auf der Basis von hochqualitativen Tiefenkarten synthetisiert. Bei dem Korrespondenzanalyseverfahren handelt es sich um einen lokalen Algorithmus mit adaptivem SupportFenster. Mithilfe dieses Verfahrens können virtuelle Ansichten generiert werden, die einer für das Stereomorphing relativ hohen Qualität genügen. Darüber hinaus wurde ein Multiview-Rektifizierungsverfahren für unkalibrierte Kamerasetups entwickelt, welches einen sprunglosen Übergang zwischen mehreren Kameras auf einer gemeinsamen Basislinie gewährleistet. Das Verfahren beruht auf der mehrfachen Verwendung der Stereorektifizierung von Richard Hartley. Dabei wird eine bereits rektifizierte Ansicht erneut mit der nächsten Ansicht rektifiziert und die dabei berechnete Homographiematrix auf die bereits rektifizierten Ansichten angewendet. Das gesamte Verfahren bestehend aus einer synchronen Bildaufnahme, Multiview-Rektifizierung und Bildsynthese wurde mit dem Namen Frozen Reality 2.0 bezeichnet und in dem Software Framework ReVOGS des Instituts für Medientechnik umgesetzt. Aufgrund der präzisen Aufnahmevorrichtung, dem geringen Konvergenzwinkel der Kameras zueinander und der Verwendung einer Blauwand, konnte eine qualitativ hochwertige virtuelle Kamerafahrt synthetisiert werden. Die synthetisierten Ansichten wurden vollautomatisch berechnet und qualitativ mit dem PSNR und SSIM bewertet.



Storbeck, Antje;
Entwicklung und Implementierung einer für Cochlea-Implantate und Hörgeräte geeigneten Audiovorverarbeitungsmethode basierend auf auditorischen Modellen . - 79 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die vorliegende Arbeit beschäftigt sich mit der Signalvorverarbeitung in Hörgeräten und Cochlea-Implantaten. Es werden Methoden zur automatischen Verstärkungsregelung untersucht. Hierfür wird auch häufig die englische Bezeichnung AGC (Automatic Gain Control) verwendet. AGC-Methoden dienen dazu, einen gewissen Eingangsdynamikbereich auf einen kleineren Restdynamikbereich abzubilden. Der Restdynamikbereich in den der Eingangsdynamikbereich überführt werden muss, ist von der Hörbeeinträchtigung des Hörhilfenträgers abhängig. Im Zuge dieser Arbeit werden zwei gängige AGC-Methoden implementiert und in einer gemeinsamen Testumgebung evaluiert und verglichen. Eines der Verfahren stellt eine lineare Dynamikanpassung (LDA) dar, bei der anderen Methode handelt es sich um ein Kompressionsverfahren. Es wird getestet, welchen Einfluss Störgeräusche, der Signal-Rausch-Abstand und die Größe des Restdynamikbereichs auf die Sprachverständlichkeit von Audio-Daten haben. Die Signalverarbeitung mit den AGC-Methoden findet jeweils ein- und mehrkanalig statt. Es wird untersucht, ob durch eine Frequenzbandzerlegung die Sprachverständlichkeit von Sprachsignalen verbessert werden kann.



Kern, Yvonne;
A tool for background information collection for user-oriented multimodal quality evaluation for mobile 3D television. - 87 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Bisherige Empfehlungen und Standards zur Dokumentation und dem Umgang mit Hintergrunddaten von Testkandidaten in der Prüfung audiovisueller Qualität sind stark auf sensorische Aspekte beschränkt. Sie vernachlässigen die Charakterzüge und andere nutzungsrelevante Umstände, die einen Einfluss auf die Bewertung des Testmaterials haben könnten. In sieben Experimenten zur Qualitätsevaluation von mobilem Fernsehen an der Technischen Universität Tampere wurde ein breites Spektrum an Hintergrundinformationen der Teilnehmer abgefragt. Die innerhalb dieser Arbeit durchgeführte statistische Auswertung dieser Daten bildet die Grundlage für Aussagen zum Ausmaß des Einflusses individueller Züge auf die Qualitätswahrnehmung. Zudem wird als Vorarbeit ein Literaturstudium über gültige Methoden der Messung individueller Unterschiede durchgeführt. Dabei werden Konzepte aus den Disziplinen Usability, User Experience, Psychologie und Marketing ausgewertet. Das Ziel der vorliegenden Arbeit liegt schließlich in der Kombination der beiden Ideengeber zur Entwicklung eines Werkzeugs zur vereinheitlichten und systematischen Sammlung psychographischer und demographischer Charakteristiken von Testpersonen. Im Besonderen ist das Werkzeug ausgerichtet auf den Einsatz im Bereich mobiles dreidimensionales Fernsehen und weiterer Videoanwendungen.



Herbert, Benjamin;
Entwicklung von Cross-Modalen Verfahren zur Segmentierung, Klassifikation und Suche von Videoinhalten am Beispiel von Musikvideos. - 147 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

In dieser Diplomarbeit soll untersucht werden, ob durch die Kombination akustischer und visueller Merkmale von Videodateien eine Verbesserung der Ergebnisse bei automatischer Klassifikation, Segmentierung und Ähnlichkeitssuche möglich ist. Dazu wird jeder dieser Schwerpunkte sowohl mit rein akustischen wie auch mit rein visuellen Methoden getestet, um Verbesserungen durch die Kombination beider Modalitäten bei der Bearbeitung festzustellen. Die Videodatenauswahl beschränkt sich auf Musikvideos, da diese ein breites Spektrum möglicher Stilrichtungen und Merkmalsausprägungen enthalten. Ziele der Betrachtungen sind: - Bei der Klassifikation durch die Kombination multimodaler Merkmale eine bessere Genrezuweisung zu realisieren. Weiterhin wird auch eine Untersuchung der Klassifikationsqualität nach Musikvideogenres durchgeführt. - Die unimodale Segmentierung basierend auf akustischen und visuellen Merkmalen zu untersuchen und eine verknüpfte audiovisuelle Segmentierung zu erstellen und zu testen. - Eine Ähnlichkeitssuche nach multimodalen Gesichtspunkten durchzuführen und deren Ergebnisse mit denen unimodaler Suchen zu vergleichen und zu bewerten. Die Ergebnisse der Untersuchung dieser Schwerpunkte zeigen, dass eine Verbesserung der Ergebnisse der Klassifikation durch die Kombination crossmodaler Merkmale möglich ist. Die Klassifikation nach Musikgenres erfolgte dabei in beiden Modalitäten mit einer größeren Genauigkeit als die Klassifikation nach Musikvideogenres. Die akustische Klassfikation lieferte in beiden Klassifikationsweisen bessere Ergebnisse als die visuelle. Bei der Segmentierung war bei der hier durch- geführten Art der Verknüpfung eine Verbesserung der bestehenden Algorithmen nur bedingt möglich. Die Ähnlichkeitssuche war in dieser Arbeit im Vergleich zur Suche nach rein akustischen Merkmalen nicht zu verbessern. Abschließend kann jedoch gezeigt werden, dass durch die crossmodale Bearbeitung der Kerngebiete dieser Arbeit die Möglichkeit einer Verbesserung der Ergebnisse besteht, auch wenn die erfolgreiche Umsetzung in dieser Arbeit nicht immer möglich war.



Birthälmer, Melita;
Design and evaluation of a mobile learning service sensitive to user experiences in situations of mobility. - 98 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Lernen ist ein allgegenwärtiger und kontinuierlicher Prozess, welcher natürlich auch stattfindet, ohne dass wir uns dessen bewusst sind. Durch mobile Technologien sind Informationen zu jeder Zeit und an jedem Ort verfügbar und ermöglichen somit ein zeit- und ortsunabhängiges Lernen. Die vorliegende Diplomarbeit untersucht, wie die Umgebung, der emotionale Zustand des Nutzers und die Gestaltung textlicher Informationen den Lernerfolg in mobilen Situationen beeinflussen. Zunächst wurde eine prototypische Lernanwendung entwickelt, um Medieninhalte - wie beispielsweise aus der Online-Enzyklopädie Wikipedia - von ihrer ursprünglichen Struktur abzugrenzen und dynamisch für die Darstellung auf einem mobilen Endgerät anzupassen. Eine empirische Studie, die verschiedene Präsentationsweisen eines Textes in unterschiedlichen Umgebungen betrachtet, zeigt, dass sowohl die Art und Weise der Präsentation, als auch die Umgebung Einfluss auf unbewusstes Lernen haben. Die Ergebnisse machen also deutlich, dass "user experienceъ in mobilen Situationen durch die Art und Weise, wie Information präsentiert wird, verbessert werden kann. Weiterhin zeigt die vorliegende Arbeit auf, dass eine Korrelation zwischen psychophysiologischen Daten und Lernerfolg besteht. Basierend auf der Grundlage dieser Erkenntnisse, könnten mobile Lernanwendungen sensitiv auf den emotionalen Zustand des Nutzers in einer mobilen Alltagssituation reagieren und nach weiterführenden Studien somit dem Benutzer - seiner augenblicklichen Situation entsprechend - optimal angepasste Informationen bereitgestellt werden.



Graeber, Sebastian;
Development, implementation and test of an application sensitive to learning experiences on mobile devices. - 103 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die vorliegende Arbeit untersucht die Auswirkungen verschiedener alltäglicher Umgebungen auf die Leistung und den emotionalen Zustand des Anwenders während unbewussten Lernens mit portablen ubiquitären Geräten und Medien. Zunächst wird angenommen, dass umfeldbedingte Stressfaktoren einen negativen Einfluss - sowohl auf den emotionalen Zustand des Nutzers, als auch auf dessen Lernerfolg - haben. Um diese Hypothese zu prüfen, wird im Rahmen eines Experimentes mit 40 Teilnehmern Lernerfolg und emotionale Erregung während unbewusstem Lernens in zwei verschiedenen Umgebungen erfasst. Die Ergebnisse zeigen, dass unbewusstes Lernen hinsichtlich psychophysiologischer Reaktion (insbesondere bei der Herzfrequenz) und Lernerfolg von der jeweiligen Umgebung stark beeinflusst wird. Darüber hinaus wird eine Korrelation zwischen Herzfrequenz und Lernerfolg beschrieben. Die Studie zeigt, dass unbewusstes Lernen in mobilen Situationen erhebliche Auswirkungen auf den emotionalen Zustand und somit auch auf den Lernerfolg hat. Basierend auf dieser Wechselbeziehung zwischen Herzfrequenz und Lernerfolg entwickelt die vorliegende Arbeit eine prototypische Anwendung, welche anhand gemessener psychophysiologischer Daten einen Experience Index bestimmt. Dieser Index korreliert mit dem Lernerfolg und kann somit von m-learning-Diensten genutzt werden, um sensitiv auf den Nutzer zu reagieren.



Bönisch, Klaus Patrick;
Subjektive Bildqualitätsbeurteilung im digitalen Kino. - 126 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

In der Verarbeitungskette des digitalen Kinos finden viele Veränderungen des Bildmaterials statt, die häufig zu einer Qualitätsverschlechterung führen. Hier sind geeignete Messmethoden erforderlich. Die subjektive Bildqualitätsbeurteilungsmethode ist daher Untersuchungsgegenstand dieser Arbeit. Für die Untersuchung an zwei praxisnahen Anwendungsfällen werden international standardisierte Messmethoden analysiert, diskutiert und für das digitale Kino angepasst. Für den Vergleich der Codieralgorithmen, JPEG 2000 und H.264-Intra-only, wird die SAMVIQ-Methode ausgewählt. Des Weiteren wird die Wiedergabe von alten Stummfilmen im D-Cinema durch die Frame-Rate Conversion untersucht. Hier wird die Stimulus Comparison Methode ausgewählt. Die Durchführung wird im digitalen Kino des Fraunhofer-Instituts für Integrierte Schaltungen IIS Erlangen umgesetzt. Die Ergebnisse demonstrieren die Durchführbarkeit der selektierten Methoden, mit entsprechender Darstellung der Vor- und Nachteile. JPEG 2000 bestätigt sich bei einer hohen Auflösung für den Einsatz im D-Cinema. Verschiedene Verfahren der Frame-Rate-Conversion eignen sich für die Wiedergabe von Stummfilmen in 48 fps.



Grollmisch, Sascha;
Konzeption, Implementierung und Evaluation eines improvisationsbasierten Musikspiels. - 128 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Bisher erschienene Musikspiele zählen großtenteils zu dem Genre Rhythmusspiele und berücksichtigen kaum die kreative Komponente des Musizierens. Diese soll im Rahmen dieser Diplomarbeit durch das neue Spiel-Element "musikalische Improvisation" in Spielen umgesetzt werden. Es wird untersucht, ob musikalische Improvisation als Spielelement den Spielspaß von Musikspielen erhöhen und somit eine mögliche Entwicklungsrichtung für Musikspiele darstellen kann. Dafür wurden zwei improvisationsbasierte Musikspiele prototypisch umgesetzt und mit einem einfachen Rhythmusspiel hinsichtlich des Spielspaßes verglichen. Die Evaluation ergab, dass ein zusätzlicher Improvisationsteil den Spielspaß eines Rhythmusspiels signifikant erhöht. Ein reines Improvisationsspiel bereitet hingegen nicht signifikant mehr Spaß als ein reines Rhythmusspiel.



Hempel, Christoph;
Entwicklung eines verlustbehafteten Bildkomprimierungsverfahrens aufgrund von Voronoitessellation und Delaunaytriangulation. - 42 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Bildkompressionsverfahren basieren meist auf Algorithmen, die das ganze Bild oder gleichgroße Teilbereiche des Bildes (Blöcke) kodieren. Bei großen Kompressionsraten kommt es zu dabei störenden Artefakten. Durch Auflösung einer gleichmäßigen räumlichen Struktur, wie sie die diskrete Kosinustransformation (DCT) in JPEG-Bildern liefert, sollen Blockartefakte vermieden werden. Es wird ein in der Software Matlab geschriebener Algorithmus vorgestellt, der das Bild in Voronoi-Regionen unterteilt, deren Inhalt für die Speicherung in einem JPEG-Bild aufbereitet wird. Dies ist Abzugrenzen von der Nutzung von Voronoi-Diagrammen bei der Vektorquantisierung. Die rekonstruierten Bilder werden auf PSNR-Wert und Dateigröße untersucht, und mit denen von JPEG-Bildern verglichen. Bildqualität und Komprimierungsrate erreichen dabei nicht die positiven Werte von JPEG-Bildern.



Schmidt-Hackenberg, Ludwig;
Entwicklung und Evaluierung eines Verfahrens zur inhaltsbasierten Bildmarkenrecherche. - 86 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die vorliegende Diplomarbeit befasst ich mit dem Thema der inhaltsbasierten Bildmarkenrecherche. Der Prozess der Markenanmeldung und Markenüberwachung werden zusammen mit den in diesen Verfahren verwendeten Klassifikationen am Beispiel Deutschlands detailliert erläutert und die damit verbundenen Probleme dargestellt. Verschiedene Ansätze zur Beschreibung der menschlichen Formwahrnehmung werden vorgestellt. Frühere und aktuelle Forschungsergebnisse zur inhaltsbasierten Bildmarkenrecherche werden in dieser Arbeit recherchiert und vorgestellt. Es wird eine dreistufige Taxonomie der Merkmalsextraktoren erstellt, die in diesen Forschungsarbeiten eingesetzt worden sind. Sofern vorhanden, werden Vergleiche von verschiedenen Merkmalsextraktoren zu einer Bewertung zusammengefasst. Ausgehend von den Bewertungen werden mehrere Merkmalsextraktoren für ein System zur inhaltbasierten Bildmarkenrecherche ausgewählt. Dieses System wird konzeptioniert, prototypisch umgesetzt und evaluiert. Das System erreicht mit einer Aggregation und Optimierung der Merkmalsextraktoren beim MPEG-7 Bulls Eye Test einen Wert von 0,71.



Kormann, Daniel;
Entwicklung eines Verfahrens zur Erstellung eines "Foto-Summary". - 103 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die vorliegende Diplomarbeit beschreibt die Entwicklung eines Verfahrens zur Erstellung eines "Foto-Summary". Unter diesem Begriff wird eine kurze fotografische Zusammenfassung einer privaten Fotosammlung verstanden, wie sie häufig von Digitalkameranutzern für präsentative Zwecke erstellt wird. Eine durchgeführte Online-Umfrage lieferte die Grundlage für einige zu treffende Entscheidungen. Es wurden Faktoren herausgearbeitet, die bei der manuellen Erstellung eines "Foto-Summarys" eine Rolle spielen. Diese wurden konzeptionell in entsprechende Komponenten des Verfahrens umgesetzt und implementiert. Fotografien werden auf Unschärfe und Fehlbelichtung überprüft. Die Attraktivität von Fotografien wird durch eine SVM-Klassifizierung anhand eigens entwickelter Bildmerkmale ermittelt. Redundanz wird vermieden, indem motivgleiche Bilder auf Basis von SIFT Merkmalspunkten identifiziert werden. Die Anzahl an Fotografien eines Motivs wird - zusammen mit zeitlichen Faktoren - für eine Bewertung von dessen Wichtigkeit verwendet. Eine Gesichts- und Hauterkennung ermöglicht eine Aussage über die Präsenz von Personen auf Bildern. Anhand der zeitlichen Metadaten werden Ereignisse innerhalb der Fotosammlungen erkannt. Hierdurch soll Repräsentativität sichergestellt werden. Eine Analyse des Bildinhalts soll schließlich einen Beitrag zur visuellen Vielfalt im "Foto-Summary" leisten. Zur Evaluation des Verfahrens wurde ein Nutzertest durchgeführt. Dabei stellten 14 Probanden private Fotosammlungen zur Verfügung. Sie nahmen eine Bewertung verschiedener "Foto-Summary" Versionen ihrer eigenen Bilder vor. Dabei erhielten nahezu alle Versionen tendenziell bessere Bewertungen als eine ebenfalls im Test enthaltene Zufallsauswahl. Die Ergebnisse zeigen, dass die automatische Erstellung eines "Foto-Summary" prinzipiell erfolgversprechend ist, und liefern Ansatzpunkte für dessen Weiterentwicklung.



Schroetel, Martina; Dobrowolny, Stefan
Implementierung eines Web-Service zur hybriden Bildklassifikation. - 150 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Diese Arbeit beschreibt die Konzeption und Implementierung eines Systems zur hybriden Bildklassifikation. Diese wird definiert als Kombination von automatischer und manueller Bildklassifikation, wobei auf die Möglichkeit der manuellen und damit kostenintensiveren Zuordnung nur dann zurückgegriffen wird, falls die Ergebnisse der automatischen Zuordnung zu keinem eindeutigem Ergebnis führen. Um Bilder anhand von kontentbasierten Merkmalen automatisch inhaltlichen Kategorien zuzuordnen, wird eine Support Vektor Maschine (SVM) verwendet. Im Interesse einer maximalen Integrationsfähigkeit erfolgt die Anbindung der automatischen Bildklassifikation durch einen Web-Service. Zur Überprüfung der automatisch Klassifikationsergebnisse werden Modelle verwendet, welche die Kategoriezuordnungen entweder erhärten oder verwerfen. Zur Durchführung der manuellen Klassifikation werden Benutzeroberflächen zur Verfügung gestellt, die im Rahmen eines Usability Tests auf ihre Gebrauchstauglichkeit überprüft wurden. Die laut Test gebrauchstauglichste Oberfläche kommt im Gesamtsystem zum Einsatz. Als zentrale Datenbasis wird eine Relationale Datenbank verwendet, welche alle prozessrelevanten Informationen beinhaltet. Die Rentabilität der hybriden Bildklassifikation wurde im Rahmen einer Evaluation überprüft. Dabei erweist sich der hybride Ansatz genauer als ein rein automatischer und schneller als ein rein manueller



Ostermaier, Philipp;
Anwendung von Klassifikatoren zur Objektunterscheidung in der industriellen Bildverarbeitung. - 98 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Menschen sind befähigt, durch ihr visuelles System schnell und effizient Informationen über ihre Umwelt aufzunehmen und zu verarbeiten. Die Gestaltpsycholgie geht davon aus, dass einzelne Elemente einer Gesamtwahrnehmung automatisch gruppiert und einer bekannten Gestalt zugeordnet werden. Zur Gesamtwahrnehmung gehören Aspekte wie z.B. Symmetrie, Kontinuität oder Geschlossenheit. Über diese Eigenschaften ist es dem Menschen möglich, sich Objekte zu merken und wieder zu erkennen. Aus dieser Sicht sind computergestütze visuelle Systeme unentbehrlich, um die industrielle Produktion zu automatisieren oder zu optimieren. Die Entwicklung visueller Systeme ist eng mit der Leistungsfähigkeit der verfügbaren Rechensysteme verbunden. Allein die äußerst dichte Information des visuellen Kanals in Echtzeit auszuwerten, stellt hohe Ansprüche an die Systeme. Das gegenwärtige Spektrum der Anwendungsgebiete ist immens: Robotertechnik, Medizin, Sicherheit, Industrie, Physik, um nur einige zu nennen. In der industriellen Bildverarbeitung spielt die visuelle Klassifizierung von Objekten eine herausragende Rolle, ob es sich um OCR {von Englisch Optical Character Recognition, beschreibt die automatische Texterkennung}, Qualitätssicherung, Objekterkennung, Bildsegmentierung oder um Detektion von Defekten oder Veränderungen an Objekten handelt. Klassifizierung im industriellen Kontext bedeutet: Ein Objekt, meist ein industriell erzeugtes Produkt, wird einer von mehreren Klassen zugeordnet. Ziel dieser Arbeit ist die Konzeption und Entwicklung eines Implementierungsvorschlags für einen Objekt-Klassifikator zur bildbasierten, maschinellen Erkennung industrieller Produkte. Es werden die Klassifikatoren Gaussian-Mixture-Modell, Multi-Layer-Perzeptron und Support-Vektor-Maschine auf ihre Eignung zur Objektunterscheidung evaluiert. Anhand der Ergebnisse der Evaluierung wird ein Klassifikator für die spätere Implementierung ausgewählt. Zur Erfüllung des genannten Ziels werden zunächst beispielhafte Applikationen programmiert. Anschließend werden aus den Ergebnissen die Vor- bzw. Nachteile und die Einschränkungen des jeweiligen Klassifikators ermittelt. Aus den Erkenntnissen der gelösten Applikationsaufgaben wird eine Benutzeroberfläche zur Verwendung des Algorithmus durch den Endanwender entwickelt.



Lubkowitz, Matthias;
Untersuchungen psychoakustischer Effekte zur Erweiterung der Tieftonwiedergabe bei Lautsprechern. - 143 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Um die empfundene Tieftonwiedergabe bei Lautsprechern zu erweitern, werden psychoakustische Effekte analysiert und angewendet. Dabei handelt es sich in erster Line um die virtuelle Tonhöhe. Die vom Menschen empfundene Wiedergabebandbreite soll über die physikalisch mögliche Bandbreite hinaus mit Hilfe psychoakustischer Effekten erweitert werden. Zwei Ansätze wurden dabei mittels Hörtests auf ihre Wirkungsweise untersucht. Die Ergebnisse zeigen, dass die empfundene Wiedergabebandbreite, durch den Einsatz psychoakustischer Effekte, im Tieftonbereich erweitert werden kann. Allerdings ist die Wirkung von dem verwendeten Audiomaterial, dem Wiedergabesystem und den Präferenzen des Hörers abhängig.



Pilch, Alexander;
Entwicklung eines Systems zur Unterdrückung von Störeinflüssen bei kamerabasierter Texterkennung. - 100 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Entwicklung eines Systems welches Störeinflüsse bei kamerabasierter Texterkennung beseitigt. Hierzu wurden verschiedene Kamerasysteme auf ihre Einsatzfähigkeit geprüft, hinsichtlich der Kosten und Nutzungsmöglichkeit. Untersuchung verschiedener Bildverarbeitungsalgorithmen, wie Segmentierungsalgorithmen und Kantendetektoren.



Kuhn, Michael;
Implementieren eines Emulators zur Evaluierung von Shadern. - 62 S.. : Ilmenau, Techn. Univ., Diplomarbeit, 2009

Mit dem Aufkommen von leistungsfähigen Grafikbeschleunigern werden Aufgaben zur Visualisierung, die vor einiger Zeit noch auf hoch spezialisierter Hardware verarbeitet wurden, mithilfe dieser immer vielseitiger einsetzbaren Prozessoren ausgeführt. Sowohl der Kosten-, als auch der Entwicklungsaufwand lassen sich durch die in großen Stückzahlen verfügbaren Komponenten sowie deren standardisierte Programmierung erheblich reduzieren. Zu den festen Aufgaben dieser Grafikprozessoren, wie unter anderen Rasterisierungs- oder auch Verdeckungsalgorithmen, können in zunehmendem Maße benutzerspezifische Anforderungen implementiert werden. Die Programme, die dieses leisten, werden nach dem Vorbild von Disney Pixars Renderman als Shaderprogramme oder kurz Shader bezeichnet. Im Fokus dieser Arbeit stehen dabei die Fragmentshader und im Speziellen die von ATI bereitgestellte "GL_ATI_FragmentShader" Extension für die OpenGL API. Es besteht erhöhtes Interesse daran, Shaderprogramme nicht nur anhand geeigneter Testfälle zu untersuchen, sondern vielmehr deren Code schrittweise zu analysieren, wie dies bei herkömmlichen Prozessoren seit langem Stand der Technik ist. Das sogenannte Debugging erfordert jedoch, dass Prozessoren mit entsprechenden Registern den Programmablauf unterbrechen und die Zustände ausgeben können. Dies ist jedoch auf Grafikprozessoren nicht vorgesehen, und aufgrund ihrer parallelen Architektur (SIMD - Single Instruction Multiple Data) auch schwierig zu realisieren. Im Rahmen der Tätigkeiten an der vorliegenden Aufgabenstellung sind zahlreiche Verfahren, die im Zusammenhang mit Shader Debugging und der Verifikation von Shaderergebnissen stehen, entwickelt sowie teilweise auch getestet und implementiert worden. So konnte ein Verfahren zur Ausgabe des ATI-Fragmentshader Zustandes an einer beliebigen Position im Shaderprogramm realisiert werden und es ist eine praktikable und intuitive Lösung vorhanden, diese Zustände darzustellen. Zudem existiert eine Schnittstelle, um zusätzliche Emulationen für die genannte OpenGL Erweiterung implementieren zu können und auf diesem Weg unterschiedliche Vergleichswerte zu generieren. Schließlich wurden Lösungen zur Fehlerbild Generierung aus den Shaderergebnissen unterschiedlicher Emulationen und der ATI-Fragmentshader Extension entworfen, sowie deren automatische Auswertung innerhalb eines GUI.



Döhring, Rene;
Evaluierung von Verfahren zur Stereo-Korrespondenzanalyse und Untersuchung ausgewählter Ansätze hinsichtlich deren Parallelisierbarkeit auf Basis von Cuda. - 165 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Diese Arbeit beschäftigt sich mit der Evaluierung bestehender Verfahren der Stereo-Korrespondenzanalyse. Die Evaluierung legt dabei den Bewertungsschwerpunkt auf die Qualität der Algorithmen als Ausgangspunkt der View-Synthese zur Generierung virtueller Ansichten zwischen den Kameras eines 3D-Kamera-Arrays. Um eine effiziente Verarbeitung hoch aufgelöster Stereobildpaare in großer Stückzahl zu ermöglichen, wurden die getesteten Algorithmen hinsichtlich ihrer Parallelisierbarkeit ausgewählt. Um die Auswirkungen der einzelnen Prozessschritte eines Algorithmus analysieren zu können, wurde ein Testprogramm implementiert, welches nach der initialen Berechnung des Disaparity-Space-Images verschiedene Optionen zur Disparitätsauswahl, Verdeckungsanalyse, Schätzung der partiell verdeckten Szenenstruktur, Optimierung der Disparitätskarte, View-Synthese, Bildoptimierung und Füllen von Löchern in den virtuellen Ansichten zur Verfügung stellt. Die Auswirkungen können einzeln oder in Kombination mit der Disparitätskarte und der virtuellen Ansicht nachvollzogen oder über eine gebietsabhängige Messung des Forward-Prediction-Errors bewertet werden. Als bestes Verfahren stellte sich in der Evaluation das lokale Verfahren mit adaptiv gewichteten Supportfenster (ASW) und der Disparitätskalibrierung heraus. Durch die Disparitätskarten dieses Algorithmus und Warpings konnten plausible virtuelle Ansichten generiert werden. Wie störend die visuellen Artefakte in der virtuellen Ansicht durch repetierende Muster, Fehler in der Verdeckungsanalyse und spekularen Lichter in der dreidimensionalen Darstellung auf autostereoskopischen Displays sind, muss noch analysiert werden. Im zweiten Teil der Arbeit wurde die NVIDIA CUDA Plattform zur Nutzung der GPU als Co-Prozessor für Daten parallele Aufgaben beschrieben und die Parallelisierbarkeit des ASW-Verfahren untersucht. Die GPU- Berechnung konnte über verschiedene Testsets eine 34,04- 45,52 fache Beschleunigung bei gleich bleibender Qualität der Disparitätskarte und der virtuellen Ansicht erzielen. Die Performance der GPU- Berechnung kann wahrscheinlich durch die in der Arbeit beschriebenen Optimierungsstrategien weiter verbessert werden.



Mauer, Stephan;
Array aus Miniaturschallwandlern als Flachlautsprecher. - 144 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die bisher von Flachlautsprechern erreichte Wiedergabequalität ist nicht befriedigend. Im Rahmen dieser Arbeit wird ausführlich untersucht, ob und inwieweit die vorhandenen akustischen Defizite flacher Lautsprecher durch die Verwendung eines Arrays, bestehend aus Miniaturschallwandlern, als akustischen Treiber beheben lassen. Theoretische Grundlagen, die wesentliche Auswirkungen auf die Wiedergabe haben oder Lösungen für bestehende Probleme aufzeigen, werden in Kapitel 2 erläutert. Kapitel 3 beschreibt die historische Entwicklung von Einzelchassis hin zur Gruppierung von Chassis und der Unterdrückung von dadurch entstehenden negativen Seiteneffekten. Auf Basis von Vorüberlegungen und dem Wissen um theoretische Hintergründe wurden praktische Untersuchungen durchgeführt, drei Prototypen angefertigt und akustisch vermessen. An Prototyp II konnten die besten akustischen Eigenschaften gemessen werden. Dieser ist ein geschlossener Lautsprecher mit einem quadratischen Array aus 25 Miniaturlautsprechern als Schallwandler. Teile des Arrays arbeiten auf abgetrennte Volumina. Der Ansteuerung des Arrays liegt eine symmetrische Zweiwegeanordnung nach D'Appolito zugrunde. Die Chassis der mittleren Spalte des Arrays, welche als Hochtöner arbeiten, sind nach Koeffizienten von Besselfunktionen gewichtet. Das Anregungssignal des Systems wird mit einem Lautsprechercontroller entzerrt sowie aktiv getrennt und mittels zwei Endstufen verstärkt. Mit diesem Konzept kann der Frequenzbereich von 100 Hz 20000 Hz (Grenzfrequenz bei -6 dB) mit einer Welligkeit von +/-2 dB bei nur 3,6 cm Gehäusetiefe (Außenabmessung) wiedergegeben werden. Bei einem hifiüblichen Grenzwert für den Klirrfaktor von 3% bei 1 kHz wird ein Schalldruckpegel von 102 dB in einem Meter Abstand erreicht. Der Lautsprecher hat ein kontinuierliches, nicht übermäßig bündelndes Richtverhalten ohne ausgeprägte Seitenkeulen. Die in der Motivation gestellten Fragen nach der erreichbaren Wiedergabequalität können mit dem Ergebnis dieser Arbeit zufriedenstellend beantwortet werden. Hohen Ansprüchen an Abstrahlverhalten, Frequenzgangslinearität und maximalen Schalldruck kann das Ergebnis dieser Arbeit standhalten. Ein Vollbereichslautsprecher konnte mit den vorliegenden Schallwandlern jedoch nicht realisiert werden. Die Vorgabe der maximalen Gehäusetiefe von 3 cm kann der Prototyp zwar nicht erfüllen, aber durch Verwendung von 3 mm starkem Material für das Gehäuse und bündiges Einlassen der Chassis in die Lautsprecherfront kann eine Gehäusetiefe von 3 cm erreicht werden. Lautsprecher nach Vorbild des Prototypen II sind sowohl in klassischen Stereo- als auch in Multikanalsetups, vorzugsweise mit Subwoofer, einsetzbar. Das Arraykonzept führt zu einer hohen Skalierbarkeit des Systems. So kann damit bei Lautsprecherpanels für Wellenfeldsynthese der Abstand benachbarter Wiedergabekanäle durch den geringen Durchmesser der Chassis minimiert werden. Durch die Möglichkeit, einzelne Chassis und somit bestimmte Bereiche eines Arrays diskret anzusteuern, sind Szenarien mit zeitlich modifizierbarer Ansteuerung denkbar. Abschließend ist festzustellen, dass es möglich ist, durch Kombination von bekanntem Wissen und moderner Schallwandlertechnologie sowie Signalverarbeitung einen Lautsprecher zu realisieren, der eine außergewöhnlich geringe Gehäusetiefe hat, kostengünstig herzustellen ist und messtechnisch wie klanglich überzeugt.



Mauser, Michael;
Konzeption und Aufbau eines audiovisuellen Kommunikationssystems zur Übertragung verteilter Brettspiele. - 80 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die heute verwendete Kommunikationstechnologie ist meist auf eine individuelle Nutzung ausgerichtet. Das EU-Projekt "Together Anywhere, Together Anytime" (TA2)hat dagegen zum Ziel, die nötige Technologie für eine Gruppe-zu-Gruppe-Kommunikation zu entwickeln. Die dazu verwendeten Konzepte orientieren sich an den Ansprüchen des nahen sozialen Umfelds, wie zum Beispiel der Familie und Freunde. Im Rahmen von TA2 ist das Fraunhofer Institut für Integrierte Schaltungen für die Audioübertragungsstrecke verantwortlich. Um die hierfür eingesetzte Technik des Instituts präsentieren und testen zu können, wird in dieser Arbeit anhand des Szenarios "Spielen verteilter Brettspiele" ein Konzept zur audiovisuellen Übertragung eines Spielgeschehens entworfen, umgesetzt und getestet. Ausgehend von einem grob umrissenen Entwurf wird hierzu durch Recherche und Testaufbauten das Konzept entwickelt. - Das System wird als Testumgebung entworfen, für die zwei benachbarte Räume genutzt werden, in denen jeweils zwei Nutzer vorgesehen sind. Es besteht aus einer hochwertigen Stereo-Audioübertragung mit geringer Verzögerung und Freisprechfunktion und einer Videoübertragung mit Tischmonitoren, die ein Spielesystem mit realen Spielsteinen ermöglicht. Um die Spieleübertragung zu realisieren, muss eine optische Rückkopplung verhindert werden, hierzu werden polarisiertes Licht und Polfilter genutzt. Das Konzept wird durch eine zweite Videoübertragung mit hochauflösenden Wandmonitoren ergänzt, welche die Nutzer annähernd in Lebensgröße wiedergibt. - Die zur Umsetzung benötigte Technik wird beschafft und das konzeptionierte System aufgebaut. Das System besteht aus ca. 60 Einzelkomponenten mit einem Gesamtwert von etwa 27.000 Euro. Es wird ein Funktionstest durchgeführt, dabei auftretende Probleme werden analysiert und Lösungsvorschläge entworfen.



Mayer, Sven;
Konzeption und prototypische Umsetzung eines auf Adobe Flash (ActionScript 3.0) und XML basierenden Content Management Systems zur Erzeugung von interaktiven Testsystemen. - 137 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Viele bisher entwickelten Testsysteme zur Zulassung eines Praktikums im Fachgebiet "Grundlagen der Elektrotechnik" an der Technischen Universität Ilmenau basieren auf Adobe Flash (ActionScript 2.0) und Adobe Director (Lingo). Diese Plattformen ermöglichen die Entwicklung komplexer und interaktiver Web-Applikationen. Die Quelldaten der Testsysteme sind dabei in den Quellcode integriert und die enthaltenen Aufgabentypen erfüllen exakte und spezifische Anforderungen. Dadurch sind die bestehenden Testsysteme äußerst unflexibel bezüglich Veränderungen der Quelldaten als auch der Aufgabentypen selbst. Änderungen in der Logik eines gesamten Testsystems sind technisch bedingt nahezu ausgeschlossen. Das Ziel ist es daher, die Flexibilität zu erhöhen und bereits entwickelte Aufgabentypen wiederzuverwenden, um umfangreichere und komplexere Anforderungen realisieren zu können. Dies gelingt grundlegend mit der Verwendung eines Content Management Systems (CMS). Bestehende CMS können dabei jedoch das volle Potenzial und die Vorteile, die sich aus der Verwendung von ActionScript ergeben, nicht nutzen, da sich ihr Quellcode auf andere Programmiersprachen stützt oder einzelne Anforderungen mit ActionScript erfüllt werden. Dies wirft die Fragestellung auf, ob es möglich ist, das CMS selbst mit ActionScript 3.0 zu entwickeln. Dabei ist die Erkenntnis entscheidend, ob die Anforderungen an die Verarbeitung großer Datensätze mithilfe der in ActionScript 3.0 neu hinzugekommenen XML-Funktionen des Standards "ECMAScript for XML" (E4X) erfüllt werden können. Diese Arbeit zeigt hierzu die prototypische Umsetzung eines CMS mit ActionScript 3.0 mithilfe dreier Web-Applikationen, welche die Administratorenverwaltung als auch die Erstellung, die Administration und die Durchführung von Testsystemen ermöglichen. Dabei sind mehrere klassische Aufgabentypen (Multiple Choice-Varianten) implementiert, um eine geeignete und flexible XML-Datenstruktur zu ermitteln. Hierbei zeigt sich, dass sich ActionScript 3.0 zur Entwicklung eines CMS eignet und dass die Anforderungen an die Datenverarbeitung mit XML erfüllt werden. Die entwickelte XML-Datenstruktur ermöglicht dabei eine flexible Erweiterung des CMS, so dass zukunftsweisende Technologien wie beispielsweise "MathML" nativ integriert werden können.



Hohberger, Thomas;
Verbesserung eines bestehenden Systems zur automatischen Analyse von rhythmischen Eigenschaften von Musikstücken. - 96 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die vorliegende Arbeit beschäftigt sich mit den rhythmischen Eigenschaften von Musikstücken. Diese sollen zur Unterstützung der Software Soundslike bei der Ähnlichkeitssuche von Musikstücken genutzt werden. - Die grundlegende Idee stellt den Ansatz dar ein System zu modellieren, das dem menschlichen Empfinden nahe kommt und dabei leicht zu interpretierende Datensätze liefert. Auf Basis der Annahme dass Menschen den Grundrhythmus eines Musikstücks als Grundlage zur Bewertung rhythmischer Ähnlichkeit heranziehen wurde die Arbeit in zwei Abschnitte untergeteilt. Zum einen wurde ein Testset manuell annotiert und die Möglichkeiten des reduzierten Basispatterns untersucht zum anderen ein Algorithmus zur automatischen Extraktion formuliert. - Sowohl die Ergebnisse der manuellen Notation, sowie die automatische Extraktion, wurden mit einem erweiterten Benchmarksystem auf ihre Einsatzfähigkeit bei der Ähnlichkeitssuche untersucht. Die Leistung des Soundslike-Systems wird über die Genre-Ähnlichkeit evaluiert. Dabei konnte die Verfügbarkeit der manuell notierten Basispattern eine Steigerung der Performance des Systems erwirken. Der vorgestellte Algorithmus zur automatischen Extraktion der Grundrhythmen aus bestehenden Transkriptionsdaten hingegen lieferte eine massive Verschlechterung der untersuchten Aspekte



Herold, Philip;
Automatische Szenenklassifikation und -kontextanalyse von Fotos unter Hinzuziehung von Kamerametadaten. - 103 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Die vorliegende Diplomarbeit befasst sich mit der automatischen Szenenklassikation unter Hinzuziehung von Kamerametadaten. Neben den reinen Pixelinformationen halten digitale Fotografien außerdem Informationen zum Umstand der Aufnahme bereit. Diese Kamerametadaten werden im so genannten EXIF Standard definiert. Da den Kameraherstellern bei der Speicherung solcher Metainformationen sehr viel Freiraum eingeräumt wird, wurde als erstes untersucht, wie konsistent bestimmte EXIF Daten in herkömmlichen digitalen Kameras gespeichert werden. Ausgehend von diesen Daten wurden bestimmte EXIF Merkmale ausgewählt, welche zu einer Szenenklassikation herangezogen werden können. Als Klassifikationsbasis wurde eine Bilderdatenbank zusammengetragen. Die Datenbank ist in bestimmte Klassen eingeteilt. Als Quelle für die digitalen Bilder dient die Online-Fotocommunity Flickr. Auf Basis dieser Bilderdatenbank wurde untersucht, wie sich die EXIF Daten in den definierten Klassen ausprägen. Zur Klassifikation werden die Klassen in drei verschiedene Gruppen eingeteilt. Separiert nach Aufnahmeort, Aufnahmezeitpunkt und aufgenommenen Motiv werden die Klassen mithilfe zweier Verfahren klassifiziert. Die zur Anwendung kommenden Methoden sind eine Klassifikation mittels Gaussian Mixture Models und einer Support Vektor Maschine. In der Evaluation wird verglichen, ob sich eine Klassifikation anhand von visuellen Merkmalen, durch die Hinzuziehung der beschriebenen EXIF Merkmale, verbessern lässt. Die Evaluation liefert je nach definierter Gruppe unterschiedliche Ergebnisse. Allgemein lässt sich konstatieren, dass durch die Einbeziehung der Kamerametadaten eine Klassifikationsverbesserung von durchschnittlich 1-2% erreicht werden kann.



Prang, Holger;
Erstellung einer Systemplattform für neue Dienste im Hotelfernsehen. - 100 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2009

Diese Arbeit ist am Fraunhofer Institut für digitale Medientechnologie entstanden und beschäftigt sich mit den Diensten des Hotelfernsehens. Es werden aktuelle Dienste analysiert und Definitionen für neue Dienste aufgestellt. Diese zeichnen sich durch hohe Interaktivität, dynamische Erstellung und die Integration von externen Dienstanbietern aus. Es werden mögliche Technologien wie MHEG, MHP und auch MPEG-4 als Distributionsformate und DVB, IPTV und DOCSIS als Übertragungsverfahren betrachtet. - Entstanden ist eine Systemplattform zur Verwaltung und automatischen Aktualisierung interaktiver multimedialer Dienste, die sich nicht nur auf das Hotelfernsehen beschränkt. Mit ihr ist es möglich Inhalte für neue Dienste für das Fernsehen, sowie auch für mobile Anwendungen zu generieren und zu verwalten. Sie schafft die Verbindung zwischen dynamischen Informationsdiensten, unterschiedlichen XML-Formaten und einer einheitlichen Beschreibung für interaktive Anwendungen. - Für die Umsetzung wurde die Java Application Server Spezifikation Java 2 Enterprise Edition (J2EE) verwendet. Die entwickelte Software sammelt Daten aus verschiedenen XML-Datenquellen und wandelt sie in MPEG-4 Medienobjekte um. Sie bietet eine Weboberfläche zur Verwaltung der Datenquellen und Dienste sowie einen Web-Editor um kleine Änderungen an Inhalten der Dienste vorzunehmen.



Federspiel, Michael;
Implementierung und Evaluierung neuartiger User-Interface-Prinzipien auf Basis von mikromechanischen Sensoren zur Steuerung von Konsumer-Elektronik-Geräten. - 83 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Beschleunigungssensoren werden immer kleiner und günstiger und drängen dadurch immer weiter auf den Konsumermarkt. Dabei erschließen sich interessante Anwendungsfälle. In dieser Arbeit wird der Einsatz als Userinterface untersucht, und mit welchem Sensortyp eine Umsetzung am sinnvollsten erscheint. Prinzipiell besteht die Möglichkeit der Realisierung mittels Dreharten- oder Beschleunigungssensoren. Beschleunigungssensoren messen auch die Erdbeschleunigung, was zwar eine Detektion reiner Bewegungen erschwert, aber als Lagererkennung genutzt werden kann. Um dennoch mit Beschleunigungssensoren komplexe Bewegungen zu verfolgen, wird ein Ansatz mit zwei Beschleunigungssensoren zur Erzeugung einer Drehrate untersucht, bei welchem mittels Differenzbildung von zwei Beschleunigungssensoren die Erdanziehung eliminiert werden soll. Bei dieser Methode muss mit erheblichen Auswirkungen der Sensorfehler gerechnet werden. Die besten Ergebnisse werden bei der Nutzung eines Drehratensensors erwartet, da auf diesen Sensor die Erdanziehung keinen Einfluss hat. Neben den theoretischen Grundlagen werden Produkte vorgestellt, die bereits Sensoren zur Steuerung benutzen. Im praktischen Teil werden die theoretischen Überlegungen in Matlab simuliert und ausgewertet, um darauf aufbauend eine Einschätzung zu geben, mit welchem Sensor ein Userinterface entwickelt werden kann oder welche Bedingungen ein Sensor erfüllen muss.



Yang, Haojin;
Musik Visualisierung mit Hilfe moderner Grafikprozessoren. - 100 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Hören und Sehen sind Teil der menschlichen Wahrnehmungen. Von den Wahrnehmungsgewohnheiten her betrachtet scheint ein Bedürfnis dafür vorzuliegen, optische und akustische Ereignisse miteinander zu verbinden ... - Aktuell wird beim Fraunhofer IDMT (Institut für Digitale Medientechnologie) eine neuartige Technologie zur Extraktion von Inhaltsmerkmalen aus Musik entwickelt ...



Sarkadi, Michael;
Automatische Beurteilung von Qualität und Ästhetik in Photographien. - 107 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Die vorliegende Diplomarbeit befasst sich mit dem Thema der automatischen Beurteilung von Qualität und Ästhetik in Fotografien. Gestaltpsychologen und Neurowissenschaftler sind sich über die Existenz ästhetischer Universalien einig. Auf Grundlage der Ästhetiktheorie, Erkenntnissen aus der Wahrnehmungspsychologie, der Gestaltpsychologie und den Neurowissenschaften werden Eigenschaften von Bildern definiert, die ästhetisches Empfinden hervorrufen. Diese Eigenschaften spiegeln sich in gestalterischen Gesetzmäßigkeiten wider. - Aufbauend auf diesen gestalterischen Gesetzmäßigkeiten sind low und mid-level Merkmalsextraktoren entwickelt und implementiert worden. Es stehen Extraktoren für Farb- und Kontrastanalyse, Unschärfe- und Symmetriedetektion sowie zur Analyse von Einfachheit zur Verfügung. Für die Evaluation der Merkmalsextraktoren ist eine Datenbank mit Fotografien auf Basis der Online-Community photo.net erstellt worden. Die Bilder werden von den Mitgliedern nach Ästhetik und Originalität bewertet. Ausgehend von den Bewertungen können die Merkmalsextraktoren getestet werden. Die Evaluation wurde anhand der Klassifikationsergebnisse einer Support Vektor Maschine durchgeführt. Die Ergebnisse aus der Evaluation erreichen eine Genauigkeit von 69%. Somit kann geschlussfolgert werden, dass grundsätzlich eine Klassifikation nach ästhetischen Gesichtspunkten möglich ist.



Fingerhut, Christoph;
Interaktive Anwendungen für mobile Endgeräte. - 103 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Die vorliegende Diplomarbeit beschäftigt sich mit der Erstellung und der Übertragung von interaktiven Anwendungen für mobile Endgeräte. Im Rahmen dieser Arbeit wird ein Überblick über existierende Broadcast-basierte Verfahren gegeben, die für die Übertragung zu mobilen Endgeräten entwickelt wurden, und diese werden hinsichtlich ihrer Eignung zur Übertragung von interaktiven Anwendungen untersucht. Es werden die Möglichkeiten des MPEG-4 Standards zur Entwicklung von interaktiven Anwendungen für mobile Endgeräte mit dem MPEG-4 Binary Format for Scenes (BIFS) und mit MPEG-4 Lightweight Application Scene Representation (LASeR) vorgestellt. - Basierend auf dem MPEG-4 Authoring-Format XMT-O wird ein Konzept für ein XML-basiertes Authoring-Format für die Erstellung von interaktiven Anwendungen für mobile Endgeräte entwickelt und prototypisch implementiert. - Für die Übertragung der interaktiven Anwendungen zu mobilen Endgeräten werden zwei unterschiedliche Systeme eingesetzt. Zum einen eine Broadcast-basierte Übertragung auf Basis von T-DMB (Terrestrial Digital Multimedia Broadcast), bei der die Möglichkeiten von T-DMB zur Übertragung von interaktiven MPEG-4 basierten Anwendungen genutzt werden, zum anderen eine WLAN-basierte (Wireless Local Area Network) Übertragung, die die Umsetzung sowohl von interaktiven als auch von bidirektionalen Anwendungen erlaubt. - Zur Demonstration der Möglichkeiten von interaktiven multimedialen Anwendungen für mobile Endgeräte wurden verschiedene interaktive Beispielapplikationen entwickelt.



Rißmann, Sascha;
Standardkonforme Anpassung der Lernplattform Edmedia zu ADL SCORM unter Berücksichtigung wieder verwendbarer Softwaremodule, der XML-Technologie und Client-Server-Architektur. - 53 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Die webbasierte Lernplattform EdMedia baut auf gegenwärtigen Standardisierungstrends auf. Die derzeitige Entwicklung basiert auf dem bekannten Lernstandard IEEE Learning Object Metadata und der Spezifikation IMS Content Packaging. In der vorliegenden Arbeit werden Ansätze aufgezeigt, die Möglichkeiten der zusätzlichen Anpassung zur ADL SCORM-Spezifikation, die ihrerseits IEEE LOM integriert, zu prüfen und anhand von Re-Engineering-Methoden zu implementieren. Das Ziel der Entwicklung ist, die Lernplattform EdMedia für die Verwendung SCORM-konformer Lerninhalte zu öffnen und digitale Lerninhalte so zu gestalten, dass diese plattform- und systemübergreifend zugänglich sind und möglichst flexibel jederzeit wieder verwendet werden können.



Nikiforova, Viktoria;
Simulation von realen DAB-Empfangsbedingungen im Labor. - 67 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Als Ziel der Arbeit ist, einen während der Testfahrt aufgezeichneten DAB-Empfangssignal-Verlauf im Labor dieselben Empfangsbedingungen zu reproduzieren. Dafür wird ein DAB-Ensemble an der RDI-Schnittstelle (Receiver Data Interface) aufgezeichnet und über die ETI-Schnittstelle (Ensemble Transport Interface) wieder abgespielt. Für den Signalverlauf werden die Daten zur Audioqualität und Bitfehlerrate analysiert und für die Feldstärkesteuerung über die Testautomatisierung angewendet.



Fritz, Frauke;
Dexterous manipulation of virtual objects in VR through data gloves. - 126 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Diese Diplomarbeit beschreibt die Implementierung eines dynamischen Handmodels in ein existierendes Virtual Reality Framework. Das dynamische Handmodel ermöglicht physikbasierende Interaktion mit virtuellen Objekten sowie deren Manipulation in einer virtuellen Umgebung. Als Grundlage für die Implementierung dienen zum einen die XVR Entwicklungsumgebung für virtuelle Anwendungen und zum anderen das physX Paket als Physik Engine für die Simulierung der Dynamik. Zur Messung der Handbewegungen und zur taktilen Stimulierung der Fingerspitzen wird der PERCRO Datenhandschuh benutzt.



Werner, Michael;
Weiterentwicklung eines SBR Verfahrens für Audiocodierungsanwendungen mit geringer Verzögerung. - 127 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Mit dem Ziel, die Datenrate vorhandener Audiocodecs weiter zu reduzieren, hat sich in den letzten Jahren ein Verfahren mit der Bezeichnung Spektralband-Replikation (SBR) etabliert. Hierbei wird die untere Hälfte des Signalspektrums mit halber Bandbreite mittels eines gewöhnlichen Audiocoders kodiert und die obere Hälfte lediglich durch einige wenige Parameter erfasst. Bei der Wiedergabe auf der Empfängerseite wird dann das obere Signalspektrum aus dem dekodierten unteren Spektrum und den als Seiteninformation übertragenen Parametern rekonstruiert. - Alternativ zu SBR existiert ein in der Sprachkodierung erfolgreich eingesetztes Verfahren mit der Bezeichnung Codebook Mapping (CBM). Kern dieses Verfahrens ist die Voraussetzung, dass es nur eine begrenzte Anzahl an charakteristischen Hüllkurven des Tiefpass-Spektrums eines Signals gibt, die wiederum jeweils eine charakteristische Hochpass-Hüllkurve besitzen. Speichert man nun diese typischen Hüllkurven in einem Tiefpass- und Hochpasscodebuch, so kann aus deren verbundenen Einträgen der obere Frequenzbereich ohne die Übertragung von Seiteninformation rekonstruiert werden. - In der Diplomarbeit wurde versucht, die Datenrate eines am Fraunhofer IDMT entwickelten SBR-Systems für Audiocoder mit sehr kurzer Verzögerung (LD-SBR) durch Integration des CBM zu verringern. Dazu wurden Codebücher auf Basis von gewöhnlichen Musik- und Sprachsignalen erstellt und mit ihnen die Rekonstruktion des Hochpasssignals durchgeführt. Die Systeme wurden dann durch Hörtests nach der MUSHRA-Methode bewertet. Dabei stellte sich heraus, dass bereits eine fixe Hochpass-Hüllkurve zu guten Ergebnissen führt. Mit 43% der Datenrate von LD-SBR und einer nur leicht verminderten Klangqualität ist die Rekonstruktion mit einer festen Hüllkurve besonders für Low-Complexity-Anwendungen geeignet. Parallel wurde versucht, durch eingebettete Hochpasscodebücher die Qualität weiter zu steigern. Dabei wird jedem Eintrag im Tiefpasscodebuch ein eigenes Hochpasscodebuch zugeordnet, dessen Index bei der Kodierung als Seiteninformation übertragen wird. Dieses Verfahren erreicht bei etwa 64% der Datenrate von LD-SBR eine dazu vergleichbare Klangqualität, was dieses System zu einer echten Alternative macht.



Geißler, Alexander;
Evaluierung und Integrationskonzeption von kantenbasierten Echtzeit Denoising Verfahren für digitale Kamerasysteme. - 134 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Diese Diplomarbeit untersucht anisotrope kantenerhaltende Filter bezüglich ihrer Qualität und einer möglichen echtzeitfähigen Rauschminimierung für digitale Kamerasysteme. Das Ziel ist neben der Ermittlung eines echtzeitfähigen Algorithmus die Konzeption eines Verfahrens für ein bestehendes Kamerasystem. - Im Rahmen der Untersuchung wurden dazu vier Verfahren einer anisotropen Filterung hinsichtlich ihres Rechenaufwands, ihrer Qualität und einer möglichen Echtzeitfähigkeit geprüft. - Bei der Auswahl der Algorithmen wird darauf geachtet, dass ein breites Spektrum mathematischer Verfahren zum Einsatz kommt. - Dazu wird Edge-, sowie Coherence-Enhancing Diffusion, Gradient Adaptive Image Enhancement und der Curvature Preserving Algorithmus in Matlab umgesetzt und getestet. - Dabei kann mit drei der vier Algorithmen eine Verbesserung der Bildqualität erzielt werden. Die für die Verfahren benötigte Zeit und der Rechenaufwand unterscheiden sich dabei voneinander, ebenso die erzielten Ergebnisse. - Da das primäre Einsatzgebiet im Filmbereich angesiedelt ist, werden die Verfahren sowohl an Einzelbilder als auch an Filmsequenzen getestet. - Die Bewertung erfolgt sowohl durch numerische Messverfahren als auch durch Analyse mit psychometrischen Modellen, um das menschliche Sehverhalten mit zu berücksichtigen. - Aus den vier untersuchten Verfahren wird ein Algorithmus ausgewählt, den man weiter vereinfacht. Für die Konzeption einer echtzeitfähigen Umsetzung wird aufgrund der Resultate der Edge-Enhancing Diffusion (EED) Algorithmus gewählt und durchgeführte Vereinfachungen an ihm getestet. Der konzeptionelle Vorschlag wird für ein FPGA gestütztes System ausgearbeitet. Dabei kann gezeigt werden, dass eine echtzeitfähige Umsetzung des EED Algorithmus in ein FPGA prinzipiell realisierbar ist. Eine Implementierung muss die vorgelegte Konzeption verifizieren.



Wolter, Kay;
Concept and implementation of user adaptive relevance feedback for personalized content-based music retrieval. - 126 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

In dieser Arbeit wird ein CBMR System erweitert, um es an das Relevanz Feedback, gegeben durch das Hörverhalten eines Nutzers, anzupassen. Basis für die Analyse bilden Songs, die durch den Nutzer bereits akzeptiert bzw.\ abgelehnt wurden. Um musikalische Ähnlichkeiten zwischen Songs bestimmen zu können, werden Profile extrahiert. Die Profile basieren auf Listen, die durch Einbeziehen unterschiedlicher Audiomerkmale erzeugt werden und nach der Ähnlichkeit zum Seed Song sortiert sind. Jedes Attribut eines Profils repräsentiert den Rang in der jeweiligen Liste. Es werden verschiedene Verfahren des Data Mining und des Maschinellen Lernens untersucht im Hinblick auf ihre Leistungsfähigkeit, wobei die Profile die Grundlage für die Berechnungen bilden. Profilattribute ohne nennenswerten Beitrag werden erfasst und vom Empfehlungsprozess ausgeschlossen. Songs, die bereits vom Nutzer akzeptiert wurden, werden benutzt, um das CBMR System erneut nach ähnlichen Songs anzufragen und somit zusätzliche Profile zu extrahieren. - Um das System zu evaluieren, werden verschiedene Tests durchgeführt. Es wird gezeigt, dass das Einbeziehen von Relevanz Feedback die Qualität von Musikempfehlungen entscheidend verbessern kann. Die Ähnlichkeiten zwischen Profilen von Songs kann durch Berücksichtigung von typischen Vektordistanzen ermittelt werden. Die besten Resultate liefern k-Means bzw. k-NN. Das Entfernen von Profilattributen in Abhängigkeit des entsprechenden Information Gain führt zu einer leichten Verbesserung. Weiterhin kann das Einbeziehen von mehreren Songs als Seed Songs die Qualität der Musikempfehlungen entscheidend steigern.



Stehr, Sandy;
Entwicklung eines Animations-Editors als Modul für ein Autorenwerkzeug zur Erstellung interaktiver objektbasierter A/V-Anwendungen. - 83 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Für die Produktion multimedialer Anwendungen gewinnen Animationen mehr und mehr an Bedeutung. Sie dienen der Veranschaulichung von Sachverhalten und der Unterhaltung. Da die Integration von Animationen in multimediale Anwendungen sehr aufwändig und kostenintensiv ist, werden Autorenwerkzeuge benötigt, welche es auch Autoren ohne tiefgreifende Kenntnisse der technischen Zusammenhänge ermöglichen, auf einfache Weise effektvolle Animationen zu erstellen. - Diese Arbeit beschäftigt sich mit der Konzeption und Erstellung eines Animations-Editors als Modul für das am Fraunhofer IDMT entwickelte Autorenwerkzeug 3dAuthor. Der Schwerpunkt lag dabei auf der Entwicklung einer intuitiven grafischen Oberfläche auf Basis bewährter Arbeitsabläufe und Metaphern sowie der Integration des Moduls in das bestehende Werkzeug.



Loos, Alexander;
Erweiterung von Verfahren zur Transkription von Solo-Parts in Musikstücken. - 99 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Diese Arbeit befasst sich mit dem Gebiet der automatischen Transkription von Musik (AToM), welche zum Ziel hat, Audioaufnahmen in eine symbolische Repräsentation zu konvertieren. Diese umfasst die Tonhöhe der gespielten Noten, deren Länge, Startzeitpunkt jeder Note, Taktart sowie die Klassifikation der gespielten Instrumente. Es wurden speziell Solo-Parts, bei denen ein bestimmtes Instrument akustisch herausgehoben im Vordergrund in Begleitung anderer Instrumente spielt, untersucht. Ein bereits bestehendes System zur Transkription von Melodielinien wurde um eine Analyse des Stereopanoramas und anschließende Extraktion des Soloinstrumentes aus dem Panorama erweitert. Es wurden Methoden zur Berechnung und Analyse des Stereopanoramas, Panoramafilterung des Soloinstrumentes und anschließender Linienverfolgung der Hauptmelodie in MATLAB entwickelt. Des Weiteren wurde eine grafische Benutzeroberfläche (GUI) implementiert, die es dem Anwender erlaubt, markante Stellen im Solopart für eine nachfolgende Panoramafilterung und Melodieverfolgung zu markieren. Es folgte ein ausgiebiger Test des implementierten Systems und ein Vergleich mit einem Referenzsystem zur Transkription des Melodieinstrumentes ohne vorherige Panoramafilterung. Hierzu wurden zwei Testsets, zum einen mit synthetisch generierten Musikstücken, zum anderen mit realem Audiomaterial, zusammengestellt. Die Ergebnisse zeigten, dass durch eine Panoramaanalyse des Audiomaterials die Transkription sowohl in Tonhöhen- als auch Noteneinsatzdetektion verbessert werden kann. In dieser Arbeit wird nach einer ausführlichen Einführung sowohl in musiktheoretische, als auch signaltheoretische Grundlagen der automatischen Musiktranskription ein Überblick über den Stand der Technik gegeben. Anschließend erfolgt die detaillierte Beschreibung des implementierten Systems sowie die Auswertung und Ergebnisse der Evaluation.



Stöcklmeier, Christian;
Entwicklung einer auf Hardware Controllern basierten Steuerung zur Navigation in Tonräumen. - 190 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Das Fraunhofer IDMT und das Institut für Medientechnik in Ilmenau beschäftigen sich mit der Erforschung von geometrischen Tonräumen. Geometrische Tonräume ordnen Töne geometrisch in einer Art und Weise an, dass Wahrnehmungsaspekte von Musik aus der räumlichen Position der Töne hervorgehen. - Geometrische Tonräume werden in der automatisierten Musikanalyse, der Musikpädagogik und der Musiktheorie angewendet, um musikalische Strukturen und damit verbundene Phänomene verständlich und vorstellbar zu machen. Eine andere Anwendung geometrischer Tonräume besteht darin, neuartige Benutzerschnittstellen zum Erzeugen von Musik zu entwickeln. - In dieser Arbeit wird eine auf Hardware Controllern basierte Steuerung entwickelt, welche es einem Musiker ermöglicht, Musik zu erzeugen, indem er/sie sich durch einen geometrischen Tonraum bewegt und dort positionierte Töne aktiviert. Zu diesem Zweck werden Controller ausgewählt und an die Software Fraunhofer Music-Pad des IDMTs angebunden. Mit dieser Software ist es möglich, einen Tonraum zur Erzeugung von Musik zu verwenden. Die Parameter des Tonraumes werden analysiert und auf die Controller gemappt. In einer Usability Studie wird die Benutzbarkeit der entwickelten Lösungen ermittelt und verglichen. Es werden Vorschläge gemacht, welche Lösung die vielversprechendste ist, wo Verbesserungsmöglichkeiten liegen und in welche Richtung die Entwicklung weitergehen könnte. - Als Controller wurden die Bewegungssensitive Wiimote von Nintendo, der Lemur der Firma Jazzmutant und der SpaceNavigator der Firma 3DConnexion ausgewählt. - Die Usability Studie hat ergeben, dass der Lemur, ein Touchscreen mit konfigurierbarer Bedienoberfläche, von den drei Controllern am geeignetsten ist.



Bauer, Marius;
Expansion of a system for automatic musical genre classification. - 57 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Diese Diplomarbeit befasst sich mit automatischer Musikgenre-Klassifizierung. Die Fraunhofer IDMT Software "GenreID" klassifiziert Musikstücke innerhalb einer hierarchischen Genretaxonomie und generiert eine Ergebnisdatei. Dabei wird ein Teil der Stücke richtig klassifiziert (true positives) und ein Teil falsch (false positives). Diese Arbeit versucht, die Anzahl der false positives durch Nachverarbeitung der Ergebnisse zu reduzieren und den betroffenen Stücken stattdessen kein Genre-Label zuzuordnen. Anhand der Ergebnisse, die in Matlab ausgewertet wurden, lassen sich mehrere Ansätze verfolgen: - Der normierte Ähnlichkeitswert jedes Songs zum jeweils wahrscheinlichsten Genre muss höher sein als ein vorgegebener Schwellwert. - Zusätzlich zum normierten Ähnlichkeitswert muss der so genannte Log-Likelihood Wert eines Songs auch überhalb eines Schwellwertes liegen. - Die Differenz des normierten Ähnlichkeitswertes der zwei wahrscheinlichsten Genres jedes Songs muss höher sein als der Schwellwert. - Nachklassifizierung durch Ähnlichkeit des Genreprofils eines Songs und Decision Template eines Genres. - Paarweise Nachklassifizierung eines Songs mit den zwei wahrscheinlichsten Genres. - Die Ergebnisse der Arbeit zeigen, dass es durch Nachverarbeitung möglich ist, die Anzahl der False positives zu reduzieren. Wenn Schwellwerte eingesetzt werden, ist damit aber immer auch ein Verlust an true positives verbunden. Es gibt jedoch Bereiche, in denen die false positives stärker reduziert werden als die true positives. Durch Nachklassifizierung lassen sich allerdings auch false positives in true positives umwandeln, so dass die Songs ihre Genrelabel nicht verlieren.



Hellwig, Anja;
Entwicklung und Evaluierung eines Verfahrens zur automatischen Detektion von Gesichtsmerkmalen. - 65 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Die vorliegende Diplomarbeit befasst sich mit einem automatischen Detektionsverfahren von Gesichtsmerkmalen in digitalen Bildern. Nach einer Auseinandersetzung mit den gebräuchlichsten Methoden im Bereich des Maschinellen Sehens, wurde auf Grundlage von Gabor-Merkmalen, Ähnlichkeitsberechnungen und Gaussian Mixture Models ein Detektionssystem entwickelt. Mit diesem wurde geprüft, ob und in welchem Maße Gabor-Merkmale als Bildmerkmale geeignet sind, um eine robuste Detektion von Gesichtsmerkmalen zu gewährleisten. Im Ergebnis dieser Untersuchung standen keine anschaulichen und repräsentativen Kennzahlen. Dennoch bilden die Gruppe der wavelet-basierten Bildanalysemethoden ein hohes Anwendungspotential, was diese Arbeit vermitteln möchte.



Abeßer, Jakob;
Automatisierte Charakterisierung von Soloparts in Musikstücken. - 122 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Die vorliegende Diplomarbeit beschreibt die Extraktion von High-Level-Merkmalen aus transkribierten Soloparts in Musikstücken. Die aus den Partiturinformationen gewonnenen Merkmale charakterisieren die Spuren von Solo- und Begleitinstrumenten sowohl rhythmisch, melodisch, harmonisch als auch strukturell. Zusätzlich wurden Ansätze zur Beschreibung der Interaktion zwischen den beteiligten Musikern implementiert. Die Anwendbarkeit der entwickelten High-Level-Merkmale wurde im Kontext der Genre- und Musikerklassifikation anhand der vorliegenden Soloparts evaluiert. Hierzu wurden jeweils zwei Test-Datensätze zusammengestellt, die sowohl Audiodateien im symbolischen (MIDI) als auch im subsymbolischen Format (MP3) enthalten. Für die Genreklassifikation wurde zusätzlich ein Hörtest mit 25 Probanden durchgeführt, dessen Ergebnisse als Vergleichsdaten zu Verfügung stehen. Neben einem SVM-Klassifikator mit vorangegangener Diskriminanzanalyse (LDA) wurde ein neuer Ansatz für einen Klassifikator entwickelt, der mit Hilfe des in dieser Arbeit vorgestellten "rhythmischen Strukturprofiles" in Kombination mit einem Nearest-Neighbor-Algorithmus versucht, den durch die Begleitinstrumente vorgegebenen rhythmischen Kontext abzubilden. Über eine Ensembleentscheidung der instrumentenbezogenen Einzelklassifikatoren wurde für den LDA-SVM-Klassifikator eine mittlere Erkennungsquote von 83,9 % für MIDIDateien und 63,4 % für Audiodateien in einer Genretaxonomie bestehend aus sechs Genres erreicht. Da weder klang- noch instrumentierungsbezogene Merkmale berücksichtigt wurden, motivieren die erreichten Ergebnisse weiterführende Forschung in diesem Aufgabenfeld. Die mittleren Klassifikationsquoten für die beiden jeweils aus 4 Künstlern bestehenden Musikertaxonomien betragen 58,7 % und 56 %. Der zweite beschriebene Klassifikator erreichte bei der Genreklassifikation eine Erkennungsquote von 73,2 %. Nach einer Auswertung der erreichten Ergebnisse werden in dieser Arbeit abschließend einige Verbesserungsvorschläge und Anwendungsszenarien skizziert.



Werner, Stephan;
Trennung von Nutzsignalen und Rauschsignalen auf Basis von Vesikelfilterung in einem neuronalen auditorischen Modell. - 83 S.. : Ilmenau, Techn. Univ., Diplomarbeit, 2008

Nachfolgende Arbeit beschäftigt sich mit der Lokalisation und der Trennung von Schallquellen im Raum. Als Ziel stehen die Lokalisation und die Trennung des Nutzsignals einer definierten Zielschallquelle von im Raum befindlichen Rauschsignalen anderer Schallquellen. Es wird eine Verbesserung der Sprachverständlichkeit für diese Nutzschallquelle angestrebt. Die Lokalisation einzelner Schallquellen wird durch die Gewinnung und Auswertung von interauralen Laufzeitunterschieden in einem binauralem Gehörmodell realisiert. Als Ausgangsbasis dient ein physiologisch inspiriertes monaurales Gehörmodell, welches die Amplituden-Zeit-Darstellung der Schallwellen in eine Frequenz-Zeit-Darstellung der Cochlea, das auditorische Bild, überführt. Dieses Modell wird durch eine binaurale Signalverarbeitungskette ergänzt. Als Eingangssignale der Lokalisationskette werden das Basilarmembranverhalten, die Vesikelkonzentration im synaptischen Spalt der inneren Haarzellen und die durch Houghtransformation erzeugten Darstellungen der internen Verzögerungstrajektorien, verwendet. Das erweiterte Verfahren wird durch Simulationen und Tests unter realen Bedingungen auf seine Tauglichkeit hin untersucht und abgestimmt. Die Verbesserung der Sprachverständlichkeit wird mit Hilfe eines automatischen Spracherkennungssystems basierend auf Hidden Markow Modellen überprüft.



Köppel, Martin;
Patch-basierte Textursynthese unter Berücksichtigung dominanter Strukturen. - 119 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

In dieser Arbeit werden zwei Synthesealgorithmen vorgestellt. Bei dem ersten Verfahren handelt es sich um einen neuen auf Markov Random Fields basierenden Synthesealgorithmus zum Rekonstruieren von fehlenden Bildinformationen. Fehlende Informationen können als Loch in einem Bild betrachtet werden, welches durch teilweisen Datenverlust oder durch das Entfernen von Objekten entstanden ist. Die Herausforderung besteht darin, die synthetisierten Bereiche nahtlos in die vorhandene Nachbarschaftsumgebung einzufügen, ohne dass es zu subjektiv störenden Artefakten kommt. Der hier vorgeschlagene Algorithmus basiert auf der Beobachtung, dass dominante Strukturen wie zum Beispiel Objektkonturen wichtig für die menschliche Wahrnehmung sind. Deshalb werden sie beim Füllen zuerst bearbeitet und zuvor mit dem Tensor Voting Verfahren berechnet. Dieses Verfahren basiert auf den Gestaltprinzipien "Gute Fortsetzung" und "Nähe". Nachdem die Strukturbereiche bearbeitet sind, werden die restlichen unbekannten Bereiche mit Hilfe von patch-basierter Textursynthese aufgefüllt. - Bei dem zweiten in dieser Arbeit vorgestellten Algorithmus handelt es sich um einen neuen automatischen Algorithmus zur örtlichen Skalierung, welcher auf Textursynthese basiert. Das Ziel ist, Bilder mit geradzahligen Skalierungsfaktoren zu vergrößern. Dabei sollen Artefakte wie Verzerrungen und Unschärfen vermieden werden. Es ist möglich Farb- und Grauwertbilder zu interpolieren. Der hier vorgestellte Ansatz verwendet Patches aus dem Originalbild, um die neuen unbekannten Bildpunkte zu füllen. Der hier vorgestellte Algorithmus wird mit dem bikubischen Ansatz verglichen.



Vogler, Christoph;
Konzipierung und datenbankgestützte Integration einer benutzerorientierten Self-Assessment-Umgebung in eine web-basierte Lernplattform unter Berücksichtigung geltender Standards und Training. - 80 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Die Vermittlung von Lerninhalten im gewöhnlichen face to face Unterricht sowie im E-Learning Bereich ist stets mit Testen (Assessment) verbunden. Bezüglich des E-Learning stellt das Assessment einige Besonderheiten dar, so dass mit Unterstützung computer-basierter Technologien Tests automatisch generiert, elektronisch übermittelt und zudem automatisiert ausgewertet werden können. Weiterhin kann auf diesem Wege sofort nach der Durchführung eines Testverfahrens das Ergebnis veröffentlicht werden und statistische Daten generiert sowie erfasst werden. - Bei der elektronischen Form des Assessment steht auch der Austausch von Lerntests bzw. der einzelnen Testfragen mit anderen Assessment-Systemen oder Datenbanken, die solche Materialien verwalten, im Vordergrund. Für diese Infrastruktur ist ein einheitliches und genormtes Austauschformat notwendig. Ein solches Austauschformat stellt der IMS Question & Test Interoperability (IMS QTI) Standard dar. Auf diesem Gebiet ist IMS QTI gegenwärtig der einzige vorhandene Standard. - Gegenstand dieser Arbeit ist die Implementierung einer Self-Assessment-Umgebung in eine web-basierte Lernplattform, welche grundlegend auf den offenen Standard IMS QTI aufbaut. Weiterhin ist mit dieser Umgebung ein bestehendes Fraunhofer Patent für die dynamische Testgenerierung umgesetzt worden. Dazu wurden Schnittstellen zu der vorhandenen Lernplattform konzipiert und integriert.



Weis, Mathias;
Softwarearchitektur eines User Interfaces für ein digitales Filmarchiv. - Online-Ressource (PDF-Datei: VI, 100 S., 5,47 MB). Ilmenau : Techn. Univ., Diplomarbeit, 2008
- Enth. außerdem: Thesen

Neben der zuverlässigen und verlustlosen Lagerung bieten Systeme zur digitalen Aufbewahrung von Filmen vor allem Vorteile für die Reproduzierbarkeit und die Zugänglichkeit des Filmmaterials. Sämtliche Tätigkeiten, bei denen Personen auf ein digitales Filmarchiv zugreifen, werden über dessen User Interface abgewickelt. In dieser Arbeit wurde im Rahmen des EDCine-Projektes der Europäischen Union am Fraunhofer IIS eine Softwarearchitektur für das User Interface des "Digitalen Filmarchivs" entwickelt. Ziel war es, eine Architektur für ein generisches und skalierbares User Interface zu entwerfen, in dem sich bestehende Workflows und Usability-Konzepte für das User Interface des "Digitalen Filmarchivs" umsetzen lassen. Im Architekturdesign wurden verschiedene Architekturstile, -muster und Referenzarchitekturen auf mehreren Abstraktionsebenen kombiniert. Wesentliche Organisationsprinzipien ergaben sich dabei aus dem PAC-AMODEUS-Muster für interaktive Systeme, der XML-Pipeline und Plugin-Architekturen. Die Kommunikation zwischen Komponenten beruht auf WebServices und Ajax-Technologie. An zentraler Stelle steht ein XML-basiertes User-Interface-Modell, welches sich mit Hilfe von XSL-Transformationen an Ausgabemodalitäten anpassen lässt. Mit Hilfe des OpenLaszlo-Frameworks und des Adobe Flash Players wurde ein Demonstrator in Form einer webbasierten GUI für das DSpace-Archivsystem erstellt.


http://www.db-thueringen.de/servlets/DocumentServlet?id=11113

Kühnel, Tobias;
Visualisierung von musikalischer Ähnlichkeit in einer interaktiven 3D-Szene. - 83 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Diese Arbeit befasst sich mit der Visualisierung von musikalischer Ähnlichkeit in Form einer interaktiven 3D-Szene, ausgehend von einem am Fraunhofer IDMT entwickelten Prototypen, der aus Musikdaten eine "emergente selbstorganisierende Merkmalskarte" generiert. Diese Karte wird im Rahmen der Arbeit auf eine Kugel im 3D-Raum projeziert, wobei Funktionen zur Rotation und zum Zoom der Karte vorhanden sind. Die Umsetzung erfolgt dabei mit Hilfe der 3D-Beschreibungssprachen X3D bzw. VRML97



Fan, Feifei;
Analyse von Qualitätsparametern von 3D-Videoobjekten. - 102 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Das 3D-Videoobjekt ist ein neuartiger Medienobjekttyp. Ein natürliches, zeitlich veränderliches Objekt wird von mehreren festgelegten Kameras aufgenommen. Aus den aufgenommenen Bildsequenzen werden mittels unterschiedlicher Algorithmen virtuellen Ansichten des Objektes erzeugt. Am Institut für Medientechnik an der TU Ilmenau wird ein Algorithmus eingesetzt, der auf der Verwendung von Disparitätskarten basiert. - Die vorliegende Arbeit beschäftigt sich mit der Bildqualitätsbeurteilung von 3D-Videoobjekten, die mittels dieses Algorithmus erzeugt werden. Die realen und die entsprechenden virtuellen Bilder wurden erstellt und verglichen. Die Parameter, die die Qualität der Disparitätskarte beeinflussen können, wurden ermittelt. Der Schwerpunkt liegt darauf, die Referenzbilder zu erzeugen. Dabei müssen die Position und die Orientierung der Referenzkamera in Bezug auf ein Stereokamerasystem bestimmet werden. Diese Daten wurden an die Software der 3D-Videoobjekte, ReVOGS (Realistic Video Object Generation System), weitergegeben, um die entsprechenden virtuellen Bilder zu erzeugen, die den gleichen Standort und Blickwinkel haben. - ReVOGS wurde vom Institut für Medientechnik der TU Ilmenau entwickelt und befindet sich teilweise in einem frühen Entwicklungsstadium. Die Qualität von mit ReVOGS erzeugten 3D-Videoobjekten wurde mittels subjektiver Tests untersucht und sehr unterschiedliche bewertet. Die Bildqualität ist stark von einigen Parametern abhängig, zum Beispiel die Basislinielänge vom Stereokamerasystem und der Position der virtuellen Kamera.



Arnold, Mirko;
Entwurf und Test eines einfachen Instrumentencoders. - 80 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

In der vorliegenden Diplomarbeit wird ein Kompressionsverfahren für Gitarrensignale vorgestellt, das ein physikalisches Modell der Gitarre verwendet. Dieser Instrumentencoder erreicht seine Datenkompression dadurch, dass statt der Wellenform nur die Modellparameter übertragen werden müssen. Die Extraktion dieser Parameter aus den Signalen ist, neben der Auswahl der Technik zur diskreten Modellbildung und der Beschreibung des fertigen Kompressionsverfahrens, ein Schwerpunkt dieser Arbeit. Die Leistungsfähigkeit des Instrumentencoders wurde in einem Hörvergleichstest überprüft, für den eigens die Signale verschiedener Gitarren in einer optimierten Umgebung aufgenommen wurden. Die Ergebnisse des Hörtests zeigen, dass Gitarrensignale mit dieser Technik im Vergleich zu anderen aktuellen Kompressionsverfahren bei vergleichbarer Qualität deutlich effizienter kodiert werden können. Die Verwendbarkeit des Instrumentencoders ist dabei allerdings zum gegenwärtigen Zeitpunkt noch auf sehr einfach geartete Melodielinien beschränkt.



Woitek, Peter;
Design und Implementierung einer skalierbaren Core-Architektur zur intelligenten Verwaltung audiovisueller Medieninhalte auf Basis von XML-Metadaten (MPEG-7). - 79 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2008

Diese Arbeit setzt sich mit der Entwicklung eines komplexen Medienverwaltungssystems auseinander. Zu Beginn werden Einsatzbereiche sowie deren Anwendungsfälle erarbeitet. Danach folgt die Analyse bestehender Technologien, welche später in das System integriert werden. Der nächste Abschnitt beschreibt die praktische Umsetzung im Rahmen eines evolutionären, prototyp-basierten Ansatzes. Abschließend werden die Ergebnisse mit verschiedenen Methoden ausgewertet und ein Ausblick auf die Weiterentwicklung gegeben.



Ungru, Kathrin;
Automatische Erkennung von Inhalten in segmentierten Nachrichten- und Magazinsendung mit crossmodalen Ansätzen auf Basis der Audio- und Videodaten. - 95 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

Im Zuge der schnell voranschreitenden Entwicklung der Medien, stellt im Laufe der Geschichte die Digitalisierung einen weiteren Meilenstein dar. Es ist ein Trend zu beobachten, der durch eine Verschmelzung und Vernetzung von Medien charakterisiert werden kann. Die Herausforderung dieser Entwicklung besteht darin Applikationen zu schaffen, um neue Anwendungsszenarien zu ermöglichen, Interoperabilität der verschiedener Komponenten zu gewährleisten und die Flut von Daten zu verwalten. Themen heutiger Forschung im Multimediabereich sind vor allem Personalisierung, Speicherung und Abruf von Daten der verschiedenen medialen Modalitäten Text, Bild und Ton. Hierbei ist vor allem der Forschungsbereich zur Extraktion von Metadaten entstanden. Metadaten, sind die Daten, die andere Daten beschreiben. Dadurch können auch nicht-textbasierte Informationen greifbar gemacht werden. Es lassen sich im Bereich der Metadaten nicht nur Probleme hinsichtlich des Information Retrieval (computergestützte, inhaltsorientierte Beschaffung von Information) lösen, sondern auch bessere Archivierung, effiziente Speicherung und personalisierte Wiedergabe von Medien ermöglichen. Diese Arbeit beschäftigt sich mit der automatischen Inhaltsanalyse von audiovisuellen Daten und greift dabei die Thematiken Crossmodalität, Metadatenextraktion, Information Retrieval und benutzerbezogene Mediennutzung am Beispiel von Inhaltsanalyse in Nachrichten- und Magazinsendungen auf. Verschiedene Techniken der automatischen Inhaltsanalyse werden angewandt, weiterentwickelt und in ein Analysesystem integriert. Diese Techniken sind automatische Spracherkennung, automatische Texterkennung (OCR), automatische Gesichtserkennung, Schnitterkennung und Erkennung von Pausen in Sprache. Die Ergebnisse der Analyse und Interpretation werden im MPEG-7 Format gespeichert.



Seidenzahl, Karsten;
Produktion objektbasierter Fernsehsendungen auf Basis von MPEG-4. - 112 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

Die Arbeit unterteilt sich in 5 Hauptabschnitte: - Zunächst werden die technologischen Grundlagen erörtert. Beim MPEG-4-Standard steht dabei vor allem der objektorientierte Ansatz und die Szenenbeschreibung im Fokus der Betrachtung. Der Fernsehproduktionsprozess wird vor dem Hintergrund des Umbruchs zur IT-basierten Fernsehproduktion vorgestellt. - Die Methodik des System Engineering ist ein wichtiges Hilfsmittel bei der Betrachtung komplexer Systeme und wird deshalb im zweiten Abschnitt beschrieben. Die Herangehensweise wird strukturiert und man erhält einen roten Faden für die Entwicklung eines Systemkonzeptes. - Als nächstes gilt es diese Erkenntnisse auf die Situation im Fernsehproduktionsprozess anzuwenden. Eine umfassende Situationsanalyse wird die Gegebenheiten genau vorstellen. Dazu wurden beim Bayerischen Rundfunk viele praktische Erkenntnisse gesammelt. Der Produktionsprozess im Livebetrieb und die Sendeabwicklung beim BR in München-Freimann dienen deshalb als begleitendes Beispiel in dieser Arbeit. Viele Vorschläge und Anmerkungen lassen sich auf die gemachten Erfahrungen zurückführen. Die Synthese und Analyse von Lösungsvorschlägen für die Implementierung einer objektbasierten Fernsehproduktion, sowie ihrer Bewertung, wird umfassend dargestellt. - Aus den Erfahrungen in den Sendeanstalten lassen sich Anforderungen für MPEG-4-Autorenwerkzeuge ableiten. Auch hier soll ein Liveeinsatz im Vordergrund stehen. Dabei werden einige kritische Ansätze diskutiert und können Anhaltspunkte für eine genauere Untersuchung sein. - Zum Abschluss soll gezeigt werden, wie sich eine aktuelle Nachrichtensendung objektorientiert als MPEG-4-Szene umbauen lässt.



Rothe, Sebastian;
Untersuchung der Raumakustik von virtuellen Räumen. - 100 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

Diese Diplomarbeit untersucht die Reproduzierbarkeit der akustischen Parameter eines Raumes. Ausgangspunkt dazu waren 256 aufgenommene Impulsantworten im Joseph-Haydn Saal in Wien, der mit einem Rauschsignal angeregt wurde. Mittels eines kreisförmigen Mikrofonarrays konnte so die Schallverteilung in 1,4˚ Schritten um einen festen Punkt aufgezeichnet werden. - Aus den aufgezeichneten 256 Impulsantworten wurden mittels Plane Wave Decompostion 8 Impulsantworten extrahiert und als 8 ebene Wellen mittels Wellenfeldsynthese in Ilmenau wiedergegeben. - Im so reproduzierten Schallfeld wurden erneute Aufnahmen von Impulsantworten unter gleichen Bedingungen durchgeführt und mit bestehenden Aufnahmen des Originalraumes verglichen. - Die Auswertung der die Impulsantworten erfolgte mittels des Aurora Plugins für Acrobat Audition. - Die zu untersuchenden akustischen Parameter wurden gemäß dem ISO Standard 3382 festgelegt. Untersucht wurden der Schalldruckpegel, das Stärkemaß G, die Anfangsnachhallzeit EDT, die Nachhallzeit T30, das Klarheitsmaß C80, das Deutlichkeitsmaß C50 und der Deutlichkeitsgrad C80. - Am Ende dieser Untersuchung können erste Abschätzungen zur exakten Reproduzierbarkeit der untersuchten akustischen Parameter dargestellt werden. - Ferner konnten Aussagen zur Entstehung und Ausbildung akustischer Parameter in Räumen getroffen werden.



Guevara, Sonia;
Automatische Erzeugung von immersiver akustischen Szenen mit einer hohen Anzahl von Klanpartikeln. - 82 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

Das Rendering in Echtzeit einer begrenzten Anzahl von virtuellen Audioquellen für die Wellenfeldsynthese (WFS) kann durchaus mit der Rechenleistung eines PC durchgeführt werden. Die Rechenleistung und die Komplexität der Berechnungen für das Rendering in Echtzeit wachsen dagegen enorm mit der höheren räumlichen Genauigkeit einer immersiven Atmosphäre für eine große Audiofläche mit tausenden Audiopartikeln, wie zum Beispiel Regen oder Applaus. Der Hauptschwerpunkt dieser Arbeit ist die Erzeugung von virtuellen Regentropfen. Es ist aber auch möglich andere immersive akustische Szenen mit einen sehr großen Anzahl von Klangpartikeln nachzubilden. In dieser Arbeit wird ein neuer Algorithmus implementiert, der das Rendering einer sehr hohen Anzahl von Audiopartikeln für die Wellenfeldsynthese ermöglicht. Dieser neue Algorithmus basiert auf der Generierung einer kontinuierlichen Impulsantwort, gefolgt von einer Faltung wodurch ein effizienteres Rendering erreicht wird. Es wurde ein statistisches Modell für die Generierung der Impulsantwort angewandt. Dieses Modell berücksichtigt die Eigenschaften des Regens und die Modelle für Regenentstehung und Regenverteilung, die in der Wetterforschung angewendet werden. Deshalb beschäftigt sich ein großer Teil dieser Arbeit mit der mathematischen Approximation der Eigenschaften des Regens, die durch das Rain Drop Size Distribution Modell (DSD) beschrieben werden. Im Vergleich mit einer Regenszene, die mit ebenen Wellen erzeugt wird, haben abschließende Hörtests eine Verbesserung der räumlichen Verteilung der Klangpartikel bei einer immersiven Regenszene gezeigt. Am besten wurden die Methoden der Blockfaltung mit Überlappung und Blockfaltung mit harter Umschaltung bewertet. - Die Auswertung von Rechenleistung und Komplexität haben gezeigt, dass das Rendering mit dem neuen Algorithmus ungefähr 750 mal schneller als das Rendering bei der herkömmlichen Wellenfeldsynthese ist.



Friedrich, Tobias;
Spectral band replication tool for very low delay audio coding applications. - 131 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

In dieser Arbeit wird ein Werkzeug für Audio-Applikationen mit geringer Verzögerung vorgestellt. - Ein Ziel dieses Werkzeuges ist die weitere Reduktion der benötigten Bitrate für die Repräsentation von schon komprimierten Audiodaten, unter Verwendung eines frei wählbaren Audio-Codecs. Ein weiteres Ziel ist es, die algorithmische Verzögerung so gering wie möglich zu halten. Eine geringe Codierverzögerung ist essentiell, z.B. für Echtzeitanwendungen wie verteilte Musikproduktion unter Live-Bedingungen oder Telefonkonferenzen. Die in dieser Arbeit vorgeschlagene Low-Delay-SBR Methode nutzt Techniken, die ursprünglich für die Sprachcodierung entwickelt wurden und gehört zu den Bandbreitenerweiterungsmethoden, genauer gesagt zu denen mit Verwendung spektraler Faltung. Weiterhin arbeitet das SBR-Modul ausschließlich im Zeitbereich und verwendet Prädiktionsverfahren und adaptive Filter um eine zusätzliche Verzögerung zu vermeiden, die durch die Verwendung einer Filterbank verursacht werden kann.



Weitzel, Mandy;
Einfluss von Interaktion auf die Qualitätswahrnehmung von audiovisuellen Szenen. - VIII, 119 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007
- Enth. außerdem: Thesen

In den letzten Jahren haben im Bereich der multimedialen Anwendungen die Kommunikations- und Interaktionsmöglichkeiten zwischen Nutzer und Endgerät an Bedeutung gewonnen. - Damit einhergehend vollzog sich ein Qualitätsanstieg der auditiven und visuellen Wiedergabesysteme. Die Frage, inwieweit die aktive Einbindung des Nutzers und die damit verbundene Ablenkung die Wahrnehmung einer audiovisuellen Präsentation beeinflusst, ist bei der Entwicklung dieser Anwendungen für Systeme mit geringer Rechenkapazität von Interesse. Bisher veröffentlichte Untersuchungen konnten einen Einfluss der Interaktion auf die Beurteilung von Gesamtqualität nicht oder nur ansatzweise nachweisen, obwohl zumeist ein Vorhandensein dieses Einflusses angenommen wird. - Im Rahmen der vorliegenden Arbeit wurde eine Reihe subjektiver Wahrnehmungsversuche durchgeführt, in der die Qualitätswahrnehmung in einem auditiv-visuellen Anwendungssystem bei gleichzeitiger Interaktion untersucht wurde. Der IAVAS MPEG-4 Player stellte dabei die Versuchsumgebung zur Simulation von interaktiven AV-Anwendungen mittlerer Komplexität dar. Die Ergebnisse der Untersuchungen geben nicht nur Aufschluss über den quantitativen Einfluss der Interaktion, sondern darüber hinaus lassen sich Empfehlungen für weiterführende Wahrnehmungsversuche in diesem Umfeld ableiten.



Eisoldt, Jörg;
Das akustische Abstrahlverhalten eines Biegewellenwandlers. - 95 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

Aufgrund ihrer Eigenschaften gewinnen Biegewellenwandler immer mehr Bedeutung im Anwendungsgebiet der Beschallungstechnik. Jedoch kann beispielsweise eine breitbandige Abstrahlung (ca. 100 Hz bis 15 kHz) mit einem Erregersystem derzeit nur unter Bedingungen erreicht werden, die in der Praxis nicht anwendbar sind. Die wichtigsten Kriterien sind hier der Einbau in eine möglichst große Schallwand und ausreichend Platz sowohl vor als auch hinter der Membran. Dies bedeutet, dass hinter der Membran genügend Abstand zu möglichen Wänden gehalten werden muss. Weitere Untersuchungen zum Abstrahlverhalten eines Biegewellenwandlers und dem Einfluss einzelner Parameter sind notwendig, damit dieser Lautsprecher auch unter praxistauglichen Bedingungen klanglich mit konventionellen Lautsprechersystemen konkurrieren kann. - Die vorliegende Arbeit befasst sich näher mit den unterschiedlichen Aspekten, die bei der Schallabstrahlung eines Biegewellenwandlers zum Tragen kommen. Hierbei sollen unter anderem die Schallabstrahlung in den verschiedenen Frequenzbereichen, sowie unterschiedliche Bauprinzipien des Biegewellenwandlers untersucht und besprochen werden. Hierfür werden Thesen und Ergebnisse aus der Fachliteratur, sowie Arbeiten, die am Fraunhofer IDMT zu dem Thema entstanden, aufgegriffen und weitergeführt. - Daraus resultierend sollen in der vorliegenden Arbeit wesentliche Grundzüge der Schallabstrahlung von Biegewellenwandlern beschrieben und Aussagen zum Einfluss und der Wahl relevanter Parameter getroffen werden. Des Weiteren soll eine Kernaussage getroffen werden, inwiefern sich eine Verbesserung im Bereich der Körperschallausbreitung in der Membran auch positiv auf den damit erzeugten Luftschall auswirkt. Ein Hauptaugenmerk liegt dabei auf der reflexionsfreien Membran.



Heeg, Stefan;
Untersuchung zur Wechselwirkung zwischen Lautsprecherpositionierung und Raumakustik bei Wellenfeldsynthese in kleinen Räumen. - 115 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

In der vorliegenden Arbeit wird die Reproduzierbarkeit von Wellenfronten virtueller Schallquellen untersucht, die durch das Audio-Wiedergabeverfahren der Wellenfeldsynthese über eine Lautsprecheranordnung abgestrahlt werden. - Der Anspruch der Wellenfeldsynthese ist die Reproduktion des Direktschalls einer Schallquelle. Das dabei erzeugte Schallfeld wird im Wiedergaberaum durch die angeregte Raumakustik überlagert. Speziell in Räumen mit geringer Ausdehnung ist der Raumeinfluss nicht mehr zu vernachlässigen, weshalb das dort synthetisierte Schallfeld näher zu betrachten ist. Dazu werden zwei Aspekte näher untersucht: Einerseits werden verschiedene Lautsprecheranordnungen je nach Ausrichtung und bei unterschiedlicher Einbauhöhe betrachtet, andererseits wird die Wechselwirkung zwischen der Raumakustik und der Lautsprecheranordnung untersucht. Es wurden hierfür jeweils objektive Messungen und Simulationen durchgeführt, um den Einfluss auf die Synthetisierung des Schallfeldes darzustellen und zu bewerten. Anhand dieser Daten wird gezeigt, dass die Positionierung der Lautsprecher und der umgebende Raum Auswirkung auf das zu reproduzierende Schallfeld hat.



große Deters, Steven;
Entwicklung eines Produktionswerkzeugs zur farbbasierten Videosegmentierung. - 60 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

In der vorliegenden Arbeit wird ein GMMRF-Keyer als Plug-in für ein Compositing System implementiert. - Das System versucht Einschränkungen bei der Verwendung von herkömmlichen Keying Technologien zu umgehen oder zu minimieren. Ziel ist, durch den Einsatz eines GMMRF-Keyers den Aufwand bei der Aufnahme von Sequenzen zu reduzieren. Ein Bluescreen oder zusätzliche Sensortechnik ist nicht notwendig. - Der GMMRF-Keyer beruht auf drei Hauptarbeitsschritten. Einer Klassifizierung der Bildpunkte anhand der Farbe auf Grundlage von Gaussian Mixture Modellen. Räumliche und zeitliche Nebenbedingungen werden durch ein Markov Random Field berücksichtigt. Anschließend wird versucht Objektkannten wiederherzustellen oder zu verfeinern. - Das Plug-in bietet die Möglichkeit, den GMMRF-Keyer in einer stabilen Produktionsumgebung mit einer grafischen Benutzeroberfläche einzusetzen. Das Funktionsprinzip beruht auf Untersuchungen der aktuellen Matting-Verfahren. - Im Rahmen dieser Arbeit wird weiterhin untersucht, ob sich die verwendeten Algorithmen zur Umsetzung für Verteiltes Rechnen eignen, um so das PlugIn zu beschleunigen.



Lagemann, Thomas;
Personalisierbares Fernsehprogramm auf Basis synchronisierter Metadaten. - 91 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

Durch die Digitalisierung der Fernsehübertragung hat sich eine neue Programmvielfalt entwickelt. Die wachsende Zahl von Fernsehprogrammen erschwert es dem Zuschauer den Überblick über die gesendeten Inhalte zu behalten. Abhilfe können "intelligente" Festplattenrekorder schaffen, die aus dem angebotenen Programm bestimmte Inhalte herausfiltern, die den konkreten Vorlieben des Anwenders entsprechen. Diese Arbeit beschäftigt sich mit den Möglichkeiten der technischen Umsetzung eines Systems zur Personalisierung von Fernsehinhalten in DVB Übertragungsstrecken. Dazu werden zunächst verschiedene broadcastrelevante Metadatenstandards vorgestellt. Weiterhin werden die technischen Grundlagen des MPEG-2-Systems-Standards erläutert und die verschiedenen Übertragungsmöglichkeiten von Metadaten innerhalb dieses Standards diskutiert. Auf dieser Basis wird ein MPEG-7 Metadatenkonzept zur Beschreibung von Programmsegmenten vorgestellt sowie ein System, das die Übertragung, Signalisierung und Synchronisierung der Metadaten innerhalb eines DVB-Stroms durch die Kombination von Metadata-Sections mit einem DSM-CC Object Carousel realisiert. Innerhalb der prototypischen Implementierung entstanden zwei Komponenten: Auf Produktionsseite das Programm MDInsert, das die Metadaten in einen vorhandenen DVB-Strom einfügt, auf Empfangsseite ein Modul, das die personalisierte Aufnahmesteuerung in Form eines VDR-Plugins realisiert.



Strohmeier, Dominik;
Wahrnehmungsuntersuchung von 2D vs. 3D Displays in A/V-Applikationen mittels einer kombinierten Analysemethodik. - 130 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

In den letzten Jahren sind immer bessere autostereoskopische Displays auf dem kommerziellen Markt erhältlich. Der Einsatz der 3D-Technik hat zur Entwicklung komplexerer, audiovisueller Umgebungen geführt. Gleichzeitig ist die Erwartungshaltung der Anwender gegenüber audiovisueller Qualität dieser neuen Technologien gestiegen. Um eine benutzerorientiere Entwicklung und Optimierung der Anwendungen zu gewährleisten, ist Kenntnis über die Ansprüche der Nutzer unerlässlich. Ziel der vorliegenden Diplomarbeit war es, Unterschiede der Qualitätswahrnehmung in audiovisuellen Applikationen bei zweidimensionaler und stereoskopischer Wiedergabe zu evaluieren. Hierzu wurden im Rahmen der Arbeit zwei Wahrnehmungsstudien durchgeführt, in denen, im Gegensatz zu bisherigen Forschungsansätzen, sowohl quantitative als auch qualitative Daten in die Analyse einbezogen wurden. Diese Vorgehensweise erlaubte es, die Forderung nach benutzerorientierteren Ansätzen zu erfüllen und individuell wahrgenommene Qualitätsfaktoren mit quantitativen Präferenzdaten zu verbinden. - Um eine gemeinsame Auswertung quantitativer Daten und qualitativer Daten zu ermöglichen, wurde eine kombinierte Analysemethodik zur Durchführung audiovisueller Wahrnehmungstests entwickelt. Neben gebräuchlichen, quantitativen Präferenzdaten entwickelten die Probanden im Free Choice Profiling auch individuelle, audiovisuelle Qualitätsfaktoren. - Die Ergebnisse der kombinierten Auswertung zeigen, dass qualitative Studien eine weitaus höhere Bedeutung in audiovisuellen Studien haben als bisher angenommen. Es konnte gezeigt werden, dass sich wahrgenommene Qualität auf Basis einer Kategorisierung der qualitativen Attribute vergleichen lässt. Probanden lassen sich über diese Kategorien in Klassen von audio- oder videoorientierter Wahrnehmung unterteilen. Eine Interpretation der Ergebnisse vor dem Hintergrund psychologischer Theorien der multimodalen Wahrnehmung brachte schließlich Hinweise, wie audiovisuelle Wahrnehmungstests in Zukunft modifiziert werden müssen, um dem komplexen Prozess audiovisueller Wahrnehmung gerecht zu werden.



Haferburg, Bobby;
Untersuchung zur Sprachverständlichkeit und Sprachqualität von Freisprechern oder sprachbedienten Systemen im Kfz. - 140 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

Diese Diplomarbeit ist in Zusammenarbeit mit der IAV GmbH sowie dem Fraunhofer IDMT entstanden und wurde von Prof. Dr.-Ing. K. Brandenburg vom Institut für Medientechnik an der Technischen Universität Ilmenau betreut. Die Arbeit befasst sich mit der Erstellung eines Tools zur subjektiven Bewertung von Sprachqualität und Sprachverständlichkeit an Freisprechern oder sprachbedienten Systemen im Kraftfahrzeug. Es wurde ein skalierbares serverbasiertes Testtool entwickelt, mit dem Probandenurteile in Hörtests reliabel und valide ermittelbar sind. Durch die Strukturierung des Tools ist es möglich, verschiedene Hörtests simultan durchzuführen. Anhand eines Hörtests wurde die Funktionalität und Effizienz des Tools erprobt. Die darin verwendeten Sprachdaten wurden an fünf Freisprecheinrichtungen unter verschiedenen simulierten Fahrgeräuschbedingungen im Kraftfahrzeug aufgezeichnet.



Gräfe, Andreas;
Untersuchung von Frequenzverschiebungen bei der Wiedergabe bewegter Quellen in Wellenfeldsynthese. - 90 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2007

In der vorliegenden Arbeit werden Frequenzverschiebungseffekte untersucht, die bei der Erzeugung einer bewegten virtuellen Schallquelle mit dem Verfahren der Wellenfeldsynthese entstehen. Dabei werden zwei wesentliche Phänomene unterschieden: Einerseits wird eine scheinbar naturgetreue, jedoch fehlerbehaftete Dopplerverschiebung durch die Quellbewegung erzeugt, andererseits tritt eine zeitvariante Spreizung des synthetisierten Signales im Frequenzbereich durch die Überlagerung der Schallsignale mehrerer Sekundärquellen auf. Beide Effekte werden durch Modelle beschrieben und auf ihre Ursachen hin untersucht. - Es wird gezeigt, dass der Fehler in der Dopplerverschiebung durch die Verwendung von zeitabhängigen Syntheseoperatoren für gleichförmige Bewegungen korrigiert werden kann. Dafür wird die Bahngeschwindigkeit einer virtuellen Quelle benötigt. - Weiterhin wird eine Simulation des Schallfeldes von bewegten Quellen auf Basis des Kirchhoff-Helmholtz-Integrales im Zeitbereich durchgeführt und gezeigt, dass die Spreizung kein Ergebnis von Vereinfachungen bei der Herleitung der Syntheseoperatoren ist. Zusätzlich wird der Einfluss von geometrischen und kinetischen Größen auf die Stärke der Spreizung diskutiert.



Sörensen, Björn;
Untersuchung und Umsetzung eines Algorithmus zur Simulation von bewegten Spiegelschallquellen. - 111 S. Ilmenau : Techn. Univ., Diplomarbeit, 2006

In der Audiotechnik wird häufig die Spiegelschallquellenmethode verwendet, um die Reflexion von Schall an den Wänden eines virtuellen Raumes zu simulieren. Aufgrund der Überlagerung von Direktschall und Reflexionen kann es jedoch zu unerwünschten Kammfilterstrukturen in der binauralen Impulsantwort des virtuellen Raumes kommen, wodurch einzelne Teilfrequenzen abgeschwächt oder ausgelöscht werden können. Je nach Laufzeitunterschied der einzelnen Reflexionen treten die Auslöschungen an unterschiedlichen Stellen im Frequenzgang auf. Variiert man über die Zeit die Positionen der Spiegelschallquellen minimal, so wirkt sich dies entsprechend auf die Laufzeitunterschiede aus. Analog dazu kommt es im Frequenzbereich zu minimalen Verschiebungen der Kammfilterstrukturen, wodurch im Endeffekt eine Glättung der Frequenzantwort zu erwarten ist. - In dieser Arbeit wird ein Modell zur Simulation von bewegten Spiegelschallquellen über Kopfhörer in MATLAB entwickelt und anschließend auf einem digitalen Signalprozessor implementiert. Eine grafische Benutzeroberfläche zur Steuerung der Modellparameter über RS232 wird entwickelt. Verschiedene Bewegungsformen werden hinsichtlich ihrer Kammfilterreduzierung untersucht und ihre Auswirkungen in Hörversuchen überprüft.



Hörnlein, Thomas;
Schallfeldreproduktion mittels Hybridansatz aus Wellenfeldsynthese und Ambisonic. - 122 S.. Ilmenau : Techn. Univ., Diplomarbeit, 2006

In der Arbeit werden sowohl die mathematischen Grundlagen, als auch der aktuelle Stand der Ambisonic Theorie aufgearbeitet. Weiterhin werden die Grundlagen der Wellenfeldsynthese kurz umrissen. Ein aus Wellenfeldsynthese und Ambisonic hergeleiteter Hybridansatz zur Wiedergabe räumlich positionierbarer Schallereignisse wird vorgeschlagen. In Simulationen wird die Schallfeldreproduktion durch die in der Arbeit beschriebenen Verfahren für verschiedenen Szenarien verglichen. Abschließend werden die im Rahmen der Arbeit durchgeführten Hörversuche beschrieben und ausgewertet.