Anzahl der Treffer: 33
Erstellt: Thu, 28 Mar 2024 23:03:05 +0100 in 0.1496 sec


Instrumental timbre transfer based on disentangled representation of timbre and pitch. - Ilmenau. - 60 Seiten
Technische Universität Ilmenau, Masterarbeit 2024

Als wahrnehmbares Merkmal stellt instrumentales Timbre aufgrund seiner komplexen und vielfältigen Einflusskomponenten Herausforderungen dar. Um die Möglichkeit einer effektiven Darstellung für Tonhöhe durch Entflechten von Timbre und Tonhöhe zu erforschen, führen wir in dieser Arbeit einen mehrfachen Musik-Timbre-Transfer-Ansatz auf der Grundlage von Deep Learning ein, der das Beta-Variational Autoencoder (VAE)-Framework nutzt. Wir verwenden eine spezialisierte Trainingsmethode, bei der zwei Audiosegmente mit dem gleichen Timbre, aber unterschiedlichem Inhalt, separat in den Content-Encoder und den Style-Encoder eingespeist werden. Durch Rekonstruktion im Verlauf des Trainingsprozesses erzielt unsere Methode Inferenzen, die einen effektiven Timbre-Transfer ohne Annotation ermöglichen. Durch die Nutzung eines aus MIDI-Dateien generierten Datensatzes, der eine vielfältige Palette von Timbres umfasst, zeigt unser Ansatz die Fähigkeit zur selbstständigen Erkennung und Unterscheidung verschiedener, bisher ungesehener Timbres. Er erlernt präzise und effektive Style-Embeddings, was bequeme Anwendungen wie Timbre-Interpolation ermöglicht. In nachfolgenden Evaluierungen vergleichen wir die Timbre-Transfer-Performance unseres Modells und die Effektivität der Entflechtung mit anderen Methoden, um schließlich die hohe Genauigkeit des erreichten Timbre-Transfers und die genaue Klassifikation und Verallgemeinerungsfähigkeit des Modells zu demonstrieren.



Mahale, Priyanka;
Analysis of continuous learning audio classification using deep neural network. - Ilmenau. - 38 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Seit mehreren Jahren ermöglicht Lifelong Learning (LL) oder Continual Learning (CL) die Möglichkeit der lebenslangen Anpassung von Machine Learning (ML) oder Deep Learning (DL) Systemen. Kontinuierliches Lernen bietet zahlreiche Lösungen für Echtzeitanwendungen,bei denen dieDaten nicht auf einmal verfügbar sind. Allerdings führen Änderungen in der Verteilung der Eingabedaten und die Nichtverfügbarkeit früherer Daten zu Catastrophic Forgetting Effect, der die Leistung der alten Daten verschlechtert. Diese Arbeit konzentriert sich darauf, den Effekt von Catastrophic Forgetting bei der Audioklassifikation zu lindern und gleichzeitig kontinuierlich neue Sprachbefehle zu lernen. Ein vortrainiertes Convolutional Neural Network (CNN) wird für das kontinuierliche Multi-Task-Lernen verwendet. Task specific class increment wird verwendet, um das CNN-Netzwerk für neue Aufgaben zu erweitern. Später werden Learning without Forgetting (LwF) und Joint Training Algorithmen an einem Audio-Klassifizierungsnetz analysiert, bei dem ein Spoken Digit Recognizer als vortrainiertes CNN verwendet wurde, das für neue gesprochene Schlüsselwörter weiter trainiert wird. Ohne alte Daten hat der Algorithmus von Learning without Forgetting (LwF) die Fähigkeit bewiesen, die Effekte von Catastrophic Forgetting zu lösen. Der LwF-Algorithmus allein reicht jedoch nicht aus, um die Erweiterungsfähigkeit des Netzwerks zu berücksichtigen. Eine weitere in dieser Arbeit untersuchte Methode ist das Joint Training, das in dieser Hinsicht sehr gut abschneidet, aber alte Daten benötigt, um diese Leistung zu erreichen.



Agarwal, Mukul;
Bandwidth extension for audio data using a generative model. - Ilmenau. - 89 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Die Fortschritte auf dem Gebiet des Deep Learning haben zu einigen bemerkenswerten Entdeckungen im Bereich der Audioverarbeitung geführt. Eine Fülle von Ressourcen macht es möglich, diese zu implementieren und bietet die Möglichkeit, eine bessere Version von bereits entwickelten Algorithmen und Methoden zu präsentieren. In dieser Arbeit stellen wir eine Implementierung der Bandbreitenerweiterung für Audio vor, die generativen Modellen mit Hilfe eines End-to-End-basierten Deep-Learning-Modells unter Verwendung der Pytorch Bibliothek für tiefes Lernen. Mit Hilfe der Deep-Learning-basierten Studie haben wir mehrere neuronale Netzwerkmodelle mit Variationen in den Eingabedaten für das Modell untersucht, um die zugrundeliegende Struktur in den Audiodaten besser zu verstehen und herauszufinden, wie die Struktur für beste Ergebnisse genutzt werden kann. Darüber hinaus wurden die Modelle mit verschiedenen Verlustfunktionen trainiert. Verlustfunktionen spielen eine große Rolle bei der Bereitstellung besserer Ergebnisse. Eine der von uns in Betracht gezogenen Verlustfunktionen basiert auf der Wahrnehmung von Klang durch das menschliche Ohr, bekannt als Weighted Mean Square Error (WMSE), da allgemeine Verlustfunktionen wie Mean Squared Error (MSE) für die Audiosynthese unzureichend sind. Die Einbeziehung einer wahrnehmungsbasierten Fehlerfunktion erweist sich daher als besser als MSE und liefert eine bessere Rekonstruktion der Hochfrequenzkomponenten als die MSE-basierte Rekonstruktion. Eine weitere Fehlerfunktion, die bessere Ergebnisse lieferte, war Log Spectral Distance (LSD). Sie wurde mit den anderen Verlustfunktionen für Polyphasen- und Nicht-Polyphasen-basierte RNN-Autoencoder verglichen. Bei den für diese Bewertung berücksichtigten Modellen handelt es sich um SampleRNN und einen RNN-Autoencoder, der Resnet verwendet. Es wurden mehrere Experimente zur Bandbreitenerweiterung für verschiedene Abtastraten durchgeführt. Die für diese Experimente berücksichtigten Abtastraten sind 4 kHz bis 8 kHz, 8 kHz bis 16 kHz und 16 kHz bis 32 kHz. Die Vorhersage höherer Frequenzkomponenten aus niederfrequenten Komponenten wurde durch Betrachtung der rekonstruierten Spektrogramme bestätigt. Darüber hinaus wurde ein Mushra-Test durchgeführt, um die Qualität der rekonstruierten Audio-Samples für 8 kHz als Eingang und 16 kHz als Ziel für die oben genannten Experimente zu bewerten.



Salaar, Hamza;
In-loop filtering for artificial intelligence-based video coding. - Ilmenau. - 65 Seiten
Technische Universität Ilmenau, Masterarbeit 2022

Der Einsatz von In-Loop-Filtern gilt bei der herkömmlichen Videokodierung als wichtiger Verarbeitungsschritt, um die Qualität der rekonstruierten Bilder zu verbessern. Diese Filter werden in Kodierungs- und Dekodierungsschleifen eingesetzt, um die Qualität der rekonstruierten Bilder zu verbessern, indem blockbasierte Kodierungsartefakte entfernt werden. Aufgrund der jüngsten Entwicklung von KI-basierten Bild- und Videokompressionsverfahren konzentriert sich diese Arbeit auf den Einsatz von KI-basierten In-Loop-Filtern in diesen Videokompressionstechniken. Ein KI-basierter In-Loop-Filter, der ursprünglich entworfen wurde, um den traditionellen In-Loop-Filterblock in VVC zu ersetzen, wird im ersten Ansatz verwendet und als Nachbearbeitungsschritt auf die rekonstruierten Frames eines KI-basierten Codecs (der derzeit am Fraunhofer IIS entwickelt wird) angewendet. Dies verbesserte die Qualität der rekonstruierten Frames, aber es wurde ein Unterschied in der Qualitätsverbesserung von intra- und inter-kodierten Frames (des KI-basierten Codecs) beobachtet. Beim zweiten Ansatz wurde der Filter so modifiziert, dass er die Residuen zusammen mit den rekonstruierten Bildern einbezog und sie durch separate Zweige geleitet wurden. Dies führte zu einer größeren Verbesserung bei inter-kodierten Bildern im Vergleich zum ersten Modell. Die erzielten Ergebnisse beweisen, dass KI-basierte In-Loop-Filterung auch bei der Entwicklung von KI-basierten Bild- und Videokodierungsmethoden von großer Bedeutung sein kann



Karna, Saurav;
Investigation of auto-encoder neural networks for efficiently representing subband domain audio signals. - Ilmenau. - 93 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Die Audiosignalverarbeitung umfasst viele Mannigfaltigkeiten der Audiosignalmanipulation, wobei eine solche eine Verringerung der Größe von Audiodaten, d.h. Kompression, ist. Die Komprimierung von Signalen, obwohl in vielen Fällen wünschenswert, ist keine einfache Aufgabe. Die Herausforderungen liegen darin, eine Signaldarstellung zu finden, die eine perzeptiv genaue Wiederherstellung des Originalsignals bei einer gewünschten Kompressionsrate ermöglicht. Fortgeschrittene Signalverarbeitungstechniken haben ähnliche Probleme unter Verwendung von Subband-Domain-Codierung behandelt. Auf der anderen Seite entwickelt sich der Stand der Technik dem maschinellen Lernen, hat robuste Alternativen für spärliche Kodierung und Dimensionalitätsreduktion, durch tiefes Lernen und speziell tiefe Auto-Encoder eingeführt. In dieser Arbeit wird eine Methodik vorgestellt, die die Idee der Subband-Domain-Codierung und der tiefen Auto-Encoder kombiniert. Diese These konzentriert sich auf die Darstellung von monauralen Musiksignalen mittels tiefer Auto-Codierung, zum Zwecke einer effizienten Codierung und Komprimierung. In dieser Arbeit untersuchen wir tiefe Vorwärts-Auto-Encoder, indem sie die Subband-Signaldomäne, die Regularisierungstechniken für die Spärlichkeit, die Tiefe des Auto-Encoders und die Anzahl der Einheiten, die die Dimensionalität der Codierungsschicht beeinflussen, variieren. Darüber hinaus stellen wir ein Verfahren zur Codierung und Speicherung der aus einer versteckten Codierungsschicht gewonnenen Einzelkanal-Audiodaten vor. Das vorgeschlagene Verfahren wird mittels objektiver Metriken wie Rausch-zu-Masken-Verhältnis (NMR), Spärlichkeit, Bitrate und Kompressionsverhältnis ausgewertet. Ziel-Metriken deuten darauf hin, dass Sparsity-Regularisierung zu einer wahrnehmbar besseren Rekonstruktion führen kann. Weiterhin beeinflusst die Menge an Codierungsschichten die Leistung der Rekonstruktion nicht signifikant, und schließlich können tiefe neuronale Netzwerke wünschenswerte Codierungs-Bitraten und Kompressionsraten bereitstellen. Auto-Encoder, die auf Feed-Forward-Neuronennetzwerken basieren, zeigen keine signifikanten Verbesserungen gegenüber vorhandenen Codierern, die in der Subband-Domäne implementiert sind. Dieser Nachteil könnte mit rekursiven neuronalen Netzwerkarchitekturen angegangen werden.



Sturm, Michael;
Transformation of unified speech and audio coding algorithms from the time domain to the MDCT domain. - 92 Seiten
Technische Universität Ilmenau, Bachelor-Arbeit 2016

Unified Speech and Audio Coding (USAC) vereint den Stand der Technik bezüglich Audio- und Sprachcodierung zu einem Codec, der Audiosignale, Sprachsignale und Signale mit gemischtem Inhalt bei niedrigsten Bitraten hochqualitativ wiedergibt. Durch die Signalverarbeitung in unterschiedlichen Domänen - der Audiocodec arbeitet in der Domäne der modifizierten diskreten Kosinustransformation (MDCT), der Sprachcodec im Zeitbereich - benötigt die Vereinigung beider Codec-Zweige zusätzliche Maßnahmen, um die Beseitigung von Alias-Artefakten bei der inversen MDCT im Decoder zu garantieren. Folglich wäre es sinnvoller, die Sprachcodierung in der MDCT-Domäne durchzuführen. Bisher konnte diesbezüglich noch keine Lösung entwickelt werden, da sie mit zeitvariablen Filtern mit unendlicher Impulsantwort (IIR) einhergeht. Diese Masterarbeit präsentiert einen Ansatz, der die auf IIR-Filtern basierenden Sprachcodierungs-Algorithmen Langzeitprädiktion und Kurzzeitprädiktion perfekt in die MDCT-Domäne transferiert. Ermöglicht wird dies durch Matrizen, die ganze Signalblöcke um einzelne Samples verschieben, und durch die Auflösung einer verzögerungsfreien Rekursion. Der Vergleich mit einem Code-Excited Linear Prediction (CELP) Referenzcodec im Zeitbereich bestätigte das Resultat. Da dieser Ansatz sehr rechenaufwändig ist, wurden Versuche mit dünn besetzten Versionen der Verschiebungs-Matrizen durchgeführt. Ein abschließender Hörtest zeigte, dass dieser Ansatz den Rechenaufwand auf 21% reduzieren kann, ohne die wahrgenommene Qualität auf ein inakzeptables Niveau zu verschlechtern. Weitere Hörtests, um einen Kompromiss zwischen wahrgenommener Qualität und Rechenaufwand zu finden, und Laufzeitmessungen mit einer effizienten Implementierung sind nötig. Von bestimmten dünn besetzten Matrizen verursachte Instabilitäten benötigen ebenfalls eine tiefere Einsicht.



Herold, Michaela;
Bump, Normal und Environment mapping in WebGL. - 70 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2014

Durch WebGL ist es möglich dreidimensionale Inhalte im Browser darzustellen, ohne zusätzliche Software installieren zu müssen. Wie in anderen 3D-Anwendungen wird auch hier viel Wert auf eine annähernd realistische Darstellung gelegt. Dies ist oft nur durch hochaufgelöste Geometrien möglich, was einen erhöhten Rechenaufwand und größeren Bedarf an Speicherplatz zur Folge hat. Aus diesem Grund wurden Verfahren wie das Bump- oder Environmentmapping einwickelt. Sie ermöglichen die Darstellung von Objekten mit geringer aufgelöster Geometrie aber annähernd gleichem Detailgrad. Diese Arbeit beschäftigt sich mit verschiedenen bekannten Ausführungen dieser beiden Verfahren und deren Implementierung in WebGL. Ziel war es einen bereits bestehenden Prototypen um diese Funktionen zu erweitern. Dazu werden werden zunächst verschieden Bump- und Environmentmapping-Verfahren erläutert. Anschließend wird die Implementierung dieser Verfahren in den Prototypen betrachtet. Zum Schluss wird der erweiterte Prototyp mit einer Spiele-Engine, in Bezug auf diese Erweiterungen verglichen. Dabei wurde eine Testszene entwickelt. Diese wurden in beiden Programmen auf möglichst gleichwertige Art und Weise zusammengestellt. Anschließend wurde untersucht, wie sich die implementierten Verfahren hinsichtlich ihrer Auswirkungen auf die Performance von der Spiele-Engine unterscheiden. Dazu wurde u.a. getestet, welchen Einfluss die gewählte Auflösung auf die Framerate, d.h. die Anzahl der berechneten Bilder pro Sekunde, hat. Diese Untersuchung dient dazu, den Prototypen im Vergleich mit existierenden Lösungen bewerten zu können.



Brocks, Tobias;
Motion compensation for Time-of-Flight depth maps using high-resolution RGB guided optical ow estimation. - 72 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2014

Die Firma ARRI hat eine hochauösende Kino-Digitalkamera mit einer sog. "Time-of-Flight" Tiefenkamera verbunden. In dieser Arbeit wird eine Methode vorgestellt um Bewegungsartefakte in den Tiefenkarten, die mit diesem Prototypen aufgenommen wurden, zu korrigieren. Die Tiefeninformationen werden durch vier zeitlich aufeinanderfolgende Messungen gewonnen. Durch Bewegungen während dieser Messungen verschieben sich die Messwerte untereinander und es kommt zu Fehlern in Größenordnungen von bis zu einem Messbereich. Fehler mit solchen Auswirkungen erschweren alle weiteren Bearbeitungsschritte. Die Messungen müssen, selbst bei Szenen die Bewegung enthalten, sehr verlässlich sein um in der professionellen Filmproduktion Anwendung nden zu können. Die vorgestellte Methode basiert auf Bewegungsschätzung mit "Optical Flow Estimation". Dazu werden hochauösende RGB Bilder genutzt. Die geschätzte Bewegung wird dann verwendet um die Messwerte der Time-of-Flight Kamera pixelweise mit den vorhergehenden Messungen anzugleichen. Einige Teile der vorgestellten Methode basieren auf den Ideen, die von Lindner und Kolb sowie Schmidt veröentlicht wurden. Die vorgestellte Korrekturmethode wird mithilfe von Testdaten aus realistischen, kontrollierten und synthetischen Umgebungen beurteilt. Es zeigt sich, dass Bewegungsartefakte erheblich verringert werden können. Dabei hängen die Ergebnisse stark von der Qualität der Bewegungsschätzung ab und enthalten ein erhöhtes Rauschen. Eine neuartige Sensor-Kalibrierung und höhere Bildwiderholraten könnten die Ergebnisse der Bewegungskorrektur noch weiter verbessern.



Stoll, Fabian;
Global Illumination in WebGL. - 71 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2014

Mit WebGL lassen sich direkt im Browser dreidimensionale Inhalte darstellen. Der Realismus einer virtuellen Szene hängt unter anderem von ihrer Beleuchtung ab. Wir können durch die Wahrnehmung von Wechselwirkungen zwischen Licht und Oberflächen leicht feststellen, ob ein Objekt real ist oder Teil einer virtuellen Darstellung. Die Annäherung naturgemäßer Beleuchtungsprinzipien in 3D-Anwendungen wird als globale Beleuchtung oder auch Global Illumination bezeichnet. In dieser Bachelorarbeit wird die Verwendung von Global Illumination Algorithmen in WebGL untersucht und die prototypischen Umsetzung eines globalen Beleuchtungsmodelles beschrieben. Nach einer grundlegenden Betrachtung von WebGL und virtueller Beleuchtung sollen bereits existierende Ansätze vorgestellt und bewertet werden. Es folgt die Beschreibung der Implementierung von Monte-Carlo Pathtracing in WebGL als Kernstück der Arbeit. Abschließend wird die eigene Umsetzung analysiert und Vergleiche zu den bereits vorgestellten Modellen gezogen.



Kehling, Christian;
Entwicklung eines parametrischen Instrumentencoders basierend auf Analyse und Re-Synthese von Gitarrenaufnahmen. - ca 130 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2013

In dieser Diplomarbeit wird ein Algorithmus vorgestellt, der eine parametrische Audiocodierung von monotimbralen Gitarrensignalen ermöglicht. Als Grundlage dient dabei einzig das Ausgangssignal einer handelsüblichen Elektrogitarre. Anhand des digitalisierten Audiosignals werden Parameter extrahiert, die zum einen die automatische Notation des gespielten Stückes realisieren und zum anderen eine Synthese des notierten Stückes mittels eines Physical Modeling Verfahrens ermöglichen. Betrachtet werden sowohl monophone als auch polyphone Stücke sowie gängige Spieltechniken auf einer Gitarre. Weitere Bestandteile der Arbeit sind die Aufnahme und Annotation eines für diese Arbeit benötigten Datensatzes aus 261 Audiofiles sowie die anschließende Evaluation des Codierungsalgorithmus mittels eines einfachen MUSHRA Hörtestverfahrens zur Beurteilung der generierten Ergebnisse. Außerdem wird eine Lösung für ein mögliches Datenformat zur speicherschonenden Notation und Archivierung der Parameter vorgestellt.



Achatz, Sebastian;
Freeform Deformation von Superquadric-Modellen. - 64 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2013

Diese Arbeit beschäftigt sich mit der Untersuchung der Anwendung von Freeform Deformation (Freiform Deformation, FFD) zur Erhöhung der Präzision des Fittings von Punktewolken durch konvexe Superquadrics. Die parametrische Form der Superquadrics lassen hohe Datenkompressionsraten zu, erlauben jedoch außer in den trivialsten Fällen keine wirklich detailgetreue Darstellung. Es soll theoretisch und anhand einer praktischen Implementierung festgestellt werden in wie weit sich die Darstellung mittels Freeform Deformation flexibler und präziser gestalten lässt, ohne die Vorzüge der parametrischen Form aufzugeben oder den Berechnungsaufwand unnötig zu erhöhen.



Eppler, Arndt;
Entwicklung eines Verfahrens zur Audiorestauration basierend auf Re-Synthese von Gitarrenaufnahmen. - 93 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2013

Gängige Audiorestaurierungsmethoden basieren auf der Erkennung von Störgeräuschen und deren anschließender Entfernung. Dabei kommt es je nach Grad der Störung, Auswahl der Restaurierungsmethode und Einstellung derselben zu Artefakten und Verzerrungen in der restaurierten Aufnahme. In vorliegender Arbeit wird ein Verfahren vorgestellt, das in der Analyse die gespielten Noten in gestörten Gitarrenaufnahmen als zeitliche Ereignisse im Audiosignal identifiziert und anhand der Parameter Tonhöhe und Notendauer beschreibt. In der Re-Synthese wird dann ein physikalisches Modell verwendet, welches die Klangerzeugung auf dem realen Musikinstrument nachbildet. Dieses wird mit den anfangs ermittelten Notenparametern initialisiert. Damit kann die anfangs durch Klicks, Knistern, Dropouts und Breitbandrauschen beeinträchtigte Gitarrenaufnahme frei von Störgeräuschen und zusätzlich eingebrachten Artefakten rekonstruiert werden. Weiterhin wird mit der Erweiterten Modifizierten Faltung eine Methode dargestellt, mit der sich das Aufprägen des natürlichen Ausklingverhaltens der zu restaurierenden Aufnahme auf das resynthetisierte Signal realisieren lässt. Dabei werden Anforderungen und Einschränkungen von Hüllkurvenübertragungsmethoden im Kontext der Audiorestaurierung von polyphonen Gitarrenaufnahmen dargelegt. Zur Überprüfung der allgemeinen Akzeptanz von resynthetisierten Aufnahmen im Kontext der Audiorestauration und dem Vergleich des vorgestellten Verfahrens mit den gängigen Entrauschmethoden "Wiener" und "Ephraim-Malah" wurde neben objektiven Klangbewertungsverfahren ein Hörtest durchgeführt. Die auf Re-Synthese basierenden Verfahren erhielten dabei bessere Bewertungen.



Schröpfer, Tobias;
Echtzeitfähige Schattenalgorithmen für WebGL. - 74 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2013

WebGL ermöglicht es, dreidimensionale Inhalte im Browser darzustellen. Der prototypische virtuelle Campus der Technischen Universität Ilmenau soll mit Hilfe von echtzeitfähigen Schatten realistischer gestaltet werden. Zur Auswahl von geeigneten Techniken werden in dieser Arbeit verschiedene Schattenalgorithmen, die zur Erstellung in 3D-Umgebungen genutzt werden, betrachtet. Prototypisch wird Screen Space Ambient Occlusion (SSAO) in WebGL umgesetzt und anschließend hinsichtlich Performance untersucht. Getestet wird unter anderem der Einfluss der gewählten Auflösung auf die Anzahl der durch die Grafikkarte berechneten Bilder. Des Weiteren wird der implementierte Prototyp mit der SSAO in einer Spiele-Engine verglichen. Es werden Aussagen getroffen, welche Schattenalgorithmen zur Umsetzung in WebGL geeignet sind, wie performant der implementierte Algorithmus ist und wie er im Vergleich zu einer bereits existierenden Lösung zu bewerten ist.



Bießmann, Paul;
Schätzung von Audioencoder Parametern aus einem unkomprimierten Audiosignal. - 59 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2013

Mit dem Erfolg von Mp3 wird die Welt der Musik und Audiosignale mehr und mehr digital. Längst ist die CD nicht mehr das einzige Medium zur Musikverbreitung. Doch mit den Möglichkeiten, Musik online in digitaler Form und nicht als Audio-CD kaufen zu können, steigt die Notwendigkeit eine gute Audioqualität sicherzustellen. Diese Arbeit beschreibt eine Methode, mittels welcher aus einem unkomprimierten Zeitsignal ermittelt werden kann, ob und mit welchen Parametern dieses mit Mp3 oder Mp3PRO kodiert und dekodiert wurde. Die Idee hinter dieser Methode ist, dass die Codecs durch ihre verlustbehaftete Kompression eindeutige Spuren im Audiosignal hinterlassen, durch die sie zweifelsfrei identifiziert werden können. Hierzu werden die im Mp3-Enkoder verwendeten Funktionen auf das Zeitsignal angewendet und es wird nach den Charakteristika der Codecs gesucht. Dabei muss aus dem Zeitsignal sowohl das Offset ermittelt werden, welches der Mp3-Enkoder verwendet hat, als auch die Fenstertypen, die in der Filterbank benutzt wurden. Mit der Berechnung der verwendeten Quantisierungsstufen kann zuletzt die Bitrate des Codecs geschätzt werden. Da Mp3PRO das parametrische Kodierverfahren der Spektralband Replikation nutzt, müssen zusätzliche Informationen aus dem Zeitsignal extrahiert werden und die Korrelation zwischen den niedrigen und den hohen Frequenzen berechnet werden. Es wird gezeigt, dass eine Anwendung dieses Verfahrens grundsätzlich möglich und die Codecerkennung realisierbar ist. Gewisse Ungenauigkeiten ergaben sich bei höheren Bitraten und bei der Bitratenerkennung von Mp3PRO. Eben jene Probleme bedürfen weiterer Verbesserung.



Lückgen, Michael;
Die Erstellung einer interaktiven virtuellen 3D-Karte des Campus der TU-Ilmenau mittels WebGL. - 57 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2012

Durch WebGL ist es möglich dreidimensionale Inhalte in einem Browser ohne zusätzliche Plug-Ins darzustellen. Das Ziel dieser Bachelorarbeit ist es 3D Modelle des Campus der TU Ilmenau performant darzustellen und zusätzlich eine möglichst intuitive Steuerung zu implementieren. Durch Interaktionsmöglichkeiten mit den Modellen soll es den Nutzern des virtuellen Campus, zusätzlich zu einer dreidimensionalen Orientierung, ermöglicht werden Informationen über z.B. Räume zu erlangen. Des Weiteren wird der aktuelle Stand der Technik untersucht und beschrieben, um sowohl einen Überblick über aktuelle Arbeiten zu erlangen, als auch um den eigenen Ansatz mit dem aktuellen Stand der Technik vergleichen zu können. Damit das System möglichst performant dargestellt werden kann, werden diverse Verfahren zur Performance-Verbesserung vorgestellt und in das System implementiert. Anschließend wird das erstellte System mit anderen Arbeiten im Hinblick auf die Performanz und der Nutzernavigation verglichen. Es werden Aussagen darüber getroffen, inwiefern die Performance-Verfahren Einfluss auf die Performanz des Systems nehmen und wie das erstellte System im Vergleich zu anderen vorgestellten Arbeiten im Hinblick auf die Performanz abschneidet. Zusätzlich wird diskutiert, inwiefern die implementierte Steuerung für Nutzer im Vergleich zu anderen getesteten Steuerungen ansprechend ist.



Neukam, Christian;
Entwicklung eines effizienten harmonischen Bandbreitenerweiterungsverfahrens für Audiocodierungsanwendungen. - 88 S. : Ilmenau, Techn. Univ., Masterarbeit, 2012

Moderne Audiocodiertechnologien verwenden Verfahren der Bandbreitenerweiterung zur effizienteren Komprimierung von Audiodaten. Neben den psychoakustischen Eigenschaften des menschlichen Gehörs wird die Korrelation der niederfrequenten Signalanteile zu den hochfrequenten Anteilen zur Datenreduktion ausgenutzt. Ein bekanntes etabliertes Verfahren ist die Spektralbandreplikation (SBR), wie sie unter anderem in HE-AAC eingesetzt wird. Für Signale, die eine ausgeprägte harmonische Struktur aufweisen, treten bei Anwendung dieses Verfahrens unerwünschte Artefakte wie Rauigkeit und Timbreänderungen auf. In dieser Arbeit wird ein Verfahren der harmonischen Bandbreitenerweiterung im Frequenzbereich mit dem Namen HSBE entwickelt, welches es ermöglicht, die unerwünschten Artefakte zu unterdrücken. Das replizierte Spektrum wird dabei so moduliert, dass die ursprüngliche harmonische Struktur erhalten bleibt. HSBE basiert im Gegensatz zu anderen Verfahren auf der Signaldarstellung im MDCT-Bereich und erlaubt damit eine effiziente Implementierung. Die harmonisch korrekte Bandbreitenerweiterung wird durch einen Kopiervorgang der Spektralwerte mit anschließender Modulation erreicht. Durch die Modulation des Spektrums wird die TDAC-Eigenschaft der MDCT verletzt, sodass Aliasing-Komponenten auftreten. Um diese zu eliminieren, wird eine FIR-Filterstruktur zur Aliasing-Cancelation entworfen. Die dazu benötigten Filterimpulsantworten werden mittels sukzessiver Approximation optimiert und als Look-Up-Tabelle hinterlegt. Neben der funktionalen Analyse des entwickelten Verfahrens werden auch die algorithmische Komplexität und der verwendete Speicherbedarf betrachtet. Die hierzu durchgeführten Simulationen und Messungen bestätigen die Hypothese, dass die harmonische Spektralbandreplikation eine leistungsfähige und effiziente Möglichkeit darstellt, das bandbegrenzte Spektrum eines Audiosignals unter Fortsetzung der harmonischen Struktur zu erweitern.



Schubert, Markus;
Klangsynthese von Gitarrensignalen. - 51 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2012

Die vorliegende Bachelorarbeit befasst sich mit der Klangsynthese von Gitarrensignalen und deren weiterer Manipulation mit den Methoden der digitalen Signalverarbeitung. Sie baut auf einer vorangegangenen Diplomarbeit auf, in der ein Algorithmus zur Klangsynthese eines E-Basses in MATLAB entworfen wurde. Es werden dabei weitere, für die Gitarre charakteristische Spieltechniken hinzugefügt. Des Weiteren wird eine Möglichkeit erarbeitet, polyphone Spielweisen mit dem Algorithmus zu simulieren. Auf diese Weise können Akkorde und Arpeggios automatisch generiert werden. Zuletzt wird eine Korpussimulation eingebunden, um den natürlichen Klang des Korpus einer akustischen Gitarre nachzubilden. Abschließend wird die Qualität der Korpussimulation in einem Hörtest evaluiert.



Marina, Kenny;
Developing a high-speed audio encoder within a massively-parallel computing environment. - 74 S. : Ilmenau, Techn. Univ., Masterarbeit, 2012

Trotz der zunehmend im Unterhaltungselektronikmarkt verfügbaren parallelen Prozessorarchitekturen sind Audioencoder nach wie vor sequentielle Prozesse. Encoder die dem aktuellen Stand der Technik entsprechen, verarbeiten immer noch alle einzelnen Frames nacheinander. Um das volle Potential auszunutzen, ist es notwendig alle Teilschritte des Encoding Verfahrens auf Parallelisierbarkeit zu prüfen. Insbesondere ist es wichtig, die bestehenden Zwischenframeabhängigkeiten aufzulösen um das volle Geschwindigkeitspotential paralleler Prozessorarchitekturen ausnutzen zu können. Das Aufbrechen der Zwischenframeabhängigkeiten birgt die Gefahr, die resultierende Audioqualität zu verringern. Das Ziel dieser Arbeit ist es, die Skalierbarkeit eines Audio Encoders auf einer parallelen Architektur untersuchen, indem versucht wird, jedes Audio-Frame so unabhängig wie möglich zu verarbeiten, um einerseits einen Geschwindigkeitsvorteil zu erzielen und andererseits die Audioqualität nicht negativ zu beeinflussen. Diese Arbeit basiert auf dem konventionellen AAC-LC Algorithmus und schlägt eine neue, parallelisierte Variante des Algorithmus vor. Ein Encoder, der das Funktionieren des vorgeschlagenen Konzepts beweist (Proof of Concept), wurde in C implementiert. Es werden Benchmarkergebnisse präsentiert, die den Vergleich zur sequenziellen Referenzimplementierungen zeigen. Der Proof of Concept Encoder zeigt, dass der vorgeschlagene parallele Algorithmus einen Gewinn an Geschwindigkeit bietet, ohne dass dabei die Audioqualität negativ beeinflusst wird. Der Proof of Concept Encoder ist fähig, Audiomaterial bis zu 100-facher Echtzeit zu encodieren. Erste Teilalgorithmen wurden bereits in CUDA implementiert. Es ist allerdings weitere Arbeit notwendig bevor ein fairer Vergleich zum Referenzencoder vorgenommen werden kann. Diese Arbeit und der vorgeschlagene parallele Algorithmus bieten einen Leitfaden und ein Beispiel, wie Audiokodierung als paralleler Prozess aufgefasst werden kann. Diese neue Methode könnte Ingenieuren dienen, die sich mit Audiosignalverarbeitung beschäftigen, da in naher Zukunft algorithmische Optimierungen stark auf parallele Prozessorarchitekturen zugeschnitten werden müssen.



Esch, Lorenz;
Untersuchung von Compressed Sensing Algorithmen zur Rekonstruktion von 3D Punktwolken. - 93 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2012

This bachelor thesis approaches a scheme of using Compressed Sensing algorithms in conjunction with 3D feature scanning and its output data (3D point clouds). The intention is to find a way to use Compressed Sensing in repsective of reconstructing a scanned model from a given 3D point cloud (output of the 3D Scanner). In order to do so, we firstly examine the conditions which are needed to integrate Compressed Sensing into a 3D scanning process. One condition is to find a signal representation for a given point cloud. Thus two parametric methods are preseneted in this thesis. The first approach is based upon a single B-Spline patch fitting technique whose main feature is a global parameter space. The second one is a minimization process of Superquadric functions which yields a best fit for a given point cloud. These two parametric representations are implemented and evaluated in a test environment. The results of this thesis show that a direct integration of Compressed Sensing algorithms into a 3D feature scanning process is a very complex and challenging task. Therefore, no direct integration is presented. Instead a detailed discussion about possible to-be proceedings is given. The main focus is brought to the signal representations of 3D point clouds. Thus a basic aspect for the future work on Compressed Sensing in conjunction with 3D data is provided. The two presented methods (B-Spline and Superquadric) are working fine except for a couple of particular situations. Moreover, it is shown that the fitted single B-Spline Patch cannot be used only for representation purposes, but also for achieving satisfying reconstruction results of the scanned model itself.



Baumbach, David;
Entwicklung und Implementierung eines fotobasierten AR-Navigationssystems. - 148 S. Ilmenau : Techn. Univ., Diplomarbeit, 2012

Die fortschreitende Entwicklung im Bereich Fahrzeugnavigation und Fahrerassistenzsysteme eröffnet eine Vielzahl neuer Möglichkeiten, um den Fahrer bei der Wegfindung zu unterstützen. Mit Hilfe von Augmented Reality, sowie durch die vermehrte Veröffentlichung von Umgebungsfotos innerhalb georeferenzierter Datenbanken, kann eine neue Erweiterung der Fahrzeugnavigation realisiert werden. Diese Arbeit setzt an dieser Stelle an und verfolgt das Ziel, eine prototypische fotobasierte Navigationslösung umzusetzen. Dem Fahrer werden realitätsnahe Bezugspunkte innerhalb der Fotografie bereitgestellt, an denen er sich orientieren kann und ein dargestelltes Manöver entsprechend ausführt. Als Grundlage werden Bilder von Kreuzungen aus einer Datenbank aufgerufen und mit abstrakten Navigationshinweisen überlagert. In der anschließenden Evaluation wird gezeigt, dass derartige Ansätze Potenzial besitzen, wenngleich weitere Modifikationen notwendig sind. Darüber hinaus beleuchtet die vorliegende Arbeit verschiedene aktuelle georeferenzierte Datenbanken in Hinblick auf Verfügbarkeit und allgemeine Probleme. Zudem werden bereits entwickelte Augmented Reality Navigationslösungen vorgestellt.



Trier, Manuel;
Untersuchung der einzelnen Algorithmen des Structure from Motion Verfahrens hinsichtlich ihrer Parallelisierbarkeit. - 97 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2012

Der Prozess der Rekonstruktion von Kameradaten und 3D-Modellen aus Fotografien wird als Structure from Motion (SfM) bezeichnet. Dieser Vorgang ist in eine Reihe sequentiell ablaufender Algorithmen unterteilt, welche in sich ebenfalls sequentiell arbeiten. In dieser Bachelorarbeit werden zunächst die einzelnen Teilalgorithmen des Structure from Motion-Verfahrens vorgestellt und anschließend auf ihre Parallelisierbarkeit untersucht. Es werden auch bereits implementierte Versionen paralleler Algorithmen vorgestellt, und auf ihre Unterschiede zu den Originalalgorithmen hingewiesen. Als Zweites wird eine Pipeline vorgestellt, wie die einzelnen Algorithmen zu einem Structure from Motion-System vereint werden können. Dabei wird der Tatsache Rechnung getragen, dass die Bilderserien, welche von dem, an der Technischen Universität Ilmenau entwickelten robotergesteuerten Stereo-Vision Systems, aus Stereo-Bildpaaren bestehen.



Belz, Alexander;
Aufnahme von Bewegtbildern mit hohem Dynamikumfang. - 130 S. Ilmenau : Techn. Univ., Diplomarbeit, 2011

In dieser Arbeit wird ein neuer Ansatz zur Aufnahme von Bewegtbildern mit hohem Dynamikumfang (HDR) untersucht. Basierend auf der gleichzeitigen Aufnahme von örtlich variierenden Belichtungen und einer unregelmäßiger Abtastung kann die Aufnahme mit einem Sensor realisiert werden. Die bisher entstandenen Auflösungsverluste werden durch die Nutzung der frequenzselektiven Extrapolation (FSE) als Rekonstruktionsverfahren minimiert. - Für die Überprüfung des Ansatzes und den Vergleich mit anderen Interpolationen wurde eine Simulationsumgebung erstellt. Dabei konnte durch eine SNR-optimierte Gewichtung und eine Logarithmierung der Daten vor der Rekonstruktion ein gutes Grundsetup der FSE gefunden werden. Mittels subjektiver Beurteilung sowie Qualitätsmetriken wurde die Verbesserung gegenüber bestehender Verfahren ersichtlich. - Der zweite Themenbereich der Arbeit ist die Untersuchung der Komponenten für die Realisierung eines Demonstrators. Dieser soll durch Montage einer optischen Maske auf dem Sensor erstellt werden. Durch Messungen und Simulationen von kritischen Aspekten wie der Bildpunktgröße, Übersprechen, Beugungseffekten und dem Maskenabstand konnte festgehalten werden, dass der Aufbau eines Demonstratorsystems grundsätzlich möglich ist.



Porsche, Martin;
Vergleich von Texture-Mapping-Methoden für die Anwendung in Structure-from-Motion-Verfahren. - 85 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2011

Das Ziel automatischer 3D-Rekonstruktion von Objekten über Computer Vision-Algorithmen wie Structure-from-Motion ist ein texturiertes Mesh. Dabei sollen die Texturen aus den vorliegenden Bildsequenzen extrahiert und völlig automatisch auf das Mesh gemappt werden. Dies wirft Fragestellungen hinsichtlich der Anwendbarkeit der zahlreichen Möglichkeiten zur Texturierung eines Meshes auf. Diese Bachelorarbeit bietet einen Überblick über verschiedene Texturierungsverfahren die diese Anforderungen erfüllen. Ziel ist außerdem die prototypische Umsetzung eines dieser Verfahren und Integration in ein vorliegendes System zur 3D-Rekonstruktion aus Bildsequenzen von unkalibrierten Kameras. Das umgesetzte Verfahren führt eine Rückprojektion der vertices eines Meshes in die Bildebene der Kameras durch. Die Lage der rückprojizierten vertices bestimmt dabei die Textur des Meshes. Optional kann das umgesetzte Verfahren auf einen Graph-Cut-Algorithmus und einen Algorithmus zur Extraktion von dreieckigen Flächen zurück greifen. Es ist eine Darstellung von untexturierten und texturierten 3D-Daten möglich. Zusätzlich ist eine Skalierung und Positionierung der 3D-Daten möglich. Es können Ausgabedateien von Bundler, Photosynth, PMVS2 sowie ASCII-formatierte ply-Dateien importiert werden. Die Import-Methoden wurden ebenfalls im Rahmen dieser Bachelorarbeit entworfen. Die Umsetzung erfolgte in der Programmiersprache C++. Die graphische Benutzeroberfläche wurde mit Qt erstellt. Zur Darstellung der 3D-Daten wird OpenGL verwendet. Zur Bearbeitung der Bildsequenzen und der Texturen wird auf die Programmbibliothek OpenCV zurück gegriffen. Zusätzlich wurden ein Wrapper-Skript für einen Hidden-Point-Removal-Algorithmus für MATLAB erstellt.



Kramer, Patrick;
Entwicklung eines Verfahrens zur automatischen Klangsynthese von Bassnoten unter Berücksichtigung typischer Spieltechniken des E-Basses. - 82 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2011

In dieser Diplomarbeit wird ein Algorithmus zur automatischen Klangsynthese von E-Bassnoten präsentiert, welcher auf einem physikalischen Modell einer elektrischen Bassgitarre beruht. Der Schwerpunkt der Arbeit liegt hierbei bei der Integration zehn typischer Spieltechniken des Instruments in das physikalische Modell. Hierzu werden die Spieltechniken in ihrem physikalischen Einfluss auf die Klangerzeugung analysiert und unterschiedliche Verfahren vorgestellt, mittels derer diese in das Modell eingearbeitet werden können. Die Klangqualität des Algorithmus wurde im Kontext eines Audiocoders in einem MUSHRA-Hörvergleichstest überprüft. Die Ergebnisse des Tests zeigen eine höhere Akzeptanz der Klangqualität des Synthesealgorithmus gegenüber anderer Kodierungsverfahren im Bereich der sehr niedrigen Bitraten. Dabei werden zusätzlich mittels des Syntheseverfahrens deutlich niedrigere Bitraten erreicht. In einem weiteren Hörtest wurde mithilfe des Syntheseverfahrens eine Wahrnehmungsgrenze für Frequenzschwankungen in E-Basstonsignalen eruiert. Diese Grenze wurde ermittelt, um die Frequenzmodulationsdetektion von Analyse- und Transkriptionsverfahren auf die menschliche Wahrnehmung abstimmen zu können.



Götze, Paul;
Untersuchung von Methoden zur Objektsegmentierung aus Stereobildpaaren nicht kalibrierter Kameras. - 92 S. : Ilmenau, Techn. Univ., Bachelor-Arbeit, 2011

Bei der 3D-Rekonstruktion von Objekten über Bildverarbeitungsalgorithmen wie Stucture from Motion treten bei der Auswertung von digitalen Bildsequenzen bzw. Stereobildpaaren eine Vielzahl nicht zum Objekt gehörender Punkte auf. Diese sogenannten Outliers können anhand einer vorangehenden Objektsegmentierung vermieden werden. Die vorliegende Arbeit untersucht Methoden zur automatischen Segmentierung eines Objektes aus Stereobildsequenzen. Eine Bildsequenz stellt dabei eine Umfahrung des zu segmentierenden Objektes mit einem Stereokamerapaar dar. Es werden zwei Ansätze zur Segmentierung verfolgt und prototypisch als OpenCV-Implementierung umgesetzt. Nach einem Überblick über mögliche Segmentierungsmethoden werden das GrabCut-Verfahren, die Wasserscheiden-Transformation und GVF-Snakes auf ihre Eignung untersucht. Das erste System nutzt die aus der Bildsequenz ermittelten Bewegungsinformationen. Hierbei wird der optische Fluss ausgewertet und automatisch eine Ausgangskontur erstellt. Anschließend wird eine Segmentierung über das GrabCut-Verfahren vorgenommen. Im zweiten System erfolgt eine Segmentierung über die Auswertung der Tiefeninformationen aus den Stereoaufnahmen. Eine grobe aus der Disparitätskarte ermittelte Maske wird hierbei über Gaußsche Mischverteilung verbessert. Es erfolgt eine Untersuchung der Eignung der Wasserscheiden-Transformation und der GVF-Snakes als Methoden zur Verbesserung der Segmentierungsergebnisse. Abschließend werden Probleme der Systeme aufgezeigt und Möglichkeiten zur Verbesserung sowie alternative Herangehensweisen vorgeschlagen.



Wu, Qiong;
Untersuchung von Stereomaskierungsansätzen des menschlichen Auges. - 104 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2011

Diese Arbeit befasst sich mit der Untersuchung des Stereomaskierungseffekts des menschlichen Auges. Das Ziel dieser Arbeit ist es, die Präzision der Tiefenwahrnehmung in Abhängigkeit verschiedener Ortsfrequenzen zu analysieren. Dazu werden virtuelle Testobjekte über ein sogenanntes Head-mounted Display präsentiert und bewertet. Als theoretische Grundlagen dienten die selektiven Ortsfrequenzkanäle im menschlichen visuellen System (Blakemore/Campbell, 1969), die Theorie der Ortsfrequenzkanäle (Wilson//Mcfarlane/Phillips, 1982) und die Entdeckung der Veränderung der wahrgenommenen Tiefe mit der Beeinflussung der Ortsfrequenz (Blakemore,1970). Die Untersuchung ermittelt die Präzision der Tiefenwahrnehmung bei verschiedenen Objekttiefen wenn das Objekt durch verschiedene Ortsfrequenzen beeinflusst wird. Der Ortsfrequenzeinfluß wird ermittelt, indem bei gleicher Objekttiefe der dargestellte Ortsfrequenzbereich variiert. Es wurde ein Sehtest mit 10 Testpersonen durchgeführt. Zusammenfassend kann festgestellt werden, dass die Stereomaskierungseffekte im menschlichen visuellen System existieren. Die Präzision der Tiefenwahrnehmung ist abhängig von der dargestellten Tiefe und der Ortsfrequenz. Es gibt die Ortsfrequenzkanäle für die Tiefenwahrnehmung.



Niehaus, Marco;
Konzeption und prototypische Umsetzung eines robotergesteuerten Stereo-Vision-Systems zur 3D-Rekonstruktion statischer Objekte. - 118 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2010

Wie aktuelle Entwicklungen im Bereich Computer Vision darlegen, steigt der Bedarf an Algorithmen und Verfahren zur automatisierten, dreidimensionalen Rekonstruktion von Objekten weiter an. Systeme wie Google Street View, Photosynth oder der Voodoo Kamera Tracker zeigen die Anwendung verschiedenster Computer Vision Technologien in neuen Produkten. Eine wichtige Rolle spielt dabei die Tiefenrekonstruktion aus zweidimensionalen Bilddaten. Dies wirft Fragestellungen hinsichtlich der zu verwendenden Geräte und Aufzeichnungsverfahren auf und inwieweit sich diese in ein zugrundeliegendes Softwareframework integrieren lassen. Dabei sind grundsätzliche Problemstellungen zur dreidimensionalen Modellrekonstruktion aus Bildsequenzen zu lösen. In dieser Arbeit werden Computer Vision Technologien zur dreidimensionalen Rekonstruktion mit einer mobilen Roboterplattform und integriertem Stereo-Vision-System kombiniert. Prototypische Implementierungen für die Robotersteuerung über Bluetoothsowie die Nutzung von Roboter-Sensordaten werden vorgestellt. Dabei kommen asynchrone und parallele Softwaretechniken, basierend auf dem Microsoft Robotics Developer Studio, zum Einsatz. Weiterhin wird die Steuerung von Schwenk- und Neigevorrichtungen für das Stereo-Vision-System in die Software integriert. Es werden Lösungen zur automatisierten Bildsequenzaufzeichnung sowie deren Verarbeitung über eine "Structure from Motion" Implementierung aufgezeigt. Die daraus abgeleiteten Daten werden schlussendlich in ein dreidimensionales Oberflächennetz (Mesh) überführt.



Schubert, Benjamin;
Entwicklung eines parametrischen Instrumentencoders für Pianosignale. - 96 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2010

In dieser Arbeit wird ein Audiocodierungsverfahren für Pianosignale präsentiert, das auf einem physikalischen Pianomodell basiert. Anstatt der Codierung der Wellenform des Signals realisiert dieses Verfahren die Kompression durch Extraktion relevanter Parameter im Encoder, mit deren Hilfe das Signal im Decoder mittels des physikalischen Modells resynthetisiert wird. Schwerpunkt der Arbeit ist neben dem physikalischen Modell auch die Entwicklung und Implementierung der Algorithmen zur Parameterextraktion sowie die Zusammenfassung alle Komponenten zu einem lauffähigen Coder. Zur Überprüfung der Leistungsfähigkeit des entwickelten Pianocoders wurde ein Hörtest durchgeführt. Die Ergebnisse zeigen einerseits eine nicht ausreichend konstante Qualität des Pianocoders über den gesamten Tonhöhenbereich im Vergleich zu einem gängigen Transformationscoder. Andererseits konnte eine besser Qualität des Pianocoders, verglichen mit einem anderen spezialisierten Instrumentencoder bei ähnlichen Bitraten festgestellt werden.



Schüller, Dennis;
Analyse und Optimierung fotorealistischer Bildgenerierung für funktionale Steuergerätetests. - 107 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2010

Zum Prozess der Qualitätssicherung von Fahrzeugen gehört unter anderem das Testen der Steuergeräte. Die Verifikation und Validierung dieser elektronischen Bauteile verlangt die Stimulation von Steuergeräteeingängen mit simulierten Sensordaten aller Art um die Reaktionen des Systems zu prüfen und im Rahmen von Hardware-in-the-Loop Tests in die Umgebungssimulation zurückzuführen. Die Stimulation umfelderfassender Videosensoren, welche zunehmend bei kamerabasierten Fahrerassistenzsystemen verwendet werden, erfolgt durch simulierte, mit Hilfe von Computergrafiken visualisierten, Umgebungs-Szenarien. Diese haben, um eine abschließende sicherheitsrelevante Absicherung der Steuergerätefunktionalität gewährleisten zu können, den Anspruch auf eine fotorealistische Darstellungsqualität. Im Rahmen dieser Arbeit wird ein Konzept entwickelt und prototypisch realisiert, welches eine automatisierte Bewertung der fotorealistischen Darstellungsqualität dieser computergenerierten Umgebungssimulation ermöglichen soll. Diese Bewertung soll die Qualität der Umgebungssimulation aus der Sicht eines kamerabasierten Steuergeräts bzgl. definierter Qualitätsmerkmale mit Hilfe eines numerischen Wertes angeben. Im Vordergrund der Algorithmenentwicklung steht eine möglichst einfache Interpretierbarkeit der Bewertung durch den Menschen. Das Bewertungsergebnis wird daher aufgeschlüsselt in sehr wenige Qualitätsmerkmale. Eine semantische Bedeutung bzw. hohe Aussagekraft der Merkmale ermöglicht zudem eine präzisere Angabe des möglichen Optimierungspotentials. Die Möglichkeit zur Optimierung derjenigen Darstellungsparameter der Simulation, welche die größten Unterschiede zur realen Darstellung aufweisen ist somit gewährleistet. Um dies zu erreichen werden Unterschiede in 3D-Objektfarbe, 3D-Objektoberflächenstruktur sowie 3D-Objektoberflächenform zwischen realen und simulierten sensorstimulierenden Daten durch eine Analyse des Videoaufnahmeprozesses und der Computergrafik-Pipeline herausgearbeitet. Damit eine objektive Qualitätsbewertung aus Sicht eines kamerabasierten Steuergeräts gewährleistet werden kann, werden anschließend existierende Möglichkeiten vorgestellt mit denen diese definierten Unterschiede durch eine bildverarbeitende Merkmalsextraktion erfasst und miteinander verglichen werden können. Hierzu werden Vorgehensweisen und Algorithmen aus verschiedenen Anwendungsgebieten analysiert. Dies sind insbesondere Klassifikationsverfahren zur automatisierten Unterscheidung zwischen Computergrafik und realem Bild und Image Retrieval-Verfahren. Innerhalb des entwickelten Gesamtkonzepts werden Bildsequenzen aus den Videos realer Testfahrt-Umgebungen mit Bildsequenzen der simulierten Testfahrt-Umgebung automatisiert bzgl. oben genannter Qualitätsmerkmale verglichen. Hierzu wird jedes Einzelbild separat verarbeitet. Der Bildinhalt wird bzgl. Homogenität der "Szenenkomplexität" eingeteilt um die Messergebnisse aussagekräftiger zu machen. Somit ergeben sich die Bereiche "Himmel", "Straße" und "Straßenrand", welche separat untersucht werden. Der Bildinhalt innerhalb eines zu analysierenden Bereichs wird anschließend mittels Mean-Shift-Segmentierung in homogene Regionen eingeteilt, von denen im Weiteren jeweils Farb-, Kontur- und Textureigenschaften extrahiert werden. Diese Merkmale erfassen die o.g. Unterschiede zwischen den realen und simulierten 3D-Objekten. Aus der Menge an Regionen-Messwerten werden für jedes Einzelbild Histogramme der Merkmalsausprägungen für jedes Merkmal generiert. Somit ist eine Charakterisierung des Bildinhalts auf Objektebene erreicht. Damit nicht lediglich Einzelbilder sondern die kompletten Videoaufzeichnungen realer und simulierter Testfahrt-Umgebungen bewertet werden können, erfolgt die Erzeugung von Bildsequenz-Merkmalshistogrammen (gemittelte Einzelbild-Merkmalshistogramme). Ein Vergleich dieser Bildsequenz-Merkmalshistogramme mittels Earth Mover's Distance führt zu den gewünschten numerischen Bewertungsfaktoren. Diese beschreiben die Ähnlichkeit der Merkmalsausprägungen bzgl. Objektfarbe, Objektoberflächenstruktur und Objektform zwischen realer und simulierter Testfahrt-Umgebung. Implementiert wurde eine grafische Benutzeroberfläche, welche es dem Anwender ermöglicht Analyseparameter zu definieren und anschließend einen Vergleich der Bildsequenzen bzgl. o.g. Qualitätsmerkmale zu starten. Der Anwender erhält Feedback durch Visualisierung des aktuellen, in Verarbeitung befindlichen, Einzelbildes, des segmentierten Regionenbildes und der aktuell analysierten Region. Nach Beendigung der Verarbeitung wird die Ähnlichkeit der Qualitätsmerkmale zwischen Simulation und Realität in Form von Bewertungsskalen angezeigt.



Susa, Tim;
A realtime digital simulation of an analog distortion pedal: the Fuzz Face. - 85 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2010

In dieser Diplomarbeit wurde die elektronische Schaltung des so genannten "Fuzz Face" Gitarrenverzerrerpedals betrachtet und als digitale Echtzeitsimulation implementiert. Dieser auf Transistoren basierender Gitarreneffekt weist höchst nichtlineare Eigenschaften auf. Der Prozess der Signalverzerrung unterliegt einer Eingangssignal abhängigen Verstärkung und Amplitudenbeschneidung kombiniert mit nachfolgender Kompression. Die indivduellen Komponenten der Schaltung wurden analysiert, diskretisiert und als digitale Module wieder zusammen gesetzt. Die größte Herausforderung bestand in der Erkennung entsprechender nichtlinearer Modelle, die für den typischen Klang verantwortlich sind. Bestehende Ansätze bauen auf Modellen auf, welche das Eingangssignal durch sogenanntes "Waveshaping" symmetrisch umformen. Andere Ansätze widmen sich nichtlinearen Differentialgleichungssystemen deren Lösung sich als rechenintensiv herausstellte. Der in dieser Arbeit verfolgte Ansatz beachtet die Asymmetrien der "Fuzz Face" Transfercharakteristika. Zusätzlich werden die Effekte der Spannungsgegenkopplung gefolgt von einer Signalkompression mit einbezogen. Zum Abschluss wird ein komparativer Hörtest durchgeführt, um die Ähnlichkeit der digitalen Echtzeitsimulation zum analogen Vorbild auf zu zeigen.



Gorlow, Stanislaw;
Frequency-domain bandwidth extension for low-delay audio coding applications. - 124 S. : Ilmenau, Techn. Univ., Masterarbeit, 2010

MPEG-4 Spectral Band Replication (SBR) ist ein technisch ausgereiftes Verfahren zur Rückgewinnung von hochfrequenten Signalkomponenten für Sprache und natürliches Audio, das in Verbindung mit einem Audiocodec angewandt ein hochwertiges Breitbandsignal bei einer Bitrate von nicht mehr als 48 kbps liefert. Ein wesentlicher Nachteil dieser Methode ist, dass sie die Zeitverzögerung des darunter liegenden Kerncodecs maßgeblich vergrößert. Die Idee der synthetischen Signalwiederherstellung ist in Echtzeitkommunikation ebenso von besonderem Interesse. Ein derartiges Verfahren könnte dort eingesetzt werden, um die Anforderungen an die Kanalkapazität weiter zu lockern. In dieser Arbeit wird ein latenzoptimiertes Derivat von SBR ausgearbeitet, welches zusammen mit einem minimal verzögernden Sprach- und Audiocoder, wie dem Fraunhofer ULD, verwendet werden kann. Der vorgestellte Ansatz basiert auf einer Kurzzeit-Teilband-Darstellung eines akustischen Signals natürlichen oder künstlichen Ursprungs, und greift als solcher auf eine Filterbank zur Extraktion und Manipulation von Klangcharakteristika zurück. Die Verzögerungszeit des Gesamtsystems bestehend aus dem ULD-Coder und der vorgeschlagenen Bandbreitenerweiterung beläuft sich bei einer Abtastrate von 48 kHz auf 12 ms. Einem subjektiven Hörtest zufolge, erzeugt die neu entwickelte Bandbreitenerweiterung in ihrem derzeitigen Stadium eine Kopie des Hochbandes von hervorragender Qualität bei einer simulierten mittleren Datenrate von 12.8 kbps.



Stein, Michael;
Entwicklung eines Verfahrens zur Detektion und Neutralisation verschiedener Effekte auf Bass- und Gitarrenaufnahmen innerhalb von Musikstücken. - 113 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2009

In dieser Arbeit werden Algorithmen zur Detektion und Neutralisation von Audioeffekten in Bass- und Gitarrenaufnahmen präsentiert. Zur Detektion der Audioeffekte werden aus dem Audiosignal 541 spektrale, cepstrale und harmonische Merkmale extrahiert, mit denen ein Entscheidungsmodell trainiert wird, welches Audioeffekte in Instrumentenaufnahmen identifizieren kann. Die Leistungsfähigkeit der Effektdetektion wurde anschließend mit sechs Experimenten und unterschiedlichen Datensätzen aus Instrumentenklängen und Musikstücken systematisch evaluiert. Dabei wurden Erkennungsraten von 76\% bis 98\% erreicht. Zusätzlich wurde der Einfluss verschiedener Faktoren wie Polyphonie und Instrumententimbre auf die Leistungsfähigkeit herausgearbeitet. Weiterhin werden Methoden zur Neutralisation von Verzögerungseffekten und Vibrato präsentiert, zusammen mit Methoden zur Schätzung der erforderlichen Effektparameter aus dem Audiosignal. Die Wirksamkeit der Effektneutralisation konnte für die Verzögerungseffekte anhand eines Transkriptionsszenarios belegt werden, während die Ergebnisse für den Vibratoeffekt keinen eindeutigen Schluss zulassen. Abschließend werden Möglichkeiten zur Erweiterung und Verbesserung der entwickelten Algorithmen diskutiert sowie Szenarien zur Anwendung der Detektion, Neutralisation und Modifikation von Audioeffekten in Musikstücken skizziert.



Schnabel, Michael;
Entwicklung eines Parametric Stereo Verfahrens für Audiocodierungsanwendungen mit geringer Verzögerung. - 159 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2009

Diese Arbeit behandelt die Entwicklung eines parametrischen Stereokodierungsverfahrens mit geringer Systemverzögerungszeit. Parametrische Stereokodierung bedeutet, dass Stereosignale durch ein Monosignal und zusätzlichen Parametern beschrieben werden. Diese Parameter ermöglichen dem Dekoder das Hochmischen des Monosignals auf Stereokanäle. Die Übertragung der Parameter verursachen eine sehr geringe Bitrate, so dass sich die Kodiereffizienz im Vergleich zur getrennten Kodierung beider Stereokanäle deutlich erhöht. Bekannte Methoden zur parametrischen Stereokodierung verursachen in Verbindung mit einem Mono-Wellenformkoder eine algorithmische Verzögerungszeit von etwa 170ms. Für Echtzeit-Anwendungen, wie Videokonferenzsysteme oder verteilte Musikproduktionen über das Internet, bei denen mehrere Musiker gleichzeitig musizieren, sind 170ms deutlich zu lang. Aus psychoakustischen Experimenten ist bekannt, dass Verzögerungszeiten von unter 10ms nicht wahrnehmbar sind. Deswegen war beim Entwurf und der Entwicklung des Low Delay Parametric Stereo Werkzeugs als Ziel gestellt, die vollständige En- und Dekodierung innerhalb von 10ms auszuführen. Die Arbeit stellt ausführlich Grundlagen des räumlichen Hörens dar, die zum Verständnis von räumlicher Audiokodierung nötig sind. Es wird außerdem auf bereits bestehende Methoden zur parametrischen Stereokodierung eingegangen. Der Hauptteil der Arbeit beschäftigt sich mit der Entwicklung einer neuen Methode mit geringer algorithmischer Verzögerungszeit. Es wird herausgearbeitet, dass verschiedene Codierverfahren immer ein Kompromiss zwischen Verzögerungszeit, Bitrate und Qualität sind. Der am Ende der Arbeit präsentierte Hörtest zeigt, dass eine neue Methode das angestrebte Ziel von 10ms erreicht, jedoch mit etwas geringerer Qualität als erwünscht. Eine andere neue Methode erreicht die gleiche, sehr gute Qualität wie ein kommerzielles Verfahren, allerdings verursacht es auch eine Verzögerungszeit von etwa 18ms. Die erreichte Verzögerungszeit liegt etwa 70ms unter der von kommerziellen Lösungen, bei gleicher Qualität.