Theses

Here you can see the German abstract first. If you click on the link to a paper, you will be taken to a page from the library catalogue.
There you can view the English-language abstract under the item "Further information:".

Results: 204
Created on: Thu, 18 Apr 2024 23:07:45 +0200 in 0.0727 sec


Schubert, Anton;
Implementierung eines komprimierten breitbandigen Audio Codecs für die Fahrerkommunikation im Motorsport. - Ilmenau. - 50 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Im Motorsport hängt die Güte der Kommunikation zwischen Fahrer und Team von der Qualität der Funkübertragung ab. Erfahrungen aus der Praxis zeigen, dass aktuelle Lösungen in dem Bereich nur schlechte Sprachverständlichkeit bei vergleichsweise hohen Latenzen bieten. Das Ziel dieser Arbeit ist die Umsetzung eines Audioübertragungssystems für hochqualitative Fahrerkommunikation im Motorsport. Zu diesem Zweck werden zwei verschiedene Fahrzeugsysteme in Tests an der Rennstrecke evaluiert und auf Basis dessen ein eigenes Hardwaresystem spezifiziert. Weiterhin werden Sender-, sowie Empfängerapplikationen und entsprechendes Monitoring für diese entwickelt. Zusätzlich wird ein MUSHRA-Hörversuch mit Aufnahmen aus dem Rennfahrzeug durchgeführt, um den optimalen Audiocodec für den Anwendungszweck zu finden. Bei 24kBit/s Bitrate erzielen EVS und AAC ELD die höchste Qualität im Test und sind signifikant besser als OPUS. Das entwickelte Übertragungssystem wurde in den produktiven Betrieb überführt und ist seit 3 Monaten bei der DTM im Einsatz.



Götzl, Christoph;
Markerloses Personen-Tracking zur automatisierten Kamerasteuerung für Lecture Capture Anwendungen. - Ilmenau. - 82 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2018

Trackingsysteme sind Anlagen, die eine automatisierte Ansteuerung einer Pan-Tilt-Zoom (PTZ) Kamera ermöglichen. Bei Vorlesungsaufzeichnungen können diese Systeme zur Verfolgung des Dozenten genutzt werden. Bestehende Systeme basieren in der Regel auf einem Bildanalyseansatz oder einem Markersystem. Bildanalysesysteme verursachen trotz vielfältiger Einstellungsmöglichkeiten in schwierigen Situationen falsche Kamerabewegungen. Markersysteme benötigen einen Sender, der vom Dozenten getragen werden muss. So wird eine Interaktion mit dem System vorausgesetzt, die den Dozenten von der hauptsächlichen Tätigkeit ablenken kann. Weiterhin ermöglichen diese Systeme nur die Aufnahme einer einzigen Person. In dieser Arbeit wird ein Ansatz für ein Trackingsystem vorgestellt, der auf einer Kombination von Positionsdaten verschiedener Sensoren basiert. Neben einer Übersichtskamera wird ein 2D-Laserscanner zur Positionserfassung eingesetzt. In verschiedenen Tests hat sich gezeigt, dass bereits mit dem alleinigen Einsatz eines 2D-Laserscanners zuverlässige Ergebnisse erzielt werden können. So sind mit dem vorgestellten Konzept zuverlässigere Positionsbestimmungen als mit herkömmlichen Bildanalysesystemen möglich. Gleichwohl wird der Dozent nicht durch Marker beeinträchtigt. Die Arbeit zeigt, dass für ein zuverlässiges Trackingsystem für den Einsatz in Hörsälen oder Seminarräumen ein 2D-Laserscanner optional in Kombination mit einer Bildanalysemethode verwendet werden kann. Die innerhalb der Arbeit erlangten Erkenntnisse können zur Weiterentwicklung des bestehenden Systems genutzt werden. So ist die Ansteuerung mehrerer PTZ-Kameras oder eine automatisierte Auswahl verschiedener Kameraperspektiven denkbar.



Murugesan, Dhinesh;
Classification of noise in natural and synthetic speech. - Ilmenau. - 78 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Sprache ist eines der häufigsten und wichtigsten Mittel bei der Interaktion von Menschen. Daher wäre es ideal, wenn die Menschen dieselbe Sprache verwenden könnten, um mit Maschinen zu kommunizieren, nicht wahr? Eine Reihe von internationalen Forschungs- und Entwicklungsinstituten hat auf den Gebieten der Spracherkennung und Sprachsynthese gearbeitet, um die Mensch-Maschine Interaktion zu erleichtern. Dank dieser Anstrengungen können Computer inzwischen sprechen, hören und sogar Sprache erkennen. Heutige Anwendungen von Sprache in der Mensch-Maschine-Interaktion umfassen Satellitennavigationssysteme, automatisierte Call-Center und intelligente persönliche Assistenten. Sprechen ist eine Fähigkeit des Menschen und Menschen können dies ohne darüber nachzudenken. Dennoch ist es für Computer schwierig, diese Aufgabe zu erfüllen. Forscher haben mehrere Ansätze vorgeschlagen, um Sprache zu synthetisieren. Die einfachste Art besteht darin, aufgezeichnete Klangsegmente aus einem Sprachkorpus in möglichen Kombinationen zu verketten. Der Erfolg eines Mensch-Maschine-Interaktionssystems hängt in hohem Maße von der Qualität einer synthetisierten Sprache ab, oder mit anderen Worten: Die synthetisierte Sprache muss verständlich sein. Der Standard des Sprachsynthesizers wird durch den Mangel an Natürlichkeit, dem Vorhandensein von Artefakten in der synthetisierten Sprache und Rauschen oder unerwünschten / nicht-semantischen Klangereignissen in der aufgezeichneten natürlichen Sprache beeinträchtigt. Daher ist es notwendig, einen hohen Standard der aufgezeichneten Sprache zu erhalten und einen Synthesizer mit möglichst wenigen Artefakten zu gestalten. Mit der Weiterentwicklung von Computertechnologie tritt auch das Gebiet der Künstlichen Intelligenz (KI) immer weiter in Erscheinung. In dieser Arbeit wurden KI-Techniken untersucht und vielversprechende Ansätze gefunden, um Artefakte in synthetisierter Sprache zu identifizieren und zu lokalisieren. Ein großer Korpus natürlicher und synthetischer Sprache wurde analysiert, um die Eigenschaften von menschlichen Sprachäußerungen und von Verkettungsartefakten zu untersuchen. Es wurden Listenexperimente mit Probanden durchgeführt, um menschliche Artefakte in natürlich aufgezeichneter Sprache zu untersuchen. Zwei verschiedene Algorithmen wurden zur Detektion von menschlichen und Verkettungsartefakten in natürlicher bzw. synthetischer Sprache vorgeschlagen. Zusätzlich wurde die Leistungsfähigkeit verschiedener Maschinenlernalgorithmen zusammen mit einem eindeutigen Satz von vorgeschlagenen Merkmalsvektoren verglichen. Die vorgeschlagen Algorithmen ermöglichen eine schnellere Validierung der Qualität von natürlich aufgezeichneter Sprache und auch von synthetisch erzeugter Sprache. Für Menschen hingegen ist eine solche Validierung sehr komplex und aufwändig. Die Ergebnisse der im Rahmen dieser Arbeit durchgeführten Experimente bestätigen, dass die vorgeschlagenen Algorithmen funktionieren. Die hier vorgestellten Algorithmen zur Erkennung von Artefakten können je nach Anwendungsfall herkömmliche Hörexperimente ergänzen oder ersetzen.



Vogel, Patrick;
Entwicklung eines Testaufbaus und Vergleichsanalyse zwischen realer Betrachtung und medialer Betrachtung mittels verschiedener Kameras einer Portraitaufnahme von unterschiedlichen Personen. - Ilmenau. - 83 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2018

Mit der Einführung von UHD konnte nachgewiesen werden, dass sich die Betrachtung einer Person bei UHD-Inhalten anders darstellt. Hier setzt die Arbeit ein. Es wird die Frage gestellt, inwieweit sich die reale und mediale Betrachtung von Gesichtern unterscheidet. Dafür wurde ein Testaufbau entwickelt mit dem zum einen die gleichzeitige Aufnahme mehrerer Kameras des selben Objekts ermöglicht wurde und zum anderen anderen die Durchführung eines Tests mit realer und medialer Komponente. Bei der Entwicklung des Tests wurden alle relevanten Parameter und Komponenten begründet und erläutert, um die Vergleichbarkeit und Wiederholbarkeit des Testaufbaus zu ermöglichen. Mittels Eye-Tracking wurden die Betrachtungen von Testpersonen aufgezeichnet und ausgewertet. Somit konnte aufgezeigt werden, dass sich reale und mediale Betrachtung in Hinblick auf die Vergleichbarkeit nicht relevant unterscheiden. Die festgestellten Unterschiede wurden genau benannt und innerhalb des Kontext des Testaufbaus begründet.



Melzer, Matthias Fritz;
Verifikation der Zusammenhänge von instrumentellen Messparametern und dem Gesamtqualitätseindruck in Konversationstests. - Ilmenau. - 86 Seiten
Technische Universität Ilmenau, Bachelorarbeit 2018

Innerhalb dieser Bachelorarbeit wurde die Funktionsweise, eines seitens der Firma HEAD acoustics entwickelten Demonstrators zur Qualitätsanalyse von Ende zu Ende Telefonverbindungen verifiziert. Insbesondere wurde Wert auf die Qualitätsüberwachung dynamischer Verbindungsänderungen während des Gesprächs gelegt. Zur Verifizierung des Demonstrators wurde ein Konversationstests durchgeführt. Innerhalb dieses Konversationstests wurden zur Qualitätsänderung der Telefonverbindung Endgeräte genutzt, die gezielt in ihren akustischen Eigenschaften modifiziert wurden. Ebenfalls konnten während der Konversation Netzparameter (Packet Loss, Delay) und die Stärke eines im Signalweg eingespeisten Echos dynamisch verändert werden. Die Bewertungen des Konversationstests und die Kommentare der Versuchspersonen wurden mit den berechneten Ergebnissen des Demonstrators verglichen und analysiert. Daraus konnten zu einigen Eingangsgrößen des Demonstrators Verbesserungsvorschläge abgeleitet werden. Die Werte einer verbesserten, zweiten Version des Demonstrators konnten ebenfalls noch mit den Daten des Konversationstests verglichen werden.



Müller-Welt, Philipp;
Feasibility study and construction of a prototypical virtual reality head-mounted display. - Ilmenau. - 71 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Das Hauptziel dieser Arbeit ist die Erstellung einer Machbarkeitsstudie für die Konstruktion eines virtual reality-head mounted displays, welches dem aktuellen Stand der Technik entspricht. Hiefür wurden zunächst die Grundlagen über virtual reality (VR), head mounted displays (HMDs) und betreffende Eigenschaften des menschlichen visuellen Systems erläutert. Im Anschluss folgte eine Analyse des HMDs durch eine Beschreibung seiner einzelnen Bestandteile in Funktion und Wirkungsweise. Mit diesen Voraussetzungen wurde ein umfassender Überblick und eine Klassifizierung bestehender HMDs geschaffen sowie eine Analyse der vorhandenen Schwachpunkte des aktuellen Standes der Technik und der möglichen Verbesserungspotentiale. Anschließend ist ein Lastenheft erstellt worden, welches die notwendigen technischen Anforderungen an ein HMD darlegt. Ebenso konnte mit Hilfe der gewonnen Erkenntnisse aus der geometrischen Optik ein Modell erstellt werden, welches die grundsätzlichen optisch-geometrischen Eigenschaften eines HMDs widerspiegelt. Den Abschluss der Arbeit bildet ein Ausblick auf die nächsten Konstruktionsschritte und mögliche Optimierungspotentiale bestehender Systeme.



Dutta, Madhurjya Kumar;
Improved onset detection for non-percussive sounds. - Ilmenau. - 55 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Das extrahieren von zeitlicher Information aus Musikaufnahmen ist eine der kritischsten Aufgaben für viele Music Information Retrieval Systeme. Onset Erkennung ist eine Methode zur Erkennung der Startzeiten von Noten und wird in vielen Musikverarbeitungsaufgaben als ein erster Schritt genutzt. Beispiele dafür sind die automatische Musiktranskription, das Beat Tracking und die Abschätzung der Geschwindigkeit. Onset Erkennung kann, zum Beispiel im Fall von Schlaginstrumenten, sehr einfach sein. Allerdings gibt es auch Audiosignale welche für diesen Zweck eine deutlich größere Herausforderung darstellen. Die schwierigsten werden von harmonischen Instrumenten wie der Violine oder dem Cello erzeugt. Das Ziel dieser Arbeit ist die Entwicklung eines Systems zur Verbesserung der Onset Erkennung für nicht-perkussive, monophone Musiksignale auf Basis des aktuellen Stands der Forschung. Dafür werden Methoden, welche dem aktuellen Stand der Forschung entsprechen, untersucht und analysiert. Zwei angemessene Ansätze werden dabei als Vergleichsmethoden für die Implementierung und die Bewertung gewählt. Verbesserungen für die Vergleichsmethoden werden mithilfe der Gaussian mixture models ermittelt und abschließend werden die Resultate der Vergleichsmethoden und der neu erarbeiteten Methoden sorgfältig analysiert und miteinander verglichen.



Brückner, Jonas;
Editing the metadata of a broadcast transport stream for use in an automotive-infotainment system testing environment. - Ilmenau. - 78 Seiten
Technische Universität Ilmenau, Masterarbeit 2018

Die Entwicklungsumgebung eines Automotive-Infotainment Systems befindet sich im stetigen Wandel. Hierbei folgen die Automobilhersteller der Forschung und Entwicklung der Elektronikgeräte im Konsumerbreich, womit ein rapides Wachstum der Funktionalitäten im Automobil einhergeht. Zur Absicherung eben jener Systeme bedarf es Testketten, welche sich ebenfalls in einem stetigen Erneuerungs- und Erweiterungsprozess befinden. Zur Absicherung der TV Applikation im Automotive-Infotainment System und dem Ausbau der dafür benötigten Testumgebung wird in dieser Abschlussarbeit der Ansatz zum Editieren der Metadaten von Transportströmen zur Abdeckung von Testfällen für eine TV Testumgebung behandelt. Mit Hilfe der anfänglichen Analyse der im TV Signal befindlichen Metadaten und der Darstellung der Struktur einer Automotive-Infotainment System Testumgebung wird das Editieren von Metadaten eines TV Transportstroms und der Nutzen für das Testumfeld anhand der Entwicklung und dem Einbezug eines Tools beschrieben. Die Entwicklung des Tools hat Problemstellungen im Editiervorgang aufgezeigt und befasst sich mit den Erkenntnissen zur Lösung eben jener Komplikationen. Zum Einen fällt unter die genannten Erkenntnisse die Handhabung undokumentierter oder mangelhaft dokumentierter Softwarekomponenten mit Hilfe von TV Spezifikationen. Des Weiteren werden Schwierigkeiten in der Versionsanpassung von Softwarekomponenten dargestellt, welche sich zudem auf die Leistung, Stabilität und Benutzerfreundlichkeit des Editiervorgangs auswirken. Abschließend wird verdeutlicht, welche Testabdeckung durch die synthetisch hergestellten TV Signale erreicht werden kann. Die somit gewonnen Erkenntnisse stellen dar, wie stark die Testumgebung durch das Editieren von Metadaten in synthetisch erstellten Transportströmen die Testumgebung bzw. die Testfälle beeinflussen kann und welche Schwierigkeiten beim Editieren auftreten können.



Zhang, Chao;
3D-Audio telephone conferencing : impact and attribution of capture-related degradations on perceived quality. - Ilmenau. - 72 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

In dem Telefonkonferenzsystem kann das räumliche Audio oder das sogenannte 3D-Audio die wahrgenommene Qualität des Zuhörers verbessern, insbesondere für Mehrpersonengespräche. Mit der räumlichen Information ist es möglich, einzelne Sprecher zu identifizieren und zu unterscheiden. Dies ist insbesondere wichtig für den Fall, dass mehrere Sprecher gleichzeitig sprechen. In Bezug auf die Anwendung von Telefonkonferenzen spielen Beeinträchtigungen auf der Aufnahmeseite wie Lärm und Nachhall eine Rolle bei der Qualitätsbewertung. Die Interaktion von aufnahmeseitigen Beeinträchtigungen und die Vorteile des räumlichen Audio-Renderings werden jedoch nicht vollständig verstanden. Ob das 3D-Audio immer noch besser funktioniert als das nicht-räumliche Audio unter den Beeinträchtigungen, wurde noch nicht diskutiert. Daher ist es das Ziel dieser Arbeit, die Auswirkung und Zuordnung der aufnahmebedingten Beinträchtigungen auf die wahrgenommene Qualität aufzudecken. Um dieses Ziel zu erreichen, wurde ein Hörversuch entworfen, implementiert und durchgeführt. Das Hörmaterial wurde durch die Verarbeitung hochqualitativer Sprachaufnahmen mit verschiedenen Methoden erzeugt. Die Integration von PJSIP und SoundScape Renderer wurde implementiert, um 3D-Audio zu erzeugen. Und die ITU-T G.191 Toolbox wurde verwendet, um die Verschlechterungen zu simulieren. Der Vergleich von Gegensprechen, dem s.g. Double-Talk (zwei Sprecher sprechen gleichzeitig) und Wechselsprechen, dem s.g. Single-Talk (zwei Sprecher sprechen alternativ) ist ebenfalls in dieser Arbeit enthalten. Insgesamt werden vier Kategorien von Stimuli erzeugt und jede Kategorie enthält 25 experimentelle Bedingungen. Die Ergebnisse dieser Studie zeigen, dass das 3D-Audio immer besser als das 1D-Audio ist und das Single-Talk besser als das Double-Talk bei gleicher Beeinträchtigung ist. Das heißt, mit der Beeinträchtigung profitiert das 3D-Audio auch von der räumlichen Wirkung. Darüber hinaus verbessert 3D-Audio bei hochqualitativen Stimuli die Qualität für Double-Talk deutlich, aber für Single-Talk nur wenig. Wenn die Sprache durch Rauschen beeinträchtigt wird, erhöht das 3D-Audio die Qualität von Double-Talk und Single-Talk. Der Vorteil von 3D-Audio, der für ungestörte Sprachsignale bekannt ist, ist ebenfalls für verschiedene aufnahmebedingte Beeinträchtigungen erkennbar.



Peter, Julia;
Entwicklung eines Audio-Testplatzes zur Erkennung und Beurteilung von Störern verschiedenster Audiosysteme auf Radio-Wiedergabe im Kfz-Bereich. - Ilmenau. - 101 Seiten
Technische Universität Ilmenau, Masterarbeit 2017

Die Arbeit beschäftigt sich mit der Konzipierung und Umsetzung eines Audio-Testplatzes für Radiowiedergabe in Fahrzeugen. Im Speziellen handelt es sich um die Entwicklung einer Softwarelösung in Python zum Testen und Bewerten von Audioqualität bei Radiowiedergabe verschiedener Quellen für Fahrzeuge. Ihre Softwarearchitektur ist getrennt in Benutzeroberfläche (GUI, entwickelt mit PyQt) und Signalverarbeitung. Das Programm bietet umfassende Möglichkeiten Testszenarien zu bearbeiten und auszuführen und so Bewertungen zur Signalqualität zu erhalten. So werden Radiosignale für Fahrzeuge auf verschiedene Störer und deren Ursprünge untersucht und bewertet. Damit kann schon bei der Fahrzeugentwicklung sichergestellt werden, dass das Infotainmentsystem entsprechend abgestimmt ist und keine Kundenbeanstandungen hervorrufen wird. Im Programm werden die Signale in Zeit- und Frequenzbereich verarbeitet, analysiert und evaluiert. Dies geschieht anhand von Signalverarbeitungsprozessen wie Kreuz- oder Auto-Korrelation und Berechnungen von z.B. der SNR. Damit kann ein instrumenteller Bewertungsparameter zur Audioqualität des Fahrzeugradios abgeschätzt werden, der dem Tester bei einer perzeptiven Einschätzung der Signalqualität und Quality of Experience (QoE) als Referenz dienen kann. Die instrumentelle Bewertung der Audioqualität erfolgt dazu über Parameter, wie den Mean Opinion Score (MOS) und einen vorgegebenen Qualitätsindex. Dann hat der Tester die Möglichkeit, eine perzeptive Bewertung anzuschließen, indem er die Signale anhören kann, wie sie in Fahrzeugen klingen. Dafür wurden BRIRs aus Fahrzeugen und verschiedene Hintergrundgeräusche aufgenommen und eingearbeitet. Sie werden als räumliche Filter mit den Signalen gefalten oder additiv hinzugefügt. Als Ergebnis zeigt sich, dass Fahrzeugen keine optimalen Wiedergaberäume darstellen. Daher ist es wichtig das Fahrzeugaudiosystem und Signale dafür anzupassen. Der Fahrzeugwiedergaberaum kann in der Software durch räumliche Filter simuliert werden und so in die Bewertung der Signalqualität der Head Unit-Signale mit einfließen. Dies führt zu einer Senkung des Testaufwands und einer Ersparung unnötiger Tests oder Beanstandungen. Zusätzlich ergibt sich der Qualitätsindex als Referenzwert der instrumentellen Bewertung der Audioqualität und die Möglichkeit zur perzeptiven Evaluation der Fahrzeugradiowiedergabe in Realbedingungen.