Publications in the field

Below you will find an automated compilation of the publications of the group. For publications of the individual members of staff, please refer to their personal pages.

List of publications

Anzahl der Treffer: 283
Erstellt: Wed, 24 Apr 2024 23:02:40 +0200 in 0.0758 sec


Klein, Florian; Neidhardt, Annika; Seipel, Marius; Sporer, Thomas
Training on the acoustical identification of the listening position in a virtual environment. - In: 143rd Audio Engineering Society International Convention 2017, (2018), S. 205-212

Brandenburg, Karlheinz; Cano, Estefanía; Klein, Florian; Köllmer, Thomas; Lukashevich, Hanna; Neidhardt, Annika; Sloma, Ulrike; Werner, Stephan
Plausible augmentation of auditory scenes using dynamic binaural synthesis for personalized auditory realities. - In: Science, technology, design, and implementation, (2018), S. 258-267

Neidhardt, Annika; Ignatious-Tommy, Alby; Pereppadan, Anson Davis
Plausibility of an interactive approaching motion towards a virtual sound source based on simplified BRIR sets. - In: 144th Audio Engineering Society International Convention 2018, (2018), S. 685-695

Klein, Florian; Werner, Stephan
The relevance of auditory adaptation effects for the listening experience in virtual acoustic environments. - In: 144th Audio Engineering Society International Convention 2018, (2018), S. 575-582

Kruspe, Anna;
Application of automatic speech recognition technologies to singing. - Ilmenau : Universitätsbibliothek, 2018. - 1 Online-Ressource (vi, 179 Blätter)
Technische Universität Ilmenau, Dissertation 2018

Das Gebiet des Music Information Retrieval befasst sich mit der automatischen Analyse von musikalischen Charakteristika. Ein Aspekt, der bisher kaum erforscht wurde, ist dabei der gesungene Text. Auf der anderen Seite werden in der automatischen Spracherkennung viele Methoden für die automatische Analyse von Sprache entwickelt, jedoch selten für Gesang. Die vorliegende Arbeit untersucht die Anwendung von Methoden aus der Spracherkennung auf Gesang und beschreibt mögliche Anpassungen. Zudem werden Wege zur praktischen Anwendung dieser Ansätze aufgezeigt. Fünf Themen werden dabei betrachtet: Phonemerkennung, Sprachenidentifikation, Schlagwortsuche, Text-zu-Gesangs-Alignment und Suche von Texten anhand von gesungenen Anfragen. Das größte Hindernis bei fast allen dieser Themen ist die Erkennung von Phonemen aus Gesangsaufnahmen. Herkömmliche, auf Sprache trainierte Modelle, bieten keine guten Ergebnisse für Gesang. Das Trainieren von Modellen auf Gesang ist schwierig, da kaum annotierte Daten verfügbar sind. Diese Arbeit zeigt zwei Ansätze auf, um solche Daten zu generieren. Für den ersten wurden Sprachaufnahmen künstlich gesangsähnlicher gemacht. Für den zweiten wurden Texte automatisch zu einem vorhandenen Gesangsdatensatz zugeordnet. Die neuen Datensätze wurden zum Trainieren neuer Modelle genutzt, welche deutliche Verbesserungen gegenüber sprachbasierten Modellen bieten. Auf diesen verbesserten akustischen Modellen aufbauend wurden Algorithmen aus der Spracherkennung für die verschiedenen Aufgaben angepasst, entweder durch das Verbessern der Robustheit gegenüber Gesangscharakteristika oder durch das Ausnutzen von hilfreichen Besonderheiten von Gesang. Beispiele für die verbesserte Robustheit sind der Einsatz von Keyword-Filler-HMMs für die Schlagwortsuche, ein i-Vector-Ansatz für die Sprachenidentifikation sowie eine Methode für das Alignment und die Textsuche, die stark schwankende Phonemdauern nicht bestraft. Die Besonderheiten von Gesang werden auf verschiedene Weisen genutzt: So z.B. in einem Ansatz für die Sprachenidentifikation, der lange Aufnahmen benötigt; in einer Methode für die Schlagwortsuche, die bekannte Phonemdauern in Gesang mit einbezieht; und in einem Algorithmus für das Alignment und die Textsuche, der bekannte Phonemkonfusionen verwertet.



http://nbn-resolving.de/urn:nbn:de:gbv:ilm1-2018000226
Brandenburg, Karlheinz; Sladeczek, Christoph
Audiocodecs : Hörgenuss aus der digitalen Welt. - In: Digitalisierung, (2018), S. 65-79

https://doi.org/10.1007/978-3-662-55890-4_5
Sporer, Thomas; Brandenburg, Karlheinz; Brix, Sandra; Sladeczek, Christoph
Wave field synthesis. - In: Immersive sound, (2018), S. 311-332

Lenzen, Lucien; Christmann, Mike
Subjective viewer preference model for automatic HDR down conversion. - In: Electronic imaging, ISSN 2470-1173, Bd. 29 (2017), 12, art00028, S. 191-197

Although the idea of tone mapping has a long history, there is no tone mapping operator fulfilling the requirements of (live) broadcasting completely. But in times of HDR standards [1] it is more important than ever to find a reliable automatic down conversion suitable for all kinds - of scenes to get an integrated workflow for HDR and SDR and to let the majority of the viewers dealing with legacy displays benefit from HDR. Most of the tone mapping operators (TMOs) do not outperform a so called camera TMO (classic photographic s-shaped camera encoding) in comparison studies, - which can be explained as a problem of goal. Modelling the human visual system (HVS) can be remarkable different from creating a pleasing image based on aesthetic wishes and artistic intends. The aim of the paper is to report on the results measuring the viewer preference at dynamic range - compression and to set up a model which can be used to enhance existing TMOs. Therefore, probands had to do their own grading influencing brightness, contrast, saturation and homogenization under varying outer conditions. It can be shown that the most important aspect of HDR is the increased - reproduction of the scene contrast range and not the increased brightness. By using an optimized gradation and a slight local tone mapping a close impression can also be displayed on SDR screens.



https://doi.org/10.2352/ISSN.2470-1173.2017.12.IQSP-242
Brandenburg, Karlheinz;
Können Computer besser hören als Menschen?. - In: Kinderuni Ilmenau 2017, (2017)

Arend, Johannes M.; Neidhardt, Annika; Pörschmann, Christoph
Measurement and evaluation of a near-field HRTF set. - In: VDT-Magazin, ISSN 2509-5927, Bd. 33 (2017), 1, S. 52-55