Publications in the field

Below you will find an automated compilation of the publications of the group. For publications of the individual members of staff, please refer to their personal pages.

List of publications

Anzahl der Treffer: 261
Erstellt: Wed, 28 Sep 2022 23:06:15 +0200 in 0.0770 sec


Döring, Nicola; Conde, Melisa; Brandenburg, Karlheinz; Broll, Wolfgang; Groß, Horst-Michael; Werner, Stephan; Raake, Alexander;
Can communication technologies reduce loneliness and social isolation in older people? : a scoping review of reviews. - In: International journal of environmental research and public health, ISSN 1660-4601, Bd. 19 (2022), 18, 11310, S. 1-20

Background: Loneliness and social isolation in older age are considered major public health concerns and research on technology-based solutions is growing rapidly. This scoping review of reviews aims to summarize the communication technologies (CTs) (review question RQ1), theoretical frameworks (RQ2), study designs (RQ3), and positive effects of technology use (RQ4) present in the research field. Methods: A comprehensive multi-disciplinary, multi-database literature search was conducted. Identified reviews were analyzed according to the PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) framework. A total of N = 28 research reviews that cover 248 primary studies spanning 50 years were included. Results: The majority of the included reviews addressed general internet and computer use (82% each) (RQ1). Of the 28 reviews, only one (4%) worked with a theoretical framework (RQ2) and 26 (93%) covered primary studies with quantitative-experimental designs (RQ3). The positive effects of technology use were shown in 55% of the outcome measures for loneliness and 44% of the outcome measures for social isolation (RQ4). Conclusion: While research reviews show that CTs can reduce loneliness and social isolation in older people, causal evidence is limited and insights on innovative technologies such as augmented reality systems are scarce.



https://doi.org/10.3390/ijerph191811310
Bruns, Volker;
High throughput image compression and decompression on GPUs. - Ilmenau : Universitätsbibliothek, 2022. - 1 Online-Ressource (152 Seiten)
Technische Universität Ilmenau, Dissertation 2022

Diese Arbeit befasst sich mit der Entwicklung eines GPU-freundlichen, intra-only, Wavelet-basierten Videokompressionsverfahrens mit hohem Durchsatz, das für visuell verlustfreie Anwendungen optimiert ist. Ausgehend von der Beobachtung, dass der JPEG 2000 Entropie-Kodierer ein Flaschenhals ist, werden verschiedene algorithmische Änderungen vorgeschlagen und bewertet. Zunächst wird der JPEG 2000 Selective Arithmetic Coding Mode auf der GPU realisiert, wobei sich die Erhöhung des Durchsatzes hierdurch als begrenzt zeigt. Stattdessen werden zwei nicht standard-kompatible Änderungen vorgeschlagen, die (1) jede Bitebebene in nur einem einzelnen Pass verarbeiten (Single-Pass-Modus) und (2) einen echten Rohcodierungsmodus einführen, der sample-weise parallelisierbar ist und keine aufwendige Kontextmodellierung erfordert. Als nächstes wird ein alternativer Entropiekodierer aus der Literatur, der Bitplane Coder with Parallel Coefficient Processing (BPC-PaCo), evaluiert. Er gibt Signaladaptivität zu Gunsten von höherer Parallelität auf und daher wird hier untersucht und gezeigt, dass ein aus verschiedensten Testsequenzen gemitteltes statisches Wahrscheinlichkeitsmodell eine kompetitive Kompressionseffizienz erreicht. Es wird zudem eine Kombination von BPC-PaCo mit dem Single-Pass-Modus vorgeschlagen, der den Speedup gegenüber dem JPEG 2000 Entropiekodierer von 2,15x (BPC-PaCo mit zwei Pässen) auf 2,6x (BPC-PaCo mit Single-Pass-Modus) erhöht auf Kosten eines um 0,3 dB auf 1,0 dB erhöhten Spitzen-Signal-Rausch-Verhältnis (PSNR). Weiter wird ein paralleler Algorithmus zur Post-Compression Ratenkontrolle vorgestellt sowie eine parallele Codestream-Erstellung auf der GPU. Es wird weiterhin ein theoretisches Laufzeitmodell formuliert, das es durch Benchmarking von einer GPU ermöglicht die Laufzeit einer Routine auf einer anderen GPU vorherzusagen. Schließlich wird der erste JPEG XS GPU Decoder vorgestellt und evaluiert. JPEG XS wurde als Low Complexity Codec konzipiert und forderte erstmals explizit GPU-Freundlichkeit bereits im Call for Proposals. Ab Bitraten über 1 bpp ist der Decoder etwa 2x schneller im Vergleich zu JPEG 2000 und 1,5x schneller als der schnellste hier vorgestellte Entropiekodierer (BPC-PaCo mit Single-Pass-Modus). Mit einer GeForce GTX 1080 wird ein Decoder Durchsatz von rund 200 fps für eine UHD-4:4:4-Sequenz erreicht.



https://dx.doi.org/10.22032/dbt.52369
Gupta, Rishabh; He, Jianjun; Ranjan, Rishabh; Gan, Woon Seng; Klein, Florian; Schneiderwind, Christian; Neidhardt, Annika; Brandenburg, Karlheinz; Välimäki, Vesa;
Augmented/mixed reality audio for hearables: sensing, control, and rendering. - In: IEEE signal processing magazine, ISSN 1558-0792, Bd. 39 (2022), 3, S. 63-89

Augmented or mixed reality (AR/MR) is emerging as one of the key technologies in the future of computing. Audio cues are critical for maintaining a high degree of realism, social connection, and spatial awareness for various AR/MR applications, such as education and training, gaming, remote work, and virtual social gatherings to transport the user to an alternate world called the metaverse. Motivated by a wide variety of AR/MR listening experiences delivered over hearables, this article systematically reviews the integration of fundamental and advanced signal processing techniques for AR/MR audio to equip researchers and engineers in the signal processing community for the next wave of AR/MR.



https://doi.org/10.1109/MSP.2021.3110108
Schneiderwind, Christian; Neidhardt, Annika; Meyer, Dominik;
Comparing the effect of different open headphone models on the perception of a real sound source. - In: 150th Audio Engineering Society Convention 2021, (2021), S. 389-398

Döring, Nicola; Mikhailova, Veronika; Brandenburg, Karlheinz; Broll, Wolfgang; Groß, Horst-Michael; Werner, Stephan; Raake, Alexander;
Saying "Hi" to grandma in nine different ways : established and innovative communication media in the grandparent-grandchild relationship. - In: Technology, Mind, and Behavior, ISSN 2689-0208, (2021), insges. 1 S.

https://tmb.apaopen.org/pub/8je5p43m/release/1?readingCollection=b5d405be
Gari, Sebastia V. Amengual; Hassager, Henrik G.; Klein, Florian; Arend, Johannes M.; Robinson, Philip W.;
Towards determining thresholds for room divergence: a pilot study on perceived externalization. - In: 2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA), (2021), insges. 7 S.

https://doi.org/10.1109/I3DA48870.2021.9610835
Klein, Florian; Gari, Sebastia V. Amengual; Arend, Johannes M.; Robinson, Philip W.;
Towards determining thresholds for room divergence: a pilot study on detection thresholds. - In: 2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA), (2021), insges. 7 S.

In binaural rendering, the room divergence effect refers to the decrease in perceived externalization due to a mismatch between the room acoustics of the virtual sounds and those of the listening space. However, it is currently unknown which specific acoustic differences cause this effect. In this work, we present a pilot study to determine detection thresholds between sound sources recorded under different acoustic conditions in a variable acoustics room. These results are intended to predict situations where divergence effects can be expected. The participants had to perform a triangle test where they could listen to three sound sources placed at different positions in the room. The test design was motivated by the fact that sound sources are not placed at the same position in real acoustic scenes. One sound source was recorded under different acoustic conditions than the other two, and the task for the participant was to detect the differing source. The test was conducted in the measured room using 3 DoF binaural reproduction and using a virtual reality (VR) headset to display a visual 360 capture of the room enabling the subjects to see the positions of the sources in the room. Detection rates are signal-dependent and increase with differences in reverberation time (RT). For the most critical signal in the test (castanets), an RT difference of 8% was detectable, while the difference was 15% across all conditions. Furthermore, we discuss the influence of sound source distance and absorption configuration (symmetric or asymmetric) on detection thresholds.



https://doi.org/10.1109/I3DA48870.2021.9610876
Klein, Florian;
Auditive Adaptationsprozesse im Kontext räumlicher Audiowiedergabesysteme. - Ilmenau : Universitätsbibliothek, 2021. - 1 Online-Ressource (ii, 145 Seiten)
Technische Universität Ilmenau, Dissertation 2021

Das Ziel technischer Weiterentwicklungen im Bereich der Unterhaltungselektronik ist die Optimierung der Benutzererfahrung durch die stetige Verbesserung der audiovisuellen Wiedergabe. Durch die Fortschritte im Bereich virtueller und augmentierter Realitäten wurde das Ziel einer realitätsnahen Wiedergabe immer greifbarer. Werden die Sinnesreize so perfekt imitiert, dass es dem Nutzer nicht mehr möglich ist künstlich erzeugte Schallquellen von Realen zu unterscheiden, ist die Rede von einer auditiven Illusion. In erster Linie sind die damit verbundenen Herausforderungen technischer Natur. Allerdings führt eine exakte Reproduktion der Ohrsignale nicht zwangsläufig zur gleichen Wahrnehmung wie in der entsprechenden realen Situation. Neben sinnesübergreifenden Wechselwirkungen, liegt dies daran, dass unsere Wahrnehmung stark von unseren Erwartungen und Erfahrungen abhängt. Diese Erwartungen können sich je nach vorheriger Schallexposition ändern. In Bezug auf das räumliche Hören bedeutet dies, dass Menschen wahrscheinlich lernen können wie räumliche Signale und ihre Merkmale zu interpretieren sind. Solche Mechanismen und ihre Auswirkungen auf die wahrgenommene Qualität von räumlichen Audiowiedergabesystemen ist der Gegenstand dieser Arbeit. In Wahrnehmungsstudien wurde das Erlernen von Lokalisationsmerkmalen untersucht sowie Adaptationsprozesse bei der raumakustischen Wahrnehmung näher beleuchtet. Es wird betrachtet mit welchen Qualitätsdefiziten zu rechnen ist, wenn die Ohrsignale nicht korrekt reproduziert werden und wie sich die Qualitätsbeurteilung abhängig vom Training ändert. Die Ergebnisse deuten darauf hin, dass Lern- und Adaptationsprozesse ein ausschlaggebender Faktor für das Zustandekommen einer auditiven Illusion ist. Die Arbeit diskutiert sowohl die praktische Relevanz dieser Effekte als auch die zugrundeliegenden Lern- und Adaptationsvorgänge.



https://doi.org/10.22032/dbt.50107
Grollmisch, Sascha; Cano, Estefanía;
Improving semi-supervised learning for audio classification with FixMatch. - In: Electronics, ISSN 2079-9292, Bd. 10 (2021), 15, 1807, insges. 20 S.

Including unlabeled data in the training process of neural networks using Semi-Supervised Learning (SSL) has shown impressive results in the image domain, where state-of-the-art results were obtained with only a fraction of the labeled data. The commonality between recent SSL methods is that they strongly rely on the augmentation of unannotated data. This is vastly unexplored for audio data. In this work, SSL using the state-of-the-art FixMatch approach is evaluated on three audio classification tasks, including music, industrial sounds, and acoustic scenes. The performance of FixMatch is compared to Convolutional Neural Networks (CNN) trained from scratch, Transfer Learning, and SSL using the Mean Teacher approach. Additionally, a simple yet effective approach for selecting suitable augmentation methods for FixMatch is introduced. FixMatch with the proposed modifications always outperformed Mean Teacher and the CNNs trained from scratch. For the industrial sounds and music datasets, the CNN baseline performance using the full dataset was reached with less than 5% of the initial training data, demonstrating the potential of recent SSL methods for audio data. Transfer Learning outperformed FixMatch only for the most challenging dataset from acoustic scene classification, showing that there is still room for improvement.



https://doi.org/10.3390/electronics10151807
Arend, Johannes M.; Garí, Sebastià V. Amengual; Schissler, Carl; Klein, Florian; Robinson, Philip W.;
Six-degrees-of-freedom parametric spatial audio based on one monaural room impulse response. - In: Journal of the Audio Engineering Society, ISSN 0004-7554, Bd. 69 (2021), 7/8, S. 557-575

Parametric spatial audio rendering is a popular approach for low computing capacity applications, such as augmented reality systems. However most methods rely on spatial room impulse responses (SRIR) for sound field rendering with 3 degrees of freedom (DoF), i.e., for arbitrary head orientations of the listener, and often require multiple SRIRs for 6-DoF rendering, i.e., when additionally considering listener translations. This paper presents a method for parametric spatial audio rendering with 6 DoF based on one monaural room impulse response (RIR). The scalable and perceptually motivated encoding results in a parametric description of the spatial sound field for any listener's head orientation or position in space. These parameters form the basis for the binaural room impulse responses (BRIR) synthesis algorithm presented in this paper. The physical evaluation revealed good performance, with differences to reference measurements at most tested positions in a room below the just-noticeable differences of various acoustic parameters. The paper further describes the implementation of a 6-DoF realtime virtual acoustic environment (VAE) using the synthesized BRIRs. A pilot study assessing the plausibility of the 6-DoF VAE showed that the system can provide a plausible binaural reproduction, but it also revealed challenges of 6-DoF rendering requiring further research.



https://doi.org/10.17743/jaes.2021.0009