Publikationen im Fachgebiet

Nachstehend finden Sie eine automatisierte Zusammenstellung der Veröffentlichungen des Fachgebietes. Die Veröffentlichungen der einzelnen Mitarbeiter:innen finden Sie auf deren persönlichen Seiten.

Publikationsliste

Anzahl der Treffer: 283
Erstellt: Thu, 25 Apr 2024 23:03:02 +0200 in 1.9041 sec


Döring, Nicola; Mikhailova, Veronika; Brandenburg, Karlheinz; Broll, Wolfgang; Groß, Horst-Michael; Werner, Stephan; Raake, Alexander
Digital media in intergenerational communication: status quo and future scenarios for the grandparent-grandchild relationship. - In: Universal access in the information society, ISSN 1615-5297, Bd. 23 (2024), 1, S. 379-394

Communication technologies play an important role in maintaining the grandparent-grandchild (GP-GC) relationship. Based on Media Richness Theory, this study investigates the frequency of use (RQ1) and perceived quality (RQ2) of established media as well as the potential use of selected innovative media (RQ3) in GP-GC relationships with a particular focus on digital media. A cross-sectional online survey and vignette experiment were conducted in February 2021 among N = 286 university students in Germany (mean age 23 years, 57% female) who reported on the direct and mediated communication with their grandparents. In addition to face-to-face interactions, non-digital and digital established media (such as telephone, texting, video conferencing) and innovative digital media, namely augmented reality (AR)-based and social robot-based communication technologies, were covered. Face-to-face and phone communication occurred most frequently in GP-GC relationships: 85% of participants reported them taking place at least a few times per year (RQ1). Non-digital established media were associated with higher perceived communication quality than digital established media (RQ2). Innovative digital media received less favorable quality evaluations than established media. Participants expressed doubts regarding the technology competence of their grandparents, but still met innovative media with high expectations regarding improved communication quality (RQ3). Richer media, such as video conferencing or AR, do not automatically lead to better perceived communication quality, while leaner media, such as letters or text messages, can provide rich communication experiences. More research is needed to fully understand and systematically improve the utility, usability, and joy of use of different digital communication technologies employed in GP-GC relationships.



https://doi.org/10.1007/s10209-022-00957-w
Neidhardt, Annika;
Data set and physical analysis: BRIRs and SRIRs for walking toward, past and behind virtual loudspeakers in two rooms. - In: AES Europe 2023, (2023), S. 677

To investigate the perceptual effects of simplified acoustic room representations in position-dynamic binaural synthesis, a set of acoustic impulse responses has been measured in a relatively dry listening laboratory and a considerably more reverberant seminar room of similar size. The same arrangement of nine listening positions in equal distances of 25cm, forming a 2m-line for listener translation, and four different source constellations was realized in both rooms, allowing for comparison. A loudspeaker was placed in front and at the side of the translation line, facing toward it and turned by 180˚, facing away from the line. Binaural room impulse responses (BRIRs) were measured with a Kemar 45b head-and-torso-simulator for each of the source-receiver constellations for a full 360˚ rotation with an azimuth resolution of 4˚. This new data set revises and extends a previously published data set by repeating the previous measurements, additionally considering listening positions behind the directional sound sources and providing spatial room impulse responses (SRIRs) to allow for detailed physical analysis of the local physical properties at each of the listening positions for each of the source constellations. The corresponding microphone array consists of one omni-directional measurement microphone in the center and six satellite mircophones arranged on a sphere around it. This paper documents the measurement process, presents the results of the physical analysis and discusses them in relation to perceptual effects observed in previous psychoacoustic studies.



Klein, Florian; Treybig, Lukas; Schneiderwind, Christian; Werner, Stephan; Sporer, Thomas
Just noticeable reverberation difference at varying loudness levels. - In: AES Europe 2023, (2023), S. 361-368

In order to successfully fuse virtual sound sources with the real acoustic environment, the acoustic properties of the real environment must be estimated and utilized for the synthesis of virtual sound sources. Often, just noticeable differences (JNDs) of room acoustic parameters are utilized to predict a good match between virtual and real acoustics. However, several studies in this domain have shown that existing JND values of room acoustic parameters are often not able to predict the perception of the listeners. This can have various reasons: Differences in first reflection patterns are barely measurable with classical acoustic parameters; Even if acoustic differences are above the JND, a plausible reproduction might still be possible; JNDs depend on various factors (such as sound signal, etc.) and existing studies do not cover all of them. The last factor is addressed in this research paper. A three-alternative forced (3AFC) choice test was conducted at four different loudness levels (75 dB(A), 65 dB(A), 55 dB(A), and 45 dB(A)) in a reverberation time range from 0.5 s to 0.8 s. A dependency of the loudness on the detectability of reverberation differences was found for the randomly interleaved presentation of loudness levels but not for sequential presentation. Individual hearing thresholds as well as expertise level significantly influence the JND of reverberation time.



Treybig, Lukas; Werner, Stephan; Klein, Florian; Amengual Garí, Sebastià V.
Robust reverberation time estimation for audio augmented reality applications. - In: AES Europe 2023, (2023), S. 47-55

The paper presents an alternative approach for estimating reverberation time from measurements in real rooms when the requirements of the standard DIN EN ISO 3382-1/2 for the characteristics of the sound source, receiver, and measurement positions cannot be met. The main goal is to minimize the variance of the calculated reverberation times when using a directional source and receiver, or source-receiver relative positions with very small distances. For this purpose, the energy decay curve for individual octave bands is sampled in time. The estimation starts 2 ms after the direct sound. This is followed by several estimates of the RT over a 20 dB drop, starting 1 dB later with each iteration. The best fit mean of these values gives the estimated reverberation time. A comparison with the standard reverberation time estimation shows a variance reduction of 10% to 30% for binaural room impulse responses (BRIRs). The proposed method finds its application in situations where measurements can only be made at a few positions in the room and/or only in a few areas of the room. Furthermore, the method should be better suitable for measurements with receivers located near or at the head of a person.



Fischedick, Söhnke B.; Richter, Kay; Wengefeld, Tim; Seichter, Daniel; Scheidig, Andrea; Döring, Nicola; Broll, Wolfgang; Werner, Stephan; Raake, Alexander; Groß, Horst-Michael
Bridging distance with a collaborative telepresence robot for older adults - report on progress in the CO-HUMANICS project. - In: ISR Europe 2023: 56th International Symposium on Robotics, (2023), S. 346-353

In an aging society, the social needs of older adults, such as regular interactions and independent living, are crucial for their quality of life. However, due to spatial separation from their family and friends, it is difficult to maintain social relationships. Our multidisciplinary project, CO-HUMANICS, aims to meet these needs, even over long distances, through the utilization of innovative technologies, including a robot-based system. This paper presents the first prototype of our system, designed to connect family members or friends virtually present through a mobile robot with an older adult. The system incorporates bi-directional video telephony, remote control capabilities, and enhanced visualization methods. A comparison is made with other state-of-the-art robotic approaches, focusing on remote control capabilities. We provide details about the hard- and software components, e.g., a projector-based pointing unit for collaborative telepresence to assist in everyday tasks. Our comprehensive scene representation is discussed, which utilizes 3D NDT maps, enabling advanced remote navigation features, such as autonomously driving to a specific object. Finally, insights about past and concepts for future evaluation are provided to assess the developed system.



https://ieeexplore.ieee.org/document/10363093
Burnett, Benjamin; Neidhardt, Annika; Cvetkoviâc, Zoran; Hacıhabibo&bovko;glu, Hüseyin; De Sena, Enzo
User expectation of room acoustic parameters in virtual reality environments. - In: 2023 Immersive and 3D Audio: from Architecture to Automotive (I3DA), (2023), insges. 10 S.

This paper explores how visual attributes of a VR scene affect user expectations of room reverberation. A psychoacoustic experiment was run wherein subjects wore a VR headset and adjusted two unlabelled sliders controlling the reverberation time (T60) and the acoustic room size until the reverberant response was closest to their expectation of how the room they were seeing should sound. Different visual characteristics, in particular, room type and size, surface material, and furnishing were modified to determine how these might affect their expectations of the reverberant response. Results showed that visual room size had a significant effect on both the expected T60, in agreement with previous literature, and on the expected acoustic room size. Both relations seem to be well-described by a simple sublinear power law model, which could be used, for instance, to design reverberation time (T60) and acoustic room size values that align well with listeners’ expectation for a given visual room volume. Differences in visual surface materials were found to have a statistically significant effect on the expected T60. The level of visual furnishing, on the other hand, only had a marginally significant effect on the expected T60. The results also indicate considerable subjective differences in individual expectations.



https://doi.org/10.1109/I3DA57090.2023.10289314
Schneiderwind, Christian; Richter, Maike; Merten, Nils; Neidhardt, Annika
Effects of modified late reverberation on audio-visual plausibility and externalization in AR. - In: 2023 Immersive and 3D Audio: from Architecture to Automotive (I3DA), (2023), insges. 9 S.

Binaural synthesis systems can create virtual sound sources that are indistinguishable from reality. In Augmented Reality (AR) applications, virtual sound sources need to blend in with the real environment to create plausible illusions. However, in some scenarios, it may be desirable to enhance the natural acoustic properties of the virtual content to improve speech intelligibility, alleviate listener fatigue, or achieve a specific artistic effect. Previous research has shown that deviating from the original room acoustics can degrade the quality of the auditory illusion, often referred to as the room divergence effect. This study investigates whether it is possible to modify the auditory aesthetics of a room environment without compromising the plausibility of a sound event in AR. To accomplish this, the length of the reverberation tails of measured binaural room impulse responses are modified after the mixing time to change reverberance.A listening test was conducted to evaluate the externalization and audio-visual plausibility of an exemplary AR scene for different degrees of reverberation modification. The results indicate that externalization is unaffected even with extreme modifications (such as a stretch ratio of 1.8). However, audio-visual plausibility is only maintained for moderate modifications (such as stretch ratios of 0.8 and 1.2).



https://doi.org/10.1109/I3DA57090.2023.10289186
Neidhardt, Annika;
Localizability of the closest wall with a speaking avatar at increasing distances in three rooms. - In: 2023 Immersive and 3D Audio: from Architecture to Automotive (I3DA), (2023), insges. 10 S.

The presented study examines the maximum distance at which listeners can still localize the direction of a nearby wall if the own mouth is the sound source. For this investigation, oral binaural room impulse responses (OBRIRs) were measured with a KEMAR dummyhead with mouth simulator at eight different distances to a wall in an anechoic chamber and two rooms with different reverberation properties. Using a headphone-based dynamic auralization, the participants had to turn until they thought to be facing the wall. In a stair-case inspired procedure, the test always started with the shortest distance of 25 cm. In case of a successful localization at least twice in three trials, the distance could be increased in intervals of 25 cm up to about 2 m. The results exhibit considerable differences in the individual performances, which is in line with results of earlier studies. At a 25 cm-distance, all participants could localize the direction of the reflecting wall. From 50 cm onward, more and more participants found it difficult to determine the correct direction. In the anechoic room, four of the 22 participants succeeded in the localization at the 2 m distance. In the reverberant rooms, the localizability decreased significantly.



https://doi.org/10.1109/I3DA57090.2023.10289620
Stolz, Georg; Klein, Florian; Werner, Stephan; Treybig, Lukas; Bley, Andreas; Martin, Christian
Discussion of acoustic and perceptual optimization methods for measuring spatial room impulse responses with a mobile robotic platform. - In: 2023 Immersive and 3D Audio: from Architecture to Automotive (I3DA), (2023), insges. 7 S.

In the field of Auditory Augmented Reality (AAR), one aim is to provide a listening experience that is as close as possible to a real scenario. Measured Spatial Room Impulse Responses (SRIRs) describe the acoustics of a room and can serve as a reference for acoustic simulations or parametrization of room acoustics. In previous works, a measurement system for SRIRs using a mobile robotic platform was introduced. The system consists of a commercially available self-driving platform on which a microphone array is mounted, while the sound sources are distributed at fixed positions in the room. The system is able to conduct high spatial resolution measurements of SRIRs in a uniform grid. In applications where time is limited and/or the area to discover is large, however, a high-resolution measurement is not always feasible.Therefore, the goal of this contribution is to compare different approaches for optimizing the measurement grid. One approach is to use mathematical optimization on acoustic parameters derived from a small set of initial measurements to determine new measurement positions in a iterative manner. Another approach is to optimize the measurement grid in respect to human auditory perception, incorporating e.g. just-noticeable differences of distance and localization perception.The results show that both approaches can achieve significant reductions in the number of measurements required for a adequate acoustic spatial reproduction, with different trade-offs depending on the application scenario and the available prior information.



https://doi.org/10.1109/I3DA57090.2023.10289338
Treybig, Lukas; Höbel-Müller, Juliane; Werner, Stephan; Nürnberger, Andreas
Acoustic inter- and intra-room similarity based on room acoustic parameters. - In: Engineering for a changing world, (2023), 5.2.136, S. 1-15

This paper shows various approaches for determining acoustic (dis-)similarity based on room acoustic parameter values derived from real measurements. The similarity is calculated across different room configurations and/or between different microphone-loudspeaker positions within the same room configuration. We compare supervised (LDA, Random Forrest) and unsupervised techniques (PCA, SPPA) and pre-selected visualizations in terms of their ability to exhibit inter- and intra-room (dis-)similarities. The data set generated comprises spatially high-resolution room impulse responses obtained from multiple source-receiver positions within a room configuration. The room acoustics are varied by introducing active walls and geometries accounting for specific room configurations. The results show that the separation of room configurations primarily relies on specific acoustic parameters, with the reverberation time playing an important role. Within a given room configuration, the acoustic parameters excluding the reverberation time mainly capture the orientation and distance between the source and receiver.



https://doi.org/10.22032/dbt.58929
Neidhardt, Annika;
On the plausibility of simplified acoustic room representations for listener translation in dynamic binaural auralizations. - Ilmenau : Universitätsbibliothek, 2023. - 1 Online-Ressource (167 Seiten)
Technische Universität Ilmenau, Dissertation 2023

Diese Doktorarbeit untersucht die Wahrnehmung vereinfachter akustischer Raumrepräsentationen in positionsdynamischer Binauralwiedergabe für die Hörertranslation. Die dynamische Binauralsynthese ist eine Audiowiedergabemethode zur Erzeugung räumlicher auditiver Illusionen über Kopfhörer für virtuelle, erweiterte und gemischte Realität (VR/AR/MR). Dabei ist es nun eine typische Anforderung, immersive Inhalte in sechs Freiheitsgraden (6DOF) zu erkunden. Dynamische binaurale Schallfeldimitationen mit hoher physikalischer Genauigkeit zu realisieren, ist meist mit sehr hohem Rechenaufwand verbunden. Frühere psychoakustische Studien weisen jedoch darauf hin, dass Menschen eine begrenzte Empfindlichkeit gegenüber den Details des Schallfelds haben, insbesondere im späten Nachhall. Dies birgt das Potential physikalischer Vereinfachungen bei der positionsdynamischen Auralisation von Räumen. Beispielsweise wurden Konzepte vorgeschlagen, die auf der perzeptiven Mixing Time oder der Hörbarkeitsschwelle von frühen Reflexionen basieren, für welche jedoch eine gründliche psychoakustische Bewertung noch aussteht. Zunächst wurde ein Aufbau zur positionsdynamischen Raumauralisation implementiert und evaluiert. Daran untersucht die Arbeit wesentliche Systemparameter wie die erforderliche räumliche Auflösung eines Positionsrasters für die dynamische Anpassung. Da allgemein etablierte Testmethoden zur wahrnehmungsbezogenen Bewertung von räumlichen auditiven Illusionen unter Berücksichtigung interaktiver Hörertranslation fehlten, untersucht die Arbeit verschiedene Ansätze zur Messung der Plausibilität. Auf dieser Grundlage werden physikalische Vereinfachungen im Verlauf des Schallfeldes in positionsdynamischen binauralen Auralisationen der Raumakustik untersucht. Für die Hauptexperimente wurden binaurale Raumimpulsantworten (BRIRs) entlang einer Linie für die Hörertranslation in einem eher trockenen Hörlabor und einem halligen Seminarraum ähnlicher Größe gemessen. Die erstellten Datensätze enthalten Szenarien von Hörerbewegungen auf eine virtuelle Schallquelle zu, daran vorbei, davon weg oder dahinter. Darüber hinaus betrachten die Untersuchungen zwei Extremfälle der Quellenorientierung, um die Auswirkungen einer Variation der Schallquellenrichtcharakteristik zu berücksichtigen. Die BRIR-Sätze werden systematisch bearbeitet und vereinfacht, um die Auswirkungen auf die Wahrnehmung zu bewerten. Insbesondere das Konzept der perzeptiven Mixing Time und manipulierte räumlich-zeitliche Muster früher Reflexionen dienten als Testfälle in den psychoakustischen Studien. Die Ergebnisse zeigen ein hohes Potential für Vereinfachungen, unterstreichen aber auch die Relevanz der genauen Imitation prominenter früher Reflexionen. Die Ergebnisse bestätigen auch das Konzept der wahrnehmungsbezogenen Mixing Time für die betrachteten Fälle der positionsdynamischen binauralen Wiedergabe. Die Beobachtungen verdeutlichen, dass gängige Testszenarien für Auralisierungen, Interpolation und Extrapolation nicht kritisch genug sind, um allgemeine Schlussfolgerungen über die Eignung der getesteten Rendering-Ansätze zu ziehen. Die Arbeit zeigt Lösungsansätze auf.



https://doi.org/10.22032/dbt.57596
Immohr, Felix; Rendle, Gareth; Neidhardt, Annika; Göring, Steve; Ramachandra Rao, Rakesh Rao; Arévalo Arboleda, Stephanie; Froehlich, Bernd; Raake, Alexander
Proof-of-concept study to evaluate the impact of spatial audio on social presence and user behavior in multi-modal VR communication. - In: IMX 2023, (2023), S. 209-215

This paper presents a proof-of-concept study conducted to analyze the effect of simple diotic vs. spatial, position-dynamic binaural synthesis on social presence in VR, in comparison with face-to-face communication in the real world, for a sample two-party scenario. A conversational task with shared visual reference was realized. The collected data includes questionnaires for direct assessment, tracking data, and audio and video recordings of the individual participants’ sessions for indirect evaluation. While tendencies for improvements with binaural over diotic presentation can be observed, no significant difference in social presence was found for the considered scenario. The gestural analysis revealed that participants used the same amount and type of gestures in face-to-face as in VR, highlighting the importance of non-verbal behavior in communication. As part of the research, an end-to-end framework for conducting communication studies and analysis has been developed.



https://doi.org/10.1145/3573381.3596458
Kehling, Christian; Cano, Estefanía
Knowledge transfer from neural networks for speech music classification. - In: Music in the AI era, (2023), S. 202-213

A frequent problem when dealing with audio classification tasks is the scarcity of suitable training data. This work investigates ways of mitigating this problem by applying transfer learning techniques to neural network architectures for several classification tasks from the field of Music Information Retrieval (MIR). First, three state-of-the-art architectures are trained and evaluated with several datasets for the task of speech/music classification. Second, feature representations or embeddings are extracted from the trained networks to classify new tasks with unseen data. The effect of pre-training with respect to the similarity of the source and target tasks are investigated in the context of transfer learning, as well as different fine-tuning strategies.



Klein, Florian; Surdu, Tatiana; Treybig, Lukas; Werner, Stephan
The ability to memorize acoustic features in a discrimination task. - In: Journal of the Audio Engineering Society, ISSN 0004-7554, Bd. 71 (2023), 5, S. 254-266

How humans perceive, recognize, and remember room acoustics is of particular interest in the domain of spatial audio. For the creation of virtual or augmented acoustic environments, a room acoustic impression matches the expectations of certain room classes or a specific room. These expectations are based on the auditory memory of the acoustic room impression. In this paper, the authors present an exploratory study to evaluate the ability of listeners to recognize room acoustic features. The task of the listeners was to detect the reference room in a modified ABX double-blind stimulus test that featured a pre-defined playback order and a fixed time schedule. Furthermore, the authors explored distraction effects by employing additional nonacoustic interferences. The results show a significant decrease of the auditory memory capacity within 10 s, which is more pronounced when the listeners were distracted. However, the results suggest that auditory memory depends on what auditory cues are available.



https://doi.org/10.17743/jaes.2022.0073
Klein, Florian; Amengual Garí, Sebastià V.
The R3VIVAL dataset: repository of room responses and 360 videos of a variable acoustics lab. - In: IEEE ICASSP 2023 conference proceedings, (2023), insges. 5 S.

This paper presents a dataset of spatial room impulse responses (SRIRs) and 360˚ stereoscopic video captures of a variable acoustics laboratory. A total of 34 source positions are measured with 8 different acoustic panel configurations, resulting in a total of 272 SRIRs. The source positions are arranged in 30˚ increments at concentric circles of radius 1.5, 2, and 3 m measured with a directional studio monitor, as well as 4 extra positions at the room corners measured with an omnidirectional source. The receiver is a 7 channel open microphone array optimized for its use with the Spatial Decomposition Method (SDM). The 8 acoustic configurations are achieved by setting a subset of the panels to their absorptive configuration in 5 steps (0%, 25%, 50%, 75%, 100% of the panels), as well as 3 configurations in which entire walls are set to their absorptive configuration (right, right/back, right/back/left). Video captures of the laboratory and a second room are obtained using a 360˚ stereoscopic camera with a resolution of 4096 × 2160 pixels, covering the same source/receiver combinations. Furthermore, we present an acoustic analysis of both time-energy and spatio-temporal parameters showcasing the differences in the measured configurations. The dataset, together with spatial analysis and rendering scripts, is publicly released in a GitHub repository1.



https://doi.org/10.1109/ICASSP49357.2023.10097257
Neidhardt, Annika; Kamandi, Samaneh
Plausibility of an approaching motion towards a virtual sound source II: in a reverberant seminar room. - In: AES Europe Spring 2022, (2022), S. 559-571

This study investigates the plausibility of dynamic binaural audio scenarios wherein the listener interactively walks towards a virtual sound source. An originally measured BRIR set was manipulated and simplified systematically to challenge plausibility, explore its limits, and examine the relevance of selected acoustic properties. After the first investigation in a quite dry listening laboratory, this second exploratory study repeats and extends the experiment in a considerably more reverberant room. The participants had to rate externalization, continuity, stability of the apparent sound source, impression of walking towards the sound source and the plausibility of the virtual acoustic scene. The results confirm the observations of the first study in the different acoustic environment. Both studies indicate much room for simplifications, but certain modifications seriously affect plausibility. Even inexperienced listeners notice if the progress of the auditory distance change does not match their own walking motion. In addition, the meaning of context and expectation for the perception of binaural audio is highlighted.



Schneiderwind, Christian; Neidhardt, Annika
Discriminability of concurrent virtual and real sound sources in an augmented audio scenario. - In: AES Europe Spring 2022, (2022), S. 521-529

This exploratory study investigates peoples’ ability to discriminate between real and virtual sound sources in a position-dynamic headphone based augmented audio scene. For this purpose, an acoustic scene was created consisting of two loudspeakers at different positions in a small seminar room. Considering the presence of headphones, non-individualized BRIRs measured along a line with a dummy head wearing AKG K1000 headphones were used to allow for head rotation and translation. In a psychoacoustic experiment, participants had to explore the acoustic scene and tell which sound source they believe is real or virtual. The test cases included a dialog scenario, stereo pop-music and one person speaking while the other speaker played mono-music simultaneously. Results show that the participants were on trend able to debunk individual virtual sources. However, for the cases where both sound sources reproduced sound simultaneously, lower distinguishability rates were observed.



Klein, Florian; Surdu, Tatiana; Aretz, Arthur; Birth, Kilian; Edelmann, Niklas; Seitelman, Florian; Ziener, Christian; Werner, Stephan; Sporer, Thomas
A dataset of measured spatial room impulse responses in different rooms including visualization. - In: AES Europe Spring 2022, (2022), S. 621-625

In this contribution, an open-source dataset of captured spatial room impulse responses (SRIRs) is presented. The data was collected in different enclosed spaces at the Technische Universität Ilmenau using an open self-build microphone array design following the spatial decomposition method (SDM) guidelines. The included rooms were selected based on their distinctive acoustical properties resulting from their general build and furnishing as required by their utility. Three different classes of spaces can be distinguished, including seminar rooms, offices, and classrooms. For each considered space different source-receiver positions were recorded, including 360? images for each condition. The dataset can be utilized for various augmented or virtual reality applications, using either a loudspeaker or headphone-based reproduction alongside the appropriate head-related transfer function sets. The complete database, including the measured impulse responses as well as the corresponding images, is publicly available.



Treybig, Lukas; Saini, Shivam; Werner, Stephan; Sloma, Ulrike; Peissig, Jürgen
Room acoustic analysis and BRIR matching based on room acoustic measurements. - In: AES International Conference on Audio for Virtual and Augmented Reality (AVAR 2022), (2022), S. 48-57

To achieve the goal of a perceptual fusion between the auralization of virtual audio objects in the room acoustics of a real listening room, an adequate adaptation of the virtual acoustics to the real room acoustics is necessary. The challenges are to describe the acoustics of different rooms by suitable parameters, to classify different rooms, and to evoke a similar auditory perception between acoustically similar rooms. An approach is presented to classify rooms based on measured BRIRs using statistical methods and to select best match BRIRs from the dataset to auralize audio objects in a new room. The results show that it is possible to separate rooms based on their room acoustic properties, that the separation also corresponds to a large extent to the perceptual distance between rooms, and that a selection of best match BRIRs is possible.



Klein, Florian; Surdu, Tatiana; Treybig, Lukas; Werner, Stephan; Aretz, Arthur; Birth, Kilian; Edelmann, Niklas; Seitelman, Florian; Ziener, Christian; Sporer, Thomas
Auditory room identification in a memory task. - In: AES International Conference on Audio for Virtual and Augmented Reality (AVAR 2022), (2022), S. 132-141

How we perceive and remember room acoustics is of particular interest in the domain of spatial audio. For the creation of virtual or augmented acoustic environments, a room acoustic impression needs to be created which matches the expectations of certain room classes or a specific room. These expectations are based on the auditory memory of the acoustic room impression. In this paper, we present an exploratory study to evaluate the ability of listeners to remember specific rooms. The task of the listeners was to detect the reference room in a modified ABX double-blind stimulus test which featured a pre-defined playback order and a fixed time schedule. Furthermore, we explored distraction effects by employing additional non-acoustic interferences. The results show a significant decrease of the auditory memory capacity within ten seconds, which is more pronounced when the listeners were distracted. However, the results suggest that auditory memory depends on what auditory cues are available.



Döring, Nicola; Conde, Melisa; Brandenburg, Karlheinz; Broll, Wolfgang; Groß, Horst-Michael; Werner, Stephan; Raake, Alexander
Can communication technologies reduce loneliness and social isolation in older people? : a scoping review of reviews. - In: International journal of environmental research and public health, ISSN 1660-4601, Bd. 19 (2022), 18, 11310, S. 1-20

Background: Loneliness and social isolation in older age are considered major public health concerns and research on technology-based solutions is growing rapidly. This scoping review of reviews aims to summarize the communication technologies (CTs) (review question RQ1), theoretical frameworks (RQ2), study designs (RQ3), and positive effects of technology use (RQ4) present in the research field. Methods: A comprehensive multi-disciplinary, multi-database literature search was conducted. Identified reviews were analyzed according to the PRISMA (Preferred Reporting Items for Systematic Reviews and Meta-Analyses) framework. A total of N = 28 research reviews that cover 248 primary studies spanning 50 years were included. Results: The majority of the included reviews addressed general internet and computer use (82% each) (RQ1). Of the 28 reviews, only one (4%) worked with a theoretical framework (RQ2) and 26 (93%) covered primary studies with quantitative-experimental designs (RQ3). The positive effects of technology use were shown in 55% of the outcome measures for loneliness and 44% of the outcome measures for social isolation (RQ4). Conclusion: While research reviews show that CTs can reduce loneliness and social isolation in older people, causal evidence is limited and insights on innovative technologies such as augmented reality systems are scarce.



https://doi.org/10.3390/ijerph191811310
Bruns, Volker;
High throughput image compression and decompression on GPUs. - Ilmenau : Universitätsbibliothek, 2022. - 1 Online-Ressource (152 Seiten)
Technische Universität Ilmenau, Dissertation 2022

Diese Arbeit befasst sich mit der Entwicklung eines GPU-freundlichen, intra-only, Wavelet-basierten Videokompressionsverfahrens mit hohem Durchsatz, das für visuell verlustfreie Anwendungen optimiert ist. Ausgehend von der Beobachtung, dass der JPEG 2000 Entropie-Kodierer ein Flaschenhals ist, werden verschiedene algorithmische Änderungen vorgeschlagen und bewertet. Zunächst wird der JPEG 2000 Selective Arithmetic Coding Mode auf der GPU realisiert, wobei sich die Erhöhung des Durchsatzes hierdurch als begrenzt zeigt. Stattdessen werden zwei nicht standard-kompatible Änderungen vorgeschlagen, die (1) jede Bitebebene in nur einem einzelnen Pass verarbeiten (Single-Pass-Modus) und (2) einen echten Rohcodierungsmodus einführen, der sample-weise parallelisierbar ist und keine aufwendige Kontextmodellierung erfordert. Als nächstes wird ein alternativer Entropiekodierer aus der Literatur, der Bitplane Coder with Parallel Coefficient Processing (BPC-PaCo), evaluiert. Er gibt Signaladaptivität zu Gunsten von höherer Parallelität auf und daher wird hier untersucht und gezeigt, dass ein aus verschiedensten Testsequenzen gemitteltes statisches Wahrscheinlichkeitsmodell eine kompetitive Kompressionseffizienz erreicht. Es wird zudem eine Kombination von BPC-PaCo mit dem Single-Pass-Modus vorgeschlagen, der den Speedup gegenüber dem JPEG 2000 Entropiekodierer von 2,15x (BPC-PaCo mit zwei Pässen) auf 2,6x (BPC-PaCo mit Single-Pass-Modus) erhöht auf Kosten eines um 0,3 dB auf 1,0 dB erhöhten Spitzen-Signal-Rausch-Verhältnis (PSNR). Weiter wird ein paralleler Algorithmus zur Post-Compression Ratenkontrolle vorgestellt sowie eine parallele Codestream-Erstellung auf der GPU. Es wird weiterhin ein theoretisches Laufzeitmodell formuliert, das es durch Benchmarking von einer GPU ermöglicht die Laufzeit einer Routine auf einer anderen GPU vorherzusagen. Schließlich wird der erste JPEG XS GPU Decoder vorgestellt und evaluiert. JPEG XS wurde als Low Complexity Codec konzipiert und forderte erstmals explizit GPU-Freundlichkeit bereits im Call for Proposals. Ab Bitraten über 1 bpp ist der Decoder etwa 2x schneller im Vergleich zu JPEG 2000 und 1,5x schneller als der schnellste hier vorgestellte Entropiekodierer (BPC-PaCo mit Single-Pass-Modus). Mit einer GeForce GTX 1080 wird ein Decoder Durchsatz von rund 200 fps für eine UHD-4:4:4-Sequenz erreicht.



https://doi.org/10.22032/dbt.52369
Gupta, Rishabh; He, Jianjun; Ranjan, Rishabh; Gan, Woon Seng; Klein, Florian; Schneiderwind, Christian; Neidhardt, Annika; Brandenburg, Karlheinz; Välimäki, Vesa
Augmented/mixed reality audio for hearables: sensing, control, and rendering. - In: IEEE signal processing magazine, ISSN 1558-0792, Bd. 39 (2022), 3, S. 63-89

Augmented or mixed reality (AR/MR) is emerging as one of the key technologies in the future of computing. Audio cues are critical for maintaining a high degree of realism, social connection, and spatial awareness for various AR/MR applications, such as education and training, gaming, remote work, and virtual social gatherings to transport the user to an alternate world called the metaverse. Motivated by a wide variety of AR/MR listening experiences delivered over hearables, this article systematically reviews the integration of fundamental and advanced signal processing techniques for AR/MR audio to equip researchers and engineers in the signal processing community for the next wave of AR/MR.



https://doi.org/10.1109/MSP.2021.3110108
Neidhardt, Annika; Schneiderwind, Christian; Klein, Florian
Perceptual matching of room acoustics for auditory augmented reality in small rooms - literature review and theoretical framework. - In: Trends in hearing, ISSN 2331-2165, Bd. 26 (2022), S. 1-22

For the realization of auditory augmented reality (AAR), it is important that the room acoustical properties of the virtual elements are perceived in agreement with the acoustics of the actual environment. This perceptual matching of room acoustics is the subject reviewed in this paper. Realizations of AAR that fulfill the listeners? expectations were achieved based on pre-characterization of the room acoustics, for example, by measuring acoustic impulse responses or creating detailed room models for acoustic simulations. For future applications, the goal is to realize an online adaptation in (close to) real-time. Perfect physical matching is hard to achieve with these practical constraints. For this reason, an understanding of the essential psychoacoustic cues is of interest and will help to explore options for simplifications. This paper reviews a broad selection of previous studies and derives a theoretical framework to examine possibilities for psychoacoustical optimization of room acoustical matching.



https://doi.org/10.1177/23312165221092919
Neidhardt, Annika; Zerlik, Anna Maria
The availability of a hidden real reference affects the plausibility of position-dynamic auditory AR. - In: Frontiers in virtual reality, ISSN 2673-4192, Bd. 2 (2021), 678875, S. 1-17

This study examines the plausibility of Auditory Augmented Reality (AAR) realized with position-dynamic binaural synthesis over headphones. An established method to evaluate the plausibility of AAR asks participants to decide whether they are listening to the virtual or real version of the sound object. To date, this method has only been used to evaluate AAR systems for seated listeners. The AAR realization examined in this study instead allows listeners to turn to arbitrary directions and walk towards, past, and away from a real loudspeaker that reproduced sound only virtually. The experiment was conducted in two parts. In the first part, the subjects were asked whether they are listening to the real or the virtual version, not knowing that it was always the virtual version. In the second part, the real versions of the scenes where the loudspeaker actually reproduced sound were added. Two different source positions, three different test stimuli, and two different sound levels were considered. Seventeen volunteers, including five experts, participated. In the first part, none of the participants noticed that the virtual reproduction was active throughout the different test scenes. The inexperienced listeners tended to accept the virtual reproduction as real, while experts distributed their answers approximately equally. In the second part, experts could identify the virtual version quite reliably. For inexperienced listeners, the individual results varied enormously. Since the presence of the headphones influences the perception of the real sound field, this shadowing effect had to be considered in the creation of the virtual sound source as well. This requirement still limits test methods considering the real version in its ecological validity. Although the results indicate that the availability of a hidden real reference leads to a more critical evaluation, it is crucial to be aware that the presence of the headphones slightly distorts the reference. This issue seems more vital to the plausibility estimates achieved with this evaluation method than the increased freedom in motion.



https://doi.org/10.3389/frvir.2021.678875
Schneiderwind, Christian; Neidhardt, Annika; Meyer, Dominik
Comparing the effect of different open headphone models on the perception of a real sound source. - In: 150th Audio Engineering Society Convention 2021, (2021), S. 389-398

Döring, Nicola; Mikhailova, Veronika; Brandenburg, Karlheinz; Broll, Wolfgang; Groß, Horst-Michael; Werner, Stephan; Raake, Alexander
Saying "Hi" to grandma in nine different ways : established and innovative communication media in the grandparent-grandchild relationship. - In: Technology, Mind, and Behavior, ISSN 2689-0208, (2021), insges. 1 S.

https://doi.org/10.1037/tms0000107
Gari, Sebastia V. Amengual; Hassager, Henrik G.; Klein, Florian; Arend, Johannes M.; Robinson, Philip W.
Towards determining thresholds for room divergence: a pilot study on perceived externalization. - In: 2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA), (2021), insges. 7 S.

https://doi.org/10.1109/I3DA48870.2021.9610835
Klein, Florian; Gari, Sebastia V. Amengual; Arend, Johannes M.; Robinson, Philip W.
Towards determining thresholds for room divergence: a pilot study on detection thresholds. - In: 2021 Immersive and 3D Audio: from Architecture to Automotive (I3DA), (2021), insges. 7 S.

In binaural rendering, the room divergence effect refers to the decrease in perceived externalization due to a mismatch between the room acoustics of the virtual sounds and those of the listening space. However, it is currently unknown which specific acoustic differences cause this effect. In this work, we present a pilot study to determine detection thresholds between sound sources recorded under different acoustic conditions in a variable acoustics room. These results are intended to predict situations where divergence effects can be expected. The participants had to perform a triangle test where they could listen to three sound sources placed at different positions in the room. The test design was motivated by the fact that sound sources are not placed at the same position in real acoustic scenes. One sound source was recorded under different acoustic conditions than the other two, and the task for the participant was to detect the differing source. The test was conducted in the measured room using 3 DoF binaural reproduction and using a virtual reality (VR) headset to display a visual 360 capture of the room enabling the subjects to see the positions of the sources in the room. Detection rates are signal-dependent and increase with differences in reverberation time (RT). For the most critical signal in the test (castanets), an RT difference of 8% was detectable, while the difference was 15% across all conditions. Furthermore, we discuss the influence of sound source distance and absorption configuration (symmetric or asymmetric) on detection thresholds.



https://doi.org/10.1109/I3DA48870.2021.9610876
Klein, Florian;
Auditive Adaptationsprozesse im Kontext räumlicher Audiowiedergabesysteme. - Ilmenau : Universitätsbibliothek, 2021. - 1 Online-Ressource (ii, 145 Seiten)
Technische Universität Ilmenau, Dissertation 2021

Das Ziel technischer Weiterentwicklungen im Bereich der Unterhaltungselektronik ist die Optimierung der Benutzererfahrung durch die stetige Verbesserung der audiovisuellen Wiedergabe. Durch die Fortschritte im Bereich virtueller und augmentierter Realitäten wurde das Ziel einer realitätsnahen Wiedergabe immer greifbarer. Werden die Sinnesreize so perfekt imitiert, dass es dem Nutzer nicht mehr möglich ist künstlich erzeugte Schallquellen von Realen zu unterscheiden, ist die Rede von einer auditiven Illusion. In erster Linie sind die damit verbundenen Herausforderungen technischer Natur. Allerdings führt eine exakte Reproduktion der Ohrsignale nicht zwangsläufig zur gleichen Wahrnehmung wie in der entsprechenden realen Situation. Neben sinnesübergreifenden Wechselwirkungen, liegt dies daran, dass unsere Wahrnehmung stark von unseren Erwartungen und Erfahrungen abhängt. Diese Erwartungen können sich je nach vorheriger Schallexposition ändern. In Bezug auf das räumliche Hören bedeutet dies, dass Menschen wahrscheinlich lernen können wie räumliche Signale und ihre Merkmale zu interpretieren sind. Solche Mechanismen und ihre Auswirkungen auf die wahrgenommene Qualität von räumlichen Audiowiedergabesystemen ist der Gegenstand dieser Arbeit. In Wahrnehmungsstudien wurde das Erlernen von Lokalisationsmerkmalen untersucht sowie Adaptationsprozesse bei der raumakustischen Wahrnehmung näher beleuchtet. Es wird betrachtet mit welchen Qualitätsdefiziten zu rechnen ist, wenn die Ohrsignale nicht korrekt reproduziert werden und wie sich die Qualitätsbeurteilung abhängig vom Training ändert. Die Ergebnisse deuten darauf hin, dass Lern- und Adaptationsprozesse ein ausschlaggebender Faktor für das Zustandekommen einer auditiven Illusion ist. Die Arbeit diskutiert sowohl die praktische Relevanz dieser Effekte als auch die zugrundeliegenden Lern- und Adaptationsvorgänge.



https://doi.org/10.22032/dbt.50107
Grollmisch, Sascha; Cano, Estefanía
Improving semi-supervised learning for audio classification with FixMatch. - In: Electronics, ISSN 2079-9292, Bd. 10 (2021), 15, 1807, insges. 20 S.

Including unlabeled data in the training process of neural networks using Semi-Supervised Learning (SSL) has shown impressive results in the image domain, where state-of-the-art results were obtained with only a fraction of the labeled data. The commonality between recent SSL methods is that they strongly rely on the augmentation of unannotated data. This is vastly unexplored for audio data. In this work, SSL using the state-of-the-art FixMatch approach is evaluated on three audio classification tasks, including music, industrial sounds, and acoustic scenes. The performance of FixMatch is compared to Convolutional Neural Networks (CNN) trained from scratch, Transfer Learning, and SSL using the Mean Teacher approach. Additionally, a simple yet effective approach for selecting suitable augmentation methods for FixMatch is introduced. FixMatch with the proposed modifications always outperformed Mean Teacher and the CNNs trained from scratch. For the industrial sounds and music datasets, the CNN baseline performance using the full dataset was reached with less than 5% of the initial training data, demonstrating the potential of recent SSL methods for audio data. Transfer Learning outperformed FixMatch only for the most challenging dataset from acoustic scene classification, showing that there is still room for improvement.



https://doi.org/10.3390/electronics10151807
Arend, Johannes M.; Garí, Sebastià V. Amengual; Schissler, Carl; Klein, Florian; Robinson, Philip W.
Six-degrees-of-freedom parametric spatial audio based on one monaural room impulse response. - In: Journal of the Audio Engineering Society, ISSN 0004-7554, Bd. 69 (2021), 7/8, S. 557-575

Parametric spatial audio rendering is a popular approach for low computing capacity applications, such as augmented reality systems. However most methods rely on spatial room impulse responses (SRIR) for sound field rendering with 3 degrees of freedom (DoF), i.e., for arbitrary head orientations of the listener, and often require multiple SRIRs for 6-DoF rendering, i.e., when additionally considering listener translations. This paper presents a method for parametric spatial audio rendering with 6 DoF based on one monaural room impulse response (RIR). The scalable and perceptually motivated encoding results in a parametric description of the spatial sound field for any listener's head orientation or position in space. These parameters form the basis for the binaural room impulse responses (BRIR) synthesis algorithm presented in this paper. The physical evaluation revealed good performance, with differences to reference measurements at most tested positions in a room below the just-noticeable differences of various acoustic parameters. The paper further describes the implementation of a 6-DoF realtime virtual acoustic environment (VAE) using the synthesized BRIRs. A pilot study assessing the plausibility of the 6-DoF VAE showed that the system can provide a plausible binaural reproduction, but it also revealed challenges of 6-DoF rendering requiring further research.



https://doi.org/10.17743/jaes.2021.0009
Grollmisch, Sascha; Cano, Estefanía; Mora Ángel, Fernando; López Gil, Gustavo
Ensemble size classification in Colombian Andean string music recordings. - In: Perception, representations, image, sound, music, (2021), S. 60-74

Reliable methods for automatic retrieval of semantic information from large digital music archives can play a critical role in musicological research and musical heritage preservation. With the advancement of machine learning techniques, new possibilities for information retrieval in scenarios where ground-truth data is scarce are now available. This work investigates the problem of ensemble size classification in music recordings. For this purpose, a new dataset of Colombian Andean string music was compiled and annotated by musicological experts. Different neural network architectures, as well as pre-processing steps and data augmentation techniques were systematically evaluated and optimized. The best deep neural network architecture achieved 81.5% file-wise mean class accuracy using only feed forward layers with linear magnitude spectrograms as input representation. This model will serve as a baseline for future research on ensemble size classification.



Werner, Stephan; Klein, Florian; Neidhardt, Annika; Sloma, Ulrike; Schneiderwind, Christian; Brandenburg, Karlheinz
Creation of auditory augmented reality using a position-dynamic binaural synthesis system - technical components, psychoacoustic needs, and perceptual evaluation. - In: Applied Sciences, ISSN 2076-3417, Bd. 11 (2021), 3, 1150, S. 1-20

For a spatial audio reproduction in the context of augmented reality, a position-dynamic binaural synthesis system can be used to synthesize the ear signals for a moving listener. The goal is the fusion of the auditory perception of the virtual audio objects with the real listening environment. Such a system has several components, each of which help to enable a plausible auditory simulation. For each possible position of the listener in the room, a set of binaural room impulse responses (BRIRs) congruent with the expected auditory environment is required to avoid room divergence effects. Adequate and efficient approaches are methods to synthesize new BRIRs using very few measurements of the listening room. The required spatial resolution of the BRIR positions can be estimated by spatial auditory perception thresholds. Retrieving and processing the tracking data of the listener’s head-pose and position as well as convolving BRIRs with an audio signal needs to be done in real-time. This contribution presents work done by the authors including several technical components of such a system in detail. It shows how the single components are affected by psychoacoustics. Furthermore, the paper also discusses the perceptive effect by means of listening tests demonstrating the appropriateness of the approaches.



https://doi.org/10.3390/app11031150
Lenzen, Lucien;
Konzept zur Einführung von HDR im Broadcast mithilfe präferenzbasierter Kontrastkompression. - Ilmenau : Universitätsbibliothek, 2020. - 1 Online-Ressource (xv, 167 Blätter)
Technische Universität Ilmenau, Dissertation 2021

HDR (High Dynamic Range) ermöglicht es, einen weitaus größeren Kontrastumfang einer Szene einzufangen als es im HD-Broadcast der Fall wäre. In der Folge können Details sowohl in den Lichtern als auch in den Schatten erhalten werden. Allerdings sind die Möglichkeiten zur Wiedergabe sehr heterogen und meist deutlich limitierter. Um trotzdem alle Zuschauer von der gesteigerten Aufnahmequalität profitieren zu lassen, wird eine Anpassung - auch Kontrastkompression genannt - nötig. Manuelle Techniken zur Kontrastkompression sind aus der filmischen Postproduktion bekannt, während automatische Verfahren in der Computergrafik Anwendung finden. Aufgrund der speziellen Anforderungen des Broadcast lassen sich diese jedoch nicht einfach übertragen. Eine grundlegende Herausforderung besteht dabei in der Präferenz des Zuschauers. Das Ziel der Arbeit ist es deshalb, die Zuschauerpräferenz bezüglich der Helligkeits- und Farbwahrnehmung zu quantifizieren und anschließend auf diesen Ergebnissen eine algorithmische Lösung zur Anpassung der Kontrastkompression für die Anwendung beim Broadcast anzubieten. Mithilfe von objektiven und subjektiven Untersuchungen soll gezeigt werden, wie sich hierdurch die Bildqualität signifikant steigern lässt. Abschließend gilt es anhand von beispielhaften Workflows und Feldversuchen einen Weg für die flächendeckende Einführung von HDR aufzuzeigen.



https://nbn-resolving.org/urn:nbn:de:gbv:ilm1-2021000124
Neidhardt, Annika; Reif, Boris
Minimum BRIR grid resolution for interactive position changes in dynamic binaural synthesis. - In: 148th Audio Engineering Society International Convention 2020, (2020), S. 660-669

Grollmisch, Sascha; Cano, Estefanía; Kehling, Christian; Taenzer, Michael
Analyzing the potential of pre-trained embeddings for audio classification tasks. - In: 28th European Signal Processing Conference (EUSIPCO 2020), (2020), S. 790-794

In the context of deep learning, the availability of large amounts of training data can play a critical role in a models performance. Recently, several models for audio classification have been pre-trained in a supervised or self-supervised fashion on large datasets to learn complex feature representations, socalled embeddings. These embeddings can then be extracted from smaller datasets and used to train subsequent classifiers. In the field of audio event detection (AED) for example, classifiers using these features have achieved high accuracy without the need of additional domain knowledge. This paper evaluates three state-of-the-art embeddings on six audio classification tasks from the fields of music information retrieval and industrial sound analysis. The embeddings are systematically evaluated by analyzing the influence on classification accuracy of classifier architecture, fusion methods for file-wise predictions, amount of training data, and initial training domain of the embeddings. To better understand the impact of the pre-training step, results are also compared with those acquired with models trained from scratch. On average, the OpenL3 embeddings performed best with a linear SVM classifier. For a reduced amount of training examples, OpenL3 outperforms the initial baseline.



https://doi.org/10.23919/Eusipco47968.2020.9287743
Johnson, David S.; Grollmisch, Sascha
Techniques improving the robustness of deep learning models for industrial sound analysis. - In: 28th European Signal Processing Conference (EUSIPCO 2020), (2020), S. 81-85

The field of Industrial Sound Analysis (ISA) aims to automatically identify faults in production machinery or manufactured goods by analyzing audio signals. Publications in this field have shown that the surface condition of metal balls and different types of bulk materials (screws, nuts, etc.) sliding down a tube can be classified with a high accuracy using audio signals and deep neural networks. However, these systems suffer from domain shift, or dataset bias, due to minor changes in the recording setup which may easily happen in real-world production lines. This paper aims at finding methods to increase robustness of existing detection systems to domain shift, ideally without the need to record new data or retrain the models. Through five experiments, we implement a convolutional neural network (CNN) for two publicly available ISA datasets and evaluate transfer learning, data normalization and data augmentation as approaches to deal with domain shift. Our results show that while supervised methods with additional labeled data are the best approach, an unsupervised method that implements data augmentation with adaptive normalization is able to improve the performance by a large margin without the need of retraining neural networks.



https://doi.org/10.23919/Eusipco47968.2020.9287327
Brandenburg, Karlheinz; Klein, Florian; Neidhardt, Annika; Sloma, Ulrike; Werner, Stephan
Creating auditory illusions with binaural technology. - In: The technology of binaural understanding, (2020), S. 623-663

It is pointed out that beyond reproducing the physically correct sound pressure at the eardrums, more effects play a significant role in the quality of the auditory illusion. In some cases, these can dominate perception and even overcome physical deviations. Perceptual effects like the room-divergence effect, additional visual influences, personalization, pose and position tracking as well as adaptation processes are discussed. These effects are described individually, and the interconnections between them are highlighted. With the results from experiments performed by the authors, the perceptual effects can be quantified. Furthermore, concepts are proposed to optimize reproduction systems with regard to those effects. One example could be a system that adapts to varying listening situations as well as individual listening habits, experience and preference.



Grollmisch, Sascha; Johnson, David; Liebetrau, Judith
Visualizing neural network decisions for industrial sound analysis. - In: SMSI 2020, (2020), S. 267-268

Grollmisch, Sascha; Johnson, David; Krüger, Tobias; Liebetrau, Judith
Plastic material classification using neural network based audio signal analysis. - In: SMSI 2020, (2020), S. 337-338

Werner, Stephan; Klein, Florian; Müller, Clemens
Evaluation of spatial audio quality of the synthesis of binaural room impulse responses for new object positions. - In: 147th Audio Engineering Society Convention 2019, (2020), S. 972-981

The aim of auditory augmented reality is to create an auditory illusion combining virtual audio objects and scenarios with the perceived real acoustic surrounding. A suitable system like position-dynamic binaural synthesis is needed to minimize perceptual conflicts with the perceived real world. The needed binaural room impulse responses (BRIRs) have to fit the acoustics of the listening room. One approach to minimize the large number of BRIRs for all source-receiver relations is the synthesis of BRIRs using only one measurement in the listening room. The focus of the paper is the evaluation of the spatial audio quality. In most conditions differences in direct-to-reverberant-energy ratio between a reference and the synthesis is below the just noticeable difference. Furthermore, small differences are found for perceived overall difference, distance, and direction perception. Perceived externalization is comparable to the usage of measured BRIRs. Challenges are detected to synthesize more further away sources from a source position that is more close to the listening positions.



Sloma, Ulrike; Klein, Florian; Werner, Stephan; Pappachan Kannookadan, Tyson
Synthesis of binaural room impulse responses for different listening positions considering the source directivity. - In: 147th Audio Engineering Society Convention 2019, (2020), S. 377-385

Lenzen, Lucien; Hedtke, Rolf; Christmann, Mike
HDR in consideration of the abilities of the human visual system. - In: SMPTE motion imaging journal, ISSN 2160-2492, Bd. 128 (2019), 5, S. 40-45

In recent years, high dynamic range (HDR) has been improved enormously. The capability of cameras and displays to reproduce small differences in luminance levels is constantly growing. However, we are still dealing with a limitation of the human visual system (HVS) known as the simultaneous contrast range (SCR). Compared to earlier studies, this paper focuses on real-world scenarios for evaluating the SCR. In natural images, bright highlights, especially in HDR, can limit the eyes' sensitivity to small differences in surrounding dark areas. This paper describes a test-image set developed as part of current research activities by the authors to measure the relation between the perceived SCR and the following four significant parameters: the distance, or rather, the viewing angle; the size of the bright highlight; the luminance of the highlight; and the ambient light. As a result, a mathematical formula is given that can help to evaluate and improve HDR viewing experiences as well as standard dynamic range downconversions.



https://doi.org/10.5594/JMI.2019.2907350
Nowak, Johannes; Fischer, Georg
Modeling the perception of system errors in spherical microphone array auralizations. - In: Journal of the Audio Engineering Society, ISSN 0004-7554, Bd. 67 (2019), 12, S. 994-1002

https://doi.org/10.17743/jaes.2019.0051
Neidhardt, Annika; Schneiderwind, Christian
Physical and perceptual differences of selected approaches to realize an echolocation scenario in room acoustical auralizations. - In: Proceedings of the International Symposium on Room Acoustics, (2019), S. 237

http://doi.org/10.18154/RWTH-CONV-240146
Schneiderwind, Christian; Neidhardt, Annika
Perceptual differences of position dependent room acoustics in a small conference room. - In: Proceedings of the International Symposium on Room Acoustics, (2019), S. 499-506

http://doi.org/10.18154/RWTH-CONV-240138
Remaggi, Luca; Kim, Hansung; Neidhardt, Annika; Hilton, Adrian; Jackson, Philip J. B.
Perceived quality and spatial impression of room reverberation in VR reproduction from measured images and acoustics. - In: Proceedings of the 23rd International Congress on Acoustics, (2019), S. 3361-3368

https://edocs.tib.eu/files/e01mr19/1677542403.pdf
Brandenburg, Karlheinz; Fiedler, Bernhard; Fischer, Georg; Klein, Florian; Neidhardt, Annika; Schneiderwind, Christian; Sloma, Ulrike; Stirnat, Claudia; Werner, Stephan
Perceptual aspects in spatial audio processing. - In: Proceedings of the 23rd International Congress on Acoustics, (2019), S. 3354-3360

Spatial audio processing includes recording, modification and rendering of multichannel audio. In all these fields there is the choice of either a physical representation or of perceptual approaches trying to achieve a target perceived audio quality. Classical microphone techniques on one hand and wave field synthesis, higher order ambisonics or certain methods of binaural rendering for headphone reproduction on the other hand target a good physical representation of sound. As it is known today, especially in the case of sound reproduction a faithful physical recreation of the sound wave forms ("correct signal at the ear drums") is neither necessary nor does it allow a fully authentic or even plausible reproduction of sound. 20 years ago, MPEG-4 standardized different modes for perception based versus physics based reproduction (called "Perceptual approach to modify natural source" and "Acoustic properties for physical based audio rendering"). In spatial rendering today, more and more the perceptual approach is used in state of the art systems. We give some examples of such rendering. The same distinction of physics based versus psychoacoustics (including cognitive effects) based rendering is used today for room simulation or artificial reverb systems. Perceptual aspects are at the heart of audio signal processing today.



https://edocs.tib.eu/files/e01mr19/1677542403.pdf
Neidhardt, Annika;
Data set: BRIRs for position-dynamic binaural synthesis measured in two rooms. - In: Audio for virtual, augmented and mixed realities, (2019), S. 165-169

Binaural room impulse responses were measured with a KEMAR 45BA head-and-torso-simulator. For the first data set, it was placed at different positions located on a line with a length of 2 m in a 25 cm positional resolution and an azimuth resolution of 4˚. Two source positions were considered in the setup, one in front of the line, one at the side. The same arrangement of source and receiver positions was realized in two different rooms, a quite dry listening laboratory and a quite reverberant seminar room. For the second data set, BRIRs and omni-directional RIRs were measured for a translation line with a length of 7.5 m through the given seminar room. The data sets are valuable for realizing, testing and studying dynamic binaural walk-through scenarios in the two different rooms.



https://doi.org/10.22032/dbt.39972
Klein, Florian; Neidhardt, Annika; Seipel, Marius
Real-time estimation of reverberation time for selection of suitable binaural room impulse responses. - In: Audio for virtual, augmented and mixed realities, (2019), S. 145-150

The aim of auditory augmented reality is to create a highly immersive and plausible auditory illusion combining virtual audio objects and scenarios with the real acoustic surrounding. For this use case it is necessary to estimate the acoustics of the current room. A mismatch between real and simulated acoustics will easily be detected by the listener and will probably lead to In-head localization or an unrealistic acoustic envelopment of the virtual sound sources. This publication investigates State-of-the-Art algorithms for blind reverberation time estimation which are commonly used for speech enhancement algorithms or speech dereverberation and applies them to binaural ear signals. The outcome of these algorithms can be used to select the most appropriate room out of a room database for example. A room database could include pre-measured or simulated binaural room impulse responses which could directly be used to realize a binaural reproduction. First results show promising results combined with low computational effort. Further strategies for enhancing the used method are proposed in order to create a more precise reverberation time estimation.



https://doi.org/10.22032/dbt.39968
Werner, Stephan; Klein, Florian; Götz, Georg
Investigation on spatial auditory perception using non-uniform spatial distribution of binaural room impulse responses. - In: Audio for virtual, augmented and mixed realities, (2019), S. 137-144

For spatial audio reproduction in the context of virtual and augmented reality, a position-dynamic binaural synthesis can be used to reproduce the ear signals for a moving listener. A set of binaural room impulse responses (BRIRs) is required for each possible position of the listener in the room. The required spatial resolution of the BRIR positions can be estimated by spatial auditory perception thresholds. If the resolution is too low, jumps in perception of direction and distance and coloration effects occur. This contribution presents an evaluation of spatial audio quality using different spatial resolutions of the position of the used BRIRs. The evaluation is performed with a moving listener. The test persons evaluate any abnormalities in the spatial audio quality. The result is a comparison of the quality and the spatial resolution of the various conditions used.



https://doi.org/10.22032/dbt.39967
Hottong, Nikolaus; Döhler, Robert; Hofmeyer, Frank
Das VR-Headset als digitaler Kanal : Limitationen der heutigen VR-Technik für das Digital Storytelling erkennen und intelligent vermeiden. - In: FKT, ISSN 1430-9947, Bd. 73 (2019), 10, S. 45-50

Nowak, Johannes;
Quality assessment of spherical microphone array auralizations. - Ilmenau : Universitätsbibliothek, 2019. - 1 Online-Ressource (viii, 214 Seiten)
Technische Universität Ilmenau, Dissertation 2019

Die vorliegende Arbeit beschäftigt sich mit der Qualitätsbewertung und -vorhersage in virtuellen akustischen Umgebungen, insbesondere in Raumsimulationen basierend auf Kugelarraydaten, die mithilfe binauraler Synthese auralisiert werden. Dabei werden verschiedene Prädiktionsverfahren angewandt, um den Einfluss des Arrays auf die Wiedergabequalität automatisiert vorherzusagen, indem die Daten von Hörexperimenten mit denen eines auditorischen Modells in Bezug gesetzt werden. Im Fokus der Experimente stehen unterschiedliche, praxisrelevante Aspekte des Messsystems, die einen Einfluss auf die Wiedergabequalität haben. Konkret sind dies Messfehler, wie räumliches Aliasing, Rauschen oder Mikrofonpositionierungsfehler, oder die Konfiguration des Arrays. Diese definiert das räumliche Auflösungsvermögen und entspricht der gewählten Ordnung der Sphärischen Harmonischen Zerlegung. Die Experimente basieren auf Kugelarray-Simulationen unter Freifeldbedingungen und in einfachen simulierten Rechteckräumen mit unterschiedlichen Reflexionseigenschaften, wobei ein Raum trocken, der andere dagegen stark reflektierend ist. Dabei dienen zehn Testsignale als Audiomaterial, die in praktischen Anwendungen relevant erscheinen, wie z. B. Orchester- oder Popmusik, männlicher und weiblicher Gesang oder Kastagnetten. In Wahrnehmungsexperimenten wird der Einfluss von Messfehlern in einer quantitativen Analyse bewertet und die Qualität der Synthese deskriptiv mit den Attributen Apparent Source Width (ASW) und Listener Envelopment (LEV) bewertet. Die resultierenden Daten bilden die Basis für die Qualitätsvorhersage, wobei die Hörtestergebnisse als Observationen und die Ausgangsdaten des auditorischen Modells als Prädiktoren dienen. Mit den Daten werden unterschiedliche Prädiktionsmodelle trainiert und deren Vorhersagegenauigkeit anschließend bewertet. Die entwickelten Modelle ermöglichen es, sowohl Messfehler zu identifizieren und zu klassifizieren als auch deren Ausprägung zu schätzen. Darüber hinaus erlauben sie es, den Einfluss der Arraykonfiguration auf die Wahrnehmung von ASW und LEV vorherzusagen und die verwendete Ordnung der Schallfeldzerlegung zu identifizieren, ebenso wie die Reflexionseigenschaften des simulierten Raumes. Es kommen sowohl einfache Regressionsmodelle und Entscheidungsbäume zur Anwendung als auch komplexere Modelle, wie Support Vector Machines oder neuronale Netze. Die entwickelten Modelle zeigen in der Regel eine hohe Genauigkeit bei der Qualitätsvorhersage und erlauben so die Analyse von grundlegenden Array-Eigenschaften, ohne aufwendige Hörexperimente durchführen zu müssen. Obwohl die Anwendbarkeit der Modelle auf die hier untersuchten Fälle beschränkt ist, können sie sich als hilfreiche Werkzeuge bei der Entwicklung von Kugelarrays für Auralisationsanwendungen erweisen.



https://nbn-resolving.org/urn:nbn:de:gbv:ilm1-2019000222
Lenzen, Lucien; Hedtke, Rolf; Christmann, Mike
How tone mapping influences the bit rate and the bit depth of coded sequences. - In: SMPTE motion imaging journal, ISSN 2160-2492, Bd. 127 (2018), 5, S. 38-43

In recent years, high dynamic range (HDR) made major steps forward to become the next big broadcast technology. It is generally accepted that HDR will need a higher bit rate because of more quantization steps and the fact that the images deal with much more detail in the highlights and shadows. However, it is only insufficiently taken into account that most of these details will be preserved when performing an HDR downconversion using tone mapping. It remains unclear how the standard dynamic range bit rate is influenced by the HDR production. Therefore, peak signal-to-noise ratio measurements have been performed, and detailed explanations of the reasons are given in this paper. Moreover, it is not definitively known if the strong manipulation on the luminance component at downconversion can produce artifacts like banding. To provide information, the incoming bit depth of the HDR with subsequent tone mapping is verified by a viewing test.



https://doi.org/10.5594/JMI.2018.2810021
Chilian, Anja; Gadyuchko, Maria; Kátai, András; Klein, Florian; Sattel, Thomas; Skuk, Verena G.; Werner, Stephan
Innovative methods and technologies for spatial listening and speech intelligibility using hearing implants. - In: Adaptive processes in hearing, (2018), S. 343-350

Werner, Stephan;
Über den Einfluss kontextabhängiger Qualitätsparameter auf die Wahrnehmung von Externalität und Hörereignisort. - Ilmenau : Universitätsbibliothek, 2018. - 1 Online-Ressource (x, 211 Seiten)
Technische Universität Ilmenau, Dissertation 2018

Diese Arbeit umfasst meine Forschungstätigkeiten auf dem Gebiet des räumlichen Hörens. Es wird der Frage nachgegangen, welche Effekte verschiedene Kontexteinflüsse auf die Herausbildung einer auditorischen Illusion haben. Diese Effekte werden quantitativ erfasst. Es werden die Wahrnehmung von Externalität, Hörereignisrichtung u. a. bei Verwendung eines Binauralsynthesesystems untersucht. Als Ziel steht die Beschreibung und Messbarmachung der Kontexteinflüsse Raumdivergenz, Personalisierung und visuelle Merkmale. Die eigenen Untersuchungen zeigen deutlich, dass für das Zustandekommen einer sogenannten perfekten auditorischen Illusion eine ausreichende technische Realisierung der korrekten Ohrsignale nicht ausreichend ist. Vielmehr ist eine Erfüllung der intrinsischen Erwartungshaltung des Hörers notwendig. Der Prozess der Herausbildung von Qualität lässt sich durch einen Vergleich und Beurteilungsprozess beschreiben. Hierbei werden die aus den durch die Sinnesorgane aufgenommenen Reizungen abgeleiteten Qualitätsmerkmale mit den abgeleiteten Merkmalen einer inneren, individuellen Referenz verglichen. Dieser Prozess ist ausschlaggebend für die Herausbildung eines Hörereignisses. Mithilfe von qualitätsbewertenden Befragungen (Hörtests) lässt sich dieses Hörereignis als Abbildung messbar und beschreibbar machen. Die Ergebnisse meiner Arbeit zeigen, dass eine Divergenz akustischer Raumparameter zwischen einer binaural synthetisierten Szene und dem Abhörraum zu einer signifikanten Verringerung der Externalisierung von Hörereignissen führt. Eine Konvergenz raumakustischer Parameter erhöht die wahrgenommene Externalisierung. Die Sichtbarkeit von bspw. Lautsprecherattrappen im Abhörraum lässt die Externalität insgesamt ansteigen. Der sogenannte Raumdivergenzeffekt kann dadurch aber nicht aufgelöst werden. Die Personalisierung eines Binauralsynthesesystems zeigt eine Verringerung von Fehllokalisationen und einen Anstieg der Externalisierung. Es wird die Vermutung aufgestellt und untersucht, inwiefern Lokalisierungsfehler und Externalisierung korrelieren. Es wird gezeigt werden, dass eine personalisierte Binauralsynthese den Raumdivergenzeffekt nicht auflösen kann. Die Untersuchungen zum Raumdivergenzeffekt dienen als Grundlage zur Entwicklung von Methoden, welche verschiedene zeit- und energiebasierte akustische Merkmale der verwendeten Raumimpulsantworten verändern. Das Ziel ist die Anpassung einzelner raumakustischer Parameter der Synthese an die Raumakustik des Abhörraumes zur Erzeugung einer plausiblen auditorischen Illusion.



https://www.db-thueringen.de/receive/dbt_mods_00039220
Brandenburg, Karlheinz;
Echt oder Fake? Stimmt das, was ich höre?. - In: Kinderuni Ilmenau 2018, (2018)

Neidhardt, Annika;
Detection of a nearby wall in a virtual echolocation scenario based on measured and simulated OBRIRS. - In: Aesthetics and science, (2018), S. 31-40

Klein, Florian; Neidhardt, Annika; Seipel, Marius; Sporer, Thomas
Training on the acoustical identification of the listening position in a virtual environment. - In: 143rd Audio Engineering Society International Convention 2017, (2018), S. 205-212

Brandenburg, Karlheinz; Cano, Estefanía; Klein, Florian; Köllmer, Thomas; Lukashevich, Hanna; Neidhardt, Annika; Sloma, Ulrike; Werner, Stephan
Plausible augmentation of auditory scenes using dynamic binaural synthesis for personalized auditory realities. - In: Science, technology, design, and implementation, (2018), S. 258-267

Neidhardt, Annika; Ignatious-Tommy, Alby; Pereppadan, Anson Davis
Plausibility of an interactive approaching motion towards a virtual sound source based on simplified BRIR sets. - In: 144th Audio Engineering Society International Convention 2018, (2018), S. 685-695

Klein, Florian; Werner, Stephan
The relevance of auditory adaptation effects for the listening experience in virtual acoustic environments. - In: 144th Audio Engineering Society International Convention 2018, (2018), S. 575-582

Kruspe, Anna;
Application of automatic speech recognition technologies to singing. - Ilmenau : Universitätsbibliothek, 2018. - 1 Online-Ressource (vi, 179 Blätter)
Technische Universität Ilmenau, Dissertation 2018

Das Gebiet des Music Information Retrieval befasst sich mit der automatischen Analyse von musikalischen Charakteristika. Ein Aspekt, der bisher kaum erforscht wurde, ist dabei der gesungene Text. Auf der anderen Seite werden in der automatischen Spracherkennung viele Methoden für die automatische Analyse von Sprache entwickelt, jedoch selten für Gesang. Die vorliegende Arbeit untersucht die Anwendung von Methoden aus der Spracherkennung auf Gesang und beschreibt mögliche Anpassungen. Zudem werden Wege zur praktischen Anwendung dieser Ansätze aufgezeigt. Fünf Themen werden dabei betrachtet: Phonemerkennung, Sprachenidentifikation, Schlagwortsuche, Text-zu-Gesangs-Alignment und Suche von Texten anhand von gesungenen Anfragen. Das größte Hindernis bei fast allen dieser Themen ist die Erkennung von Phonemen aus Gesangsaufnahmen. Herkömmliche, auf Sprache trainierte Modelle, bieten keine guten Ergebnisse für Gesang. Das Trainieren von Modellen auf Gesang ist schwierig, da kaum annotierte Daten verfügbar sind. Diese Arbeit zeigt zwei Ansätze auf, um solche Daten zu generieren. Für den ersten wurden Sprachaufnahmen künstlich gesangsähnlicher gemacht. Für den zweiten wurden Texte automatisch zu einem vorhandenen Gesangsdatensatz zugeordnet. Die neuen Datensätze wurden zum Trainieren neuer Modelle genutzt, welche deutliche Verbesserungen gegenüber sprachbasierten Modellen bieten. Auf diesen verbesserten akustischen Modellen aufbauend wurden Algorithmen aus der Spracherkennung für die verschiedenen Aufgaben angepasst, entweder durch das Verbessern der Robustheit gegenüber Gesangscharakteristika oder durch das Ausnutzen von hilfreichen Besonderheiten von Gesang. Beispiele für die verbesserte Robustheit sind der Einsatz von Keyword-Filler-HMMs für die Schlagwortsuche, ein i-Vector-Ansatz für die Sprachenidentifikation sowie eine Methode für das Alignment und die Textsuche, die stark schwankende Phonemdauern nicht bestraft. Die Besonderheiten von Gesang werden auf verschiedene Weisen genutzt: So z.B. in einem Ansatz für die Sprachenidentifikation, der lange Aufnahmen benötigt; in einer Methode für die Schlagwortsuche, die bekannte Phonemdauern in Gesang mit einbezieht; und in einem Algorithmus für das Alignment und die Textsuche, der bekannte Phonemkonfusionen verwertet.



http://nbn-resolving.de/urn:nbn:de:gbv:ilm1-2018000226
Brandenburg, Karlheinz; Sladeczek, Christoph
Audiocodecs : Hörgenuss aus der digitalen Welt. - In: Digitalisierung, (2018), S. 65-79

https://doi.org/10.1007/978-3-662-55890-4_5
Sporer, Thomas; Brandenburg, Karlheinz; Brix, Sandra; Sladeczek, Christoph
Wave field synthesis. - In: Immersive sound, (2018), S. 311-332

Lenzen, Lucien; Christmann, Mike
Subjective viewer preference model for automatic HDR down conversion. - In: Electronic imaging, ISSN 2470-1173, Bd. 29 (2017), 12, art00028, S. 191-197

Although the idea of tone mapping has a long history, there is no tone mapping operator fulfilling the requirements of (live) broadcasting completely. But in times of HDR standards [1] it is more important than ever to find a reliable automatic down conversion suitable for all kinds - of scenes to get an integrated workflow for HDR and SDR and to let the majority of the viewers dealing with legacy displays benefit from HDR. Most of the tone mapping operators (TMOs) do not outperform a so called camera TMO (classic photographic s-shaped camera encoding) in comparison studies, - which can be explained as a problem of goal. Modelling the human visual system (HVS) can be remarkable different from creating a pleasing image based on aesthetic wishes and artistic intends. The aim of the paper is to report on the results measuring the viewer preference at dynamic range - compression and to set up a model which can be used to enhance existing TMOs. Therefore, probands had to do their own grading influencing brightness, contrast, saturation and homogenization under varying outer conditions. It can be shown that the most important aspect of HDR is the increased - reproduction of the scene contrast range and not the increased brightness. By using an optimized gradation and a slight local tone mapping a close impression can also be displayed on SDR screens.



https://doi.org/10.2352/ISSN.2470-1173.2017.12.IQSP-242
Brandenburg, Karlheinz;
Können Computer besser hören als Menschen?. - In: Kinderuni Ilmenau 2017, (2017)

Arend, Johannes M.; Neidhardt, Annika; Pörschmann, Christoph
Measurement and evaluation of a near-field HRTF set. - In: VDT-Magazin, ISSN 2509-5927, Bd. 33 (2017), 1, S. 52-55

Sporer, Thomas; Werner, Stephan; Klein, Florian
Adjustment of the Direct-to-Reverberant-Energy-Ratio to reach externalization within a binaural synthesis system. - In: Audio for virtual and augmented reality, ISBN 978-1-5108-4346-2, (2017), S. 120-126

Brandenburg, Karlheinz; Klein, Florian; Neidhardt, Annika; Werner, Stephan
Auditory illusion over headphones revisited. - In: The journal of the Acoustical Society of America, ISSN 1520-8524, Bd. 141 (2017), 5, S. 3997

https://doi.org/10.1121/1.4989160
Werner, Sara;
Quality taxonomy for scalable algorithms of free viewpoint video objects. - Ilmenau : Universitätsbibliothek, 2017. - 1 Online-Ressource (vii, 208 Seiten)
Technische Universität Ilmenau, Dissertation 2017

Diese Dissertation beabsichtigt einen Beitrag zur Qualitätsbeurteilung von Algorithmen für Bildanalyse und Bildsynthese im Anwendungskontext Videokommunikationssysteme zu leisten. In der vorliegenden Arbeit werden Möglichkeiten und Hindernisse der nutzerzentrierten Definition von subjektiver Qualitätswahrnehmung in diesem speziellen Anwendungsfall untersucht. Qualitätsbeurteilung von aufkommender Visualisierungs-Technologie und neuen Verfahren zur Erzeugung einer dreidimensionalen Repräsentation unter der Nutzung von Bildinformation zweier Kameras für Videokommunikationssysteme wurde bisher noch nicht umfangreich behandelt und passende Ansätze dazu fehlen. Die Herausforderungen sind es qualitätsbeeinflussende Faktoren zu definieren, passende Maße zu formulieren, sowie die Qualitätsevaluierung mit den Erstellungsalgorithmen, welche noch in Entwicklung sind, zu verbinden. Der Vorteil der Verlinkung von Qualitätswahrnehmung und Servicequalität ist die Unterstützung der technischen Realisierungsprozesse hinsichtlich ihrer Anpassungsfähigkeit (z.B. an das vom Nutzer verwendete System) und Skalierbarkeit (z.B. Beachtung eines Aufwands- oder Ressourcenlimits) unter Berücksichtigung des Endnutzers und dessen Qualitätsanforderungen. Die vorliegende Arbeit beschreibt den theoretischen Hintergrund und einen Vorschlag für eine Qualitätstaxonomie als verlinkendes Modell. Diese Arbeit beinhaltet eine Beschreibung des Projektes Skalalgo3d, welches den Rahmen der Anwendung darstellt. Präsentierte Ergebnisse bestehen aus einer systematischen Definition von qualitätsbeeinflussenden Faktoren inklusive eines Forschungsrahmens und Evaluierungsaktivitäten die mehr als 350 Testteilnehmer inkludieren, sowie daraus heraus definierte Qualitätsmerkmale der evaluierten Qualität der visuellen Repräsentation für Videokommunikationsanwendungen. Ein darauf basierendes Modell um diese Ergebnisse mit den technischen Erstellungsschritten zu verlinken wird zum Schluss anhand eines formalisierten Qualitätsmaßes präsentiert. Ein Flussdiagramm und ein Richtungsfeld zur grafischen Annäherung an eine differenzierbare Funktion möglicher Zusammenhänge werden daraufhin für weitere Untersuchungen vorgeschlagen.



http://nbn-resolving.de/urn:nbn:de:gbv:ilm1-2017000558
Rico-Olarte, Carolina; López, Diego M.; Blobel, Bernd; Werner, Sara
User experience evaluations in rehabilitation video games for children: a systematic mapping of the literature. - In: German medical data sciences, (2017), S. 13-17

https://doi.org/10.3233/978-1-61499-808-2-13
Werner, Stephan; Götz, Georg; Klein, Florian
Influence of head tracking on the externalization of auditory events at divergence between synthesized and listening room using a binaural headphone system. - In: 142nd Audio Engineering Society International Convention 2017, (2017), S. 17-24

Foss, Jeremy; Shirley, Ben; Malheiro, Benedita; Kepplinger, Sara; Ulisses, Alexandre; Armstrong, Mike
In-Programme Personalization for Broadcast: IPP4B. - In: TVX'17, ISBN 978-1-4503-4529-3, (2017), S. 141-142

https://doi.org/10.1145/3077548.3078629
Weiß, Christof;
Computational methods for tonality-based style analysis of classical music audio recordings. - Ilmenau : Universitätsbibliothek, 2017. - 1 Online-Ressource (xii, 203 Seiten)
Technische Universität Ilmenau, Dissertation 2017

Im Zuge der fortschreitenden Digitalisierung ist eine deutliche Veränderung des Musikangebots festzustellen. Streamingdienste, Downloadportale und private Archive stellen umfangreiche Kollektionen von Musikaufnahmen zur Verfügung. Im Forschungsbereich Music Information Retrieval werden Algorithmen zur Strukturierung und Durchsuchung solcher Archive entwickelt. Eine typische Anwendung ist die Klassifizierung von Aufnahmen hinsichtlich musikalischer Genres. Diese Arbeit befasst sich mit solchen Klassifikationsproblemen mit dem Ziel einer Differenzierung innerhalb der abendländischen Kunstmusik. Dabei stehen stilistische Kategorien wie Epochen der Musikgeschichte oder Komponisten im Fokus. Musikwissenschaftler führen solche Stilanalysen typischerweise auf Basis von Partituren durch. Ein wesentlicher Beitrag dieser Arbeit ist die Entwicklung computergestützter Methoden zur Analyse umfangreicher Korpora von Audiodaten. Die Experimente konzentrieren sich dabei auf die Parameter Harmonik und Tonalität. Als erster Schritt werden die Audiodaten mittels Signalverarbeitungstechniken in Chromadarstellungen überführt. Auf dieser Basis werden musiktheoretische Konzepte modelliert und das Auftreten tonaler Strukturen gemessen. Einer der vorgestellten Algorithmen ermittelt die Grundtonart eines Stückes unter Berücksichtigung des Schlussakkords. Eine weitere Methode dient zur Visualisierung von Modulationsstrukturen hinsichtlich diatonischer Skalen sowie von lokal vorherrschenden Skalentypen. Weiterhin werden Methoden zur Messung von Intervall- und Akkordtypen sowie zur Quantifizierung tonaler Komplexität eingeführt. Auf Basis dieser Audiomerkmale werden stilistische Analysen von Musikaufnahmen realisiert. Mit Hilfe unüberwachter Lernmethoden wird die stilistische Ähnlichkeit von Musikstücken im Bezug auf Komponisten und Kompositionsjahre veranschaulicht. Weiterhin werden Experimente zur Klassifizierung nach Epoche oder Komponist durchgeführt. Die Ergebnisse zeigen, dass die tonalen Merkmale stilrelevante Eigenschaften auf stabile Weise modellieren. Im Gegensatz dazu führt die Verwendung von Standardmerkmalen häufig zu einer Überanpassung der Modelle, was sich negativ auf die Klassifikationsergebnisse auswirkt. Dies zeigt, dass sich tonale Eigenschaften zur Stilunterscheidung heranziehen lassen und dass solche Eigenschaften direkt aus Audioaufnahmen gemessen werden können.



http://nbn-resolving.de/urn:nbn:de:gbv:ilm1-2017000293
Kepplinger, Sara; Liebetrau, Judith; Clauss, Tobias; Pharow, Peter
Perspectives about personalization for mHealth solutions against noise pollution. - In: pHealth 2017, (2017), S. 188-192

Sloma, Ulrike; Klein, Florian; Helbig, Thomas; Skowronek, Janto; Gadyuchko, Maria; Werner, Stephan; Breitbarth, Andreas; Neidhardt, Annika; Chillian, Antje; Brandenburg, Karlheinz; Raake, Alexander; Notni, Gunther; Sattel, Thomas; Witte, Hartmut; Husar, Peter
GO-LEM - Charakterisierung der auditorischen und auditorisch-visuellen Wahrnehmung des Menschen in Alltagsszenen. - In: Prävention von arbeitsbedingten Gesundheitsgefahren und Erkrankungen, (2017), S. 349-356

Pralon, Mariana;
Compact antenna arrays for efficient direction of arrival estimation. - Ilmenau : Universitätsbibliothek, 2017. - 1 Online-Ressource (xvi, 185 Blätter)
Technische Universität Ilmenau, Dissertation 2017

Ein wissenschaftliches Thema, welches in den letzten Jahren in den verschiedensten Bereichen der Forschung große Aufmerksamkeit erlangt hat, ist die Miniaturisierung von elektronischen Geräten insbesondere in den Anwendungsfeldern Kommunikation und Ortung. Die Gesellschaft und der zunehmende Grad der digitalen Industrialisierung fordern immer kleinere und kompaktere Geräte, die die Mobilität mit möglichst geringerem Aufwand ermöglichen. Forschungsgebiete, die eine besondere Kompaktheit von Geräten fordern, umfassen die Lokalisierung/Ortung von Radioemissionen und genauer die Bestimmung dessen Richtungsinformation (Direction of Arrival, kurz DoA). Klassische Anwendungen für die Richtungserkennung sind RADAR-Systeme, Channelsounding, Satellitennavigation oder Sicherheitsanwendungen. Hochauflösende Richtungssuchsysteme bestehen aus einem Empfangsantennenarray, welches für die Erfassung der ausgesendeten Signale und deren Weiterleitung zum DoA-Schätzer verantwortlich ist. Die Miniaturisierung derartiger Systeme erfolgt durch Optimierung der Antennenanordnung bezüglich des eingenommenen Gesamtvolumens. Es gibt zwei mögliche Ansätze zur Antennenminiaturisierung: reduzierte Größe und leichtere individuelle Sensoren oder dichtere Platzierung der Elemente innerhalb des Antennenarrays. Die zweite Lösung impliziert einen Elementabstand, der kleiner als die Hälfte der Freiraumwellenlänge ist. Dies führt zu einer stärkeren gegenseitigen Kopplung in dem Antennenarray und somit nachteilige Effekte, wie zum Beispiel eine Verzerrung der Fernfeldantenneneigenschaften, verringerte Bandbreite und Leistung- sowie Polarisationsdiskrepanz. Diese Arbeit soll zeigen, wie die Beeinträchtigung, die durch starke elektromagnetische Wechselwirkungen zwischen benachbarten Elementen in kompakten Anordnungen entsteht, die Fähigkeiten des Antennenentwurfs für die Richtungsfindung beeinflusst. Es wird eine Lösung zur Entkopplung und Anpassung kompakter Antennenarrays vorgeschlagen, die auf einem Eigenmodenzerlegungsansatz für den Entwurf von Entkopplungs- und Anpassungsnetzwerken (Decoupling and Matching Network, kurz DMN) basiert. Die Vorteile dieses Ansatzes werden in verschiedenen Szenarien für den Anwendungsfall der Richtungsfindung demonstriert. Mit dem Ziel, Antennenarrays für richtungsbezogene Anwendungen zu evaluieren und zu optimieren, wird ein Entwurfsfluss vorgeschlagen, der die Parameter der Antennenkonfiguration mit den Kenngrößer einer DoA-Schätzung verbindet. Obwohl die vorgeschlagene Entkopplungs- und Anpassungstechnik die Leistungsfähigkeit der Richtungsfindung mittels kompakter Anordnungen beträchtlich verbessert, kann die Frequenzbandbreite immer noch ein begrenzender Faktor sein. Diese Dissertation trägt zu diesem Thema bei, indem sie ein Mehrbandantennenarray vorschlägt, dass aus Subarrays besteht, die für verschiedene Frequenzen optimiert sind. Als Ausblick wird ein Breitbandantennenarray aus magnetischen Schleifen in Bezug auf die DoA Schätzgenauigkeit untersucht und mögliche Lösungen für die Anpassung und Entkopplung über eine große Frequenzbandbreite diskutiert.



http://nbn-resolving.de/urn:nbn:de:gbv:ilm1-2017000268
Dressler, Karin;
Automatic transcription of the melody from polyphonic music. - Ilmenau : Universitätsbibliothek, 2017. - 1 Online-Ressource (xiii, 141 Seiten)
Technische Universität Ilmenau, Dissertation 2017

Diese Dissertation befasst sich mit dem Problem der Melodiextraktion aus polyphonem musikalischen Audio. Der vorgestellte Algorithmus umfasst ein "bottom-up"-Design, in dem jedes dieser Module eine abstraktere Darstellung der Audiodaten liefert, was eine effiziente Extraktion der Melodie erlaubt. Allerdings ist der Datenstrom nicht unidirektional - bei verschiedenen Gelegenheiten steuert Feedback von höheren Verarbeitungsmodulen die Verarbeitung von vorangestellten Modulen. Die Spektralanalyse basiert auf einer Technik zur effizienten Berechnung von Kurzzeit-Fourier-Spektren in verschiedenen Zeit-Frequenz-Auflösungen. Der Pitchbestimmungsalgorithmus basiert auf der paarweisen Analyse von spektralen Maxima. Obwohl die Melodieextraktion einen starken Fokus auf die vorherrschende Stimme voraussetzt, zielt das Tonverabeitungsmodul auf eine Extraktion von allen auftretenden Grundfrequenzen (F0) ab. Um die Melodiestimme zu identifizieren, muss die beste Abfolge von Tönen ausgewählt werden. Diese Dissertation beschreibt eine effiziente Methode für die automatische Segregation von sogenannten auditiven Klangströmen. Dabei wird eine variable Anzahl von gleichzeitigen Stimmen verarbeitet. Der vorgestellte Melodieextraktionsalgorithmus wurde im MIREX "audio melody extraction task" evaluiert. Die Resultate zeigen, dass der Algorithmus zum Stand der Technik gehört - es wurde die beste Gesamtgenauigkeit der im Jahr 2014 ausgewerteten Algorithmen erreicht.



http://nbn-resolving.de/urn:nbn:de:gbv:ilm1-2017000136
Klein, Florian; Werner, Stephan; Mayenfels, Thomas
Influences of training on externalization of binaural synthesis in situations of room divergence. - In: Journal of the Audio Engineering Society, ISSN 0004-7554, Bd. 65 (2017), 3, S. 178-187

https://doi.org/10.17743/jaes.2016.0072
Arend, Johannes M.; Neidhardt, Annika; Pörschmann, Christoph
Messung und perzeptive Evaluierung eines sphärischen Satzes von Nahfeld-HRTFs :
Measurement and perceptual evaluation of a spherical near-field HRTF set. - In: Expertise in audio media, ISBN 978-3-9812830-7-5, (2017), S. 356-363

Schultheis, Ruth; Kepplinger, Sara; Hofmeyer, Frank; Hottong, Nikolaus
Exemplary test design and evaluation of an autostereoscopic 3DTV considering display operating parameters. - In: 5th ISCA/DEGA Workshop on Perceptual Quality of Systems (PQS 2016), (2016), S. 137-141

https://doi.org/10.21437/PQS.2016-29
Osypenko, Oleksandra; Lucht, Martina; Kepplinger, Sara
E-learning platform evaluation by using CoALa : lessons learned concerning E-learning support and evaluation. - In: Proceedings of 2016 IEEE Global Engineering Education Conference (EDUCON), (2016), S. 1034-1039

https://doi.org/10.1109/EDUCON.2016.7474680
Brandenburg, Karlheinz; Werner, Stephan; Klein, Florian; Sladeczek, Christoph
Auditory illusion through headphones: history, challenges and new solutions. - In: 22nd International Congress on Acoustics (ICA 2016), (2016), S. 3063-3072

Neidhardt, Annika;
Perception of the reverberation captured in a real room, depending on position and direction. - In: 22nd International Congress on Acoustics (ICA 2016), (2016), S. 3889-3898

Cano, Estefanía; FitzGerald, Derry; Brandenburg, Karlheinz
Evaluation of quality of sound source separation algorithms: human perception vs quantitative metrics. - In: 2016 24th European Signal Processing Conference (EUSIPCO), ISBN 978-0-9928626-5-7, (2016), S. 1758-1762

https://doi.org/10.1109/EUSIPCO.2016.7760550
Neidhardt, Annika; Fiedler, Bernhard; Heinl, Tobias
Auditory perception of the listening position in virtual rooms using static and dynamic binaural synthesis. - In: 140th Audio Engineering Society International Convention 2016, ISBN 978-1-5108-2570-3, (2016), S. 387-394

Sloma, Ulrike;
Evaluation of quality features of spatial audio signals in non-standardized rooms: two mixed method studies. - In: 140th Audio Engineering Society International Convention 2016, ISBN 978-1-5108-2570-3, (2016), S. 273-282

Werner, Stephan; Klein, Florian; Mayenfels, Thomas; Brandenburg, Karlheinz
A summary on acoustic room divergence and its effect on externalization of auditory events. - In: QoMEX 2016, ISBN 978-1-5090-0354-9, (2016), insges. 6 S.

This contribution presents a summary of results from perceptual auditory experiments on context dependent quality parameters for virtual acoustic environments. The investigated quality features are influenced by divergence between synthesized scene and listening room and adaptation on congruence or divergence between the rooms. Two experiments are presented. The results from the first experiment show the room divergence effect on spatial auditory perception. A divergence between the listening room and binaurally synthesized room leads to a decrease of perceived externalization while congruence yields an increase. A more comprehensive statistical analysis regarding significance, effect size and visual influences is added to complement the original publication of this data. The second experiment shows this effect as the result of expectations of the listeners and can be shifted by adaptation and training. In the experiments we show, that training to congruent or divergent room combinations can increase or decrease the room divergence effect.



http://dx.doi.org/10.1109/QoMEX.2016.7498973
Neidhardt, Annika;
Distance perception in virtual auditory environments with a moving avatar. - In: Fortschritte der Akustik, ISBN 978-3-939296-10-2, (2016), S. 1327-1330

Werner, Stephan; Böhme, Martina; Mayenfels, Thomas; Klein, Florian
Variance in measured binaural room transfer functions of individuals. - In: Fortschritte der Akustik, ISBN 978-3-939296-10-2, (2016), S. 83-85

Sloma, Ulrike; Schäfer, Florian
Comparison of evaluation methods for the quality assessment of audio signals. - In: Fortschritte der Akustik, ISBN 978-3-939296-10-2, (2016), S. 893-896

When evaluating audio signals not only the overall audio quality but also the underlaying quality parameters are of high interest. For this purpose relevant quality features, e.g., attribute and vocabulary lists, have been determined by several researchers. When evaluating the quality description of a set of audio signals with a few predefined quality features an appropriate evaluation design has to be found. This study presents a comparison of two evaluation paradigms. On one hand a single-stimulus-with-multiple-attributes method and on the other hand a multi-stimulus-with-single-attribute method were used for evaluation of the same stimuli and quality attributes.



Loos, Alexander;
Face recognition for great apes : identification of primates in real-word-environments. - Ilmenau : Universitätsbibliothek, 2016. - 1 Online-Ressource (xi, 279 Seiten)
Technische Universität Ilmenau, Dissertation 2016

Aufgrund des gegenwärtigen Artensterbens sind viele Spezies, einschließlich Menschenaffen wie Schimpansen und Gorillas, vom Aussterben bedroht. Daher gewinnt die Überwachung der aktuellen Bestände mittels autonomer Aufnahmegeräte zunehmend an Bedeutung. Die manuelle Auswertung solcher Daten ist jedoch extrem mühsam, zeitaufwändig und kostenintensiv. Um der immer größer werdenden Datenflut Herr zu werden, untersucht diese Arbeit ein neues Anwendungsgebiet der Bildverarbeitung und des maschinellen Sehens: Automatische Detektion und Identifikation von Primaten in Bildern und Videos. Basierend auf der Annahme, dass Menschen und unsere nächsten Verwandten ähnliche Charakteristika des Gesichts aufweisen, werden in dieser Arbeit Algorithmen zur Erkennung menschlicher Gesichter erweitert um Schimpansen und Gorillas in ihrem natürlichen Lebensraum zuverlässig identifizieren zu können. Die Dissertation beschreibt und evaluiert ein algorithmisches System bestehend aus Detektion, Ausrichtung und Identifikation von Primatengesichtern in Bildern und Videos. Die vorgeschlagenen Algorithmen sind dabei robust gegenüber verschiedenen Posen, Beleuchtungsbedingungen und partiellen Verdeckungen sowie anderen Faktoren wie sie häufig in realen Anwendungsszenarien auftreten. Die Leistungsfähigkeit, aber auch Grenzen des Systems werden ausführlich anhand von Datensets freilebender und gefangener Schimpansen und Gorillas diskutiert. Mit dem Fokus auf die individuelle Erkennung werden zuerst Algorithmen für eine zuverlässige Erkennung von Primaten in Bildern vorgestellt. Holistische Merkmale sowie lokale Deskriptoren werden mittels einer Entscheidungsfusion kombiniert. Anschließend wird dieser Ansatz auf die Erkennung von Menschenaffen in Videos erweitert. Nach der Detektion und Verfolgung von Gesichtern werden Module zur Qualitätsbeurteilung angewandt, um Frames zu identifizieren, die sich am besten für die folgenden Gesichtserkennungsalgorithmen eignen. Weiterhin wird ein neuartiger Frame-Weighting-Algorithmus beschrieben, welcher basierend auf der Konfidenz des Klassifikators die Resultate mehrerer Frames gewichtet. Des Weiteren werden die entwickelten Algorithmen auf realistischen, von Experten annotierten Bild- und Videodatenbanken, sorgfältig evaluiert. Um die Vorteile des vorgeschlagenen Systems zu demonstrieren, wird es mit anderen dem Stand der Technik entnommenen Algorithmen zur Gesichtserkennung verglichen. Die implementierten Algorithmen wurden in einer prototypischen Anwendung zusammengeführt, welche derzeit von Biologen genutzt wird um Populationsgrößen schneller und genauer schätzen zu können. Daher hat das entwickelte Primate Recognition Framework (PRF) das Potential, den Weg zu effizienteren Monitoringverfahren zu ebnen und damit zukünftig Wissenschaftlern zu helfen, neue innovative Schutzmaßnahmen zu entwickeln.



http://www.db-thueringen.de/servlets/DocumentServlet?id=27246
Klein, Florian; Werner, Stephan
Auditory adaptation to non-individual HRTF cues in binaural audio reproduction. - In: Journal of the Audio Engineering Society, ISSN 0004-7554, Bd. 64 (2016), 1/2, S. 45-54

http://dx.doi.org/10.17743/jaes.2015.0092
Sporer, Thomas; Liebetrau, Judith; Werner, Stephan; Kepplinger, Sara; Gabb, Timo; Siedler, Theresa
Localization of audio objects in multichannel reproduction systems. - In: The future of audio entertainment technology - cinema, television and the internet, ISBN 978-1-5108-0050-2, (2015), Paper 8-1, Seite 142-150

Klein, Florian; Werner, Stephan
Auditory adaptation in spatial listening tasks. - In: 138th Audio Engineering Society convention 2015, (2015), S. 521-530

Werner, Stephan; Klein, Florian; Brandenburg, Karlheinz
Influence of spatial complexity and room acoustic disparity on perception of quality features using a binaural synthesis system. - In: 2015 Seventh International Workshop on Quality of Multimedia Experience (QoMEX), ISBN 978-1-4799-8959-1, (2014), insges. 6 S.

This contribution presents investigations on the influence of scene complexity and room acoustic disparity on the perception of different quality features using a binaural headphone system. The quality features "spatial presence" and "listener envelopment" are investigated next to "perceived externalization" and "localization" of an auditory event. The test uses three different rooms with distinct room acoustic characteristics and several scenes with different spatial complexity. The work addresses the question if the quality features can profit by the different audio scenes or not. The results show that spatial presence is influenced by spatial complexity while room acoustic disparity influences listener envelopment. Furthermore, externalization and localization are not affected by spatial complexity regardless of the personalization method used for binaural synthesis.



http://dx.doi.org/10.1109/QoMEX.2015.7148131
Harczos, Tamás;
Cochlear implant electrode stimulation strategy based on a human auditory model, 2015. - Online-Ressource (PDF-Datei: XXIV, 161 S., 4,27 MB) Ilmenau : Techn. Univ., Diss., 2015

Cochleaimplantate (CI), verbunden mit einer professionellen Rehabilitation, haben mehreren hunderttausenden Hörgeschädigten die verbale Kommunikation wieder ermöglicht. Betrachtet man jedoch die Rehabilitationserfolge, so haben CI-Systeme inzwischen ihre Grenzen erreicht. Die Tatsache, dass die meisten CI-Träger nicht in der Lage sind, Musik zu genießen oder einer Konversation in geräuschvoller Umgebung zu folgen, zeigt, dass es noch Raum für Verbesserungen gibt. Diese Dissertation stellt die neue CI-Signalverarbeitungsstrategie Stimulation based on Auditory Modeling (SAM) vor, die vollständig auf einem Computermodell des menschlichen peripheren Hörsystems beruht. Im Rahmen der vorliegenden Arbeit wurde die SAM Strategie dreifach evaluiert: mit vereinfachten Wahrnehmungsmodellen von CI-Nutzern, mit fünf CI-Nutzern, und mit 27 Normalhörenden mittels eines akustischen Modells der CI-Wahrnehmung. Die Evaluationsergebnisse wurden stets mit Ergebnissen, die durch die Verwendung der Advanced Combination Encoder (ACE) Strategie ermittelt wurden, verglichen. ACE stellt die zurzeit verbreitetste Strategie dar. Erste Simulationen zeigten, dass die Sprachverständlichkeit mit SAM genauso gut wie mit ACE ist. Weiterhin lieferte SAM genauere binaurale Merkmale, was potentiell zu einer Verbesserung der Schallquellenlokalisierungfähigkeit führen kann. Die Simulationen zeigten ebenfalls einen erhöhten Anteil an zeitlichen Pitchinformationen, welche von SAM bereitgestellt wurden. Die Ergebnisse der nachfolgenden Pilotstudie mit fünf CI-Nutzern zeigten mehrere Vorteile von SAM auf. Erstens war eine signifikante Verbesserung der Tonhöhenunterscheidung bei Sinustönen und gesungenen Vokalen zu erkennen. Zweitens bestätigten CI-Nutzer, die kontralateral mit einem Hörgerät versorgt waren, eine natürlicheren Klangeindruck. Als ein sehr bedeutender Vorteil stellte sich drittens heraus, dass sich alle Testpersonen in sehr kurzer Zeit (ca. 10 bis 30 Minuten) an SAM gewöhnen konnten. Dies ist besonders wichtig, da typischerweise Wochen oder Monate nötig sind. Tests mit Normalhörenden lieferten weitere Nachweise für die verbesserte Tonhöhenunterscheidung mit SAM. Obwohl SAM noch keine marktreife Alternative ist, versucht sie den Weg für zukünftige Strategien, die auf Gehörmodellen beruhen, zu ebnen und ist somit ein erfolgversprechender Kandidat für weitere Forschungsarbeiten.



http://www.db-thueringen.de/servlets/DocumentServlet?id=26207
Klein, Florian; Werner, Stephan
Kontextabhängige Parameter bei der Qualitätsbeurteilung binauraler Kopfhörersysteme. - In: Fortschritte der Akustik, (2015), S. 1599-1601

Werner, Stephan; Rekitt, Martin; Klein, Florian
Distribution of quadrant errors in auditory localization using a binaural headphone system. - In: Fortschritte der Akustik, (2015), S. 1094-1096

The auditory system of humans enables the perception of spatial audio in real and virtual acoustics using monaural and binaural cues. The perception of direction and distance are two prominent quality features to evaluate the quality of experience of spatial audio systems. Inaccuracies in perception can occur if physical quality elements of the synthesis system are not adequate. In this study a binaural synthesis via headphones is used to re-synthesize single sound sources on several discrete positions on a full circle around the listener. An artificial head (KEMAR) and a two channel spherical microphone setup are used to measure binaural room impulse responses in a real environment. A listening test is performed to measure the number of quadrant errors and perceived externalization of the auditory events in a localization task. The distributions of its frequencies depending on the direction of the re-synthesized sound source are investigated. The results show a continuous relationship between the investigated quality features and the direction of the sound source. Furthermore, an analysis of the relationship between quadrant errors and externalization depending on direction and used binaural room impulse responses are presented.



Werner, Stephan; Klein, Florian
Influence of context dependent quality parameters on the perception of externalization and direction of an auditory event. - In: Spatial audio, ISBN 978-1-63439-759-9, (2015), S. 305-312

Next to an adequate technical realization of an audio reproduction system, the context of usage plays a major role if a perfect auditory illusion with immersion and plausibility is aspired. This contribution presents results from perceptual experiments on context dependent quality parameters. A binaural synthesis of an acoustic scene via a personalized headphone system is used. The investigated quality parameters are influenced by divergence between synthesized scene and listening room, visibility of the scene, and personalization of the system. The plausibility of the perceived auditory scene is described by the test persons with the help of the quality features perceived externalization and direction of the auditory event. The analysis shows that there are significant differences in perceived externalization depending on the occurrence of localization errors but also on divergence or congruence between the listening and synthesized room.



Sparenberg, Heiko;
Verbesserung der Dateiverarbeitungskette in Betriebssystemen durch Nutzung der Skalierbarkeit moderner Kompressionsverfahren, 2015. - Online-Ressource (PDF-Datei: VI, 158 Bl., 12,87 KB) Ilmenau : Techn. Univ., Diss., 2015

Motiviert durch die aktuellen Herausforderungen im Bereich der computergestützten Bearbeitung vom Multimediadaten, leistet die vorliegende Arbeit einen Beitrag zum Forschungsgebiet der Datenverarbeitung und Dateiverwaltung innerhalb von Computersystemen durch neuartige Verfahren zur Nutzung skalierbarer Medien unter Verwendung vorhandener Datei- und Betriebssysteme. Hierzu werden die Kompressionsformate JPEG 2000 und H.264 SVC vorgestellt und gezeigt, wie die Eigenschaft der Skalierbarkeit innerhalb der verschiedenen Verfahren erreicht wird. Es folgt eine Analyse der limitierenden Hard- und Softwarekomponenten in einem Computersystem für das o.g. Einsatzgebiet. Ausgehend vom hohen Aufwand zur Kompensation der Leistungsengpässe werden anschließend neue Lösungsansätze unter Nutzung skalierbarer Medienformate abgeleitet, die nachfolgend untersucht werden. Die vorliegende Arbeit zeigt hierzu neue Konzepte zur Verwaltung skalierbarer Mediendaten, die durch ein neues Rechtemanagement sowie durch eine speicheradaptive Ablagestrategie abgedeckt werden. Das Rechtemanagement erlaubt die Vergabe von Zugriffsrechten auf verschiedene Abschnitte einer Datei, wodurch die Skalierbarkeit der Medien derart abgebildet werden kann, dass verschiedene Benutzer unterschiedliche Varianten einer Datei angezeigt bekommen. Die speicheradaptive Ablagestrategie erreicht Durchsatzsteigerungen der verwendeten Datenträger, wenn das spätere Zugriffsverhalten auf die gespeicherten Medien vorab bekannt ist. Weiter werden Verbesserungen der Verarbeitungsabläufe unter Ausnutzung skalierbarer Medien gezeigt. Auf Basis der entwickelten Substitutionsmethode zur Kompensation fehlender Daten einer skalierbaren Datei wird eine echtzeitfähige Einlesestrategie vorgestellt, die unzureichende Durchsatzraten von Speichermedien bzw. langsamen Schnittstellen derart kompensieren kann, dass eine unterbrechungsfreie Ausspielung von Bildsequenzen bei einer vorgegebenen Bildwiederholrate gewährleistet werden kann. Angepasste Cache-Strategien ermöglichen eine Steigerung der im Cache vorhaltbaren Einzelbilder im Vergleich zu nicht skalierbaren Varianten. Darüber hinaus wird das Konzept eines parametrisierbaren Dateiaufrufes eingeführt, wodurch mittels Zusatzinformationen im virtuellen Dateinamen eine gewünschte Variante einer skalierbaren Datei vom Datenspeicher angefragt werden kann.



http://www.db-thueringen.de/servlets/DocumentServlet?id=26056
Werner, Stephan; Klein, Florian
Context and plausibility in binaural synthesis. - In: Proceedings of the International Conference on Spatial Audio, ICSA 2014 in Erlangen, Germany, ISBN 978-3-9812830-4-4, (2014), S. 189-192

The development of recording and playback systems is motivated by the goal to create a perfect auditory illusion. In the last decades audio systems like ambisonics, wave field synthesis and binaural headphone reproduction gained in importance. Efforts are made to increase the quality of such systems. Despite the years of research and development, there are still many perceptual effects and psychoacoustical factors which are still unknown or not fully understood. This contribution presents a research project which deals with the systematically analysis of perceptual effects regarding to binaural playback. Based on the results of listening tests a measurement model on the perception of binaural synthesized scenes is developed. For this, a set of quality features needs to be determined and evaluated. These quality features and their weightings can be summarized as plausibility of perception. The plausibility of a binaural auralization does not only depend on physical quality elements of the synthesis system, but also depends significantly on contextual factors. During the project several different auditive scenes are created for evaluation. The contextual factors which influence the quality features are varied. Different rooms for playback and recording are considered as well as variations of the complexity of the acoustical scene, the degree of personalization and the type of visual presentation. Dependencies between these factors are expected and are going to be evaluated. This contribution presents first results of contextual factors influencing quality features.



Sloma, Ulrike;
Multidimensionality and context dependencies in quality evaluation of spatial audio signals. - In: Proceedings of the International Conference on Spatial Audio, ICSA 2014 in Erlangen, Germany, ISBN 978-3-9812830-4-4, (2014), S. 154-158

To authentically reproduce spatial audio signals it is important to know how these signals are perceived and evaluated by the subjects. The quality of the spatial audio signal can be described in overall quality, called the basic audio quality, or can be stripped down into several quality features. In the literature numerous experiments are conducted in which the multi-dimensionality of spatial audio signals is investigated. Results of these experiments are only reliable for the room in which they were performed. In this project the room is assumed as the contextual factor. The perception of the spatial audio signal is context dependent, this is especially important for loudspeaker reproduction. Goal of the research topic is to find consistent quality features and to assign them either to the technical signal or to the context. The second step is to define a standardised method to evaluate the quality features in different contexts and achieve reproducible and reliable results. A first approach is to evaluate quality features known from previous studies and to explore their correlation with the basic audio quality. This will be done in different reproduction rooms with different room characteristics with the use of a 5.0 loudspeaker setup. The project and the structure of the first listening test is described in this contribution.



Werner, Stephan; Liebetrau, Judith
Adjustment of direct-to-reverberant-energy-ratio and the just-noticable-difference. - In: Sixth International Workshop on Quality of Multimedia Experience (QoMEX), 2014, ISBN 978-1-4799-6536-6, (2014), insges. 3 S.

The adjustment of the direct-to-reverberant-energy-ratio (DRR) within a binaural synthesis system is assessed in a listening test. The DRR is changed until the assessors perceive congruence between the synthesized and listening room. The results of the experiment are relevant to apply adaption methods on binaural synthesis to increase plausibility involving context dependent quality parameters like room divergences between the synthesized auditory scene and the listening environment. Furthermore, a discussion is aspired about the relationship between justnoticeable- difference in DRR perception and inter-quartiledistances of the adjusted DRRs.



http://dx.doi.org/10.1109/QoMEX.2014.7138310
Klein, Florian; Werner, Stephan
Perspektiven zur Anwendung der Binauralsynthese in der Medienproduktion. - In: Medienproduktion, ISSN 2193-7699, No. V (2014), Seite 12-14

http://zs.thulb.uni-jena.de/receive/jportal_jpvolume_00202970
Hofmeyer, Frank; Kepplinger, Sara; Leonhardt, Manuel; Hottong, Nikolaus
Model-based prediction towards the limitations of binocular gaze tracking for 3DTV-Applications. - In: IEEE Fourth International Conference on Consumer Electronics - Berlin (ICCE-Berlin), 2014, ISBN 978-1-4799-6166-5, (2014), S. 142-143

This paper presents work towards the development of an accurate binocular eye tracking system. For that to happen, virtual eye tracking data is prepared. This is based on defined suitable parameters considering complex influencing factors from the distinctive use case. This work in progress presentation is concluded by results of an initial study with a prototypical eye tracking system. Here, the prepared virtual eye tracking data is processed instead of real camera recordings. The results show that based on pre-defined parameters the virtual eye tracking data is useful to support the development process towards more precise and accurate binocular eye tracking systems.



http://dx.doi.org/10.1109/ICCE-Berlin.2014.7034241
Kepplinger, Sara;
Linking quality features and quality elements by defining an extended 3DVO quality taxonomy model. - In: Sixth International Workshop on Quality of Multimedia Experience (QoMEX), 2014, ISBN 978-1-4799-6536-6, (2014), S. 41-46

This work presents a proposal for a quality measure that focuses on the user's subjective quality of experience. The challenges are to define factors that influence quality and to link up the quality of experience with the technical realization process. The advantages of interlinking the quality of experience with the quality of service are to profit the technical realization process in order to allow adaptability (e.g., based on used systems at the end users side) as well as scalability (e.g., based on a cost or resources limitation) in a user centered way. The current work outlines a suggestion for user centered quality taxonomy as an interlinking model. The outlined results consist of a systematic definition of quality features defined by the method Open Profiling of Quality. Based on this, a taxonomy model is presented that links up these results with the technical creation processes including a formalized quality measure.



http://dx.doi.org/10.1109/QoMEX.2014.6982285
Weigel, Christian;
Ein Beitrag zur Entwicklung von Methoden zur Stereoanalyse und Bildsynthese im Anwendungskontext der Videokommunikation, 2014. - Online-Ressource (PDF-Datei: IX, 204 S., 2242,92 MB) : Ilmenau, Techn. Univ., Diss., 2014
Parallel als Druckausg. erschienen

Die vorliegende Arbeit leistet einen Beitrag zum Forschungsbereich der Stereoanalyse und Bildsynthese im speziellen Kontext der privaten Videokommunikation. Bei der privaten Videokommunikation geht durch die unterschiedliche Positionierung der Kamera und des Videofensters typischerweise der Blickkontakt zwischen den Kommunikationsteilnehmern verloren. Ziel dieser Arbeit ist die Wiederherstellung des Blickkontaktes mittels der Synthese einer virtuellen Kameraansicht, die in Blickrichtung der Kommunizierenden ausgerichtet ist. Die Arbeit umreißt zunächst den positiven Einfluss des Blickkontaktes in der Videokommunikation. Anschließend wird eine tiefgehende Betrachtung der notwendigen technischen Grundlagen im Bereich Stereoanalyse und Bildsynthese durchgeführt. Aufbauend auf diesen Grundlagen wird der der Stand der Technik im Bereich des bildbasierten Renderings im Allgemeinen sowie der Blickkorrektur mittels 3D-Analyse und -synthese im Speziellen umfassend behandelt. Zunächst wird ein Modell von Qualitätsparametern entwickelt, welches die Entscheidungen hinsichtlich Kameraanordnung und Aufnahmesystem determiniert. Notwendige Messungen hinsichtlich Synchronizität und Datenspeicherung werden präsentiert. Im Bereich der Algorithmen der Stereoanalyse werden etablierte lokale und globale Algorithmen analysiert und adaptiert. Verschiedene Kostenmaße, konsistenzbasiertes Füllen, zeitliche und örtliche Glättung sowie eine abschließende Segmentierung werden hinsichtlich des konkreten Anwendungsfalls der Blickkorrektur in der privaten Videokommunikation entwickelt. Darauf aufbauend werden die beiden Syntheseverfahren des trifokalen Transfers sowie des 3D-Warpings weiter entwickelt. Ein wichtiger Beitrag der Arbeit ist ein konturbasiertes Füllverfahren sowie Maßnahmen im Bereich der Punktglättung. Zwei umfangreiche Experimente mit zahlreichen Probanden bestätigen die Korrektheit der Annahme, dass Blickkontakt durch das vorgestellte Verfahren hergestellt werden kann. Sie demonstrieren sowohl die sehr gute Wahrnehmung des Augenkontaktes als auch die signifikante Verbesserung der Akzeptanz und subjektiven Qualitätswahrnehmung durch die entwickelten Algorithmen im Vergleich zum Ausgangspunkt der Arbeit. Eine qualitativer Vergleich mit dem Stand der Technik und eine Diskussion der Ergebnisse, gepaart mit einem Ausblick in die Zukunft des behandelten Forschungsgebietes, schließen die Arbeit ab.



http://www.db-thueringen.de/servlets/DocumentServlet?id=24703
Brandenburg, Karlheinz; Schneider, Martin; Franck, Andreas; Kellermann, Walter; Brix, Sandra
Intelligent multichannel signal processing for future audio reproduction systems. - In: Sound field control, ISBN 978-1-62993-329-0, (2014), S. 310-319

Kepplinger, Sara; Hottong, Nikolaus
Quality evaluation of stereo 3DTV systems with open profiling of quality. - In: Human vision and electronic imaging XIX, ISBN 978-0-8194-9931-8, (2014), S. 901419, insges. 11 S.

Kepplinger, Sara; Tobian, Denise
Wizard of Oz approach for a 3DVO video communication system. - In: 4th International Workshop on Perceptual Quality of Systems (PQS 2013), (2013), S. 147-150

https://doi.org/10.21437/PQS.2013-28
Kepplinger, Sara; Jauch, Christian; Tobian, Denise
Defining the viewing conditions in the home environment and its influences. - In: 4th International Workshop on Perceptual Quality of Systems (PQS 2013), (2013), S. 7-10

https://doi.org/10.21437/PQS.2013-2
Liebetrau, Judith; Nowak, Johannes; Sporer, Thomas; Krause, Matthias; Rekitt, Martin; Schneider, Sebastian
Paired comparison as a method for measuring emotions. - In: 135th Audio Engineering Society convention 2013, ISBN 978-1-62993-527-0, (2013), S. 168-174

Nowak, Johannes; Liebetrau, Judith; Sporer, Thomas;
On the perception of apparent source width and listener envelopment in wave field synthesis. - In: 2013 Fifth International Workshop on Quality of Multimedia Experience (QoMEX), ISBN 978-1-4799-0738-0, (2013), S. 82-87

For several decades the measurement and technical description of the acoustical quality of a room is under investigation. Early research only dealt with single point measurements and estimated quality parameters for speech and music presentations by using simple models, like the early to late arriving sound energy ratio. Recent research also takes the spatial characteristics of a sound field into account, and a variety of parameters have been developed and investigated. The two most prominent features in concert hall acoustics are the apparent source width (ASW) and the listener envelopment (LEV). ASW describes the perceived width of the sound scene, while LEV is associated with the feeling of being enveloped by sound. However the role of ASW and LEV is still under discussion in the scientific community. In this paper ASW and LEV are investigated in the context of virtual acoustic environments (VAE) using wave field synthesis (WFS) for sound reproduction. The width of the sound source is modeled in different virtual rooms by using multiple closely spaced virtual sound sources. The perceptual parameters ASW and LEV are evaluated in listening tests with a total of 29 listeners. - acoustical quality, wave field synthesis, apparent source width, listener envelopment



http://dx.doi.org/10.1109/QoMEX.2013.6603215
Brandenburg, Karlheinz; Werner, Stephan
Wohlfühlen mit dem richtigen Ton: aktuelle Forschung und Technik. - In: Akustik in Büro und Objekt, (2013), S. 7-24

Kepplinger, Sara; Hofmeyer, Frank; Gründl, Martin
Development of a binocular eye tracking system for quality assessment of S3D representations. - In: 2013 Fifth International Workshop on Quality of Multimedia Experience (QoMEX), ISBN 978-1-4799-0738-0, (2013), S. 124-125

http://dx.doi.org/10.1109/QoMEX.2013.6603222
Kepplinger, Sara; Hofmeyer, Frank; Hottong, Nikolaus
Qualitätsevaluation von Stereo-3DTV-Monitoren mittels "Open Profiling of Quality" (OPQ) - Teil II. - In: FKT, ISSN 1430-9947, Bd. 67 (2013), 12, S. 634-638

Siegel, André;
Comparison of geometrical acoustic simulation methods. - In: AIA-DAGA 2013, ISBN 978-3-939296-05-8, (2013), S. 583-586

Klein, Florian; Werner, Stephan
HRTF adaption under decreased immersive conditions. - In: AIA-DAGA 2013, ISBN 978-3-939296-05-8, (2013), S. 580-582

Werner, Stephan; Sass, Rebecca
Synthesis of binaural room impulse responses. - In: AIA-DAGA 2013, ISBN 978-3-939296-05-8, (2013), S. 572-575

An algorithm is developed which synthesizes binaural room impulse responses (BRIRs) by interpolation between measured data sets. Emphasis is put on the interpolation between distances for different rooms. A linear interpolation in time domain and a time adjustment of the two BRIRs by dynamic time warping prior to interpolation to generate new data sets are used. BRIRs are measured in two rooms for different distances as raw data for the synthesis. For each room an interpolation between data sets of different distances is carried out. The results of the synthesis are evaluated in a listening test. On the basis of perceived distance and externalization the general applicability of the synthesized impulse responses for binaural reproduction is investigated. We can show that there is no significant difference in distance perception between synthesized and measured BRIRs. Furthermore, the test shows that perceived externalization benefits from the amount of reverberation and from congruence between the synthesized and listening room. The positive influence of the congruence between the rooms is minor if the synthesized signals are reverberant but it becomes more dominant if there is less reverberation.



Werner, Stephan; Zabel, Anett
Effects of the Direct-to-Reverberant-Ratio and divergence between synthesized and listening room on perception of virtual acoustic environment. - In: AIA-DAGA 2013, ISBN 978-3-939296-05-8, (2013), S. 566-568

Beyond the correct technical realization of binaural signals and synthesis, perceptional effects depending on congruence and divergence between the synthesized scene and listening situation have a not neglectable influence on perception and plausibility of synthesis. This contribution deals with the perceived externalization and plausibility of virtual acoustic environment at binaural headphone synthesis. Investigations of divergence and congruence between listening room and auralized room are conducted. The Direct-to-Reverberant-energy-Ratio (DRR) as an adjustable parameter of binaural room impulse responses is adapted to evaluate externalization and perceived congruence between the synthesized scene and the listening environment. A clear influence of the listening room on perception of externality is visible in the results of the listening tests.



Werner, Stephan; Liebetrau, Judith
Effects of shaping of binaural room impulse responses on localization. - In: 2013 Fifth International Workshop on Quality of Multimedia Experience (QoMEX), ISBN 978-1-4799-0738-0, (2013), S. 88-93

http://dx.doi.org/10.1109/QoMEX.2013.6603216
Brandenburg, Karlheinz; Faller, Christof; Herre, Jürgen; Johnston, James D.; Kleijn, Willem Bastiaan
Perceptual coding of high-quality digital audio. - In: Proceedings of the IEEE, ISSN 1558-2256, Bd. 101 (2013), 9, S. 1905-1919

http://dx.doi.org/10.1109/JPROC.2013.2263371
Werner, Stephan; Liebetrau, Judith; Sporer, Thomas
Vertical sound source localization influenced by visual stimuli. - In: Signal Processing Research, ISSN 2327-171X, Bd. 2 (2013), 2, S. 29-38

It is well-known that the perception of the position of audio and video stimuli is not independent. In general, video dominates the position if the position offset between audio and video is small. Most previous work focused on natural listening conditions and position offsets between audio and video in the horizontal plane. There is little research concerning offsets in vertical direction and artificial, auralized sound environments. Among different approaches to auralization of spatial audio, the binaural reproduction is especially very interestingas it offers proper perception of direction, distance, and elevation of sound sources at moderate cost. This article addresses the question whether the thresholds of perceptual fusion of audio and video stimuli are the same in binaural reproduction systems and in natural listening conditions. To estimate the influence of audio-visual discrepancy on vertical sound source localization, two experiments have been designed. The test methods were optimized to improve usability and minimize rating errors. Both experiments resulted in psychometric functions of intersensory bias for competing audio and visual stimuli. For binaural reproduction, the obtained results showed an effect of similar magnitude for both the vertical and horizontal plane which is in good agreement with the results obtained from other studies in natural environments.



http://www.db-thueringen.de/servlets/DocumentServlet?id=22564
Strohmeier, Dominik; Kunze, Kristina; Göbel, Klemens; Liebetrau, Judith
Evaluation of differences in quality of experience features for test stimuli of good-only and bad-only overall audiovisual quality. - In: Image quality and system performance X, ISBN 978-0-8194-9426-9, 2013, 86530B, insges. 10 S.

Lagemann, Thomas; Kepplinger, Sara; Seupel, Mara; Tittelbach, Tobias
Evaluierung einer Wahrnehmungsschwelle von Kameratrackingfehlern beim Compositing realer und virtueller S3D-Videos. - In: 15. ITG-Fachtagung für Elektronische Medien (Fernsehseminar), (2013), insges. 6 S.

Dieses Paper präsentiert eine Studie zur Untersuchung der Akzeptanz von Kameratrackingfehlern in stereoskopischen Videosequenzen für den Einsatz in der Stereo-3D (S3D) Fernsehproduktion. Die klassische Betrachtungsweise von Fehlertoleranzen beim Kameratracking ist rein technisch motiviert. Im Zentrum dieser Studie wird deshalb aus zuschauer-zentrierter Sicht die Fragestellung untersucht, ab welcher Ausprägung Trackingfehler in den sechs Freiheitsgraden der extrinsischen Orientierung der Kamera wahrgenommen, beziehungsweise als störend eingeschätzt werden. Dies geschieht unter Anwendung einer Variation der Methode der eben merklichen Unterschiede (Method of Limits). Die Auswertung zeigt, dass Unterschiede zwischen den einzelnen Parametern existieren und dass das subjektive Empfinden von Trackingfehlern weitaus toleranter ist als die harten rechnerischen Grenzen.



https://eldorado.tu-dortmund.de/handle/2003/30049
Jürgens, Frank; Werner, Stephan
Kurven gleicher Lautheit bei binauraler Kopfhörerwiedergabe. - In: Expertise in audio media, ISBN 978-3-9812830-3-7, (2013), S. 630-634

Werner, Stephan; Füg, Simone
Controlled auditory distance perception using binaural headphone reproduction - evaluation via listening tests. - In: Expertise in audio media, ISBN 978-3-9812830-3-7, (2013), S. 622-629

Füg, Simone; Werner, Stephan; Brandenburg, Karlheinz
Gesteuerte Distanzwahrnehmung von Hörereignissen bei binauraler Kopfhörerwiedergabe - Modifizierung gemessener BRIRs. - In: Expertise in audio media, ISBN 978-3-9812830-3-7, (2013), S. 621

Füg, Simone; Werner, Stephan; Brandenburg, Karlheinz
Controlled auditory distance perception using binaural headphone reproduction - algorithms and evaluation. - In: Expertise in audio media, ISBN 978-3-9812830-3-7, (2013), S. 614-620

Klein, Florian; Werner, Stephan; Siegel, André
Influence of base width of a two channel crosstalk canceller on the localization of simulated sound sources. - In: Expertise in audio media, ISBN 978-3-9812830-3-7, (2013), S. 607-613

Werner, Stephan; Sporer, Thomas; Brandenburg, Karlheinz
Untersuchung zur Wahrnehmung der Schalleinfallsrichtung virtueller Schallquellen bei Wiedergabe über Wellenfeldsynthese. - In: Fortschritte der Akustik, (2012), S. 635-636

Brandenburg, Karlheinz;
Audio-Qualität: Hörtests, psychoakustisch motivierte Messverfahren und wie weiter?. - In: Fortschritte der Akustik, (2012), S. 9-10

Nowak, Johannes; Strauß, Michael
Sound field reproduction analysis in a car cabin based on microphone array measurements /. - In: Automotive audio München 2012, ISBN 978-0-937803-88-2, (2012), S. 146-152

Kepplinger, Sara; Hottong, Nikolaus; Hofmeyer, Frank
Qualitätsevaluation von Stereo-3DTV-Monitoren mittels "Open Profiling of Quality". - In: FKT, ISSN 1430-9947, Bd. 66 (2012), 11, S. 588-593

Werner, Stephan; Liebetrau, Judith; Sporer, Thomas
Audio-visual discrepancy and the influence on vertical sound source localization. - In: Fourth International Workshop on Quality of Multimedia Experience (QoMEX), 2012, ISBN 978-1-4673-0724-6, (2012), S. 133-139

http://dx.doi.org/10.1109/QoMEX.2012.6263855
Weigel, Christian; Treutner, Niklas
Establishing eye contact for home video communication using stereo analysis and free viewpoint synthesis. - In: Three-dimensional image processing (3DIP) and applications, ISBN 978-0-8194-8937-1, 2012, 829003, insges. 9 S.

Nowak, Johannes;
On the influence of sampling errors on the perception of spatial sound fields using spherical microphone arrays for auralization. - In: The journal of the Acoustical Society of America, ISSN 1520-8524, Bd. 131 (2012), 4, S. 3208

http://dx.doi.org/10.1121/1.4707960
Kepplinger, Sara;
Linking quality assessment of free-viewpoint video objects up with algorithm development. - In: Image quality and system performance IX, ISBN 978-0-8194-8940-1, 2012, 82930U, insges. 12 S.

Sass, Rebecca; Werner, Stephan; Siegel, André
Comparison of recording methods for measurements of individualized head-related transfer functions. - In: Expertise in audiomedia, (2011), S. 721-726

Franck, Andreas;
Efficient algorithms for arbitrary sample rate conversion with application to wave field synthesis. - Ilmenau : Universitätsverlag Ilmenau, 2011. - Online-Ressource (PDF-Datei: XX, 249 S., 5,41 MB) : Ilmenau, Techn. Univ., Diss., 2011
Enth. außerdem: Thesen

Verfahren zur unbeschränkten Abtastratenwandlung (arbitrary sample rate conversion,ASRC) ermöglichen die Änderung der Abtastrate zeitdiskreter Signale um beliebige, zeitvariante Verhältnisse. ASRC wird in vielen Anwendungen digitaler Signalverarbeitung eingesetzt. In dieser Arbeit wird die Verwendung von ASRC-Verfahren in der Wellenfeldsynthese(WFS), einem Verfahren zur hochqualitativen, räumlich korrekten Audio-Wiedergabe, untersucht. Durch ASRC-Algorithmen kann die Wiedergabequalität bewegter Schallquellen in WFS deutlich verbessert werden. Durch die hohe Zahl der in einem WFS-Wiedergabesystem benötigten simultanen ASRC-Operationen ist eine direkte Anwendung hochwertiger Algorithmen jedoch meist nicht möglich. Zur Lösung dieses Problems werden verschiedene Beiträge vorgestellt. Die Komplexität der WFS-Signalverarbeitung wird durch eine geeignete Partitionierung der ASRC-Algorithmen signifikant reduziert, welche eine effiziente Wiederverwendung von Zwischenergebnissen ermöglicht. Dies erlaubt den Einsatz hochqualitativer Algorithmen zur Abtastratenwandlung mit einer Komplexität, die mit der Anwendung einfacher konventioneller ASRC Algorithmen vergleichbar ist. Dieses Partitionierungsschema stellt jedoch auch zusätzliche Anforderungen an ASRC-Algorithmen und erfordert Abwägungen zwischen Performance-Maßen wie der algorithmischen Komplexität, Speicherbedarf oder -bandbreite. Zur Verbesserung von Algorithmen und Implementierungsstrukturen für ASRC werden verschiedene Maßnahmen vorgeschlagen. Zum Einen werden geschlossene, analytischeBeschreibungen für den kontinuierlichen Frequenzgang verschiedener Klassen von ASRCStrukturen eingeführt. Insbesondere für Lagrange-Interpolatoren, die modifizierte Farrow-Struktur sowie Kombinationen aus Überabtastung und zeitkontinuierlichen Resampling-Funktionen werden kompakte Darstellungen hergeleitet, die sowohl Aufschluss über dasVerhalten dieser Filter geben als auch eine direkte Verwendung in Design-Methoden ermöglichen. Einen zweiten Schwerpunkt bildet das Koeffizientendesign für diese Strukturen, insbesondere zum optimalen Entwurf bezüglich einer gewählten Fehlernorm und optionaler Entwurfsbedingungenund -restriktionen. Im Gegensatz zu bisherigen Ansätzen werden solche optimalen Entwurfsmethoden auch für mehrstufige ASRC-Strukturen, welche ganzzahlige Überabtastung mit zeitkontinuierlichen Resampling-Funktionen verbinden, vorgestellt. Für diese Klasse von Strukturen wird eine Reihe angepasster Resampling-Funktionen vorgeschlagen, welche in Verbindung mit den entwickelten optimalen Entwurfsmethoden signifikante Qualitätssteigerungen ermöglichen. Die Vielzahl von ASRC-Strukturen sowie deren Design-Parameter bildet eine Hauptschwierigkeit bei der Auswahl eines für eine gegebene Anwendung geeigneten Verfahrens. Evaluation und Performance-Vergleiche bilden daher einen dritten Schwerpunkt. Dazu wird zum Einen der Einfluss verschiedener Entwurfsparameter auf die erzielbare Qualität von ASRC-Algorithmen untersucht. Zum Anderen wird der benötigte Aufwand bezüglich verschiedener Performance-Metriken in Abhängigkeit von Design-Qualität dargestellt. Auf diese Weise sind die Ergebnisse dieser Arbeit nicht auf WFS beschränkt, sondern sind in einer Vielzahl von Anwendungen unbeschränkter Abtastratenwandlung nutzbar.



http://www.db-thueringen.de/servlets/DocumentServlet?id=19870
Nowak, Stefanie;
Evaluation methodologies for visual information retrievial and annotation, 2011. - Online-Ressource (PDF-Datei: 231 S., 19,1 MB) : Ilmenau, Techn. Univ., Diss., 2011
Parallel als Druckausg. erschienen

Die automatisierte Evaluation von Informations-Retrieval-Systemen erlaubt Performanz und Qualität der Informationsgewinnung zu bewerten. Bereits in den 60er Jahren wurden erste Methodologien für die system-basierte Evaluation aufgestellt und in den Cranfield Experimenten überprüft. Heutzutage gehören Evaluation, Test und Qualitätsbewertung zu einem aktiven Forschungsfeld mit erfolgreichen Evaluationskampagnen und etablierten Methoden. Evaluationsmethoden fanden zunächst in der Bewertung von Textanalyse-Systemen Anwendung. Mit dem rasanten Voranschreiten der Digitalisierung wurden diese Methoden sukzessive auf die Evaluation von Multimediaanalyse-Systeme übertragen. Dies geschah häufig, ohne die Evaluationsmethoden in Frage zu stellen oder sie an die veränderten Gegebenheiten der Multimediaanalyse anzupassen. Diese Arbeit beschäftigt sich mit der system-basierten Evaluation von Indizierungssystemen für Bildkollektionen. Sie adressiert drei Problemstellungen der Evaluation von Annotationen - Nutzeranforderungen für das Suchen und Verschlagworten von Bildern, Evaluationsmaße für die Qualitätsbewertung von Indizierungssystemen und Anforderungen an die Erstellung visueller Testkollektionen. Am Beispiel der Evaluation automatisierter Photo-Annotationsverfahren werden relevante Konzepte mit Bezug zu Nutzeranforderungen diskutiert, Möglichkeiten zur Erstellung einer zuverlässigen Ground Truth bei geringem Kosten- und Zeitaufwand vorgestellt und Evaluationsmaße zur Qualitätsbewertung eingeführt, analysiert und experimentell verglichen. Traditionelle Maße zur Ermittlung der Performanz werden in vier Dimensionen klassifiziert. Evaluationsmaße vergeben üblicherweise binäre Kosten für korrekte und falsche Annotationen. Diese Annahme steht im Widerspruch zu der Natur von Bildkonzepten. Das gemeinsame Auftreten von Bildkonzepten bestimmt ihren semantischen Zusammenhang und von daher sollten diese auch im Zusammenhang auf ihre Richtigkeit hin überprüft werden. In dieser Arbeit wird aufgezeigt, wie semantische Ähnlichkeiten visueller Konzepte automatisiert abgeschätzt und in den Evaluationsprozess eingebracht werden können. Die Ergebnisse der Arbeit inkludieren ein Nutzermodell für die konzeptbasierte Suche von Bildern, eine vollständig bewertete Testkollektion und neue Evaluationsmaße für die anforderungsgerechte Qualitätsbeurteilung von Bildanalysesystemen.



http://nbn-resolving.de/urn/resolver.pl?urn=urn:nbn:de:gbv:ilm1-2011000499
Werner, Stephan; Klein, Florian; Siegel, André
On the influence of visual feedback on vertical sound source localization. - In: Proceedings of ICSA 2011, ISBN 978-3-9812830-2-0, (2011), S. 523-526

Weigel, Christian; Treutner, Niklas
Flexible openCL accelerated disparity estimation for video communication applications. - In: 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video (3DTV-CON), 2011, ISBN 978-1-61284-161-8, (2011), insges. 4 S.

http://dx.doi.org/10.1109/3DTV.2011.5877207
Kepplinger, Sara; Weigel, Christian
Towards a model to interlink quality of experience with algorithm development. - In: IEEE International Conference on Consumer Electronics - Berlin (ICCE-Berlin), 2011, ISBN 978-1-4577-0234-1, (2011), S. 239-242

http://dx.doi.org/10.1109/ICCE-Berlin.2011.6031858
Strohmeier, Dominik; Jumisko-Pyykkö, Satu; Kunze, Kristina; Oguz Bici, Mehmet
The extended-OPQ method for user-centered quality of experience evaluation: a study for mobile 3D video broadcasting over DVB-H. - In: EURASIP journal on image and video processing, ISSN 1687-5281, 2011, Article ID 538294, insges. 24 S.

http://dx.doi.org/10.1155/2011/538294
Strohmeier, Dominik;
Open profiling of quality: a mixed methods research approach for audiovisual quality evaluations, 2011. - Online-Ressource (PDF-Datei: 171 S., 5299 KB) Ilmenau : Techn. Univ., Diss., 2011

Den Anforderungen der Konsumenten gerecht zu werden und ihnen eine immer besser werdende Quality of Experience zu bieten, ist eine der großen Herausforderungen jeder Neuentwicklung im Bereich der Multimediasysteme. Doch proportional zur technischen Komplexität neuer Systeme, in denen Komponenten unterschiedlicher Technologien zu neuen System wie zum Beispiel mobilem 3D-Fernsehen verschmolzen werden, steigt auch die Frage, wie eine optimierte Quality of Experience eigentlich zu erreichen ist. Daher werden seit langer Zeit Nutzertests zur subjektiven Qualitätsbewertung durchgeführt. Deren Ziel über den gesamten Entwicklungsprozesses ist es, die kritischen Komponenten des Systems mit so wenig wie möglich wahrnehmbarem Einfluss auf die wahrgenommene Qualität des Nutzers zu optimieren. Bereits seit den 1970er Jahren werden hierfür Leitfäden verschiedener Standardisierungsgremien zur Verfügung gestellt, in denen unterschiedliche Evaluationsmethoden definiert sind, um die wahrgenommene Gesamtqualität des Systems mit Hilfe von Skalen quantitativ evaluieren zu können. Aktuelle Ansätze erweitern diese klassische Methoden um Sichtweise, die über die klassische Evaluation hedonistischer Gesamtqualität hinausgehen, um das Wissen über individuell zugrundeliegende Qualitätsfaktoren zu erweitern. Die vorliegende Dissertation verfolgt dabei zwei Ziele. Zum einen soll eine audiovisuelle Evaluationsmethode entwickelt werden, die eine kombinierte Analyse quantitativer und qualitativer Daten ermöglicht, um eine Verknüpfung hedonistischer Qualität und zugrundeliegender Qualitätsfaktoren zu ermöglichen. Weiter soll diese Methode innerhalb des Gebiets der mobiler 3DTV-Systeme erprobt und validiert werden. Open Profiling of Quality (OPQ) als Evaluationsmethode kombiniert quantitative Evaluation wahrgenommener Gesamtqualität und deskriptive, sensorische Analyse zur Erhebung individueller Qualitätsfaktoren. Die Methode ist für Erhebungen mit naiven Probanden geeignet. OPQ wurde unter besonderer Beachtung von Validität und Reliabilität in einem konstruktivem Ansatz entwickelt und in einer Folge von Studien während der Entwicklung eines mobilem 3DTV-Systems mit über 300 Probanden angewendet. Die Ergebnisse dieser Studien unterstreichen die sich ergänzenden Ergebnisse quantitativer und sensorischer Analysen. Neben der Entwicklung von OPQ werden in der vorliegenden Arbeit weitere Ansätze sensorischer Analyse präsentiert und miteinander verglichen. Gerade dieser Vergleich ist ein wichtiger Bestandteil der Validierung der OPQ-Methode. Um die Stärken und Schwächen jeder Methode ganzheitlich erfassen und vergleichen zu können, wurde hierfür ein Methodenvergleichsmodell entwickelt und operationalisiert, das den methodischen Beitrag der Arbeit vervollständigt.



http://www.db-thueringen.de/servlets/DocumentServlet?id=19609
Beer, Daniel;
Untersuchungen zum Einsatz von Flachlautsprechern an schallreflektierenden Grenzflächen, 2011. - Online-Ressource (PDF-Datei: 262 S., 22,9 MB) Ilmenau : Techn. Univ., Diss., 2011

Mehrkanalige Audiowiedergabesysteme und der Trend zu einem immer flacheren Design bei Mediengeräten haben das Interesse an Flachlautsprechern in den letzten 20 Jahren deutlich gesteigert. Mit einer Bautiefe von wenigen Zentimetern sollen diese eine platzsparende, unaufällige Integration im Raum ermöglichen und gleichzeitig die akustischen Eigenschaften eines konventionellen Lautsprechers aufweisen. Bisher eingesetzte Flachlautsprechertechnologien bieten bereits eine Bautiefe von weniger als 10 cm. Allerdings kommt es zu inakzeptablen Klangbeeinträchtigungen, wenn diese platzsparend direkt an der Wand oder in einem flachen Gehäuse betrieben werden. Das Ziel dieser Arbeit bestand daher in der Ermittlung der Ursachen der Klangbeeinträchtigungen und in der Herleitung von Lösungsansätzen. Hierzu wurden die bereits auf dem Markt vorhandenen Flachlautsprechertechnologien analysiert. Beim gehäuselosen Flachlautsprecher führen im wandnahen Betrieb Reflexionen und Interferenzen zwischen den Schallanteilen beider Membranseiten zu einer Verstärkung des akustischen Kurzschlusses und zu kammfilterartigen Amplitudenverläufen. Durch die Verwendung eines Lautsprechergehäuses kann dies verhindert werden. Allerdings beeinflusst das Luftvolumen im Gehäuse das Schwingungsverhalten der Membran wie eine zusätzliche Feder. Je kleiner das Gehäuse ist, desto größer ist die Kraft, die diese Feder der Membranbewegung entgegen setzt. Dies führt zu einem geringeren Schalldruckpegel im Tieftonbereich. Aus diesem Grund wurde eine neue Flachlautsprechertechnologie entwickelt. Die Basis dafür bildet der Einsatz von Miniaturschallwandlern, die in Arrays gruppiert und mit einem Gehäuse versehen werden. Durch die Verwendung von vielen Einzeltreibern kann bei einer geringen Bautiefe genügend Antriebskraft realisiert werden, um der Steifigkeit des Luftvolumens entgegen zu wirken. Die Verteilung der Antriebskraft und die Unterteilung der schallabstrahlenden Fläche in Teilflächen ermöglicht weiterhin ein kolbenförmiges Schwingungsverhalten und eine optimierte Abstrahlcharakteristik. Der entwickelte Flachlautsprecher besitzt die Abmessungen 75 cm, 55 cm, 2;4 cm und überträgt den Frequenzbereich von 100 Hz bis 20 kHz (-6 dB-Grenzfrequenzen) mit einem Kennschalldruckpegel von 88 dB/1W/1m bei direkter Wandmontage. Im Heimbereich kann dieser Flachlautsprecher in Kombination mit einem Subwoofer den konventionellen Lautsprecher ersetzen. Zur Beschallung von Kino- bzw. Konzertsälen ist der Einsatz mehrerer Flachlautsprechern notwendig, um den erforderlichen Schalldruckpegel zu erzielen. Die Ergebnisse der Entwicklung wurden in Form eines Stereo-Setups auf der Internationalen Funkausstellung 2009 in Berlin präsentiert.



http://www.db-thueringen.de/servlets/DocumentServlet?id=19490
Strohmeier, Dominik; Jumisko-Pyykkö, Satu; Eulenberg, Katja
Open profiling of quality: probing the method in the context of use. - In: Third International Workshop on Quality of Multimedia Experience (QoMEX), 2011, ISBN 978-1-4577-1333-0, (2011), S. 7-12

http://dx.doi.org/10.1109/QoMEX.2011.6065717
Kunze, Kristina; Strohmeier, Dominik; Jumisko-Pyykkö, Satu
Comparison of two mixed methods approaches for multimodal quality evaluations: open profiling of quality and conventional profiling. - In: Third International Workshop on Quality of Multimedia Experience (QoMEX), 2011, ISBN 978-1-4577-1333-0, (2011), S. 137-142

http://dx.doi.org/10.1109/QoMEX.2011.6065691
Klein, Florian; Werner, Stephan
Individualization of head-related transfer functions. - In: Fortschritte der Akustik, (2011), S. 375-376

Werner, Stephan; Klein, Florian; Klein, Florian *1986-*; Siegel, André
(Abhängigkeit der binauraler Auralisation über Kopfhörer von den Abhörbedingungen) :
Dependencies of binaural auralization via headphones on listening conditions. - In: Fortschritte der Akustik, (2011), S. 665-666

Sparenberg, Heiko; Schmitt, Alexander; Scheler, Robert; Foessel, Siegfried; Brandenburg, Karlheinz
Virtual file system for scalable media formats : architecture proposal for managing and handling scalable media files. - In: Conference proceedings, ISBN 978-3-00-034864-8, (2011), insges. 5 S.

http://ieeexplore.ieee.org/search/srchabstract.jsp?tp=&arnumber=5936542
Gatzsche, Gabriel; Mehnert, Markus;
Ein Beitrag zur tonraumbasierten Analyse und Synthese musikalischer Audiosignale, 2011. - Online-Ressource (PDF-Datei: 333 S., 3499 KB) : Ilmenau, Techn. Univ., Diss., 2011
Parallel als Druckausg. erschienen

Das Ziel dieser Arbeit besteht darin, Verbesserungen in der Analyse und Synthese von Audiosignalen durch Anwendung von Tonräumen zu erreichen. Im ersten Teil, der die Kapitel 2 bis 6 enthält und von Gabriel Gatzsche verfasst wurde, erfolgt die mathematisch-geometrische Beschreibung der Tonalität auf verschiedenen hierarchischen Ebenen angelehnt an Fred Lerdahls Tonal Pitch Space, David Gatzsches Kadenzkreis und Elaine Chews Spiral Array (Berechnung von geometrischen Schwerpunkten in Tonraummodellen). Mit Hilfe zweier Formeln, der Symmetriemodell-Generatorformel und dem SYM-Operator, wird es möglich, die Entstehung der wichtigsten Hauptebenen der abendländischen Tonalität aus einer Quintreihe zu beschreiben, verschiedene, auf eine Tonart bezogene Modelle zu erzeugen und auf den jeweiligen Symmetrieton zu zentrieren. Damit gelingt es, eine Vielzahl bereits existierender Modelle zu verbinden und in ein einheitliches als Symmetriemodell bezeichnetes Framework zu integrieren. Um auch reale Musiksignale tonraumbasiert analysieren zu können, wird mit dem Summenvektor im kreisförmigen Tonraum ein Feature-Vektor vorgestellt, der wichtige tonale Eigenschaften eines Musiksignals niedrigdimensional repräsentiert. Dazu gehören z.B. funktionstheoretische Eigenschaften, das Tongeschlecht, Spannungs- und Auflösungsbestreben oder auch harmonische Mehrdeutigkeiten. Weiterhin wird der Tonigkeits-Tonhöhenraum eingeführt, der den unterschiedlichen Oktavlagen von Tonigkeiten geometrische Positionen so zuordnet, dass durch Wahl eines Raumauschnittes gut klingende Akkorde erzeugt und durch Transformation des Raumausschnittes "günstig" ineinander übergeblendet werden können. Dies führt zur Entwicklung eines neuartigen Musikinstrumentes, das als HarmonyPad bezeichnet wird. Dieses erlaubt einem Musiker, direkt mit geometrischen Tonräumen zu interagieren und damit Musiksignale zu erzeugen. Markus Mehnert untersucht im zweiten Teil der Arbeit in den Kapiteln 7 bis 12 die Anwendbarkeit des Symmetriemodells auf konkrete Probleme des Music Information Retrieval (MIR). Hier werden sowohl die Tonart- als auch die Akkorderkennung betrachtet. Im Bereich der Tonarterkennung, die sich derzeit auf die Erkennung von Dur- und Molltonarten beschränkt, wird ein neuer Algorithmus vorgestellt, der auf dem Symmetriemodell basiert. Dieser verbessert den Stand der Technik erheblich. Darüber hinaus wird ein vollkommen neuer Ansatz vorgestellt, der die Tonarterkennung auf die sechs gebräuchlichsten Kirchentonarten erweitert, da diese besser als die reine Erkennung von Dur und Moll geeignet sind, den Charakter eines Musikstückes widerzuspiegeln. Zusätzlich wird ein neues Bewertungsmaß eingeführt, das den Vergleich mit zukünftigen Verfahren ermöglicht. Es wird ein für das MIR neues maschinelles Lernverfahren (HMM/KNN) vorgestellt, das die beiden Verfahren Hidden Markov Models und k Nearest Neighbours verknüpft. Im Bereich der Akkorderkennung werden mit diesem neuen Verfahren bessere Ergebnisse als mit allen vorhergehenden Verfahren erzielt. Dabei zeigt sich auch, dass der Merkmalsvektor des Symmetriemodells in Verbindung mit Akkorderkennung signifikant besser ist als der Chromavektor, der den Stand der Technik repräsentiert.



http://www.db-thueringen.de/servlets/DocumentServlet?id=18765
Drumm, Helge;
Interaktive Darstellung von Schatten auf Basis von MPEG-4 Szenenbeschreibungen, 2011. - Online-Ressource (PDF-Datei: 185 S., 23,8 MB) Ilmenau : Techn. Univ., Diss., 2010

In der vorliegenden Arbeit konnte verdeutlicht werden, welche Eigenschaften Schatten haben und aus welchen wahrnehmungspsychologischen Gründen auf deren Verwendung bei interaktiven Darstellungen nicht grundsätzlich verzichtet werden kann. Dabei wurde mit Beispielen belegt, dass Schatten in vielen Fällen zu einer deutlich besseren Wahrnehmung führen. Als ein weiteres Ergebnis dieser Arbeit wurde eine allgemein gültige Methode entwickelt, mit deren Hilfe sich Schattenbeziehungen in Szenengraphen mathematisch ausdrücken lassen. Deren Ergebnis ist die entwickelte Theorie der Schattenrelation. Diese besagt, dass sich mit der Festlegung von Objektbeziehungen zwischen Lichtquellen l, Oberflächen o und Schattenobjekten s in einem Szenengraph als 3-Tupel (l, o, s) eine berechenbare Schattenrelation ergibt. Für die 3-Tupel (l, o, s) einer Schattenrelation wurden Evaluationskriterien definiert und Methoden entwickelt, die es ermöglichen, die Wahrscheinlichkeit der Schattenentstehung durch den Ausschluss von 3-Tupeln zu erhöhen. So lassen sich mit diesen Werkzeugen bereits auf einem sehr niedrigen Abstraktionsniveau Optimierungen durchführen. Der MPEG-4 AFX Standard hat sich für eine normierte Schattenbeschreibung als ein hervorragendes Integrationsumfeld erwiesen. Die MPEG-4 SDL wurde in den Kontext formaler Sprachen eingeordnet. Zur Einbindung der Schattenbeschreibung in die MPEG-4 SDL wurden die bestehenden Randbedingungen untersucht. Mit den vorgestellten mathematischen und sprachlichen Grundlagen wurde eine Syntax und Semantik geschaffen, die sich nahtlos in die existierende SDL eingliedert. Dabei wurden die bestehenden Definitionen weder geändert, noch in irgendeiner Weise negativ beeinflusst. Der Shadow Knoten ermöglicht die Erzeugung von Occludern, Receivern und körperbehafteten Lichtquellen zur Schattendarstellung durch den Autor einer MPEG-4 Szene bei Anwendung der neu entwickelten Schattenbeschreibung. Für die auftretenden Spezialfälle der Semantik wurden attraktive Lösungen gefunden. Trotzdem ist die Schattenbeschreibung für den Autor einer MPEG-4 Szene einfach und flexibel geblieben. Die Anwendung dieser genormten Schattenbeschreibung kann sich positiv auf die Verbreitung des Standards selbst auswirken, da interaktive Darstellungen mit Schatten eine neue Qualität bieten. Die Schattenbeschreibung wurde unabhängig von Berechnungsverfahren definiert. Das hat den Vorteil, dass diese ohne Anpassungsprobleme auf andere szenengraph-basierte 3D-Beschreibungen übertragen werden kann und für künftige Entwicklungen in Hard und Software weit offen ist. Spinnt man den Faden noch weiter, dann kann man feststellen, dass das Prinzip einer Relation auch auf die Beschreibung von Reflexionen übertragen werden könnte, da es sich gleichfalls um Vorgänge handelt, die sich als Objektbeziehungen ausdrücken lassen. Für die Integration in den MPEG-4 AFX Standard müssten dann aber in jedem Fall die dafür bestehenden Randbedingungen erfüllt werden. Auch die Methoden zur Optimierung der dabei verwendeten Tupel würden sich von den hier beschriebenen Verfahren unterscheiden. Die technische Umsetzung der grundlegenden Konzepte konnte erfolgreich durchgeführt werden. Die Darstellung von Schatten im Kontext eines lokalen Beleuchtungsmodells wurde mit der Verwendung von Depth-Shadow Mapping, Per-Pixel Beleuchtung und Per-Pixel Attenuation realisiert. Die exakte Darstellung von diffusen und von spekularen Reflexionen sowie die Verwendung des Wirkungsbereichs von Lichtquellen wurde erreicht. Das entwickelte Multipass-Rendering Verfahren ist in der Lage, die durch den Autor festgelegten Schatteneigenschaften cast und receive für das Depth Shadow Mapping Verfahren zu berücksichtigen. Zum Nachweis der Funktionalität des Attributs penumbra des Shadow Knotens wurde das Verfahren der Jittering Lights mit fünf Samples verwendet. Die damit erreichte Interaktivität war zwar ausreichend, aber nicht wirklich überzeugend. Eine größere Verarbeitungsgeschwindigkeit könnte mit der Single Sample Shadows Methode erreicht werden, da hier nur ein Pass für die Penumbraberechnung ausreicht. Trotzdem wurde die Interaktivität bei moderater Komplexität der Szenen bereits mit gängiger PC-Konsumer-Hardware nachgewiesen. Dazu wurde ein PC mit einer Intel Pentium 4 CPU mit 3.2 GHz und einer GForceFX 5600 Grafikkarte verwendet. Aufgrund der vielen Fragmentoperationen im Texturspeicher hat sich die Bandbreite zur Adressierung des Texturspeichers als ein Schwachpunkt erwiesen. Es ist deshalb darauf zu achten, dass die Grafikkarte zur Adressierung des Texturspeichers möglichst 256 Bit verwendet. Wenn man sich die Frage stellt wo der Trend in der Entwicklung der Grafikhardware für Schattenberechnung hingeht, dann ist denkbar, dass sich spezielle Hardware für interaktives Ray Tracing in den nächsten Jahren durchsetzen kann. Endlich wäre man in der Lage die Attribute für eine physikalisch basierte Lichtausbreitung in die Beschreibung der vorhandenen Tools aufzunehmen. Das Anwendungsfeld für MPEG-4 AFX Szenen bliebe somit nicht nur auf den High-End Bereich beschränkt. Das in dieser Arbeit entwickelte Konzept zur Schattenbeschreibung auf der Basis einer Schattenrelation lässt sich ohne weiteres im Umfeld der zukünftigen Entwicklungen im Bereich des Ray Tracings anwenden. Dabei kann die OpenRT API eine Grundlage zur Implementierung in eine Softwareapplikation bieten. Eine wichtige sprachliche Weiterentwicklung im MPEG-4 Standard ist die derzeit forcierte Standardisierung vieler existierender Knoten in XMT-A und XMT-O. Speziell für die Autorensysteme ist XMT-A und XMT-O im Vergleich zu BIFS, als Austauschformat besser, da es jederzeit für den Autor als Klartext lesbar ist. Die Schattendefinition in Form des Shadow Knotens lässt sich mit nur minimalem Aufwand in XMT integrieren. Wie die Ergebnisse der vorliegenden Arbeit belegen, konnten wichtige noch offene Punkte in der Beschreibung von Schatten mit allgemein gültigen Ansätzen gelöst werden. Die Standardisierung des Shadow Knotens im MPEG-4 AFX Standard ist demnächst abgeschlossen. Mit großer Spannung bleibt abzuwarten, wie stark die Resonanz darauf sein wird.



http://www.db-thueringen.de/servlets/DocumentServlet?id=18671
Maggi, Johannes; Siegel, André; Werner, Stephan;
Crosstalk-canceler for stereophonic setup in real rooms :
Übersprechkompensation stereophoner Anordnungen in realen Räumen. - In: Expertise in audiomedia, (2011), S. 727-732

Die meisten derzeitigen binauralen Wiedergabesysteme werden mit Kopfhörern realisiert. Dabei können aber Phänomene wie eine Im-Kopf-Lokalisation und eine Vorne-Hinten-Konfusion auftreten und der Entfernungseindruck kann verloren gehen. Aus diesen Gründen wurde die Wiedergabe mit Lautsprechern in einer Stereoanordnung untersucht. Das Wiedergabesystem wurde als statisch angenommen, d.h. zusätzlich zur Stereoanordnung sind die Abhörposition und die horizontale und vertikale Ausrichtung des Kopfes bekannt. Bei einer normalen Stereowiedergabe kommt es zu einem Übersprechen zwischen dem linken Lautsprecher und rechten Ohr und umgekehrt. Deshalb wurde ein Übersprechkompensator realisiert und im Wiedergabesystem implementiert. Zusätzlich zur Realisierung der Übersprechkompensation werden die Einflüsse des Mess- und Wiedergaberaumes kompensiert. Um sich von früheren Untersuchungen zu unterscheiden, wird die Wiedergabe nicht unter Freifeld- sondern unter Diffusfeldbedingungen durchgeführt.



Neukam, Christian; Siegel, André; Werner, Stephan;
Kompensation nicht optimaler Stereoanordnungen für die Wiedergabe von stereophonen/binauralen Signalen :
Compensation of non-optimal stereo setups for the sound reproduction of stereophonic/binaural signals. - In: Expertise in audiomedia, (2011), S. 715-720

If sound reproductions are carried out by only two loudspeakers, the stereophonic experience is limited to a small area. The illusion of an artificial stereo width collapses outside this area so that the correct localisation of a phantom source isn't possible anymore. Hence it is necessary to locate the errors caused by such a non-optimal stereo setup and thereon to develop a system which compensates these errors. In this paper appropriate technologies to adapt the so called sweet spot to the current listener's position are introduced. The designed system is formed by a 2-D vector field including FIR filter technology for equalizing the loudspeaker's transfer function. Finally, the obtained conclusion is evaluated by an analysis based on the results of an accomplished measurement.



Gotchev, Atanas; Akar, Gozde Bozdagi; Capin, Tolga; Strohmeier, Dominik; Boev, Atanas
Three-dimensional media for mobile devices. - In: Proceedings of the IEEE, ISSN 1558-2256, Bd. 99 (2011), 4, S. 708-741

http://dx.doi.org/10.1109/JPROC.2010.2103290
Kallenbach, Jan; Birthaelmer, Melita; Graeber, Sebastian; Strohmeier, Dominik; Ravaja, Niklas
Toward shaping the learning experience: an experiment on affective mobile learning. - In: Proceedings of the IADIS International Conference Mobile Learning 2010, ISBN 978-972-8924-99-7, (2010), S. 3-10

Klein, Florian; Kruspe, Anna; Pfitzer, Martin; Werner, Stephan; Brandenburg, Karlheinz
Interaktiver audiovisueller Demonstrator psychoakustischer Phänomene. - In: Fortschritte der Akustik, (2010), S. 183-184

Jumisko-Pyykkö, Satu; Utriainen, Timo; Strohmeier, Dominik; Boev, Atanas; Kunze, Kristina
Simulator sickness - five experiments using autostereoscopic mid-sized or small mobile screens. - In: 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video (3DTV-CON), 2010, ISBN 978-1-4244-6377-0, (2010), insges. 4 S.

http://dx.doi.org/10.1109/3DTV.2010.5506401
Strohmeier, Dominik; Tech, Gerhard
Sharp, bright, three-dimensional: open profiling of quality for mobile 3DTV coding methods. - In: Multimedia on mobile devices 2010, ISBN 978-0-8194-7935-8, 2010, 75420T, insges. 12 S.

Strohmeier, Dominik; Jumisko-Pyykkö, Satu; Kunze, Kristina
Open profiling of quality: a mixed method approach to understanding multimodal quality perception. - In: Advances in multimedia, ISSN 1687-5699, 2010, Article ID 658980, insges. 28 S.

http://dx.doi.org/10.1155/2010/658980
Strohmeier, Dominik; Jumisko-Pyykkö, Satu; Reiter, Ulrich
Profiling experienced quality factors of audiovisual 3D perception. - In: Second International Workshop on Quality of Multimedia Experience (QoMEX), 2010, (2010), S. 70-75

http://dx.doi.org/10.1109/QOMEX.2010.5518028
Jumisko-Pyykkö, Satu; Strohmeier, Dominik; Utriainen, Timo; Kunze, Kristina
Descriptive quality of experience for mobile 3D video. - In: Proceedings of the 6th Nordic Conference on Human-Computer Interaction, (2010), S. 266-275

http://dx.doi.org/10.1145/1868914.1868947
Kirchner, Piero;
Multiplex-System für digitale Datenströme in multimedialen Anwendungen
1. Aufl.. - Hamburg : New-Business-Verl., 2010. - XI, 159 S.. - (New-Business-Edition) Zugl.: Ilmenau : Techn. Univ., Diss., 2009

Durch den zunehmenden Ausbau des digitalen Fernsehens erwachsen neue Anforderungen an die eingesetzte Verteil-Infrastruktur sowie an die Mess- und Prüftechnik. Deshalb behandelt die vorliegende Arbeit ein neuartiges Konzept für Kabelkopfstellen als multimediale Knotenpunkte der in Deutschland weit verbreiteten Kabelnetze. Das Konzept beinhaltet universelle Softwarealgorithmen zur Verarbeitung von Datenströmen sowie ein Hardwarekonzept auf Basis moderner Netzwerk- und Bustechnologien. Ein weiterer Aspekt ist die Bedienung derzeitiger und zukünftiger multimedialer Knotenpunkte. Ausgangspunkt der Arbeit ist die Einführung in die Struktur des digitalen Fernsehens, der Kabelkopfstellen und der aktuellen Netzwerktechnologien. Diese werden dabei im Zusammenhang betrachtet. Dem Aspekt der Bearbeitung von Datenströmen unter Laborbedingungen trägt das vorgestellte Konzept der DVB-Toolbox Rechnung.Basierend darauf wird ein neues, zum Patent angemeldetes Konzept für zukünftige digitale Kopfstellen abgeleitet. Diese werden dabei aus Sicht der Netzwerktechnologien als multimediale Knotenpunkte betrachtet. Mit diesem Konzept findet eine Verschmelzung von Netzwerk- und Fernsehtechnologie statt. Für die neuartige digitale Kopfstelle wird gleichzeitig ein aus zwei Teilen bestehendes Softwarekonzept erarbeitet. Die erste Komponente ist für die interne Bearbeitung und teuerung der in den Kopfstellen zu erwartenden Datenströme verantwortlich. Sie ermöglicht einen einfachen Zugang zum Datenstromund ist an neue Anforderungen leicht anpassbar. Konzeptionell ist diese Komponente so gestaltet, dass sie auf unterschiedlichsten Plattformen zum Einsatz kommen kann. Teil zwei des Softwarekonzeptes erörtert die Möglichkeiten der Steuerbarkeit und der automatischen Strukturerkennung des Gesamtsystems. Um einen Nachweis über die Leistungsfähigkeit der vorgestellten Hard- und Softwarekonzepte zu erbringen, wurden ein skalierbarer Transportstrommultiplexer und eine DVB-S Transportstromquelle konzipiert und aufgebaut. Die Hard- und Software eines modularen skalierbaren Transportstrommultiplexers wird beschrieben. Herzstück des Gerätes ist ein miniaturisierter C, als Betriebssystem kommt LINUX zum Einsatz. Die Aufbereitung und Weiterleitung der Transportströme übernehmen ergänzende Baugruppen, die Verarbeitung und Analyse erfolgt weitestgehend im PC.



http://www.gbv.de/dms/ilmenau/toc/618337164.PDF
Fingerhut, Christoph; Kühhirt, Uwe
Authoring of platform independent interactive mobile broadcasting services. - In: Third International Conference on Next Generation Mobile Applications, Services and Technologies, 2009, ISBN 978-0-7695-3786-3, (2009), S. 153-157

http://dx.doi.org/10.1109/NGMAST.2009.94
Dunker, Peter; Paduschek, Ronny
Multimodal fingerprinting for repository cleansing. - In: 10. Workshop Digital Broadcasting / Brandenburg, Karlheinz *1954-*. - Stuttgart : Fraunhofer-Verl., 2009, (2009), S. 167-170

Weigel, Christian; Schwarz, Sebastian; Korn, Torsten; Wallebohr, Martin
Interactive 3D video for multimedia applications - concepts and system. - In: Information technology and electrical engineering - devices and systems, materials and technologies for the future, (2009), insges. 5 S.

http://www.db-thueringen.de/servlets/DocumentServlet?id=14383
Schneider, Sebastian; Raschke, Florian; Gatzsche, Gabriel; Strohmeier, Dominik
Free choice profiling and natural grouping as methods for the assessment of emotions in musical audio signals. - In: 126th Audio Engineering Society convention 2009, (2009), S. 1508-1519

Mehnert, Markus; Gatzsche, Gabriel; Gatzsche, Gabriel *1979-*; Arndt, Daniel;
Symmetry model based key finding. - In: 126th Audio Engineering Society convention 2009, (2009), S. 1318-1322

Franck, Andreas; Brandenburg, Karlheinz
An overall optimization method for arbitrary sample rate converters based on integer rate SRC and lagrange interpolation. - In: IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2009, WASPAA '09, 18 - 21 Oct. 2009, Mohonk Mountain House, New Paltz, NY, USA, ISBN 978-1-4244-3678-1, (2009), S. 301-304

http://dx.doi.org/10.1109/ASPAA.2009.5346472
Stein, Michael; Schubert, Benjamin M.; Gruhne, Matthias; Gatzsche, Gabriel; Mehnert, Markus
Evaluation and comparison of audio chroma feature extraction methods. - In: 126th Audio Engineering Society convention 2009, (2009), S. 324-332

Weigel, Christian; Schwarz, Sebastian; Korn, Torsten; Wallebohr, Martin
Interactive free viewpoint video from multiple stereo. - In: 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video, 2009, ISBN 978-1-4244-4317-8, (2009), insges. 4 S.

http://dx.doi.org/10.1109/3DTV.2009.5069663
Brandenburg, Karlheinz; Brix, Sandra; Sporer, Thomas
Wave field synthesis. - In: 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video, 2009, ISBN 978-1-4244-4317-8, (2009), insges. 4 S.

http://dx.doi.org/10.1109/3DTV.2009.5069680
Reiter, Ulrich;
Bimodal audiovisual perception in interactive application systems of moderate complexity, 2009. - Online-Ressource (PDF-Datei: X, 284 S., 15,99 MB) Ilmenau : Techn. Univ., Diss., 2009

Die vorliegende Dissertation beschäftigt sich mit Aspekten der Qualitätswahrnehmung von interaktiven audiovisuellen Anwendungssystemen moderater Komplexität, wie sie z.B. durch den MPEG-4 Standard definiert sind. Die Frage, welche Faktoren Einfluss auf die wahrgenommene Qualität von audiovisuellen Anwendungssystemen haben ist entscheidend dafür, wie die nur begrenzt zur Verfügung stehende Rechenleistung für die Echtzeit-Simulation von 3D Szenen und deren Darbietung sinnvoll verteilt werden soll. Während Qualitätsfaktoren für unimodale auditive als auch visuelle Stimuli seit langem bekannt sind und entsprechende Modelle existieren, müssen diese für die bimodale audiovisuelle Wahrnehmung noch hergeleitet werden. Dabei ist bekannt, dass eine Wechselwirkung zwischen auditiver und visueller Qualität besteht, nicht jedoch, wie die Mechanismen menschlicher audiovisueller Wahrnehmung genau arbeiten. Es wird auch angenommen, dass der Faktor Interaktion einen wesentlichen Einfluss auf wahrgenommene Qualität hat.Das Ziel dieser Arbeit war, ein System für die zeitsparende und weitgehend automatisierte Durchführung von subjektiven audiovisuellen Wahrnehmungstests im gegebenen Kontext zu erstellen und es für einige exemplarische Experimente einzusetzen, welche erste Aussagen über audiovisuelleWechselwirkungen und den Einfluss von Interaktion auf die Wahrnehmung erlauben sollten. Demzufolge gliederte sich die Arbeit in drei Aufgabenbereiche: die Erstellung eines geeigneten Testsystems auf der Grundlage eines vorhandenen, jedoch in seiner Audiofunktionalität noch eingeschränkten MPEG-4 Players, das Sicherstellen von Vergleichbarkeit und Wiederholbarkeit von audiovisuellen Wahrnehmungstests durch definierte Testmethoden und -bedingungen, und die eigentliche Durchführung der aufeinander abgestimmten Experimente mit anschlieender Auswertung und Interpretation der gewonnenen Daten. Dazu wurde eine objektbasierte, modulare Audio-Engine mitentworfen und -implementiert, welche basierend auf den Möglichkeiten der MPEG-4 Szenenbeschreibung alle Fähigkeiten zur Echtzeitberechnung von Raumakustik bietet. Innerhalb des entwickelten Testsystems kommuniziert der MPEG-4 Player mit einem hardwaregestützten Benutzerinterface zur Eingabe der Qualitätsbewertungen durch die Testpersonen. Sämtliche relevanten Ereignisse, die während einer Testsession auftreten, können mit Hilfe eines Logging-Tools aufgezeichnet und für die weitere Datenanalyse mit Statistikprogrammen exportiert werden.



http://www.db-thueringen.de/servlets/DocumentServlet?id=14098
Brandenburg, Karlheinz
10. Workshop Digital Broadcasting : September 16 - 17, 2009 ; Proceedings. - Stuttgart : Fraunhofer-Verl., 2009. - 170 S. ISBN 978-3-8396-0054-2

Strohmeier, Dominik; Weigel, Christian
Individualisierung durch Interaktion : die Zukunft des 3DTV. - In: Individualisierte Nutzung der Medien, (2009), S. 19-37

https://nbn-resolving.org/urn:nbn:de:gbv:ilm1-2009100077-p019-3
Brandenburg, Karlheinz; Dittmar, Christian; Gruhne, Matthias; Abeßer, Jakob; Lukashevich, Hanna; Dunker, Peter; Gärtner, Daniel; Wolter, Kay; Nowak, Stefanie; Grossmann, Holger
Music search and recommendation. - In: Handbook of multimedia for digital entertainment and arts, (2009), S. 349-384

Rose, Matthias; Brandenburg, Karlheinz;
Digital infotainment. - In: Technology guide, (2009), S. 238-239

Franck, Andreas; Brandenburg, Karlheinz;
A closed-form description for the continuous frequency response of Lagrange interpolators. - In: IEEE signal processing letters, ISSN 1558-2361, Bd. 16 (2009), 7, S. 612-615

https://doi.org/10.1109/LSP.2009.2020475
Gotchev, Atanas; Smolic, Aljoscha; Jumisko-Pyykkö, Satu; Strohmeier, Dominik; Akar, Gozde Bozdagi; Merkle, Philipp; Daskalov, Nikolai
Mobile 3D television: development of core technological elements and user-centered evaluation methods toward an optimized system. - In: Multimedia on mobile devices 2009, ISBN 978-0-8194-7506-0, 2009, 72560J, insges. 16 S.

Strohmeier, Dominik; Weitzel, Mandy; Jumisko-Pyykkö, Satu
Use scenarios: mobile 3D television and video. - In: Multimedia on mobile devices 2009, ISBN 978-0-8194-7506-0, 2009, 72560L, insges. 16 S.

Neuhaus, Holger;
Ein semantisches Konzept für die Abbildung von low-level Analyseergebnissen auf high-level Szenenbeschreibungen :
A semantic concept for the mapping of low-level analysis data to high-level scene descriptions, 2008. - Online-Ressource (PDF-Datei: 143 S., 1161 KB) : Ilmenau, Techn. Univ., Diss., 2008

Zusammen mit dem wachsenden Bedarf an Sicherheit wird eine zunehmende Menge an Überwachungsinhalten geschaffen. Um eine schnelle und zuverlässige Suche in den Aufnahmen hunderter oder tausender in einer einzelnen Einrichtung installierten Überwachungssensoren zu ermöglichen, ist die Indizierung dieses Inhalts im Voraus unentbehrlich. Zu diesem Zweck ermöglicht das Konzept des Smart Indexing & Retrieval (SIR) durch die Erzeugung von high-level Metadaten kosteneffizientes Suchen. Da es immer schwieriger wird, diese Daten manuell mit annehmbarem Zeit- und Kostenaufwand zu generieren, muss die Erzeugung dieser Metadaten auf Basis von low-level Analysedaten automatisch erfolgen. Während bisherige Ansätze stark domänenabhängig sind, wird in dieser Arbeit ein generisches Konzept für die Abbildung der Ergebnisse von lowlevel Analysedaten auf semantische Szenenbeschreibungen präsentiert. Die konstituierenden Elemente dieses Ansatzes und die ihnen zugrunde liegenden Begriffe werden vorgestellt, und eine Einführung in ihre Anwendung wird gegeben. Der Hauptbeitrag des präsentierten Ansatzes sind dessen Allgemeingültigkeit und die frühe Stufe, auf der der Schritt von der low-level auf die high-level Repräsentation vorgenommen wird. Dieses Schließen in der Metadatendomäne wird in kleinen Zeitfenstern durchgeführt, während das Schließen auf komplexeren Szenen in der semantischen Domäne ausgeführt wird. Durch die Verwendung dieses Ansatzes ist sogar eine unbeaufsichtigte Selbstbewertung der Analyseergebnisse möglich.



http://www.db-thueringen.de/servlets/DocumentServlet?id=11692
Blau, Kurt; Mehnert, Markus
Active DVB-T antenna: evaluation of noise figure and gain with far field measurements. - In: IEEE International Symposium on Consumer Electronics, 2008, ISBN 978-1-4244-2422-1, (2008), insges. 4 S.

http://dx.doi.org/10.1109/ISCE.2008.4559422
Gatzsche, Gabriel; Mehnert, Markus; Arndt, Daniel; Brandenburg, Karlheinz
Circular pitch space based musical tonality analysis. - In: 124th Audio Engineering Society convention 2008, (2008), S. 734-745

Mehnert, Markus; Gatzsche, Gabriel; Arndt, Daniel; Brandenburg, Karlheinz
Circular pitch space based harmonic change detection. - In: 124th Audio Engineering Society convention 2008, (2008), S. 725-733

Jumisko-Pyykkö, Satu; Weitzel, Mandy; Strohmeier, Dominik
Designing for user experience: what to expect from mobile 3D TV and video?. - In: 1st International Conference on Designing Interactive User Experiences for TV and Video 2008, ISBN 978-1-617-38011-2, (2008), S. 183-192

Uhle, Christian;
Automatisierte Extraktion rhythmischer Merkmale zur Anwendung in Music-Information Retrieval-Systemen, 2008. - Online-Ressource (PDF-Datei: 145 S., 2873 KB) : Ilmenau, Techn. Univ., Diss., 2008
Parallel als Druckausg. erschienen

Das Thema dieser Dissertation ist die Extraktion von Merkmalen, die rhythmische Eigenschaften von Audiosignalen beschreiben. Diese Merkmale sind für die Anwendung in Music Information Retrieval (MIR)-Systemen ausgewählt. Obwohl in der Vergangenheit an der Extraktion rhythmischer Merkmale wie zum Beispiel Tempo und Taktart in großem Umfang gearbeitet wurde, erreichen aktuelle Verfahren nicht die Erkennungsleistung eines geübten Zuhörers. Eine der Ursache dafür wird in der Auswertung von Informationen auf unterschiedlichen Abstraktionsebenen beim Menschen vermutet, eine weitere bei der Berücksichtigung von \mbox{musikalischem} Vorwissen. Der hier beschriebene Ansatz orientiert sich an diesen Analysemechanismen. Zur Identifikation von geeigneten Merkmalen und relevanten Aspekten der menschlichen Verarbeitung der Schallsignale werden Grundlagen aus Musiktheorie, Psychoakustik und Kognitionswissenschaft erklärt. Bekannte Verfahren zur Extraktion rhythmischer Merkmale werden in einer ausführlichen Darstellung des Standes der Technik anschließend erläutert. Der Hauptteil der Arbeit enthält eine Zusammenstellung von Verfahren des maschinellen Hörens, die Informationen auf unterschiedlichen Abstraktionsebenen auswerten. Eine kompakte Darstellung der metrischen Struktur wird zur Ermittlung der metrischen Merkmale vorgestellt. Da einerseits die Auswertung von Low-level-Merkmalen die Anwendung von musikalischem Vorwissen nur in geringen Maß ermöglicht, und andererseits die Informationen auf höheren Abstraktionsebenen durch ihre Fehlerhaftigkeit die Erkennungsleistung in verschiedenen Situationen einschränken können, werden die Ergebnisse der verschiedenen Verfahren in Abhängigkeit ihrer Konfidenzmaße zu einem Gesamtergebnis zusammengefasst. Die Extraktion von rhythmischen Merkmalen aus den Informationen maschinell detektierter perkussiver Instrumente stellt einen Fortschritt im Vergleich zu bekannten Arbeiten dar. Eine Segmentierung in charakteristische Abschnitte des Audiosignals, die zum Beispiel Strophe oder Refrain repräsentieren, wird als Vorverarbeitungsschritt zur Analyse vorgestellt und die dadurch erreichte signifikante Verbesserung der Erkennungsleistung nachgewiesen. Die Leistungsfähigkeit der Verfahren wird anhand eines umfangreichen Testdatensatzes evaluiert und die Eignung der extrahierten Merkmale in einem MIR-System untersucht.



http://www.db-thueringen.de/servlets/DocumentServlet?id=10855
Kühhirt, Uwe;
Authoring objektbasierter AV-Anwendungen, 2008. - Online-Ressource (PDF-Datei: X, 160 S., 6,35 MB) : Ilmenau, Techn. Univ., Diss., 2008

Die vorliegende Dissertation beschäftigt sich mit dem Authoring-Prozess objektbasierter AV-Anwendungen auf Basis des Objekt- und Szenenkonzeptes von MPEG-4. Diese moderne Beschreibungsform vereint die interaktiven Nutzungsmöglichkeiten digitaler Medien mit den Distributionsmöglichkeiten audiovisueller Medien. Die Umsetzung des Objekt- und Szenenkonzeptes hat tief greifende Auswirkungen auf die gesamte digitale Medienkette. Die Schaffung leistungsfähiger Autorensysteme ist eine wichtige Voraussetzung für die Verbreitung solcher Anwendungen. Das Ziel der Arbeit war die Entwicklung von Konzepten und Komponenten für ein Autorensystem mit Unterstützung eines auf mehrere Autoren verteilten Authoring-Prozesses. Authoring-Formate speichern alle anfallenden Informationen zur Beschreibung einer objektbasierten AV-Anwendung. Es wurden Authoring-Formate entwickelt, welche an die Anforderungen konkreter Anwendungen hinsichtlich Abstraktionsebene und Funktionsumfang angepasst sind. Autorenwerkzeuge sind die Schnittstellen des Autorensystems zu den Autoren. Im Fokus stehen grafisch-interaktive Werkzeuge zur Unterstützung eines intuitiven Arbeitens während des Authoring-Prozesses. Der Authoring-Server ist die technische Grundlage des Autorensystems für die verteilte Erstellung objektbasierter AV-Anwendungen. Er verwaltet alle anfallenden Daten und stellt diese den Autoren unter Berücksichtigung ihrer individuellen Berechtigungen zur Verfügung. Der Authoring-Server bildet die Schnittstelle zwischen den Produzenten der Medienobjekte und den Autoren. Er ermöglicht eine Wiederverwendung von Szenen und Szenenelementen über Produktionsgrenzen hinweg. Der Authoring-Server erlaubt es Autoren und auch Medienproduzenten, gemeinsam an der Erstellung einer AV-Anwendung zu arbeiten. Dafür wurde ein flexibles Datenmanagement auf Basis einer XML-Datenbank entworfen. Die entwickelten Konzepte orientieren sich an den Möglichkeiten von MPEG-4, sind aber auch auf andere multimediale Anwendungen übertragbar, die auf einem Szenengraphen beruhen. Auf dieser Basis können sowohl universell einsetzbare als auch spezialisierte Autorensysteme und Werkzeuge realisiert werden. Mehrere exemplarische Umsetzungen belegen die Funktionsfähigkeit der entwickelten Komponenten.



http://www.db-thueringen.de/servlets/DerivateServlet/Derivate-14561/ilm1-2008000059.pdf
Strohmeier, Dominik; Jumisko-Pyykkö, Satu
How does my 3D video sound like? - impact of loudspeaker set-ups on audiovisual quality on mid-sized autostereoscopic display. - In: 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video, ISBN 978-1-4244-1760-5, (2008), S. 73-76

http://dx.doi.org/10.1109/3DTV.2008.4547811
Weigel, Christian; Fan, FeiFei
GPU-based 3D video object synthesis and its quality assessment. - In: 3DTV-Conference: The True Vision - Capture, Transmission and Display of 3D Video, ISBN 978-1-4244-1760-5, (2008), S. 121-124

http://dx.doi.org/10.1109/3DTV.2008.4547823
Ley, Nicolas; Weigel, Christian
GPU-based background illumination correction for blue screen matting. - In: Proceedings, (2007), S. 1912-1915

Weigel, Christian; Schübel, Peter
Trifocal transfer on commodity graphics hardware. - In: Proceedings, (2007), S. 1686-1690

Brandenburg, Karlheinz;
Immersion, Interaktion und künstliche Intelligenz. - In: 100 Produkte der Zukunft, (2007), S. 115

Cao, Shi; Reiter, Ulrich; Weitzel, Mandy
Influence of interaction on perceived quality in audio visual applications: subjective assessment with n-back working memory task. - In: AES 30th International Conference on Intelligent Audio Environments 2007, (2007), S. 26-34

Reiter, Ulrich; Jumisko-Pyykkö, Satu
Watch, press, and catch - impact of divided attention on requirements of audiovisual quality. - In: Human-computer interaction, (2007), S. 943-952

http://dx.doi.org/10.1007/978-3-540-73110-8_104
Alatan, A. Aydin; Yemez, Yücel; Güdükbay, Ugur; Zabulis, Xenophon; Müller, Karsten; Erdem, Cigdem Eroglu; Weigel, Christian; Smoliâc, Aljoscha
Scene representation technologies for 3DTV - a survey. - In: IEEE transactions on circuits and systems for video technology, ISSN 1558-2205, Bd. 17 (2007), 11, S. 1587-1605

http://dx.doi.org/10.1109/TCSVT.2007.909974
Korn, Thomas; Kunze, Kristina; Liebetrau, Judith; Mank, Christoph; Marquard, Daniel; Matheja, Timo; Mauer, Stephan; Mayenfels, Thomas; Möller, Robert; Schnabel, Michael-Andreas
Localization in spatial audio - from wave field synthesis to 22.2. - In: 123rd Audio Engineering Society convention 2007, (2007), S. 564-572

Jumisko-Pyykkö, Satu; Reiter, Ulrich; Weigel, Christian
Produced quality is not perceived quality - a qualitative approach to overall audiovisual quality. - In: 3DTV Conference, 2007, ISBN 978-1-4244-0722-4, (2007), insges. 4 S.

http://dx.doi.org/10.1109/3DTV.2007.4379445
Ley, Nicholas; Weigel, Christian;
Ein GPU-Framework für die Echtzeit-Videoverarbeitung bei TV-Broadcastanwendungen. - In: Elektronische Medien, (2007), S. 193-195

Weigel, Christian; Werner, Stefan; Schübel, Peter
A real-time image-based rendering framework. - In: 3DTV Conference, 2007, ISBN 978-1-4244-0722-4, (2007), insges. 4 S.

http://dx.doi.org/10.1109/3DTV.2007.4379432
Ley, Nicolas; Weigel, Christian; Mehnert, Markus
GPU-based background illumination correction for blue screen matting. - In: IEEE International Symposium on Consumer Electronics, 2007, ISBN 978-1-4244-1109-2, (2007), insges. 5 S.

http://dx.doi.org/10.1109/ISCE.2007.4382150
Mehnert, Markus; Schön, Eckhardt
Interactive DMB system - field trial. - In: IEEE International Symposium on Consumer Electronics, 2007, ISBN 978-1-4244-1109-2, (2007), insges. 6 S.

http://dx.doi.org/10.1109/ISCE.2007.4382233
Reiter, Ulrich; Kühhirt, Uwe
Object-based A/V application systems: IAVAS I3D status and overview. - In: IEEE International Symposium on Consumer Electronics, 2007, ISBN 978-1-4244-1109-2, (2007), insges. 6 S.

http://dx.doi.org/10.1109/ISCE.2007.4382192
Geiger, Ralf;
Audio coding based on integer transforms, 2007. - Online-Ressource (PDF-Datei: 132 S., 595 KB) : Ilmenau, Techn. Univ., Diss., 2007
Enth. außerdem: Thesen

Die Audiocodierung hat sich in den letzten Jahren zu einem sehr populären Forschungs- und Anwendungsgebiet entwickelt. Insbesondere gehörangepasste Verfahren zur Audiocodierung, wie etwa MPEG-1 Layer-3 (MP3) oder MPEG-2 Advanced Audio Coding (AAC), werden häufig zur effizienten Speicherung und Übertragung von Audiosignalen verwendet. Für professionelle Anwendungen, wie etwa die Archivierung und Übertragung im Studiobereich, ist hingegen eher eine verlustlose Audiocodierung angebracht. Die bisherigen Ansätze für gehörangepasste und verlustlose Audiocodierung sind technisch völlig verschieden. Moderne gehörangepasste Audiocoder basieren meist auf Filterbänken, wie etwa der überlappenden orthogonalen Transformation "Modifizierte Diskrete Cosinus-Transformation" (MDCT). Verlustlose Audiocoder hingegen verwenden meist prädiktive Codierung zur Redundanzreduktion. Nur wenige Ansätze zur transformationsbasierten verlustlosen Audiocodierung wurden bisher versucht. Diese Arbeit präsentiert einen neuen Ansatz hierzu, der das Lifting-Schema auf die in der gehörangepassten Audiocodierung verwendeten überlappenden Transformationen anwendet. Dies ermöglicht eine invertierbare Integer-Approximation der ursprünglichen Transformation, z.B. die IntMDCT als Integer-Approximation der MDCT. Die selbe Technik kann auch für Filterbänke mit niedriger Systemverzögerung angewandt werden. Weiterhin ermöglichen ein neuer, mehrdimensionaler Lifting-Ansatz und eine Technik zur Spektralformung von Quantisierungsfehlern eine Verbesserung der Approximation der ursprünglichen Transformation. Basierend auf diesen neuen Integer-Transformationen werden in dieser Arbeit neue Verfahren zur Audiocodierung vorgestellt. Die Verfahren umfassen verlustlose Audiocodierung, eine skalierbare verlustlose Erweiterung eines gehörangepassten Audiocoders und einen integrierten Ansatz zur fein skalierbaren gehörangepassten und verlustlosen Audiocodierung. Schließlich wird mit Hilfe der Integer-Transformationen ein neuer Ansatz zur unhörbaren Einbettung von Daten mit hohen Datenraten in unkomprimierte Audiosignale vorgestellt.



http://www.db-thueringen.de/servlets/DerivateServlet/Derivate-13817/ilm1-2007000278.pdf
Brandenburg, Karlheinz; Grossmann, Holger
"Spiel mir meine Lieblingsmusik" - Musikempfehlung zwischen Signalverarbeitung und Web 2.0. - In: Mensch & Computer 2007, (2007), S. 5-8

Reiter, Ulrich; Partzsch, Andreas; Weitzel, Mandy
Modifications of the MPEG-4 AABIFS perceptual approach: assessed for the use with interactive audio-visual application systems. - In: The future of audio technology - surround and beyond, (2007), S. 110-117

Reiter, Ulrich;
Subjective assessment of the optimum number of loudspeaker channels in audio-visual applications using large screens. - In: The future of audio technology - surround and beyond, (2007), S. 102-109

Reiter, Ulrich; Partzsch, Andreas
Multi core/multi thread processing in object based real time audio rendering: approaches and solutions for an optimization problem. - In: 122nd Audio Engineering Society Convention 2007, (2007), S. 391-400

Reiter, Ulrich; Weitzel, Mandy
Influence of interaction on perceived quality in audio visual applications: subjective assessment with n-back working memory task, II. - In: 122nd Audio Engineering Society Convention 2007, (2007), S. 294-303

Reiter, Ulrich;
TANGA - an interactive object-based real time audio engine. - In: Audio Mostly 2007, ISBN 978-3-00-022823-0, (2007), S. 104-109

Mehnert, Markus; Brandenburg, Karlheinz; Gerhäuser, Heinz
8. Workshop Digitaler Rundfunk : 13. + 14. September 2007, TU Ilmenau ; [Tagungsband]. - Ilmenau : Techn. Univ., 2007. - Getr. Zählung [ca. 300 S.] ISBN 978-3-8167-7443-3

Rittermann, Marco;
Zur Qualitätsbeurteilung von 3D-Videoobjekten. - Ilmenau : Univ.-Bibliothek, 2007. - Online-Ressource (PDF-Datei: 144 S., 5140 KB) : Ilmenau, Techn. Univ., Diss., 2007
Parallel als Druckausg. erschienen

Die vorliegende Dissertation beschäftigt sich mit der Qualitätsbewertung von natürlichen dreidimensionalen Videoobjekten. Dieser neuartige Medienobjekttyp erlaubt die Betrachtung von natürlichen Objekten (z. B. einer Person) aus verschiedenen Perspektiven, die im Idealfall frei wählbar sind. Zunächst werden in dieser Arbeit die Verfahren zur objektiven und subjektiven Qualitätsbewertung von konventionellem Bewegtbild untersucht und systematisiert. Ebenso werden die vielfältigen Verfahren zur Generierung von 3D-Videoobjekten analysiert. Diese bilden ein großes Spektrum von bild- bis hin zu modellbasierten Verfahren. Auf der Grundlage dieser Analyse erfolgt eine Begriffsbestimmung und die Beschreibung eines Modells der 3D-Videoobjektgenerierung, welches für sämtliche Generierungsverfahren gültig ist. Um die Qualität von 3D-Videoobjekten zu untersuchen, wird zunächst die Referenzfrage gelöst. Als Referenzen für zu bewertende 3D-Videoobjekte dienen ausreichend gute 3D-Videoobjekte, welche denselben Inhalt darstellen. Im Weiteren werden die speziellen Qualitätsaspekte von 3D-Videoobjekten aufgezeigt, u. a. Größenfehler, Okklusionen, Epipolarverzerrungen, Kompressionsartefakte und Blickwinkelfehler. Verschiedene Verfahren wie beispielsweise das hierarchische Block-Matching und die eindimensionale DFT dienen dazu, diese Merkmale mittels mathematischer Modelle zu beschreiben. Die wichtigste Einschränkung bei der Auswahl und der Anwendung dieser Methoden ist es, dass a priori kein Bildpunktbezug vorausgesetzt werden kann. Die Merkmalsmodelle umfassen auch die dynamischen Eigenschaften, welche sowohl zeit- als auch blickpunktsänderungsabhängig sein können. Im Anschluss wird die Entwicklung von 3D-Videoobjektqualitätsmerkmalen auf Basis der mathematischen Merkmalsmodelle beschrieben. Diese Qualitätsparameter stellen einen Bezug zur visuellen Wahrnehmung der Qualitätsaspekte und Störungen dar. Es wird eine Methodik zur Bildung eines 3D-Videoobjektqualitätsmaßes 3DVQM auf Basis dieser Qualitätsparameter vorgestellt. Die Bestimmung der Gewichtungskoeffizienten erfolgt sukzessive mit Hilfe erweiterter subjektiver Bewertungsverfahren. Zum Schluss wird die vorgeschlagene Methodik exemplarisch für eine Testreihe durchgeführt. In der Auswertung werden die Möglichkeiten der objektiven Bewertung zur Prädiktion der subjektiven Qualitätsbewertung dargelegt.



http://nbn-resolving.de/urn:nbn:de:gbv:ilm1-2007000052
Reiter, Ulrich;
TANGA updated - a modular framework for real time audio rendering of object-based (MPEG-4) audio visual scenes. - In: Information technology and electrical engineering - devices and systems, materials and technologies for the future, (2006), insges. 13 S.

http://www.db-thueringen.de/servlets/DocumentServlet?id=13066
Weigel, Christian;
Towards a 3D-TV system on the basis of image-based rendering methods. - In: Information technology and electrical engineering - devices and systems, materials and technologies for the future, (2006), insges. 4 S.

http://www.db-thueringen.de/servlets/DocumentServlet?id=13070
Reiter, Ulrich; Steglich, Beatrix
Sound source obstruction in an interactive 3dimensional MPEG-4 environment. - In: 120th convention spring papers 2006, (2006), S. 2219-2226

Exner, Markus; Großmann, Sebastian; Reiter, Ulrich; Strohmeier, Dominik
Observations on bimodal audio visual subjective assessments of a virtual 3D scene. - In: 120th convention spring papers 2006, (2006), S. 1588-1595

Mehnert, Markus; Droste, Dorothea Freiin; Schiel, Daniel
VHDL implementation of a (255,191) Reed Solomon coder for DVB-H. - In: 2006 IEEE Tenth International Symposium on Consumer Electronics, 2006, ISCE '06, ISBN 978-1-4244-0216-8, (2006), insges. 5 S.

http://dx.doi.org/10.1109/ISCE.2006.1689531
Nützel, Jürgen; Kubek, Mario
A mobile peer-to-peer application for distributed recommendation and re-sale of music. - In: Second International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution, 2006, (2006), S. 93-98

http://dx.doi.org/10.1109/AXMEDIS.2006.7
Brandenburg, Karlheinz;
Digital entertainment: media technologies for the future. - In: Second International Conference on Automated Production of Cross Media Content for Multi-Channel Distribution, 2006, (2006), S. 4-5

http://dx.doi.org/10.1109/AXMEDIS.2006.23
Brandenburg, Karlheinz;
Digital entertainment: media technologies for the future. - In: 7th Workshop Digital Broadcasting, (2006), S. 31-32

Heinz, Thorsten;
Ein physiologisch gehörgerechtes Verfahren zur automatisierten Melodietranskription, 2006. - Online-Ressource (PDF-Datei: 155 S., 7594 KB) : Ilmenau, Techn. Univ., Diss., 2006
Parallel als Druckausg. erschienen

Das Thema dieser Dissertation ist die Implementierung eines Verfahrens zur automatisierten Transkription von Musik. Die Fähigkeit des Menschen, insbesondere die von musikalischen Experten, bezüglich der Wahrnehmung musikalischer Inhalte kann von aktuellen technischen Systemen bei weitem nicht reproduziert werden. Einen plausiblen Ansatz, um diese Lücke für Anwendungen der automatisierten Musikanalyse zu schliessen, stellt die Verwendung perzeptuell motivierter Strategien dar. Die vorliegende Arbeit wendet daher konsequent grundlegende Verarbeitungsmechanismen der menschlichen auditorischen Peripherie sowie kognitiv höher angesiedelter Gehirnzentren an. In einer ausfürlichen Darstellung des Standes der Technik werden die aktuellen Algorithmen zur Bestimmung der Grundfrequenzen und zur Segmentierung musikalischer Phrasen sowie deren Anwendung in monophonen und polyphonen Melodietranskriptionssystemen erläutert. Nach der Beschreibung der fundamentalen physiologischen Komponenten der auditorischen Peripherie und Prinzipien der Gestaltpsychologie werden die in dieser Arbeit verwendeten Modelle der teilweise aktiven Schallvorverarbeitung des Innenohres erläutert. Im Bereich der auditiven Weiterverarbeitung werden Prozesse der Frequenzwahrnehmung sowie ein auf gestaltbasierenden Annahmen aufgebautes eigenes Hierarchiemodell eingeführt. Neben der Aufstellung dieses Hierarchiemodells besteht der Kernpunkt der Arbeit in der Implementierung der ausgewählten Modelle bezüglich monophoner und polyphoner Transkriptionsstrategien. Gehörgerechte Pitchextraktion, psychoakustisch motivierte Segmentierung und musiktheoretisch untermauerte Nachbearbeitung bilden die Basis einstimmiger Analyse. Die Untersuchung von Partialtoninterferenzen, polyphonen Pitchhypothesen und Ansätzen zur Oktaverkennung sollen als Grundlage weiterführender Arbeiten im mehrstimmigen Anwendungsfall aufgefasst werden. Die Arbeit schliesst mit der Evaluierung des Verfahrens anhand der Diskussion einer Anzahl verschiedener Testreihen im Umfeld eines Metadaten-Suchsystems. Die erhaltenen Ergebnisse verdeutlichen das (auch kommerzielle) Anwendungspotential der vorgestellten Methode.



http://www.db-thueringen.de/servlets/DocumentServlet?id=6117
Bastianova-Klett, Fanny;
Entwicklung einer nutzerorientierten Benutzungsschnittstelle zur Förderung und Flexibilisierung von individualisierten Lernprozessen im virtuellen Lernraum. - Ilmenau : Wiss.-Verl. Thüringen, 2006. - XI, 144 S. Zugl.: Ilmenau : Techn. Univ., Diss., 2006
ISBN 3936404178

Die aktuelle Forschung im Bereich technologiebasierten Lernens ist stark von Internet-Entwicklungen dominiert. Neben Web-Based Learning als ein zeitgemäßer Ansatz für die virtuelle Lehre erscheinen in jüngster Zeit integrierte Lernplattformen, genannt auch virtuelle Lernräume, als eine konsequente Weiterentwicklung. Eine neue Tendenz für die virtuelle Lehre betrifft das mobile Lernen, dessen Hauptmerkmal die allgemeine Verfügbarkeit ist. Es entstehen komplexe Bedingungen, welche die Ansprüche an Orts- und Zeitunabhängigkeit, Flexibilisierung des Zugangs zu digitaler Information, Dezentralisierung der Informationsbereitstellung sowie Personalisierung des Lernprozesses widerspiegeln. Die vorliegende Dissertation ist in den Bereich internetbasierter Bildungstechnologien einzuordnen. Sie stellt Richtlinien zum Entwurf und zur Umsetzung technologischer Modelle für die virtuelle Lehre vor, die sich auf individuelle Nutzerunterschiede hinsichtlich Benutzungsstrategien, Selbststeuerung und Lernverwaltung beziehen. Nach einer Beleuchtung des konzeptionellen Hintergrunds und des Stands der Technik sowie aufkommender Tendenzen im bildungstechnologischen Bereich beschreibt diese Dissertation die Konzeption, Implementierung und Evaluation des virtuellen Lernraums Educational Media. Eine kurze Gesamtanalyse sowie ein Ausblick auf geplante zukünftige Entwicklungen runden die Betrachtungen ab. Die technische Realisierung des nach nutzerorientierten Gesichtspunkten entwickelten Systems beruht auf dem Mehrkomponentenprinzip. Die Client-Server-Anwendung wird unter Anwendung des HTTP-basierten Ansatzes umgesetzt. Das Systemmodell der Grundkomponente Lernumgebung erfasst das komplexe Zusammenwirken konzeptueller Aspekte bezüglich Interaktions- und Navigationsstrategie, Zugang zur multimedialen Basis, Datenorganisation und die Abbildung dieser Elemente auf der Benutzungsschnittstelle. Das System bewirkt eine durchgängige Trennung von Inhalt, Präsentation und Systemlogik. Der im Rahmen dieser Dissertation realisierte Ansatz stellt einen wesentlichen Beitrag zur Förderung und Flexibilisierung von Lernaktivitäten in Lehr-/Lernsystemen dar. Er ermöglicht einen effektiven Zugang zu Information in hypermedialer Tiefe und in multiplen Dimensionen (Raum, Zeit, verteiltes Wissen) sowie eine zweckmäßige Informationsdarstellung unter Nutzung multipler Repräsentationen.



Weigel, Christian; Rittermann, Marco
3D video objects at scalable levels of quality. - In: 13. European Signal Processing Conference, (2005), insges. 4 S.

In this paper we present an approach for the generation and coding of 3D video objects where the quality is scalable in a definable manner. At first a production chain for the generation and display of 3D video objects based on image based rendering (IBR) methods is described. Starting with this specific generation chain, issues of applying a scalable coding framework for 3D video objects are discussed. By developing a common model of generation a theoretical approach is introduced and basic experiments are presented. For the comparison and the validation of the proposed methodology a quality metric (3DVQM) is utilized and explained further.



Brandenburg, Karlheinz; Schuller, Gerald
Komprimierung. - In: Taschenbuch der Medieninformatik, (2005), S. 57-77

Frock, Christian; Weißleder, Horst
Störaus- und Einstrahlungsunterschiede bei CATV-Anlagen. - In: 6. Workshop: Digitaler Rundfunk, ISBN 978-3-8167-6933-0, (2005), insges. 7 S.

Weißleder, Horst; Brandenburg, Karlheinz
6. Workshop: Digitaler Rundfunk : 22.- 23. September 05. - Ilmenau : Techn. Univ., 2005. - Getr. Zählung [ca. 300 S.] ISBN 3816769330 = 978-3-8167-6933-0

Brandenburg, Karlheinz;
Wellenfeldsynthese und universelles Authoring auditiver Szenen für die Medienproduktion der Zukunft. - In: Jeder Content auf jedem Display, (2005), insges. 1 S.

Reiter, Ulrich; Holzhauser, S.
An input device for subjective assessments of bimodal audio visual perception. - In: Proceedings of the Ninth International Symposium on Consumer Electronics, ISCE 2005, (2005), S. 296-300

Reiter, Ulrich; Kohler, T.
Criteria for the subjective assessment of bimodal perception in interactive AV application systems. - In: Proceedings of the Ninth International Symposium on Consumer Electronics, ISCE 2005, (2005), S. 186-192

Brandenburg, Karlheinz; Brix, Sandra; Sporer, Thomas
Wave field synthesis: from research to applications. - In: Proceedings, (2004), S. 1369-1376

Klett, Fanny;
The impact of user-centered design concepts in virtual environments. - In: Proceedings of the Fifth International Conference on Information Technology Based Higher Education and Training, 2004, ITHET 2004, (2004), S. 222-226

http://dx.doi.org/10.1109/ITHET.2004.1358167
Brandenburg, Karlheinz; Köhler, H.
Klangfeldsynthese - Revolution in der Audiowiedergabe. - In: Trendbarometer Technik, (2004), S. 44-45

Brandenburg, Karlheinz; Brix, Sandra; Sporer, Thomas
Wave field synthesis: new possibilities for large-scale immersive sound reinforcement. - In: Acoustical science and technology for quality of life, (2004), insges. 2 S.

Reiter, Ulrich; Körner, Fabian; Kootz, Michael; Rüffer, Stefan
A room acoustics design tool for MPEG-4 conforming scene design. - In: Proceedings, (2004), S. 49-54

Reiter, Ulrich; Schwark, Mathias
A plug-in based audio rendering concept for an MPEG-4 audio subset. - In: Proceedings, (2004), S. 55-60

Dantele, Andreas; Reiter, Ulrich
Description of audiovisual virtual 3D scenes: MPEG-4 perceptual parameters in the auditory domain. - In: Proceedings, (2004), S. 87-90

Dantele, Andreas; Schuldt, Michael; Reiter, Ulrich
Audio aspects when using MPEG-4 in an interactive virtual 3D scenery. - In: Multichannel audio - the new reality, (2003), S. 335-337

Reiter, Ulrich; Schuldt, Michael; Dantele, Andreas
Determination of sound source obstruction in virtual scenes. - In: Multichannel audio - the new reality, (2003), S. 201-206

Brandenburg, Karlheinz;
Urheberrecht und Technik: Konflikt oder Ergänzung?. - In: Musik hat ihren Wert, (2003), S. 366-373

Brandenburg, Karlheinz;
Introduction to perceptual coding of audio signals. - In: Fortschritte der Akustik, (2003), S. 245

Rittermann, Marco;
Videoobjekte für immersives TV. - In: Elektronische Medien, (2003), S. 171-176

Rittermann, Marco; Kühhirt, Uwe
Implementierung des Objekt- und 3D-Szenenkonzeptes von MPEG-4. - In: Proceedings and our portrait, (2003), insges. 8 S.

Rittermann, Marco; Schuldt, Michael
2D- und 3D-Videoobjekte in 3D-Szenen. - In: Proceedings and our portrait, (2003), insges. 8 S.

Neubauer, Christian; Herre, Jürgen; Herre, Jürgen *1962-*; Brandenburg, Karlheinz;
Sicherheitstechnologien für den elektronischen Musikvertrieb. - In: Handbuch der Musikwirtschaft, (2003), S. 144-154

Rittermann, Marco; Schuldt, Michael
3D television production based on MPEG-4 principles. - In: WSCG '2003, The 11-th International Conference in Central Europe on Computer Graphics, Visualization and Computer Vision 2003, University of West Bohemia, Plzen, Czech Republic, February 3. - 7., 2003, (2003), S. 121-124

Brandenburg, Karlheinz; Weißleder, Horst
4. Workshop "Digitaler Rundfunk" : 25.- 26. September 2003, TU Ilmenau. - Ilmenau : Techn. Univ., 2003. - Getr. Zählung
Geiger, Ralf; Herre, Jürgen; Koller, Jürgen; Brandenburg, Karlheinz
IntMDCT - a link between perceptual and lossless audio coding. - In: 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing, (2002), S. II-1813-II-1816

https://doi.org/10.1109/ICASSP.2002.5744976
Kühhirt, Uwe;
Anwendungssysteme für MPEG-4. - In: Informationstechnologie - Chance für Film und Fernsehen?, (2002), S. 235-246

Neubauer, Christian; Pickel, Jörg; Brandenburg, Karlheinz
Aspekte des Rechtemanagements für digitale Güter. - In: Bericht, (2002), insges. 12 S.

Jacques, Roland; Fleischer, Maria; Fuhrmann, Stefan; Steglich, Beatrix; Reiter, Ulrich; Kutschbach, Haymo
Empirischer Vergleich von Mikrofonierungsverfahren für 5.0 Surround. - In: Bericht, (2002), insges. 35 S.

Brandenburg, Karlheinz;
Audio coding and electronic distribution of music. - In: Proceedings, (2002), S. 3-5

Bieske, Björn; Weißleder, Horst;
Systemdesign von Funkmodulen : Simulationen und Messungen. - In: ANALOG 2002, (2002), S. 209-214

Brandenburg, Karlheinz;
Grundlagen und Standards der Audiocodierung. - In: Handbuch für die Telekommunikation, (2002), Kap. 1, S. 190-197

Klett, Fanny;
Design, interaction and flexibility in virtual learning environments. - In: IEEE International Symposium on Consumer Electronics, 2002, S. A1-A5

Kühhirt, Uwe; Jäger, Rudolf; Knorr, Michael; Rittermann, Marco; Weigel, Christian
Interactive data services in a digital video broadcasting environment. - In: IEEE International Symposium on Consumer Electronics, 2002, S. C25-C32

Weißleder, Horst; Mehnert, Markus
2002 IEEE International Symposium on Consumer Electronics : 23 - 26 September 2002, SAS Radisson Hotel Erfurt, Germany : first time in Europe ; [ISCE 2002 ; proceedings]. - Berlin : Theuberger ISBN 3910159486
Als Veranstaltungsdatum auch 24. - 26. September 2002 genannt

Brandenburg, Karlheinz;
Why we still need perceptual codecs. - In: Audio for information appliances, (2001)

Piontek, Markus; Ihne, Carl Wilhelm; Krech, Jacqueline; Schade, Hans-Peter; Rittermann, Marco; Locke, Klaus-Dieter
Probleme in filmischer Gestaltung bei Filmproduktionen in virtuellen Studios mit Bilderkennung. - In: 46. Internationales Wissenschaftliches Kolloquium, (2001), insges. 4 S.

Reiter, Ulrich; Melchior, Frank; Seidel, Christoph
Automatisierte Anpassung der Akustik an virtuelle Räume. - In: 46. Internationales Wissenschaftliches Kolloquium, (2001), insges. 4 S.

Drumm, Helge; Rittermann, Marco
Authoring und Visualisierung von animierten Szenen auf Basis realer und synthetischer Objekte. - In: 46. Internationales Wissenschaftliches Kolloquium, (2001), S. 30

Rittermann, Marco; Kühhirt, Uwe; Stein, Sandy; Brandenburg, Karlheinz; Schade, Hans-Peter
Orientierungssystem für Produktionen im virtuellen Studio. - In: 46. Internationales Wissenschaftliches Kolloquium, (2001), insges. 7 S.

Klett, Fanny;
Probleme des User Interface bei Online-Lernanwendungen. - In: Tagungsband, (2001), S. 41-44

Brandenburg, Karlheinz; Herre, Jürgen;
Quellencodierung von Audiosignalen in Hifi-Qualität : Stand der Technik und Entwicklungen. - In: FKT, ISSN 1430-9947, Bd. 55 (2001), 6, S. 379-383

Drumm, Helge; Rittermann, Marco
Authoring und Visualisierung von animierten Szenen auf Basis realer und synthetischer Objekte. - In: Multimedia, (2001), S. 226-227

Rittermann, Marco; Kühhirt, Uwe; Stein, Sandy; Brandenburg, Karlheinz; Schade, Hans-Peter
Orientierungssystem für Produktionen im virtuellen Studio. - In: Multimedia, (2001), S. 219-220

Piontek, Markus; Ihne, Carl Wilhelm; Krech, Jacqueline; Schade, Hans-Peter; Rittermann, Marco; Locke, Klaus-Dieter
Probleme in filmischer Gestaltung bei Filmproduktionen in virtuellen Studios mit Bilderkennung. - In: Multimedia, (2001), S. 217-218

Reiter, Ulrich; Melchior, Frank; Seidel, Chistoph
Automatisierte Anpassung der Akustik an virtuelle Räume. - In: Multimedia, (2001), S. 199-200

Weißleder, Horst
Analoger und digitaler Rundfunk im Kabelnetz : Studie zur Einspeisung von analogem und digitalem Hörfunk und Fernsehen ins Kabelnetz. - Berlin : Vistas, 2001. - 103 S. - (Schriftenreihe der MSA ; 4) ISBN 3-89158-317-6

Brandenburg, Karlheinz;
Encoding considerations for MP3 and MPEG-2/MPEG-4 advanced audio coding. - In: The journal of the Acoustical Society of America, ISSN 1520-8524, Bd. 107 (2000), 5, S. 2876

https://doi.org/10.1121/1.428682
Brandenburg, Karlheinz; Popp, H.
An introduction to MPEG Layer-3. - In: EBU technical review, Bd. 283 (2000), insges. 15 S.

http://www.ebu.ch/en/technical/trev/trev_283-popp.pdf
Brandenburg, Karlheinz;
Low bitrate audio coding state-of-the-art, challenges and future directions. - In: 2000 International Conference on Communcation Technology proceedings, (2000), S. 1-4

Rotzoll, Frank; Schade, Hans-Peter
Geometrie Kompression. - In: 45. Internationales Wissenschaftliches Kolloquium, (2000), S. 925-930

Gerullis, J.; Dontscheva, Miglena; Schade, Hans-Peter
Renderer für Wavefront Explore auf der Basis von SIPP. - In: Multimedia: Anwendungen, Technologie, Systeme ; Vorträge des 7. Dortmunder Fernsehseminars vom 29. September bis 1. Oktober 1997 in Dortmund, (1997), S. 339-341