Logo TU Ilmenau

Ihre Position


Fachgebiet Audiovisuelle Technik

Das Fachgebiet Audiovisuelle Technik beschäftigt sich mit der Funktion, Anwendung und Wahrnehmung von Audio- und Videotechnik. Dabei liegt ein wesentlicher Schwerpunkt auf der Erforschung des Zusammenhangs zwischen technischen Systemeigenschaften und der menschlichen Wahrnehmung sowie dem Nutzererleben (“Quality of Experience”).

weitere Informationen zum Fachgebiet


ITU-T-Standard zur Vorhersage der Videoqualität unter maßgeblicher Beteiligung des Fachgebietes AVT entwickelt

ITU-T recently consented the P.1204 series of Recommendations titled “Video quality assessment of streaming services over reliable transport for resolutions up to 4K”. This work was jointly conducted by Question 14 of Study Group 12 (SG12/Q14) of the ITU-T and the Video Quality Experts Group (VQEG). Overall 9 companies and universities were part of this competition-based development, with the best set of models recommended as standards.

From the official ITU-T SG12 communication it reads:

"The P.1204 Recommendation series describes a set of objective video quality models. These can be used standalone for assessing video quality for 5-10 sec long video sequences, providing a 5-point ACR-type Mean Opinion Score (MOS) output. In addition, they deliver per-1-second MOS-scores that together with audio information and stalling / initial loading data can be used to form a complete model to predict the impact of audio and video media encodings and observed IP network impairments on quality experienced by the end-user in multimedia streaming applications. The addressed streaming techniques comprise progressive download as well as adaptive streaming, for both mobile and fixed network streaming applications."

To date, the P.1204 series of Recommendations comprises four sub-recommendations, namely P.1204 (an introductory document for the whole P.1204 series), P.1204.3 (bitstream-based model with full access to bitstream), P1204.4 (reference-/pixel-based model) and P1204.5 (hybrid bitstream- and pixel-based no-reference) with 2 more sub-recommendations, P1204.1 (meta-data-based) and P1204.2 (meta-data- and video-frame-information-based) planned to be consented by April 2020.

The AVT group of TU Ilmenau in collaboration with Deutsche Telekom were the sole winners in the category which resulted in Recommendation P1204.3 and are co-winners in the category which is planned to result in Recommendations P1204.1 and P1204.2 by April 2020.

In the official ITU-T SG12 communication it is further stated that: 

"The consent of the P.1204 model standards marks the first time that video-quality models of all relevant types have been developed and validated within the same standardization campaign. The respective “P.NATS Phase 2” model competition used a total of 13 video-quality test databases for training, and another 13 video-quality test databases for validation. With this comparatively high number of data (more than 5000 video sequences), the resulting standards deliver class-leading video-quality prediction performance."

The building blocks of the consented Recommendation


Das Projekt ist eine wissenschaftliche Kooperation der Fachgebiete Audiovisuelle Technik, Virtuelle Welten und Digitale Spiele (Prof. Wolfgang Broll, Fakultät Wirtschaftswissenschaften und Medien) und Elektronische Medientechnik (Prof. Karlheinz Brandenburg, Fakultät Elektrotechnik und Informationstechnik).

Das vom Freistaat Thüringen geförderte Vorhaben wurde durch Mittel der Europäischen Union im Rahmen des Europäischen Fonds für regionale Entwicklung (EFRE) kofinanziert.


Angebote für Abschlussarbeiten im Fachgebiet AVT

Auf unserer Webseite können Sie sich jetzt direkt über das Angebot an Themen für Bachelor- und Masterarbeiten sowie für Medienprojekte informieren.

Schauen Sie unter dem Punkt Abschlussarbeiten nach!

Aktuelle Veröffentlichungen aus dem Fachgebiet

21st IEEE International Symposium on Multimedia (2019 IEEE ISM), Dec 9 - 11, 2019, San Diego, USA

Steve Göring, Christopher Krämmer, Alexander Raake

cencro – Speedup of Video Quality Calculation using Center Cropping

Today's video streaming providers, e.g. Youtube, Netflix or Amazon Prime, are able to deliver high resolution and high-quality content to end users. To optimize video quality and to reduce transmission bandwidth, new encoders and smarter encoding schemes are required. Encoding optimization forms an important part of this effort in reducing bandwidth and results in saving considerable amount of bitrate. For such optimization, accurate and computationally fast video quality models are required, e.g. Netflix's VMAF. However, VMAF is a full-reference (FR) metric, and the calculation of such metrics tend to be slower in comparison to other metrics, due to the amount of data that needs to be processed, especially for high resolutions of 4k and beyond.

We introduce an approach to speed up video quality metric calculations in general. We use VMAF as an example with a video database up to 4K resolution videos, to show that our approach works well.
Our main idea is that we reduce each frame of the reference and distorted video based on a center crop of the frame, assuming that most important visual information are presented in the middle of most typical videos. In total we analyze 18 different crop settings and compare our results with uncropped VMAF values and subjective scores. We show that this approach -- named cencro -- is able to save up to 95% computation time, with just an overall error of 4% considering a 360p center crop.

Furthermore, we checked other full-reference metrics, and show that cencro performs similar good. As a last evaluation, we apply our approach to full-hd gaming videos, also in this scenario cencro can be successfully applied.

The idea behind cencro is not restricted to full-reference models and can also be applied to other type of video quality models or datasets, or even for higher resolution videos such as 8K.

Link to the source code:

21st IEEE International Symposium on Multimedia (2019 IEEE ISM), Dec 9 - 11, 2019, San Diego, USA

Rakesh Rao Ramachandra Rao, Steve Göring, Werner Robitza, Bernhard Feiten, Alexander Raake

AVT-VQDB-UHD-1: A Large Scale Video Quality Database for UHD-1

4K television screens or even with higher resolutions are currently available in the market.Moreover video streaming providers are able to stream videos in 4K resolution and beyond.Therefore, it becomes increasingly important to have a proper understanding of video quality especially in case of 4K videos. To this effect, in this paper, we present a study of subjective and objective quality assessment of 4K ultra-high-definition videos of short duration, similar to DASH segment lengths.

As a first step, we conducted four subjective quality evaluation tests for compressed versions of the 4K videos. The videos were encoded using three different video codecs, namely H.264, HEVC, and VP9. The resolutions of the compressed videos ranged from 360p to 2160p with framerates varying from 15fps to 60fps. All the source 4K contents used were of 60fps. We included low-quality conditions in terms of bitrate, resolution and framerate to ensure that the tests cover a wide range of conditions, and that e.g. possible models trained on this data are more general and applicable to a wider range of real world applications. The results of the subjective quality evaluation are analyzed to assess the impact of different factors such as bitrate, resolution, framerate, and content.

In the second step, different state-of-the-art objective quality models were applied to all videos and their performance was analyzed in comparison with the subjective ratings, e.g. using Netflix's VMAF. The videos, subjective scores, both MOS and confidence interval per sequence and objective scores are made public for use by the community for further research.

Link to the videos:

21st IEEE International Workshop on Multimedia Signal Processing (MMSP), September 2019, Kuala Lumpur, Malaysia

A. Singla, W. Robitza and A. Raake

Comparison of Subjective Quality Test Methods for Omnidirectional Video Quality Evaluation

The test methods recommended by the International Telecommunication Union (ITU) for assessing 2D video quality are often used for evaluating omnidirectional / 360° videos. In this paper, we compare the performance of three different test methods, Absolute Category Rating (ACR), a modified version of ACR (M–ACR) with double presentation of the test stimulus, and DSIS (Double Stimulus Impairment Scale), based on the statistical reliability, assessment time and simulator sickness. Different settings were used for HEVC encoding of five 360° source videos of 10 s duration. Results indicate that DSIS is statistically more reliable with higher resolving power, followed by M–ACR and ACR. We found that simulator sickness increases with time, but can be reduced by taking breaks in between the test sessions. The results for simulator sickness are compared across test methods and with similar tests conducted under different contextual conditions. We also recorded and analyzed the exploration behaviour of the users. Apart from the methodological findings, the test results provide insights into video quality for different resolution and encoding settings (“bitrate ladders”). These may be useful for choosing appropriate representations in the context of HTTP-based adaptive streaming in case of full-frame streaming.

MOS with corresponding CIs for different test methods

IMT auf dem Sommerfest der Thüringer Landesvertretung in Berlin

Auch im Jahr 2019 war das Institut für Medientechnik (IMT) auf dem Sommerfest der Thüringer Landesvertretung in Berlin vertreten. Den Stand teilten sich zwei Fachgebiete. Dabei demonstrierte das Fachgebiet Audiovisuelle Technik die unterschiedliche Wirkung von Videoinhalten in Full-HD- und in UHD-Auflösung mit eigens dafür produzierten Inhalten. Darüber hinaus wurden 360°-Videos (Virtuelle Realität) präsentiert, die im Fachgebiet erstellt wurden und für Wahrnehmungstests dienen. Zu einer immersiven Wahrnehmung der virtuellen Realität gehört auch die adäquate räumliche Audioszene. Deshalb zeigte das Fachgebiet Elektronische Medientechnik mit Hilfe eines Mikrofonarrays wie diese 360°-Audioaufnahmen entstehen und machte das Ergebnis direkt am Stand hörbar.

Bei sommerlichem Wetter gab es viele interessierte Besucher. Unter anderem ließ sich der Thüringer Ministerpräsident Bodo Ramelow von Prof. Brandenburg und Prof. Raake die Technik erläutern. Unterstützt wurden diese während der Veranstaltung von Stephan Fremerey, Dr. Stephan Werner und Matthias Döring.

Die Preisträger Domink Keller und Anton Schubert mit dem Vorsitzenden das Fördervereins Herrn Prof. Seitz.

Förderpreise an Absolventen des Fachgebiets

Zum zweiten Mal überreichte der Förderverein Elektrotechnik und Informationstechnik e. V. Ilmenau in Verbindung mit der der Fakultät für Elektrotechnik und Informationstechnik der TU Ilmenau seinen Förderpreis für herausragende Abschlussarbeiten. Der dotierte Preis würdigte die Leistungen der Studierende im Rahmen der Exmatrikulationsfeier Ende Juni. Erfreulicherweise wurden gleich zwei Abschlussarbeiten des FG Audiovisuelle Technik, die mit Industriepartnern durchgeführt wurden, aufgrund ihres hohen Grads an Interdisziplinarität und Wissenschaftlichkeit sowie der Ausführung als herausragend ausgezeichnet und prämiert.

Wir gratulieren den Preisträgern Anton Schubert, der sich mit der Implementierung eines komprimierten breitbandigen Audio Codecs für die Fahrerkommunikation im Motorsport beschäftigt hat, und Dominik Keller, der die Identifizierung und Analyse von Texturdimensionen in Kinofilmen mit Hilfe von Sensorikbewertungsverfahren bearbeitet hat.

Der jüngste Teilnehmer beim Erleben einer Achterbahnfahrt in VR während der "Langen Nacht der Technik 2019".

Best Paper Award

Dominik Keller (Fachgebiet AVT), Tamara Seybold (ARRI München), Janto Skowronek (früher Fachgebiet AVT) und Alexander Raake (Fachgebiet AVT) erhielten den Best Paper Award auf der 11. International Conference on Quality of Multimedia Experience (QoMEX 2019) in Berlin.

Den Abstract zu diesem Artikel finden Sie weiter unten auf dieser Seite.

Dominik Keller, Tamara Seybold, Janto Skowronek und Alexander Raake
Assessing Texture Dimensions and Video Quality in Motion Pictures using Sensory Evaluation Techniques

Das aus der Zusammenarbeit von Mitgliedern des Fachgebiets Audiovisuelle Technik und Oscar-Preisträger ARRI (Arnold & Richter Cine Technik) entstandene Paper erhielt den Best Paper Award auf der diesjährigen 11. Int. Konferenz zum Thema Quality of Multimedia Experience (QoMEX 2019).

Die Qualität von Bildern und Videos wird in der Regel mit etablierten subjektiven Tests oder instrumentellen Modellen überprüft. Diese zielen oft auf Inhalte ab, die über das Internet übertragen werden, wie z.B. Streaming oder Videokonferenzen, und richten sich an die menschliche Präferenzbewertung. Im Bereich der hochwertigen Kinofilme sind jedoch auch andere Faktoren relevant. Diese sind meist nicht fehlerbezogen, sondern zielen auf die kreative Bildgestaltung ab, die in der Bild- und Videoqualitätsforschung vergleichsweise wenig Beachtung gefunden hat. Um die Wahrnehmungsdimensionen zu bestimmen, die der filmischen Videoqualität zugrunde liegen, kombinieren wir sensorische Bewertungstechniken (Degree of Difference Test und Free Choice Profiling), die in der Lebensmittelbewertung  umfassend eingesetzt werden, mit eher klassischen Videoqualitätsprüfungen. Das Hauptziel dieser Forschung ist es, die Eignung sensorischer Bewertungsmethoden für eine Bewertung qualitativ hochwertiger Videosequenzen zu analysieren. Um zu verstehen, welche Merkmale in Film erkennbar und qualitätskritisch sind, variieren wir Merkmale der Bildtextur und messen die menschliche Wahrnehmung und Präferenz mit Bildqualitätexperten. Zu diesem Zweck wurden verschiedene Aufnahmeeinstellungen mit Schärfefiltern sowie digitalem und analogem Rauschen für exemplarische Quellsequenzen simuliert. Die Auswertung, die Multidimensional Scaling, Generalized Procrustes Analysis sowie Internal und External Preference Mapping umfasst, identifizierte zwei verschiedene Wahrnehmungsdimensionen. Wir kommen zu dem Schluss, dass das Free Choice Profiling in Verbindung mit einem Qualitätstest das höchste Maß an Einblick in Bezug auf den erforderlichen Aufwand bietet. Die Kombination ermöglicht eine quantitative Qualitätsmessung mit einer zugrunde liegenden Wahrnehmungsdimensionsmessung.

Ergebnis des External Preference Mapping: Höchste Qualitätsbewertung für Stimuli mit geringem Rauschen und mittelhoher Schärfe (Landschaftsszene)