KI-Text-zu-Bild-Generatoren: Eine Bewertung aus fotografischer Sicht

TU Ilmenau / Audiovisual Technology Group
TU Ilmenau / Audiovisual Technology Group

Artikel zur Bewertung von KI-generierten Bildern aus fotografischer Sicht in IEEE Access erschienen:

Steve Göring, Rakesh Rao Ramachandra Rao, Rasmus Merten, and Alexander Raake
"Analysis of Appeal for realistic AI-generated Photos."

KI-generierte Bilder haben in den letzten Jahren an Popularität gewonnen. Dies hat zu mehreren neuen KI-Generatoren geführt, die mit einer kurzen Texteingabe realistische, lustige und beeindruckende Bilder erzeugen können. DALL-E-2, Midjourney und Craiyon sind einige Beispiele für die genannten Ansätze. Allgemein kann festgestellt werden, dass die Qualität, der Realismus und die Attraktivität der Bilder je nach dem verwendeten Ansatz variieren. Daher analysieren wir in diesem Beitrag, inwieweit solche KI-generierten Bilder aus fotografischer Sicht realistisch oder ansprechend sind und wie Nutzer sie wahrnehmen.

Um die Attraktivität verschiedener moderner KI-Generatoren zu bewerten, entwickeln wir einen Datensatz, der aus 27 verschiedenen Texteingaben besteht. Anhand dieser Texteingaben haben wir insgesamt 135 Bilder mit fünf verschiedenen KI-Text-zu-Bild-Generatoren erzeugt. Die Bewertung basiert auf einer Online-Studie und die Ergebnisse werden mit modernen Bildqualitätsmodellen und -merkmalen verglichen.

Die Ergebnisse zeigen, dass einige der enthaltenen Generatoren in der Lage sind, realistische und sehr ansprechende Bilder zu erzeugen. Dies hängt jedoch in hohem Maße von der Herangehensweise und der Textaufforderung ab. Der Datensatz und die Auswertung dieser Arbeit werden im Sinne der Reproduzierbarkeit öffentlich zugänglich gemacht und folgen einem Open Science Ansatz.

Link: https://ieeexplore.ieee.org/document/10103686

DOI: https://doi.org/10.1109/ACCESS.2023.3267968