Please note, the Hochschulbibliographie has the data status 07/31/2024.
All newer entries can be found in the University Bibliography of Technische Universität Ilmenau (TUUniBib).

Results: 13
Created on: Wed, 11 Sep 2024 20:14:56 +0200 in 0.0534 sec


Schuller, Gerald;
Filterbänke und Audiocodierung : Komprimierung von Audiosignalen mit Python. - Cham : Springer International Publishing, 2023. - 1 Online-Ressource (XI, 146 Seiten) ISBN 978-3-031-19990-5

Einführung -- Filterbänke -- Mit wechselnder Anzahl von Teilbändern -- Prädiktive Kodierung -- Psychoakustische Modelle -- Psychoakustische Modelle und Quantisierung -- Entropiekodierung -- Der Python Perceptual Audio Coder -- Prädiktive verlustfreie Audiokodierung -- Skalierbare verlustfreie Audiokodierung -- Psychoakustischer Vorfilter -- Fazit.



https://doi.org/10.1007/978-3-031-19990-5
Mimilakis, Stylianos Ioannis;
Deep learning-based music source separation. - Ilmenau : Universitätsbibliothek, 2021. - 1 Online-Ressource (xvi, 147 Seiten)
Technische Universität Ilmenau, Dissertation 2021

Diese Dissertation befasst sich mit dem Problem der Trennung von Musikquellen durch den Einsatz von deep learning Methoden. Die auf deep learning basierende Trennung von Musikquellen wird unter drei Gesichtspunkten untersucht. Diese Perspektiven sind: die Signalverarbeitung, die neuronale Architektur und die Signaldarstellung. Aus der ersten Perspektive, soll verstanden werden, welche deep learning Modelle, die auf DNNs basieren, für die Aufgabe der Musikquellentrennung lernen, und ob es einen analogen Signalverarbeitungsoperator gibt, der die Funktionalität dieser Modelle charakterisiert. Zu diesem Zweck wird ein neuartiger Algorithmus vorgestellt. Der Algorithmus wird als NCA bezeichnet und destilliert ein optimiertes Trennungsmodell, das aus nicht-linearen Operatoren besteht, in einen einzigen linearen Operator, der leicht zu interpretieren ist. Aus der zweiten Perspektive, soll eine neuronale Netzarchitektur vorgeschlagen werden, die das zuvor erwähnte Konzept der Filterberechnung und -optimierung beinhaltet. Zu diesem Zweck wird die als Masker and Denoiser (MaD) bezeichnete neuronale Netzarchitektur vorgestellt. Die vorgeschlagene Architektur realisiert die Filteroperation unter Verwendung skip-filtering connections Verbindungen. Zusätzlich werden einige Inferenzstrategien und Optimierungsziele vorgeschlagen und diskutiert. Die Leistungsfähigkeit von MaD bei der Musikquellentrennung wird durch eine Reihe von Experimenten bewertet, die sowohl objektive als auch subjektive Bewertungsverfahren umfassen. Abschließend, der Schwerpunkt der dritten Perspektive liegt auf dem Einsatz von DNNs zum Erlernen von solchen Signaldarstellungen, für die Trennung von Musikquellen hilfreich sind. Zu diesem Zweck wird eine neue Methode vorgeschlagen. Die vorgeschlagene Methode verwendet ein neuartiges Umparametrisierungsschema und eine Kombination von Optimierungszielen. Die Umparametrisierung basiert sich auf sinusförmigen Funktionen, die interpretierbare DNN-Darstellungen fördern. Der durchgeführten Experimente deuten an, dass die vorgeschlagene Methode beim Erlernen interpretierbarer Darstellungen effizient eingesetzt werden kann, wobei der Filterprozess noch auf separate Musikquellen angewendet werden kann. Die Ergebnisse der durchgeführten Experimente deuten an, dass die vorgeschlagene Methode beim Erlernen interpretierbarer Darstellungen effizient eingesetzt werden kann, wobei der Filterprozess noch auf separate Musikquellen angewendet werden kann. Darüber hinaus der Einsatz von optimal transport (OT) Entfernungen als Optimierungsziele sind für die Berechnung additiver und klar strukturierter Signaldarstellungen.



https://doi.org/10.22032/dbt.50702
Schuller, Gerald;
Building and programming home robots with Raspberry Pi and Python. - Ilmenau. - 1 Online-Ressource (33:40 min)

Gerald will show how to build home robots for fun and education, using the Raspberry Pi one board computer and Python. Examples are: Giving a roomba vaccum robot eyes; and a small 2-legged balancing and walking robot.



https://www.youtube.com/watch?v=NCvKlgJ8A8k
Schuller, Gerald;
Filter banks and audio coding : compressing audio signals using python. - Cham : Springer International Publishing, 2020. - 1 Online-Ressource (XI, 197 p. 72 illus., 49 illus. in color.). - (Springer eBook Collection) ISBN 978-3-030-51249-1

Introduction -- Filter Banks -- With a Changing Number of Subbands -- Predictive Coding -- Psychoacoustic Models -- Psychoacoustic Models and Quantization -- Entropy Coding -- The Python Perceptual Audio Coder -- Predictive Lossless Audio Coding -- Scalable Lossless Audio Coding -- Psycho-Acoustic Pre-Filter -- Conclusion.



https://doi.org/10.1007/978-3-030-51249-1
Schuller, Gerald;
Klimawandel nachgerechnet, Teil 1. - Ilmenau. - 1 Online-Ressource (34:12 min)

Kann man Medienberichten und Wissenschaftlern im Bezug auf den Klimawandel trauen? Naturwissenschften sind so gemacht, dass Ergebnisse nachrechenbar und überprüfbar sind. So lassen sich auch Medienberichte überprüfen. Im Ersten Teil der Reihe beantworten wir die Frage: Lässt sich der beobachtete Anstieg der Kohlendioxid-Konzentration der Atmosphäre durch menschliche Aktivität erklären, und wenn ja, zu welchem Anteil?



https://www.youtube.com/watch?v=e3kzkl5zEfs
Cano, Estefanía;
Pitch-informed solo and accompaniment separation. - Ilmenau : Univ.-Bibliothek, 2014. - Online-Ressource (PDF-Datei: XII, 218 S., 13,12 MB) : Ilmenau, Techn. Univ., Diss., 2014

Das Thema dieser Dissertation ist die Entwicklung eines Systems zur Tonhöhen-informierten Quellentrennung von Musiksignalen in Soloinstrument und Begleitung. Dieses ist geeignet, die dominanten Instrumente aus einem Musikstück zu isolieren, unabhängig von der Art des Instruments, der Begleitung und Stilrichtung. Dabei werden nur einstimmige Melodieinstrumente in Betracht gezogen. Die Musikaufnahmen liegen monaural vor, es kann also keine zusätzliche Information aus der Verteilung der Instrumente im Stereo-Panorama gewonnen werden. Die entwickelte Methode nutzt Tonhöhen-Information als Basis für eine sinusoidale Modellierung der spektralen Eigenschaften des Soloinstruments aus dem Musikmischsignal. Anstatt die spektralen Informationen pro Frame zu bestimmen, werden in der vorgeschlagenen Methode Tonobjekte für die Separation genutzt. Tonobjekt-basierte Verarbeitung ermöglicht es, zusätzlich die Notenanfänge zu verfeinern, transiente Artefakte zu reduzieren, gemeinsame Amplitudenmodulation (Common Amplitude Modulation CAM) einzubeziehen und besser nichtharmonische Elemente der Töne abzuschätzen. Der vorgestellte Algorithmus zur Quellentrennung von Soloinstrument und Begleitung ermöglicht eine Echtzeitverarbeitung und ist somit relevant für den praktischen Einsatz. Ein Experiment zur besseren Modellierung der Zusammenhänge zwischen Magnitude, Phase und Feinfrequenz von isolierten Instrumententönen wurde durchgeführt. Als Ergebnis konnte die Kontinuität der zeitlichen Einhüllenden, die Inharmonizität bestimmter Musikinstrumente und die Auswertung des Phasenfortschritts für die vorgestellte Methode ausgenutzt werden. Zusätzlich wurde ein Algorithmus für die Quellentrennung in perkussive und harmonische Signalanteile auf Basis des Phasenfortschritts entwickelt. Dieser erreicht ein verbesserte perzeptuelle Qualität der harmonischen und perkussiven Signale gegenüber vergleichbaren Methoden nach dem Stand der Technik. Die vorgestellte Methode zur Klangquellentrennung in Soloinstrument und Begleitung wurde zu den Evaluationskampagnen SiSEC 2011 und SiSEC 2013 eingereicht. Dort konnten vergleichbare Ergebnisse im Hinblick auf perzeptuelle Bewertungsmaße erzielt werden. Die Qualität eines Referenzalgorithmus im Hinblick auf den in dieser Dissertation beschriebenen Instrumentaldatensatz übertroffen werden. Als ein Anwendungsszenario für die Klangquellentrennung in Solo und Begleitung wurde ein Hörtest durchgeführt, der die Qualitätsanforderungen an Quellentrennung im Kontext von Musiklernsoftware bewerten sollte. Die Ergebnisse dieses Hörtests zeigen, dass die Solo- und Begleitspur gemäß unterschiedlicher Qualitätskriterien getrennt werden sollten. Die Musiklernsoftware Songs2See integriert die vorgestellte Klangquellentrennung bereits in einer kommerziell erhältlichen Anwendung.



http://www.db-thueringen.de/servlets/DocumentServlet?id=25095
Abeßer, Jakob;
Automatic transcription of bass guitar tracks applied for music genre classification and sound synthesis, 2014. - Online-Ressource (PDF-Datei: XI, 168 S., 4,92 MB) : Ilmenau, Techn. Univ., Diss., 2014
Parallel als Druckausg. erschienen

Musiksignale bestehen in der Regel aus einer Überlagerung mehrerer Einzelinstrumente. Die meisten existierenden Algorithmen zur automatischen Transkription und Analyse von Musikaufnahmen im Forschungsfeld des Music Information Retrieval (MIR) versuchen, semantische Information direkt aus diesen gemischten Signalen zu extrahieren. In den letzten Jahren wurde häufig beobachtet, dass die Leistungsfähigkeit dieser Algorithmen durch die Signalüberlagerungen und den daraus resultierenden Informationsverlust generell limitiert ist. Ein möglicher Lösungsansatz besteht darin, mittels Verfahren der Quellentrennung die beteiligten Instrumente vor der Analyse klanglich zu isolieren. Die Leistungsfähigkeit dieser Algorithmen ist zum aktuellen Stand der Technik jedoch nicht immer ausreichend, um eine sehr gute Trennung der Einzelquellen zu ermöglichen. In dieser Arbeit werden daher ausschließlich isolierte Instrumentalaufnahmen untersucht, die klanglich nicht von anderen Instrumenten überlagert sind. Exemplarisch werden anhand der elektrischen Bassgitarre auf die Klangerzeugung dieses Instrumentes hin spezialisierte Analyse- und Klangsynthesealgorithmen entwickelt und evaluiert. Im ersten Teil der vorliegenden Arbeit wird ein Algorithmus vorgestellt, der eine automatische Transkription von Bassgitarrenaufnahmen durchführt. Dabei wird das Audiosignal durch verschiedene Klangereignisse beschrieben, welche den gespielten Noten auf dem Instrument entsprechen. Neben den üblichen Notenparametern Anfang, Dauer, Lautstärke und Tonhöhe werden dabei auch instrumentenspezifische Parameter wie die verwendeten Spieltechniken sowie die Saiten- und Bundlage auf dem Instrument automatisch extrahiert. Evaluationsexperimente anhand zweier neu erstellter Audiodatensätze belegen, dass der vorgestellte Transkriptionsalgorithmus auf einem Datensatz von realistischen Bassgitarrenaufnahmen eine höhere Erkennungsgenauigkeit erreichen kann als drei existierende Algorithmen aus dem Stand der Technik. Die Schätzung der instrumentenspezifischen Parameter kann insbesondere für isolierte Einzelnoten mit einer hohen Güte durchgeführt werden. Im zweiten Teil der Arbeit wird untersucht, wie aus einer Notendarstellung typischer sich wiederholender Basslinien auf das Musikgenre geschlossen werden kann. Dabei werden Audiomerkmale extrahiert, welche verschiedene tonale, rhythmische, und strukturelle Eigenschaften von Basslinien quantitativ beschreiben. Mit Hilfe eines neu erstellten Datensatzes von 520 typischen Basslinien aus 13 verschiedenen Musikgenres wurden drei verschiedene Ansätze für die automatische Genreklassifikation verglichen. Dabei zeigte sich, dass mit Hilfe eines regelbasierten Klassifikationsverfahrens nur Anhand der Analyse der Basslinie eines Musikstückes bereits eine mittlere Erkennungsrate von 64,8 % erreicht werden konnte. Die Re-synthese der originalen Bassspuren basierend auf den extrahierten Notenparametern wird im dritten Teil der Arbeit untersucht. Dabei wird ein neuer Audiosynthesealgorithmus vorgestellt, der basierend auf dem Prinzip des Physical Modeling verschiedene Aspekte der für die Bassgitarre charakteristische Klangerzeugung wie Saitenanregung, Dämpfung, Kollision zwischen Saite und Bund sowie dem Tonabnehmerverhalten nachbildet. Weiterhin wird ein parametrischerAudiokodierungsansatz diskutiert, der es erlaubt, Bassgitarrenspuren nur anhand der ermittelten notenweisen Parameter zu übertragen um sie auf Dekoderseite wieder zu resynthetisieren. Die Ergebnisse mehrerer Hötest belegen, dass der vorgeschlagene Synthesealgorithmus eine Re- Synthese von Bassgitarrenaufnahmen mit einer besseren Klangqualität ermöglicht als die Übertragung der Audiodaten mit existierenden Audiokodierungsverfahren, die auf sehr geringe Bitraten ein gestellt sind.



http://www.db-thueringen.de/servlets/DocumentServlet?id=24846
Song, Bin;
Linear transmit-receive strategies for multi-user MIMO wireless communications, 2014. - Online-Ressource (PDF-Datei: 234 S., 2,45 MB) : Ilmenau, Techn. Univ., Diss., 2014
Unterschiede zwischen dem gedruckten Dokument und der elektronischen Ressource können nicht ausgeschlossen werden

Die Notwendigkeit zur Unterdrückung von Interferenzen auf der einen Seite und zur Ausnutzung der durch Mehrfachzugriffsverfahren erzielbaren Gewinne auf der anderen Seite rückte die räumlichen Mehrfachzugriffsverfahren (Space Division Multiple Access, SDMA) in den Fokus der Forschung. Ein Vertreter der räumlichen Mehrfachzugriffsverfahren, die lineare Vorkodierung, fand aufgrund steigender Anzahl an Nutzern und Antennen in heutigen und zukünftigen Mobilkommunikationssystemen besondere Beachtung, da diese Verfahren das Design von Algorithmen zur Vorcodierung vereinfachen. Aus diesem Grund leistet diese Dissertation einen Beitrag zur Entwicklung linearer Sende- und Empfangstechniken für MIMO-Technologie mit mehreren Nutzern.



http://www.db-thueringen.de/servlets/DocumentServlet?id=23728
Costa, João Paulo Carvalho Lustosa da;
Parameter estimation techniques for multi-dimensional array signal processing. - Aachen : Shaker, 2010. - XIII, 211 S.. - (Berichte aus der Kommunikationstechnik) : Zugl.: Ilmenau, Techn. Univ., Diss., 2010
ISBN 978-3-8322-9009-2

Methoden der Antennenarraysignalverarbeitung stellen ein sehr wichtiges und bedeutsames Forschungsgebiet dar. Insbesondere spielen hochauflösende Parameterschätzverfahren eine entscheidende Rolle in Anwendungsgebieten wie RADAR, SONAR, Mobilkommunikation, Biosignalverarbeitung oder Seismologie. Dabei muss einerseits die Modellordnung, also die Anzahl der dominanten Komponenten im gemessenen Signal, bestimmt werden. Andererseits sind häufig auch Parameter wie räumliche Winkel der einfallenden sowie der abgestrahlten Wellen, Signallaufzeit oder Dopplerverschiebung zu schätzen. Im Allgemeinen sind die zugrunde liegenden Signale mehrdimensional. Betrachtet man diese Dimensionen nicht gemeinsam sondern separat, steht jeweils nur eine Projektion der Daten in diese Dimension zur Verfügung. Das führt in vielen Szenarien zu einer unzureichenden Schätzgenauigkeit. Deshalb sind mehrdimensionale Arraysignalverarbeitungsalgorithmen, die alle natürlichen Dimensionen des Signals gemeinsam behandeln und dabei dessen Struktur ausnutzen, ein bedeutsames Werkzeug und Gegenstand der aktuellen Forschung. In dieser Arbeit konzentrieren wir uns hauptsächlich auf zwei Arten von Parametern: Die Modellordnung sowie die zugehörigen räumlichen Frequenzen. Im mehrdimensionalen Fall lässt sich die Modellordnungsschätzung erheblich verbessern, wenn man dafür die mehrdimensionale Struktur explizit ausnutzt. Für Szenarien mit additivem Gaußverteiltem weißen Rauschen schlagen wir dafür den R-D Exponential Fitting Test (R-D EFT) vor. Da R-D EFT weißes Rauschen voraussetzt untersuchen wir schließlich noch den Fall des gefärbten Rauschens. Hier schlagen wir das closed-form PARAFAC-based model order selection scheme (CFP-MOS).Sobald die Modellordnung bestimmt wurde, können im nächsten Schritt weitere gewünschte Parameter aus den dominanten Komponenten bestimmt werden. Für diese Aufgabe schlagen wir das closed-form PARAFAC based parameter estimation (CFP-PE) scheme vor.Im Fall von farbigem Rauschen leidet die Schätzgenauigkeit aller Parameterschätzverfahren, wodurch die Anwendung von Prewhitening-Techniken erforderlich wird. Für bestimmte biomedizinische Signale wie Elektroenzephalogramme (EEG) sowie für bestimmte Kommunikations-Anwendungen mit Mehrantennen-Systemen besitzt das Rauschen eine ganz spezifische mehrdimensionale Struktur. Diese kann ausgenutzt werden um das Prewhitening weiter zu verbessern, wodurch jedoch ein mehrdimensionales Prewhitening-Verfahren erforderlich wird. Unser Vorschlag dazu ist die Sequential Generalized Singular Value Decomposition (S-GSVD). Für den Fall, dass die Rauschstatistik nicht bekannt ist, schlagen wir die Iterative S-GSVD vor.



Brandenburg, Karlheinz; Schuller, Gerald;
Komprimierung. - In: Taschenbuch der Medieninformatik, (2005), S. 57-77