Anzahl der Treffer: 33
Erstellt: Thu, 28 Mar 2024 23:03:05 +0100 in 0.0302 sec


Gorlow, Stanislaw;
Frequency-domain bandwidth extension for low-delay audio coding applications. - 124 S. : Ilmenau, Techn. Univ., Masterarbeit, 2010

MPEG-4 Spectral Band Replication (SBR) ist ein technisch ausgereiftes Verfahren zur Rückgewinnung von hochfrequenten Signalkomponenten für Sprache und natürliches Audio, das in Verbindung mit einem Audiocodec angewandt ein hochwertiges Breitbandsignal bei einer Bitrate von nicht mehr als 48 kbps liefert. Ein wesentlicher Nachteil dieser Methode ist, dass sie die Zeitverzögerung des darunter liegenden Kerncodecs maßgeblich vergrößert. Die Idee der synthetischen Signalwiederherstellung ist in Echtzeitkommunikation ebenso von besonderem Interesse. Ein derartiges Verfahren könnte dort eingesetzt werden, um die Anforderungen an die Kanalkapazität weiter zu lockern. In dieser Arbeit wird ein latenzoptimiertes Derivat von SBR ausgearbeitet, welches zusammen mit einem minimal verzögernden Sprach- und Audiocoder, wie dem Fraunhofer ULD, verwendet werden kann. Der vorgestellte Ansatz basiert auf einer Kurzzeit-Teilband-Darstellung eines akustischen Signals natürlichen oder künstlichen Ursprungs, und greift als solcher auf eine Filterbank zur Extraktion und Manipulation von Klangcharakteristika zurück. Die Verzögerungszeit des Gesamtsystems bestehend aus dem ULD-Coder und der vorgeschlagenen Bandbreitenerweiterung beläuft sich bei einer Abtastrate von 48 kHz auf 12 ms. Einem subjektiven Hörtest zufolge, erzeugt die neu entwickelte Bandbreitenerweiterung in ihrem derzeitigen Stadium eine Kopie des Hochbandes von hervorragender Qualität bei einer simulierten mittleren Datenrate von 12.8 kbps.



Stein, Michael;
Entwicklung eines Verfahrens zur Detektion und Neutralisation verschiedener Effekte auf Bass- und Gitarrenaufnahmen innerhalb von Musikstücken. - 113 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2009

In dieser Arbeit werden Algorithmen zur Detektion und Neutralisation von Audioeffekten in Bass- und Gitarrenaufnahmen präsentiert. Zur Detektion der Audioeffekte werden aus dem Audiosignal 541 spektrale, cepstrale und harmonische Merkmale extrahiert, mit denen ein Entscheidungsmodell trainiert wird, welches Audioeffekte in Instrumentenaufnahmen identifizieren kann. Die Leistungsfähigkeit der Effektdetektion wurde anschließend mit sechs Experimenten und unterschiedlichen Datensätzen aus Instrumentenklängen und Musikstücken systematisch evaluiert. Dabei wurden Erkennungsraten von 76\% bis 98\% erreicht. Zusätzlich wurde der Einfluss verschiedener Faktoren wie Polyphonie und Instrumententimbre auf die Leistungsfähigkeit herausgearbeitet. Weiterhin werden Methoden zur Neutralisation von Verzögerungseffekten und Vibrato präsentiert, zusammen mit Methoden zur Schätzung der erforderlichen Effektparameter aus dem Audiosignal. Die Wirksamkeit der Effektneutralisation konnte für die Verzögerungseffekte anhand eines Transkriptionsszenarios belegt werden, während die Ergebnisse für den Vibratoeffekt keinen eindeutigen Schluss zulassen. Abschließend werden Möglichkeiten zur Erweiterung und Verbesserung der entwickelten Algorithmen diskutiert sowie Szenarien zur Anwendung der Detektion, Neutralisation und Modifikation von Audioeffekten in Musikstücken skizziert.



Schnabel, Michael;
Entwicklung eines Parametric Stereo Verfahrens für Audiocodierungsanwendungen mit geringer Verzögerung. - 159 S. : Ilmenau, Techn. Univ., Diplomarbeit, 2009

Diese Arbeit behandelt die Entwicklung eines parametrischen Stereokodierungsverfahrens mit geringer Systemverzögerungszeit. Parametrische Stereokodierung bedeutet, dass Stereosignale durch ein Monosignal und zusätzlichen Parametern beschrieben werden. Diese Parameter ermöglichen dem Dekoder das Hochmischen des Monosignals auf Stereokanäle. Die Übertragung der Parameter verursachen eine sehr geringe Bitrate, so dass sich die Kodiereffizienz im Vergleich zur getrennten Kodierung beider Stereokanäle deutlich erhöht. Bekannte Methoden zur parametrischen Stereokodierung verursachen in Verbindung mit einem Mono-Wellenformkoder eine algorithmische Verzögerungszeit von etwa 170ms. Für Echtzeit-Anwendungen, wie Videokonferenzsysteme oder verteilte Musikproduktionen über das Internet, bei denen mehrere Musiker gleichzeitig musizieren, sind 170ms deutlich zu lang. Aus psychoakustischen Experimenten ist bekannt, dass Verzögerungszeiten von unter 10ms nicht wahrnehmbar sind. Deswegen war beim Entwurf und der Entwicklung des Low Delay Parametric Stereo Werkzeugs als Ziel gestellt, die vollständige En- und Dekodierung innerhalb von 10ms auszuführen. Die Arbeit stellt ausführlich Grundlagen des räumlichen Hörens dar, die zum Verständnis von räumlicher Audiokodierung nötig sind. Es wird außerdem auf bereits bestehende Methoden zur parametrischen Stereokodierung eingegangen. Der Hauptteil der Arbeit beschäftigt sich mit der Entwicklung einer neuen Methode mit geringer algorithmischer Verzögerungszeit. Es wird herausgearbeitet, dass verschiedene Codierverfahren immer ein Kompromiss zwischen Verzögerungszeit, Bitrate und Qualität sind. Der am Ende der Arbeit präsentierte Hörtest zeigt, dass eine neue Methode das angestrebte Ziel von 10ms erreicht, jedoch mit etwas geringerer Qualität als erwünscht. Eine andere neue Methode erreicht die gleiche, sehr gute Qualität wie ein kommerzielles Verfahren, allerdings verursacht es auch eine Verzögerungszeit von etwa 18ms. Die erreichte Verzögerungszeit liegt etwa 70ms unter der von kommerziellen Lösungen, bei gleicher Qualität.