DYGEST - Neural Architecture for DYnamic GESTure Recognition


 

Einleitung

Gesten sind Teil der alltäglichen, natürlichen menschlichen Kommunikation. Sie werden als Ergänzung zur gesprochenen Sprache und als eigenständiges Ausdrucksmittel verwendet.

In jüngster Zeit gibt es starke Bestrebungen, intelligente, natürliche Schnittstellen zwischen Benutzern und Systemen auf der Basis von Gestenerkennung zu entwickeln, die einfach und intuitiv zu bedienen sind. Diese Schnittstellen sind in der Lage, gängige Schnittstellengeräte (Tastatur, Maus, Datenhandschuh etc.) zu ersetzen und deren Funktionalität zu erweitern.
Das Einsatzgebiet solcher intelligenten Schnittstellen umfasst ein breites Spektrum von Anwendungsfeldern, in denen ein beliebiges System durch einen externen Benutzer gesteuert werden soll oder in denen System und Benutzer unmittelbar interagieren müssen.

Für die Erkennung von dynamischen Gesten ist die Extraktion und anschließende Verwertung von Bewegungsinformationen erforderlich. Viele Ansätze beschäftigen sich mit bewegungsbasierter Erkennung. Aus einer Bildsequenz werden bestimmte Bewegungsmuster extrahiert und weiter klassifiziert. Die Wahl des Klassifikators reicht von Template Matching über statistische Verfahren bis hin zu neuronalen Netzen und Hidden Markov Modellen.
Eines der entscheidenden Probleme bei der Erkennung von dynamischen Gesten ist der Umgang mit der variierenden zeitlichen Struktur von dynamischen Gesten. Daraus ergibt sich der Bedarf an Algorithmen, die eine aus einer Bildsequenz gewonnene dynamische Geste in ein vordefiniertes zeitliches Schema transformieren, um die gewonnene Geste mit den gespeicherten Gesteninstanzen abzugleichen.
Bislang wurden die für die Gestenerkennung vorgeschlagenen Methoden an sehr kleinen Mengen einfacher Gesten getestet und haben daher nur einen sehr begrenzten Anwendungsbereich. Es bleibt das Problem, ein System zu entwickeln, das mit einem großen "Vokabular" von Gesten arbeiten kann und dabei benutzerunabhängig bleibt.

Ziele

Das Endergebnis dieses Projekts besteht aus einer hochstrukturierten neuronalen Architektur, die in der Lage ist, einen potentiellen Benutzer innerhalb des Arbeitsbereichs des Systems zu erkennen, vordefinierte statische Gesten (Posen) zu erkennen und zu interpretieren und das System abhängig von der Absicht des Benutzers, die über die entsprechenden Gesten übermittelt wird, visuell zu führen.

Beschreibung des Projekts

Ein Teil des Projektes wird sich mit neuronalen Mechanismen zur bewegungsbasierten Salienz beschäftigen, um die robuste Erkennung eines potentiellen Benutzers in einem unbekannten Einsatzgebiet zu verbessern. Diese Mechanismen werden eine neuronale Architektur für gestenbasierte Mensch-Maschine-Interaktion ergänzen, die im Forschungsprojekt GESTIK entwickelt wurde.
Im ersten Schritt geht es um die robuste Erkennung von Bewegungen, um die Lokalisierung eines potentiellen Benutzers in einer unbekannten Innenraumumgebung zu unterstützen. Diese Mechanismen sollen mit parallel arbeitenden Modulen interagieren, die Hautfarbe, Gesichtsstruktur und die Struktur des Kopf-Schulter-Bereichs erkennen. Alle diese Module steuern ein neuronales Saliency-System zur Lokalisierung eines Benutzers.
Der zweite und wichtigste Teil des vorgeschlagenen Forschungsprojekts befasst sich mit der bewegungsbasierten Beschreibung und Erkennung von dynamischen Gesten. Dies ergibt sich aus der Notwendigkeit, die gestenbasierte Interaktion von statischen auf dynamische Gesten zu erweitern, um ein hochflexibles, natürlicheres und instruktiveres Interaktionsschema zu erhalten.
Es muss eine neuronale Architektur entworfen und implementiert werden, die in der Lage ist, eine ausreichende, gestenrelevante Beschreibung der Bilder innerhalb der (Video-)Sequenz zu erhalten und die aktuelle dynamische Geste so zu repräsentieren, dass ein effizienter Abgleich mit gespeicherten Gesteninstanzen erfolgen kann.
Durch den Einsatz eines hybriden Hidden-Markov-Modells und Neuronaler Netze sollte es möglich sein, die Modellierung der dynamischen Gesten unter Berücksichtigung ihrer zeitlichen Variationen zu gewährleisten. Dies würde den Einsatz von Time Warping oder verwandten Methoden vermeiden, die die aktuelle dynamische Geste in eine vorgegebene zeitliche Struktur transformieren. Außerdem wäre es nur so möglich, die dynamische Gestenerkennung in Echtzeit auf herkömmlichen Computern durchzuführen.