CURDEX- Curiosity-driven exploration using abstract knowledge

Eine der großen Aufgaben in der Künstlichen Intelligenz ist die Erfassung und Verfeinerung von Wissen, was auch als Wissensrepräsentation und Reasoning bezeichnet wird. Jüngste Fortschritte wurden auch im Bereich des semantischen Webs durch Wissensgraphen erzielt, die große Mengen an unstrukturierten Daten verarbeiten. Die bekanntesten sind wohl Googles Knowledge Graph oder IBMs WATSON. Andere sind zum Beispiel Cyc, DBpedia oder Yago, um nur einige zu nennen.

Im Gegensatz dazu ist die Robotik-Domäne noch weit davon entfernt, solche Big Data für alltägliche Aktivitäten zu nutzen, da die Beziehung zwischen Internet-Wissen und Instanzen der realen Welt immer noch eine sehr anspruchsvolle und ungelöste Aufgabe ist. Noch weiter entfernt ist die Generalisierung von solchem Wissen und das Ableiten von gemeinsamen Konzepten, um ein intelligentes Verhalten zu erreichen.

Erste Schritte in diese Richtung modellieren eine detaillierte Umgebung für den Roboter, um ihm die Fähigkeit zu geben, Wissen in Handlungen zu übertragen und vice versa. Langfristig könnte die Wissensrepräsentation eines Roboters durch große und unstrukturierte Daten aus dem Internet angereichert werden. Dieses Forschungsthema geht in den oben erwähnten zweiten Teil über, nämlich die Anreicherung alltäglicher Aktivitäten unter Verwendung von Wissen aus dem semantischen Web.

Ein weiterer beeindruckender Fortschritt wurde in Spiel-Engines gemacht, wo das Rendering von Umgebungen fotorealistisch wird, zum Beispiel durch die Unreal Engine 4. Solche Virtual Reality (VR)-Umgebungen werden neuerdings als Schnittstelle zwischen Roboter und realer Welt eingesetzt. VR ist ein weiteres Werkzeug zum Lernen, Testen und Erkunden der alltäglichen Umgebung, bevor es in die reale Welt geht. Im Gegenzug kann das gesammelte Wissen aus der realen Welt in VR dargestellt werden. Mit anderen Worten, der innere Zustand einer Wissensbasis könnte durch VR visualisiert werden.

Die Kombination von Fortschritten in den Bereichen semantisches Web, Game-Engines und Robotik zeigt eine vielversprechende Richtung auf, um ein Niveau von Autonomie für Roboter zu erreichen, das im Vergleich zu klassischen KI-Ansätzen allgemeiner und flexibler ist.

Die Überbrückung der Lücke zwischen symbolischen High-Level- und subsymbolischen Low-Level-Ansätzen ist eine große Herausforderung und ein Thema aktiver Forschung. Ein System, das sowohl in der symbolischen als auch in der subsymbolischen Domäne operiert, könnte potenziell positive Aspekte aus beiden Domänen nutzen, wie z. B. die assoziative Kraft subsymbolischer, verteilter Repräsentationen oder leistungsfähige Inferenzmethoden und Wissensdatenbanken, die in der symbolischen KI verfügbar sind. Allerdings ist die direkte Spezifikation eines Systems, das den gesamten Stack von der Wahrnehmung bis zur hochentwickelten symbolischen KI abdeckt, nicht trivial und möglicherweise von vornherein zum Scheitern verurteilt.

Hier gehen wir von der Perspektive eines Agenten aus, der schrittweise eine verteilte Repräsentation aufbaut, indem er mit seiner Umgebung interagiert, und untersuchen, wie explizites Wissen, das in symbolischer Form zugänglich ist, genutzt werden kann, um die Lernleistung zu verbessern, z.B. durch Anleitung zur Exploration. Der Agent kann eine Reihe von (diskreten) Aktionen in einer interaktiven Umgebung durchführen (Reinforcement Learning). Generell sind wir an einem Agenten interessiert, der nach einer gewissen Trainingszeit eine Reihe von Aufgaben erfüllen kann oder schnell neue Aufgaben lernt, die zur Trainingszeit noch nicht bekannt sind. Daher ist das Ziel, einen Agenten zu bauen, der die Umgebung und seine eigenen Aktionen während der Trainingsphase erkunden kann und eine Repräsentation aufbaut, die für das Lernen/Ausführen neuer Aufgaben danach nützlich ist.

Die Hauptidee ist zu erforschen, wie man eine Repräsentation/einen Algorithmus aufbauen kann, der symbolische Informationen während der Trainingszeit nutzen kann, z.B. um die Exploration zu leiten, und zu beurteilen, wie diese Informationen den Lernprozess sowie die Leistung bei neuen Aufgaben unterstützen können. Dies könnte z. B. durch die Verwendung der symbolischen Informationen geschehen, um dynamisch intrinsische Belohnungsfunktionen zu konstruieren oder geeignete Zielzustände zu wählen.