Appel Thorsten
Thema: Alltagstaugliche Sprachsteuerung in der Servicerobotik
Betreuer:Prof. Dr. rer.nat. B. Wirnitzer
Beschreibung:Die Sprache ist für die Kommunikation unter Menschen das Basiskommunikationsmittel. Die Kommunikation zwischen Mensch und Computer erfolgt aber größtenteils über die Eingabeinstrumente Maus und Tastatur. In der Servicerobotik möchte man dem Menschen eine Hilfe für das alltägliche Leben geben. Um eine möglichst einfache und intuitive Bedienung eines Roboters zu erreichen, bietet sich die Sprachsteuerung an. Der Benutzer kann so seine Wünsche einfach verbal äußern. Ein auf dem Roboter installiertes Spracherkennungssystem erkennt die Äußerung und kann den erkannten Befehl an die Steuerung weitergeben.

Die Thematik ist motiviert durch die Mitwirkung des Instituts für Digitale Signalverarbeitung am ZAFH Forschungsprojekt "Autonome Mobile Serviceroboter". Ziel dieser Arbeit ist es, angemessene Möglichkeiten der Sprachsteuerung für einen Serviceroboter zu untersuchen und beispielhaft zu implementieren.

Dazu wurden innerhalb der Recherchephase aktuelle Spracherkennungssysteme (kommerzielle sowie Open Source Lösungen) aufgezeigt und auf deren Tauglichkeit für die Anwendung in der Servicerobotik geprüft. Für die beispielhafte Implementierung wurden IBM Embedded ViaVoice (kommerziell) und Julius (Open Source) gewählt. IBM EVV stellt dabei eine Lösung für Windows in Deutsch dar, während Julius eine Linux Lösung für die englische Sprache darstellt. Beide Systeme bieten ein API in C++ an.
Es wurde ein einfaches Szenario entwickelt, welches eine typische Kommunikation mit dem Roboter verdeutlichen soll. Der Roboter soll dabei einfache Kommandos in realistischer Umgebung erkennen. Das Szenario wurde zunächst unter Windows mit der IBM-EVV-Engine umgesetzt. Die Programmierung erfolgte im QT-Framework, um so geschriebene Komponenten wie z.B. das GUI später für die Implementierung mit der Julius-Engine unter Linux  wiederverwenden zu können. 
Dem Szenario entsprechend wurde ein einfacher Sprachdialog entwickelt. Der Roboter wartet zuerst auf ein Schlüsselwort, um danach Befehle entgegen zu nehmen. Bei unsicherer Erkennung der Befehle werden zur Verifikation einfache Ja-Nein Fragen per Sprachausgabe formuliert. Die im jeweiligen Dialogzustand nötigen Grammatiken wurden zunächst manuell erstellt. Dabei ist hervorzuheben, dass manche Grammatiken auch während der Laufzeit abhängig von vorherigen Nutzerangaben modifiziert werden können. Dies ist insbesondere dann der Fall, wenn der Befehl „Lerne ein neues Objekt“ umgesetzt wird. Der Wortschatz wird dann dynamisch während der Laufzeit um das vom Nutzer genannte konkrete Objekt (bspw. "Tasse") erweitert.

Abschließend wurde die Leistungsfähigkeit der Spracherkennungsengines im Raum untersucht. Dabei wurden u.a. verschiedene Mikrofone und Sprecher getestet. Schließlich wurde auch eine Schnittstelle zur visuellen Objekterkennung geschaffen, die es ermöglicht, dass die akustisch erkannten Befehle und Objekte mit den visuell erkannten Objekten in Bezug gesetzt werden können. So ist die Basis gelegt, die Funktionalität eines "sehenden und hörenden" Serviceroboters durch Kopplung der beiden Systeme zu demonstrieren.