Appel Thorsten


Thema:	Alltagstaugliche Sprachsteuerung in der Servicerobotik
Betreuer:	Prof. Dr. rer.nat. B. Wirnitzer
Beschreibung:	Die Sprache ist für die Kommunikation unter Menschen das Basiskommunikationsmittel. Die Kommunikation zwischen Mensch und Computer erfolgt aber größtenteils über die Eingabeinstrumente Maus und Tastatur. In der Servicerobotik möchte man dem Menschen eine Hilfe für das alltägliche Leben geben. Um eine möglichst einfache und intuitive Bedienung eines Roboters zu erreichen, bietet sich die Sprachsteuerung an. Der Benutzer kann so seine Wünsche einfach verbal äußern. Ein auf dem Roboter installiertes Spracherkennungssystem erkennt die Äußerung und kann den erkannten Befehl an die Steuerung weitergeben. Die Thematik ist motiviert durch die Mitwirkung des Instituts für Digitale Signalverarbeitung am ZAFH Forschungsprojekt "Autonome Mobile Serviceroboter". Ziel dieser Arbeit ist es, angemessene Möglichkeiten der Sprachsteuerung für einen Serviceroboter zu untersuchen und beispielhaft zu implementieren. Dazu wurden innerhalb der Recherchephase aktuelle Spracherkennungssysteme (kommerzielle sowie Open Source Lösungen) aufgezeigt und auf deren Tauglichkeit für die Anwendung in der Servicerobotik geprüft. Für die beispielhafte Implementierung wurden IBM Embedded ViaVoice (kommerziell) und Julius (Open Source) gewählt. IBM EVV stellt dabei eine Lösung für Windows in Deutsch dar, während Julius eine Linux Lösung für die englische Sprache darstellt. Beide Systeme bieten ein API in C++ an. Es wurde ein einfaches Szenario entwickelt, welches eine typische Kommunikation mit dem Roboter verdeutlichen soll. Der Roboter soll dabei einfache Kommandos in realistischer Umgebung erkennen. Das Szenario wurde zunächst unter Windows mit der IBM-EVV-Engine umgesetzt. Die Programmierung erfolgte im QT-Framework, um so geschriebene Komponenten wie z.B. das GUI später für die Implementierung mit der Julius-Engine unter Linux wiederverwenden zu können. Dem Szenario entsprechend wurde ein einfacher Sprachdialog entwickelt. Der Roboter wartet zuerst auf ein Schlüsselwort, um danach Befehle entgegen zu nehmen. Bei unsicherer Erkennung der Befehle werden zur Verifikation einfache Ja-Nein Fragen per Sprachausgabe formuliert. Die im jeweiligen Dialogzustand nötigen Grammatiken wurden zunächst manuell erstellt. Dabei ist hervorzuheben, dass manche Grammatiken auch während der Laufzeit abhängig von vorherigen Nutzerangaben modifiziert werden können. Dies ist insbesondere dann der Fall, wenn der Befehl „Lerne ein neues Objekt“ umgesetzt wird. Der Wortschatz wird dann dynamisch während der Laufzeit um das vom Nutzer genannte konkrete Objekt (bspw. "Tasse") erweitert. Abschließend wurde die Leistungsfähigkeit der Spracherkennungsengines im Raum untersucht. Dabei wurden u.a. verschiedene Mikrofone und Sprecher getestet. Schließlich wurde auch eine Schnittstelle zur visuellen Objekterkennung geschaffen, die es ermöglicht, dass die akustisch erkannten Befehle und Objekte mit den visuell erkannten Objekten in Bezug gesetzt werden können. So ist die Basis gelegt, die Funktionalität eines "sehenden und hörenden" Serviceroboters durch Kopplung der beiden Systeme zu demonstrieren.

zurück

Name	Zweck	Ablauf	Typ	Anbieter
_pk_id	Wird verwendet, um ein paar Details über den Benutzer wie die eindeutige Besucher-ID zu speichern.	13 Monate	HTML	Matomo
_pk_ref	Wird benutzt, um die Informationen der Herkunftswebsite des Benutzers zu speichern.	6 Monate	HTML	Matomo
_pk_ses	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo
_pk_cvar	Kurzzeitiges Cookie, um vorübergehende Daten des Besuchs zu speichern.	30 Minuten	HTML	Matomo