publications

Statische und modellbasierte
Lernverfahren zur Erweiterung
von Unifikationsgrammatiken


1996, German, 100+ pages, postscript, .ps.gz, code (.tar.gz), abstract (German, English).
Diplom thesis at the University of Erlangen-Nuremberg, Germany.

In Systemen zur Verarbeitung natürlicher Sprache wird die Syntax oft mittels Grammatiken modelliert. Das Schreiben dieser Grammatiken ist jedoch sehr zeitaufwendig. Es scheint sogar unmöglich zu sein, jemals eine Grammatik zu erstellen, die vollständig eine natürliche Sprache abdeckt. Es gibt immer wieder unbeachtete Sonderfälle und Ausnahmen, so daß nach jedem Testen neue Regeln der Grammatik hinzugefügt werden müssen.

Miles Osborne führte ein Verfahren für das Englische ein, in dem zu einer gegebenen Grundgrammatik zusätzliche Regeln gelernt werden. Die Regelkonstruktion benutzt dabei Charts von nicht erfolgreich geparsten Trainingssätzen. Das Verfahren besteht aus einer linguistisch motivierten modellbasierten Komponente und einer statistisch angelegten datengesteuerten Komponente, um neue Regeln zu konstruieren und zu bewerten.

Zielsetzung dieser Arbeit war es, dieses Verfahren für das Deutsche anwendbar zu machen. Da sich die deutsche Sprache erheblich vom Englischen unterscheidet, konnte insbesondere die modellbasierte Komponente so nicht übernommen werden. Es wurde ein neuer Grammatikformalismus und ein neues Grammatikmodell entwickelt. Auch wurde die Regelgenerierung genauer beschränkt, so daß die linguistisch Plausibilität der Grammatik in höherem Maße erhalten bleibt. Das Verfahren wurde in Prolog, C und Perl implementiert.

In den durchgeführten Experimenten konnte gezeigt werden, daß mit dem Verfahren erfolgreich Regeln gelernt werden konnten, die erlaubten, einen Großteil der Testsätze zu parsen.


home