Datenbankbasierte Pflege und Verwaltung Morphologischer Information im IMSLex

Wolfgang Lezius, Arne Fitschen, Ulrich Heid
IMS, Universität Stuttgart

Einführung

Am Institut für Maschinelle Sprachverarbeitung sind in den vergangenen Jahren eine Reihe lexikalischer Ressourcen für das NLP entstanden. Dazu zählen u.a. das Lexikon einer Morphologie-Komponente (Schiller 1996), ein Tagger-Lexikon (Schmid 1994), ein Subkategorisierungslexikon (Eckle 1998, Eckle/Heid 1996) und weitere für das Syntax-Parsing verwendete Lexika. Um eine wechselseitige Verzahnung in einer einheitlich zugänglichen Quelle zu erreichen, wurde das IMSLex entwickelt. Es handelt sich hierbei um eine relationale Datenbank, die die einzelnen Teillexika über Datenbank-Tabellen miteinander verbindet. In diesem Papier wird der Teilbereich Morphologie erläutert, der Voraussetzung für den Aufbau der übrigen Module (z.B. des Syntax-Lexikons) ist.

Die Verwaltung der lexikalischen Daten steht damit im Gegensatz zu den meisten verfügbaren Morphologie-Systemen des Deutschen, die ihre Daten in dateibasierten Datenformaten ablegen (vgl. z.B. das Morphy-System, Lezius 1998). Letztere Vorgehensweise erleichtert die Anbindung und steigert die Effizienz. Doch die Verwendung einer Datenbank bringt zusätzlich die Garantie der Aktualität der Daten, da die Anwendungen stets auf den aktuellen Datenbestand zugreifen (vgl. auch das TransLexis-System, Bläser 1998). Durch die Verfügbarkeit von Datenbank-Schnittstellen für alle gängigen Programmiersprachen kann die Datenbank zudem problemlos in weitere Anwendungen eingebunden werden.

Der Aufbau der Datenbank

Die morphologischen Informationen des IMSLex wurden aus den lexikalischen Ressourcen von DMOR1 entwickelt, einer Two-Level-Morphologie für das Deutsche (vgl. Schiller 1996). Das Lexikon von DMOR1 ist in Unterlexika gegliedert, in denen Substantive, Adjektive, Verben und geschlossene Wortklassen verwaltet werden. Gemäß dieser Aufteilung gliedert sich die Datenbank in entsprechend benannte Tabellen. Neben der besseren Strukturierung dient die Aufteilung der Tabellen nach Wortarten auch dazu, Abfragen zu ermöglichen, die sich auf verschiedene Wortarten beziehen, z.B. nach Adjektiven, die in Zusammenhang mit Verben stehen (entziffern, entzifferbar).

Die Schlüsselfelder jeder Tabelle sind das Lemma, die Oberflächenform und der Flexionsklassenbezeichner. Die Lemmaform ist je nach Wortart als die Nominativ-Singular-Form, die Positiv-Form, der Infinitiv oder das Adverb, die Konjunktion usw. definiert. Dem Lemma kann in besonderen Fällen eine Oberflächenform beigegeben werden, die die flektierende Rolle im Lexikoneintrag übernimmt. Ein Beispiel ist die Komparation des Adjektivs gut, die auf die Allomorphe gut, besser, best zurückgreift. Hier entstehen drei Lexikoneinträge mit dem Lemma und den drei Oberflächenformen gut, besser, best. Über 2-Ebenen-Regeln sind solche Zusammenhänge nicht oder nur sehr umständlich formulierbar. Der Flexionsklassenbezeichner schließlich verweist in der 2-Ebenen-Morphologie auf eine Fortsetzungsklasse, anhand derer das Flexionsparadigma zu einem Lemma gebildet wird. Spezielle Wortbildungs-Information, z.B. zur Partizipbildung bei Verben, zur Komparationsfähigkeit bei Adjektiven oder der Kompositionsfähigkeit bei Substantiven werden in einem separaten Feld abgelegt, das den Flexionsklassenbezeichner ergänzt.

Ein Konzept zur Lexikonpflege

Ansätze zur Lexikon-Akquisition

Die meisten Systeme zur Morphologie sehen keine Unterstützung des Anwenders bei der Lexikon-Akquisition vor. Die Pflege ist meist nur durch das Editieren kryptischer Quelltexte möglich. Ein benutzerfreundlicherer Ansatz wird u.a. im Morphy-System verfolgt (vgl. Lezius 1996): Der Anwender wird nach Eingabe des Wortstamms durch einen Dialog geführt. In dessen Verlauf muß er Fragen bezüglich des Flexionsparadigmas beantworten. Dabei werden Wortformen als Alternativen vorgeschlagen; die richtige muß lediglich ausgewählt werden. Die Implementation des Dialogs stützt sich dazu auf einen Entscheidungsbaum, der im Laufe des Dialogs durchlaufen wird.
Ein weiterer Ansatz verfügt über Wissen darüber, welche Flexionsklassen für einen Stamm mit einer spezifischen Endung möglich sind. Für jeden neuen Stamm werden so alle möglichen Flexionsklassen generiert und nach ihrer Auftretenshäufigkeit sortiert vorgeschlagen. Der Benutzer muß lediglich die richtige Alternative auswählen. Da sich die Flexionsklassen für spezifische Suffixe speziell im Deutschen sehr ungleichmäßig verteilen, ist dieses Verfahren sehr effizient (vgl. auch Maier 1998).

Der verwendete Ansatz

Zielsetzung beim Entwurf eines Pflegekonzeptes für das IMSLex war die Erweiterung des Lexikons auch durch Nicht-Fachleute. Basis unseres Ansatzes ist ein Entscheidungsbaum, der um Funktionen zur Bestimmung der wahrscheinlichsten Flexionsklasse erweitert wurde. Das folgende Beispiel zeigt den Dialog für das Adjektiv alt (Benutzereingaben sind fettgedruckt):

1. Geben Sie den Stamm ein: alt
2. Welche Wortklasse liegt vor?
1: Substantiv
2: Eigenname
3: Adjektiv
4: Verb
3. Wie lautet die Superlativ-Form?
1: am altsten
2: am altesten
3: am alt(e)sten
4: am ältsten
5: am ältesten
6: kein Superlativ
Klasse Adj$e ermittelt!

Für die konkrete Implementation ist der Entscheidungsbaum-Dialog eingebettet in eine Client/Server-Architektur. Ein Serverprozeß steuert die Anbindung der Datenbank und eines Moduls zur Generierung von Flexionsparadigmen. Diese dienen zur Kontrolle neuer Benutzereinträge. Die Clients werden dadurch von plattformspezifischen Bestandteilen befreit. Durch die Verwendung von Java als Entwicklungssprache sind sie daher plattformübergreifend und sogar über Rechnernetze hinweg einsetzbar.

Korpusbasierter Lexikonausbau

Der Umfang des Lemmabestands des Wörterbuchs wurde im Frühjahr 1999 durch korpusbasierte[*] semi-automatische Akquisition erheblich ausgeweitet. Das Verfahren beruht u.a. auf einer systematischen Untersuchung der Abdeckung, die das Lexikon bei abgeleiteten Adjektiven und Substantiven aufweist, und damit auf ähnlichen Annahmen in dem oben beschriebenen Ansatz von Maier (1998).
Aus POS-getaggten und lemmatisierten Zeitungskorpora (vgl. Schmid 94) wurden häufigkeitssortierte Listen von Lemmata (z.T. von Wortformen), jeweils nach Affixen sortiert, extrahiert (z.B. alle Adjektive auf -sam, -bar; alle Nomina auf -ung, -heit, -(el)ei, -(er)ei usw.). Jeweils wurde automatisch ermittelt, welche Lemmata bzw. Wortformen noch nicht im IMSLex morphologisch beschrieben sind; diese Kandidaten wurden manuell sortiert, die positives sodann automatisch in die jeweils relevante Flexionsklasse eingetragen. Manuelle Klassifikation ist notwendig, wo ein automatischer Vergleich nicht möglich oder nicht aussagekräftig ist: z.B. bei Lemmata, die formal einem Wortbildungsmuster zuzugehören scheinen, wo aber das Grundwort fehlt (Frettchen, Flittchen) oder die Analyse unzutreffend ist (z.B. unbeleckt).
Die automatische korpusbasierte Akquisition eignet sich auch dazu, in gewissem Umfang morphosyntaktische bzw. distributionelle Eigenschaften von Lexemen zu identifizieren: z.B. prädikativen vs. attributiven Adjektivgebrauch, Vorhandensein von Steigerungsformen, etc. Natürlich sind die aus den Korpora gewonnenen Ergebnisse für diese Eigenschaften lückenhaft und müssen manuell ergänzt werden. Transparente regelhafte Komposita wurden nicht in das Lexikon aufgenommen: sie können durch Regeln interpretiert werden.

Ausblick

Durch die beschriebenen Arbeiten ist eine funktionstüchtige Infrastruktur entstanden, die in erster Linie zum kontinuierlichen Ausbau der Datenbasis genutzt werden soll. Vielversprechend ist die Weiterentwicklung der eigentlichen Morphologie-Komponente. Denn durch die phänomenbasierte Lexikonerweiterung steht aussagekräftiges Anschauungsmaterial für die Behandlung der Komposition und Derivation zur Verfügung.

Literatur

1
Bläser, B. (1998) TransLexis: An Integrated Environment for Lexicon and Terminology Managment IBM Heidelberg, Arbeitsbericht.
2
Eckle, J. (1998) Methods for quality assurance in semi-automatic lexicon acquisition from corpora Proceedings of EURALEX 1998.
3
Eckle, J.; Heid, U. (1996) Extracting raw material for a German subcategorization lexicon from newspaper text Proceedings of the 4th International Conference on Computational Lexicography, COMPLEX 1996.
4
Lezius, W.; Rapp, R.; Wettler, M. (1998) A Freely Available Morphological Analyzer, Disambiguator, and Context Sensitive Lemmatizer for German Proceedings of the COLING-ACL 1998.
5
Lezius, W. (1996) Morphologiesystem MORPHY In: Hausser, R. (Hg.) Linguistische Verifikation - Dokumentation zur Ersten Morpholympics 1994, S. 25-35, Niemeyer, Tübingen.
6
Maier, P. (1998) Defaultzuweisung morphosyntaktischer Kategorien In: G. Heyer, C. Wolff (Hg.): Linguistik und Neue Medien. Deutscher Universitätsverlag, Wiesbaden, S. 151-162.
7
Schiller, A. (1996) Deutsche Flexions- und Kompositionsmorphologie mit PC-KIMMO In: Hausser, R. (Hg.) Linguistische Verifikation - Dokumentation zur Ersten Morpholympics 1994, S. 37-52, Niemeyer, Tübingen.
8
Schmid, H. (1994) Probabilistic Part-of-Speech Tagging Using Decision Trees Proceedings of International Conference on New Methods in Language Processing.

Footnotes

...korpusbasierte
Benutzt wurden ca. 300 Millionen Wortformen, aus der Frankfurter Rundschau (40 M, ECI MC-1), aus dem European Languages News Corpus des LDC (ca. 100 M), der tageszeitung, Stuttgarter Zeitung.

Wolfgang Lezius

4/26/1999