Datenbankbasierte Pflege und Verwaltung Morphologischer
Information im IMSLex
Wolfgang Lezius, Arne Fitschen, Ulrich Heid
IMS, Universität Stuttgart
Einführung
Am Institut für Maschinelle Sprachverarbeitung sind in den vergangenen
Jahren eine Reihe lexikalischer Ressourcen für das NLP entstanden.
Dazu zählen u.a. das Lexikon einer Morphologie-Komponente (Schiller
1996), ein Tagger-Lexikon (Schmid 1994), ein Subkategorisierungslexikon
(Eckle 1998, Eckle/Heid 1996) und weitere für das Syntax-Parsing verwendete
Lexika. Um eine wechselseitige Verzahnung in einer einheitlich zugänglichen
Quelle zu erreichen, wurde das IMSLex entwickelt. Es handelt sich hierbei
um eine relationale Datenbank, die die einzelnen Teillexika über Datenbank-Tabellen
miteinander verbindet. In diesem Papier wird der Teilbereich Morphologie
erläutert, der Voraussetzung für den Aufbau der übrigen
Module (z.B. des Syntax-Lexikons) ist.
Die Verwaltung der lexikalischen Daten steht damit im Gegensatz zu den
meisten verfügbaren Morphologie-Systemen des Deutschen, die ihre Daten
in dateibasierten Datenformaten ablegen (vgl. z.B. das Morphy-System, Lezius
1998). Letztere Vorgehensweise erleichtert die Anbindung und steigert die
Effizienz. Doch die Verwendung einer Datenbank bringt zusätzlich die
Garantie der Aktualität der Daten, da die Anwendungen stets auf den
aktuellen Datenbestand zugreifen (vgl. auch das TransLexis-System, Bläser
1998). Durch die Verfügbarkeit von Datenbank-Schnittstellen für
alle gängigen Programmiersprachen kann die Datenbank zudem problemlos
in weitere Anwendungen eingebunden werden.
Der Aufbau der Datenbank
Die morphologischen Informationen des IMSLex wurden aus den lexikalischen
Ressourcen von DMOR1 entwickelt, einer Two-Level-Morphologie für das
Deutsche (vgl. Schiller 1996). Das Lexikon von DMOR1 ist in Unterlexika
gegliedert, in denen Substantive, Adjektive, Verben und geschlossene Wortklassen
verwaltet werden. Gemäß dieser Aufteilung gliedert sich die
Datenbank in entsprechend benannte Tabellen. Neben der besseren Strukturierung
dient die Aufteilung der Tabellen nach Wortarten auch dazu, Abfragen zu
ermöglichen, die sich auf verschiedene Wortarten beziehen, z.B. nach
Adjektiven, die in Zusammenhang mit Verben stehen (entziffern, entzifferbar).
Die Schlüsselfelder jeder Tabelle sind das Lemma, die Oberflächenform
und der Flexionsklassenbezeichner. Die Lemmaform ist je nach Wortart
als die Nominativ-Singular-Form, die Positiv-Form, der Infinitiv oder das
Adverb, die Konjunktion usw. definiert. Dem Lemma kann in besonderen Fällen
eine Oberflächenform beigegeben werden, die die flektierende Rolle
im Lexikoneintrag übernimmt. Ein Beispiel ist die Komparation des
Adjektivs gut, die auf die Allomorphe gut, besser, best zurückgreift.
Hier entstehen drei Lexikoneinträge mit dem Lemma und den drei Oberflächenformen
gut,
besser, best. Über 2-Ebenen-Regeln sind solche Zusammenhänge
nicht oder nur sehr umständlich formulierbar. Der Flexionsklassenbezeichner
schließlich verweist in der 2-Ebenen-Morphologie auf eine Fortsetzungsklasse,
anhand derer das Flexionsparadigma zu einem Lemma gebildet wird. Spezielle
Wortbildungs-Information, z.B. zur Partizipbildung bei Verben, zur Komparationsfähigkeit
bei Adjektiven oder der Kompositionsfähigkeit bei Substantiven werden
in einem separaten Feld abgelegt, das den Flexionsklassenbezeichner ergänzt.
Ein Konzept zur Lexikonpflege
Ansätze zur Lexikon-Akquisition
Die meisten Systeme zur Morphologie sehen keine Unterstützung des
Anwenders bei der Lexikon-Akquisition vor. Die Pflege ist meist nur durch
das Editieren kryptischer Quelltexte möglich. Ein benutzerfreundlicherer
Ansatz wird u.a. im Morphy-System verfolgt (vgl. Lezius 1996): Der Anwender
wird nach Eingabe des Wortstamms durch einen Dialog geführt. In dessen
Verlauf muß er Fragen bezüglich des Flexionsparadigmas beantworten.
Dabei werden Wortformen als Alternativen vorgeschlagen; die richtige muß
lediglich ausgewählt werden. Die Implementation des Dialogs stützt
sich dazu auf einen Entscheidungsbaum, der im Laufe des Dialogs durchlaufen
wird.
Ein weiterer Ansatz verfügt über Wissen darüber, welche
Flexionsklassen für einen Stamm mit einer spezifischen Endung möglich
sind. Für jeden neuen Stamm werden so alle möglichen Flexionsklassen
generiert und nach ihrer Auftretenshäufigkeit sortiert vorgeschlagen.
Der Benutzer muß lediglich die richtige Alternative auswählen.
Da sich die Flexionsklassen für spezifische Suffixe speziell im Deutschen
sehr ungleichmäßig verteilen, ist dieses Verfahren sehr effizient
(vgl. auch Maier 1998).
Der verwendete Ansatz
Zielsetzung beim Entwurf eines Pflegekonzeptes für das IMSLex war
die Erweiterung des Lexikons auch durch Nicht-Fachleute. Basis unseres
Ansatzes ist ein Entscheidungsbaum, der um Funktionen zur Bestimmung der
wahrscheinlichsten Flexionsklasse erweitert wurde. Das folgende Beispiel
zeigt den Dialog für das Adjektiv alt (Benutzereingaben sind
fettgedruckt):
1. Geben Sie den Stamm ein: alt
2. Welche Wortklasse liegt vor?
1: Substantiv
2: Eigenname
3: Adjektiv
4: Verb
3. Wie lautet die Superlativ-Form?
1: am altsten
2: am altesten
3: am alt(e)sten
4: am ältsten
5: am ältesten
6: kein Superlativ
Klasse Adj$e ermittelt!
Für die konkrete Implementation ist der Entscheidungsbaum-Dialog
eingebettet in eine Client/Server-Architektur. Ein Serverprozeß steuert
die Anbindung der Datenbank und eines Moduls zur Generierung von Flexionsparadigmen.
Diese dienen zur Kontrolle neuer Benutzereinträge. Die Clients werden
dadurch von plattformspezifischen Bestandteilen befreit. Durch die Verwendung
von Java als Entwicklungssprache sind sie daher plattformübergreifend
und sogar über Rechnernetze hinweg einsetzbar.
Korpusbasierter Lexikonausbau
Der Umfang des Lemmabestands des Wörterbuchs wurde im Frühjahr
1999 durch korpusbasierte
semi-automatische Akquisition erheblich ausgeweitet. Das Verfahren beruht
u.a. auf einer systematischen Untersuchung der Abdeckung, die das Lexikon
bei abgeleiteten Adjektiven und Substantiven aufweist, und damit auf ähnlichen
Annahmen in dem oben beschriebenen Ansatz von Maier (1998).
Aus POS-getaggten und lemmatisierten Zeitungskorpora (vgl. Schmid 94)
wurden häufigkeitssortierte Listen von Lemmata (z.T. von Wortformen),
jeweils nach Affixen sortiert, extrahiert (z.B. alle Adjektive auf
-sam,
-bar;
alle Nomina auf -ung, -heit, -(el)ei,
-(er)ei
usw.). Jeweils wurde automatisch ermittelt, welche Lemmata bzw. Wortformen
noch nicht im IMSLex morphologisch beschrieben sind; diese Kandidaten wurden
manuell sortiert, die positives sodann automatisch in die jeweils
relevante Flexionsklasse eingetragen. Manuelle Klassifikation ist notwendig,
wo ein automatischer Vergleich nicht möglich oder nicht aussagekräftig
ist: z.B. bei Lemmata, die formal einem Wortbildungsmuster zuzugehören
scheinen, wo aber das Grundwort fehlt (Frettchen,
Flittchen)
oder die Analyse unzutreffend ist (z.B. unbeleckt).
Die automatische korpusbasierte Akquisition eignet sich auch dazu,
in gewissem Umfang morphosyntaktische bzw. distributionelle Eigenschaften
von Lexemen zu identifizieren: z.B. prädikativen vs. attributiven
Adjektivgebrauch, Vorhandensein von Steigerungsformen, etc. Natürlich
sind die aus den Korpora gewonnenen Ergebnisse für diese Eigenschaften
lückenhaft und müssen manuell ergänzt werden. Transparente
regelhafte Komposita wurden nicht in das Lexikon aufgenommen: sie können
durch Regeln interpretiert werden.
Ausblick
Durch die beschriebenen Arbeiten ist eine funktionstüchtige Infrastruktur
entstanden, die in erster Linie zum kontinuierlichen Ausbau der Datenbasis
genutzt werden soll. Vielversprechend ist die Weiterentwicklung der eigentlichen
Morphologie-Komponente. Denn durch die phänomenbasierte Lexikonerweiterung
steht aussagekräftiges Anschauungsmaterial für die Behandlung
der Komposition und Derivation zur Verfügung.
Literatur
-
1
-
Bläser, B. (1998) TransLexis: An Integrated Environment for Lexicon
and Terminology Managment IBM Heidelberg, Arbeitsbericht.
-
2
-
Eckle, J. (1998) Methods for quality assurance in semi-automatic lexicon
acquisition from corpora Proceedings of EURALEX 1998.
-
3
-
Eckle, J.; Heid, U. (1996) Extracting raw material for a German subcategorization
lexicon from newspaper text Proceedings of the 4th International Conference
on Computational Lexicography, COMPLEX 1996.
-
4
-
Lezius, W.; Rapp, R.; Wettler, M. (1998) A Freely Available Morphological
Analyzer, Disambiguator, and Context Sensitive Lemmatizer for German
Proceedings of the COLING-ACL 1998.
-
5
-
Lezius, W. (1996) Morphologiesystem MORPHY In: Hausser, R. (Hg.)
Linguistische Verifikation - Dokumentation zur Ersten Morpholympics 1994,
S. 25-35, Niemeyer, Tübingen.
-
6
-
Maier, P. (1998) Defaultzuweisung morphosyntaktischer Kategorien
In: G. Heyer, C. Wolff (Hg.): Linguistik und Neue Medien. Deutscher Universitätsverlag,
Wiesbaden, S. 151-162.
-
7
-
Schiller, A. (1996) Deutsche Flexions- und Kompositionsmorphologie mit
PC-KIMMO In: Hausser, R. (Hg.) Linguistische Verifikation - Dokumentation
zur Ersten Morpholympics 1994, S. 37-52, Niemeyer, Tübingen.
-
8
-
Schmid, H. (1994) Probabilistic Part-of-Speech Tagging Using Decision
Trees Proceedings of International Conference on New Methods in Language
Processing.
Footnotes
-
...korpusbasierte
-
Benutzt wurden ca. 300 Millionen Wortformen, aus der Frankfurter Rundschau
(40 M, ECI MC-1), aus dem European Languages News Corpus des LDC (ca. 100
M), der tageszeitung,
Stuttgarter Zeitung.
Wolfgang Lezius
4/26/1999