Realisierung paradigmenbasierter Derivationsmorphologie
in finite-state Umgebungen
 
Christian Fischbach und James Kilbury
 
Seminar für Allgemeine Sprachwissenschaft
Universitätsstr. 1, D-40225 Düsseldorf
email:{fischbac,kilbury}@ling.uni-duesseldo= rf.de
 
1. Einleitung=
Sowohl linguistisch-theoretische als auch anwendungsorientierte Überlegungen erfordern eine Strukturierung und Codierung derivations= morphologischer Informationen des Deutschen, die nicht nur die lexikalisierten Formen und= Verallgemeinerungen über sie, sondern auch Verallgemeinerungen ü= ;ber neue, im Lexikon noch nicht verzeichnete Formen erfaßt. Zum Kern der Generalisierungen über Derivationsmorphologie zählt eine detaillierte Beschreibung morphotaktischer Strukturen, die allerdings ohn= e Rückgriff auf automatische Verfahren zur Wissensextraktion aus Lexik= ondatenbanken kaum erreichbar sein dürfte.
  Vor diesem Hintergrund präsentieren wir effiziente finite-state Codierungen des in [Kilbury, 1992] entwickelten Ansatzes zur paradigmenbasierten Derivationsmorpho= logie, die eine effiziente und robuste morphotaktische Verarbeitung der Derivati= onsstrukturen des Deutschen ermöglichen. Wir zeigen ferner, wie diese Codierungen in einem vollautomatischen, generischen Verfahren aus der Lexikondatenban= k Celex [Celex-URL, 199= 9] extrahiert werden können.

2. Linguistische Motiv= ation
Die linguistische Motivation für die in den Abschnitten 4 und 5 vorgestellten Impl= ementierungen ergibt sich aus Grundannahmen von Kilbury [Kilbury, 1992] über die Morphotaktik der Derivation in einem morphembasie= rten Lexikon. Hierzu zählt insbesondere die Annahme einer gegenseitigen, quasi komplementären Subkategorisierung (hier verstanden als Kombina= tionspotential) von Affixen (für Argument- und Ergebniswortklasse) und Stämmen (für Affixe). So subkategorisiert etwa das Suffix -lich die Argumentwortklasse V(erb) und die Ergebniswortklasse A(djektiv), die verb= ale Wurzel wirk subkategorisiert komplementär das Suffix -lich= . Die Subkategorisierung der Affixe drückt ihr allgemeines Kombination= spotential aus, während die der Wurzeln bzw. Stämme die tatsächlich lexikalisierten Formen erfaßt (z.B. wirklich aber nicht e= ntwirken).
  Diese gegenseitige morphologische Subkategorisierung induziert= rekursiv aufeinander anwendbare Affigierungsstrukturen und damit Hül= len von lexikalisierten Formen. Für die Wurzel bind bildet z.B. {verbind, verbindlich, unverbindlich, ...} eine Teil= hülle. Die Annahme, daß die einzelnen Wurzelhüllen Gemeinsamkeiten aufweisen, wie etwa die Wurzeln leg und setz mit Teilhü= ;llen {beleg, verleg, zerleg, ...} bzw. {besetz,= versetz, zersetz, ...}, führt schließlich zur Idee des Derivatio= nsparadigmas als Template (Muster), das den gemeinsamen Teil verschiedener Wurzelh&uum= l;llen repräsentiert.
  Mit unserem Ansatz schaffen wir die Grundlagen für ein Lexikon, das (a) die Intuition erfaßt, daß Formen wie = entsetzen morphologisch komplexe Stämme haben, (b) dennoch eine Adressierung der idiosynkratischen lexikalischen Informationen definiert und (c) die für die Beschreibung von Neubildungen erforderlichen Verallgemeineru= ngen über Affixe ausdrückt.

3. Zur finite-state Technik
In unserem Ansatz verwenden wir zwar Transduktoren, aber sie realisie= ren keine phonologischen Transduktionen zwischen Ebenen im Sinne von Two-Leve= l Morphology (vgl.[Sproat, 1= 992]). Die Bänder des Basisgerüsts (vgl. Schritt (b) in Abschnitt 4) sind zugleich Ein- UND Ausgabeband: die den Affigierungsstrukturen inh&au= ml;renten Reihenfolgeconstraints werden bandübergreifend erfaßt; die Aus= gabe von Werten (,,Auszahlungen`` oder ,,pay-offs``) erfolgt in bandüberg= reifend verteilte Variablen. Diese Variablen simulieren weitere Bänder, f&uu= ml;hren allerdings nicht aus der Klasse der endlichen Automaten heraus, weil die instantiierte Information im Automaten nicht propagiert wird (wodurch die= implizite Realisierung von Kellerstrukturen ausgeschlossen ist).
=   Die Implementierungen nutzen das finite-state Toolkit FSA [FSA-URL, 1999]; die Automaten werden mit dem Graphvisualisierungstool daVinci [Werner, 1998] graphisch dargestellt.

4= =2E Codierung und Verarbeitung
In Anlehnung an [Kilb= ury, 1992] besteht unser morphotaktisches Parsing aus zwei nichtdeterminis= tischen Analyseschritten: (a) reguläre Zerlegung eines Wortes in Morpheme, und (b) rekursive Affigierung gemäß der morphologischen Subkat= egorisierung. Allerdings operationalisieren wir beide Schritte -- nicht nur den ersten -- durch endliche Automaten.
  Die in Schritt (a) verwendeten Lettertrees (d.h. Diskriminatio= nsnetze, die mit fortschreitender zeichenweiser Wortanalyse ,,von links nach recht= s`` immer mehr Lemmata als Ergebnis ausschließen) können (nach ein= fachen Transformationen) direkt durch Transduktoren modelliert werden. Solche Transduktoren existieren für Präfix-, Wurzel- und Suffix-Letter= trees. Der pay-off der Affixtransduktoren enthält z.B. die Affixzeichenkett= e (d.h. seine phonetische oder orthographische Transkription) und Argument-= und Ergebniswortklasse der Subkategorisierung. Der Wurzeltransduktor lief= ert zu einer bekannten Wurzel ihre Zeichenkette und einen Verweis auf einen Automaten, der ihre Derivationshülle beschreibt. Unbekannte Wurzeln werden im Automaten zur Zeit auf eine spezielle Konstante abgebildet, abe= r in einer zukünftigen Version soll ein zusätzlicher Automat die Phono- bzw. Graphotaktik von wohlgeformten Wurzeln erfassen.
  In Schritt (b) prüft ein Transduktor, der die Derivations= hülle einer in Schritt (a) ermittelten Wurzel w beschreibt, ob die in (a) rein zeichensyntaktisch identifizierten Affixe eine bzgl. w morphotaktisch gültige Affigierungsfolge bilden. Somit wird festgest= ellt, daß die nach (a) prinzipiell wohlgeformte Wortform verbildlich gemäß (b) nicht lexikalisiert und nicht wohlgeformt ist. Diese= r Hüllen-Transduktor ist, abhängig von den gewünschten pay-o= ffs, in seiner Komplexität skalierbar. Das Basisgerüst ist durch Red= uktion von Affixstacks auf zwei Bänder, dem Präfix- und dem Suffixband= , charakterisiert und liefert die Kategorie der abgeleiteten Form.
=   Adäquatere morphotaktische und semantische Analysen beruhen auf einer feineren Affixindizierung, insbesondere auf der Untersc= heidung verschiedener semantischer Affixausprägungen mit denselben syntaktis= chen Subkategorisierungseigenschaften. So zeigt z.B. ver- in verbind= en und sich verschlucken zwar das gleiche morphosyntaktische Verhalte= n aber unterschiedliche Bedeutungen. Eine Transduktorerweiterung ermög= licht deshalb einen lokalen pay-off für Affixe in Variablen, die auf den Bändern systematisch direkt hinter dem Affix positioniert werden. Weitere Abstraktionen sind notwendig, falls Information über die Rei= henfolge der pay-offs benötigt wird, beispielsweise für die Weiterverwen= dung der pay-offs in einem nichtmonotonen Rahmen.
  Die Schritte (a) und (b) erfolgen derzeit streng seriell. Die einzelnen Lettertrees aus (a) werden durch die regulären Operato= ren * (Kleenescher Abschluß) und . (Konkatenation) gem&au= ml;ß dem Ausdruck p*.r.s* zu einem Gesamttransduktor zusa= mmengefaßt, der die erforderliche Zerlegung leistet. Pay-offs aus (a) werden mittels eines morphologischen Interpreters direkt in Bandbeschriftungen für den Derivationshüllen-Transduktor in (b) umgesetzt. Es bleibt zu kl&= auml;ren, ob eine versetzt parallele Arbeitsweise der Transduktoren aus (a) und (b)= prinzipiell effizienter ist.

5= =2E Inferenz aus der Lexikondatenbank Celex
Die multilinguale (Deutsch, Englisch, Niederländisch) Lexiko= ndatenbank Celex (CD Release 2) enthält u.a. Dateien, die für jedes Wort seine hierarchische Morphemsegmentierung mit Wortklassenangaben in linear= er Repräsentation codieren. Unser vollautomatisches, generisches Verfah= ren zur Inferenz von Derivationshüllen bestimmt für eine Wurzel (&u= uml;ber Celex) alle Hüllenformen und extrahiert zu diesen jeweils den eben genannten Feldeintrag zur Morphemsegmentierung. Nach Herausfiltern der Wurzelbeschreibung wird die ,,inside-out`` codierte Affigierungstruktur in eine ,,left-to-right`` Darstellung überführt und zu einem Glied einer verallgemeinerter Vereinigung in einem FSA-Ausdruck auscompil= iert. Der gesamte FSA-Ausdruck beschreibt schließlich die gesuchte Deriva= tionshülle.
  Ein Beispiel: Für die gegebene Wurzel wirk bestimm= t das Verfahren u.a. auch Verwirklichung als Hüllenform und ext= rahiert die Information
(((ver)[V|.A],((wirk)[V],(lich)[A|V.])[A])[V],(ung)[N|V.])[N]= =2E
Das aus den genannten Transformationen resultierende FST-Vereinigungs= glied ist dann
[[]:lich,{[]:a,[ver:[],{[]:v,[[]:ung,[]:n]}]}] .

Literatur
[Celex-URL, 1999] Celex-URL (1999). http://www.kun.nl/celex. Cele= x Homepage at the Dutch Centre for Lexical Information, Max Planck Institut= e for Psycholinguistics, Nijmegen.

[FSA-URL, 1999] FSA-URL (1999). http://odur.l= et.rug.nl/~vannoord/fsa/fsa.html. FSA Homepage von G. van Noord an der Universität Groningen/NL.<= TT>


[Kilbury, 1992] Kilbury, J. (1992). Paradigm-= based derivational morphology. In Görz, G., editor, KONVENS 92, 159-168= . Springer, Berlin et al.

[Sproat, 1992] Sproat, R. (1992). Morpholog= y and computation. MIT Press, Mass. et al.

[Werner, 1998] Werner, M. (1998). http://www.tzi.de/~davinci/doc_V2.1/. daVinci V2.1.x Online Documentation= , Universität Bremen.