Realisierung paradigmenbasierter Derivationsmorphologie
in finite-state Umgebungen
Christian Fischbach und James Kilbury
Seminar für Allgemeine Sprachwissenschaft
Universitätsstr. 1, D-40225 Düsseldorf
email:{fischbac,kilbury}@ling.uni-duesseldo=
rf.de
1. Einleitung=
Sowohl linguistisch-theoretische als auch anwendungsorientierte
Überlegungen erfordern eine Strukturierung und Codierung derivations=
morphologischer
Informationen des Deutschen, die nicht nur die lexikalisierten Formen und=
Verallgemeinerungen über sie, sondern auch Verallgemeinerungen ü=
;ber
neue, im Lexikon noch nicht verzeichnete Formen erfaßt. Zum Kern
der Generalisierungen über Derivationsmorphologie zählt eine
detaillierte Beschreibung morphotaktischer Strukturen, die allerdings ohn=
e
Rückgriff auf automatische Verfahren zur Wissensextraktion aus Lexik=
ondatenbanken
kaum erreichbar sein dürfte.
Vor diesem Hintergrund präsentieren wir effiziente
finite-state Codierungen des in [Kilbury,
1992] entwickelten Ansatzes zur paradigmenbasierten Derivationsmorpho=
logie,
die eine effiziente und robuste morphotaktische Verarbeitung der Derivati=
onsstrukturen
des Deutschen ermöglichen. Wir zeigen ferner, wie diese Codierungen
in einem vollautomatischen, generischen Verfahren aus der Lexikondatenban=
k
Celex [Celex-URL, 199=
9]
extrahiert werden können.
2. Linguistische Motiv=
ation
Die linguistische Motivation für die in den Abschnitten 4
und 5 vorgestellten Impl=
ementierungen
ergibt sich aus Grundannahmen von Kilbury [Kilbury,
1992] über die Morphotaktik der Derivation in einem morphembasie=
rten
Lexikon. Hierzu zählt insbesondere die Annahme einer gegenseitigen,
quasi komplementären Subkategorisierung (hier verstanden als Kombina=
tionspotential)
von Affixen (für Argument- und Ergebniswortklasse) und Stämmen
(für Affixe). So subkategorisiert etwa das Suffix -lich die
Argumentwortklasse V(erb) und die Ergebniswortklasse A(djektiv), die verb=
ale
Wurzel wirk subkategorisiert komplementär das Suffix -lich=
.
Die Subkategorisierung der Affixe drückt ihr allgemeines Kombination=
spotential
aus, während die der Wurzeln bzw. Stämme die tatsächlich
lexikalisierten Formen erfaßt (z.B. wirklich aber nicht e=
ntwirken).
Diese gegenseitige morphologische Subkategorisierung induziert=
rekursiv aufeinander anwendbare Affigierungsstrukturen und damit Hül=
len
von lexikalisierten Formen. Für die Wurzel bind bildet z.B.
{verbind, verbindlich, unverbindlich, ...} eine Teil=
hülle.
Die Annahme, daß die einzelnen Wurzelhüllen Gemeinsamkeiten
aufweisen, wie etwa die Wurzeln leg und setz mit Teilhü=
;llen
{beleg, verleg, zerleg, ...} bzw. {besetz,=
versetz,
zersetz, ...}, führt schließlich zur Idee des Derivatio=
nsparadigmas
als Template (Muster), das den gemeinsamen Teil verschiedener Wurzelh&uum=
l;llen
repräsentiert.
Mit unserem Ansatz schaffen wir die Grundlagen für
ein Lexikon, das (a) die Intuition erfaßt, daß Formen wie =
entsetzen
morphologisch komplexe Stämme haben, (b) dennoch eine Adressierung
der idiosynkratischen lexikalischen Informationen definiert und (c) die
für die Beschreibung von Neubildungen erforderlichen Verallgemeineru=
ngen
über Affixe ausdrückt.
3. Zur finite-state
Technik
In unserem Ansatz verwenden wir zwar Transduktoren, aber sie realisie=
ren
keine phonologischen Transduktionen zwischen Ebenen im Sinne von Two-Leve=
l
Morphology (vgl.[Sproat, 1=
992]).
Die Bänder des Basisgerüsts (vgl. Schritt (b) in Abschnitt 4)
sind zugleich Ein- UND Ausgabeband: die den Affigierungsstrukturen inh&au=
ml;renten
Reihenfolgeconstraints werden bandübergreifend erfaßt; die Aus=
gabe
von Werten (,,Auszahlungen`` oder ,,pay-offs``) erfolgt in bandüberg=
reifend
verteilte Variablen. Diese Variablen simulieren weitere Bänder, f&uu=
ml;hren
allerdings nicht aus der Klasse der endlichen Automaten heraus, weil die
instantiierte Information im Automaten nicht propagiert wird (wodurch die=
implizite Realisierung von Kellerstrukturen ausgeschlossen ist).
=
Die Implementierungen nutzen das finite-state Toolkit FSA
[FSA-URL, 1999]; die
Automaten werden mit dem Graphvisualisierungstool daVinci [Werner,
1998] graphisch dargestellt.
4=
=2E
Codierung und Verarbeitung
In Anlehnung an [Kilb=
ury,
1992] besteht unser morphotaktisches Parsing aus zwei nichtdeterminis=
tischen
Analyseschritten: (a) reguläre Zerlegung eines Wortes in Morpheme,
und (b) rekursive Affigierung gemäß der morphologischen Subkat=
egorisierung.
Allerdings operationalisieren wir beide Schritte -- nicht nur den ersten
-- durch endliche Automaten.
Die in Schritt (a) verwendeten Lettertrees (d.h. Diskriminatio=
nsnetze,
die mit fortschreitender zeichenweiser Wortanalyse ,,von links nach recht=
s``
immer mehr Lemmata als Ergebnis ausschließen) können (nach ein=
fachen
Transformationen) direkt durch Transduktoren modelliert werden. Solche
Transduktoren existieren für Präfix-, Wurzel- und Suffix-Letter=
trees.
Der pay-off der Affixtransduktoren enthält z.B. die Affixzeichenkett=
e
(d.h. seine phonetische oder orthographische Transkription) und Argument-=
und Ergebniswortklasse der Subkategorisierung. Der Wurzeltransduktor lief=
ert
zu einer bekannten Wurzel ihre Zeichenkette und einen Verweis auf einen
Automaten, der ihre Derivationshülle beschreibt. Unbekannte Wurzeln
werden im Automaten zur Zeit auf eine spezielle Konstante abgebildet, abe=
r
in einer zukünftigen Version soll ein zusätzlicher Automat die
Phono- bzw. Graphotaktik von wohlgeformten Wurzeln erfassen.
In Schritt (b) prüft ein Transduktor, der die Derivations=
hülle
einer in Schritt (a) ermittelten Wurzel w beschreibt, ob die in
(a) rein zeichensyntaktisch identifizierten Affixe eine bzgl. w
morphotaktisch gültige Affigierungsfolge bilden. Somit wird festgest=
ellt,
daß die nach (a) prinzipiell wohlgeformte Wortform verbildlich=
I>
gemäß (b) nicht lexikalisiert und nicht wohlgeformt ist. Diese=
r
Hüllen-Transduktor ist, abhängig von den gewünschten pay-o=
ffs,
in seiner Komplexität skalierbar. Das Basisgerüst ist durch Red=
uktion
von Affixstacks auf zwei Bänder, dem Präfix- und dem Suffixband=
,
charakterisiert und liefert die Kategorie der abgeleiteten Form.
=
Adäquatere morphotaktische und semantische Analysen
beruhen auf einer feineren Affixindizierung, insbesondere auf der Untersc=
heidung
verschiedener semantischer Affixausprägungen mit denselben syntaktis=
chen
Subkategorisierungseigenschaften. So zeigt z.B. ver- in verbind=
en
und sich verschlucken zwar das gleiche morphosyntaktische Verhalte=
n
aber unterschiedliche Bedeutungen. Eine Transduktorerweiterung ermög=
licht
deshalb einen lokalen pay-off für Affixe in Variablen, die auf den
Bändern systematisch direkt hinter dem Affix positioniert werden.
Weitere Abstraktionen sind notwendig, falls Information über die Rei=
henfolge
der pay-offs benötigt wird, beispielsweise für die Weiterverwen=
dung
der pay-offs in einem nichtmonotonen Rahmen.
Die Schritte (a) und (b) erfolgen derzeit streng seriell.
Die einzelnen Lettertrees aus (a) werden durch die regulären Operato=
ren
* (Kleenescher Abschluß) und . (Konkatenation) gem&au=
ml;ß
dem Ausdruck p*.r.s* zu einem Gesamttransduktor zusa=
mmengefaßt,
der die erforderliche Zerlegung leistet. Pay-offs aus (a) werden mittels
eines morphologischen Interpreters direkt in Bandbeschriftungen für
den Derivationshüllen-Transduktor in (b) umgesetzt. Es bleibt zu kl&=
auml;ren,
ob eine versetzt parallele Arbeitsweise der Transduktoren aus (a) und (b)=
prinzipiell effizienter ist.
5=
=2E
Inferenz aus der Lexikondatenbank Celex
Die multilinguale (Deutsch, Englisch, Niederländisch) Lexiko=
ndatenbank
Celex (CD Release 2) enthält u.a. Dateien, die für jedes Wort
seine hierarchische Morphemsegmentierung mit Wortklassenangaben in linear=
er
Repräsentation codieren. Unser vollautomatisches, generisches Verfah=
ren
zur Inferenz von Derivationshüllen bestimmt für eine Wurzel (&u=
uml;ber
Celex) alle Hüllenformen und extrahiert zu diesen jeweils den eben
genannten Feldeintrag zur Morphemsegmentierung. Nach Herausfiltern der
Wurzelbeschreibung wird die ,,inside-out`` codierte Affigierungstruktur
in eine ,,left-to-right`` Darstellung überführt und zu einem
Glied einer verallgemeinerter Vereinigung in einem FSA-Ausdruck auscompil=
iert.
Der gesamte FSA-Ausdruck beschreibt schließlich die gesuchte Deriva=
tionshülle.
Ein Beispiel: Für die gegebene Wurzel wirk bestimm=
t
das Verfahren u.a. auch Verwirklichung als Hüllenform und ext=
rahiert
die Information
(((ver)[V|.A],((wirk)[V],(lich)[A|V.])[A])[V],(ung)[N|V.])[N]=
=2E
Das aus den genannten Transformationen resultierende FST-Vereinigungs=
glied
ist dann
[[]:lich,{[]:a,[ver:[],{[]:v,[[]:ung,[]:n]}]}] .
Literatur=
B>
[Celex-URL, 1999] Celex-URL (1999). http://www.kun.nl/celex. Cele=
x
Homepage at the Dutch Centre for Lexical Information, Max Planck Institut=
e
for Psycholinguistics, Nijmegen.
[FSA-URL, 1999] FSA-URL (1999). http://odur.l=
et.rug.nl/~vannoord/fsa/fsa.html.
FSA Homepage von G. van Noord an der Universität Groningen/NL.<=
TT>
[Kilbury, 1992] Kilbury, J. (1992). Paradigm-=
based
derivational morphology. In Görz, G., editor, KONVENS 92, 159-168=
.
Springer, Berlin et al.
[Sproat, 1992] Sproat, R. (1992). Morpholog=
y
and computation. MIT Press, Mass. et al.
[Werner, 1998] Werner, M. (1998).
http://www.tzi.de/~davinci/doc_V2.1/. daVinci V2.1.x Online Documentation=
,
Universität Bremen.