Kollokationen und semantisches Clustering

Martin Läuter und Uwe Quasthoff
Fakultät für Mathematik und Informatik
Universität Leipzig
04109 Leipzig

Extended Abstract

Ausgangspunkt sind Kollokationspaare (d. h. Paare von Wortformen, die statistisch signifikant häufig gemeinsam in einem Satz vorkommen), die mit einem Verfahren beruhend auf einer angenommenen Poisson-Verteilung ermittelt wurden [WEB]. Dieses Verfahren ist statistisch zuverlässig und läßt sich einfach von Paaren auf Tripel und größere Tupel verallgemeinern. Im Fall von Kollokationspaaren liefern die Daten gute Übereinstimmung mit Daten, die mit der log-Likelihood-Methode ermitellt wurden [DUN].
Aus ca. 7,5 Millionen deutschsprachigen Beispielsätzen wurden 995432 signifikante Paare ermittelt, in denen insgesamt 210162 verschiedene Wortformen vorkommen. (Stoppwörter wurden aus den Betrachtungen herausgenommen.) Sie sind als Listen sowie graphisch aufbereitet zugänglich unter wortschatz.uni-leipzig.de [SCH, QUA].
Diese Kollokationen zu einem Wort enthalten häufig Wörter, die in verschiedene semantische Zusammenhänge eingeordnet werden müssen. Beispielsweise enthalten die Kollokationen zu Katze die Kohyponyme Hund und Maus, aber auch Sack und gelassen. Anliegen der Arbeit ist es, Verfahren und Kriterien vorzustellen, mit deren Hilfe es möglich ist, Um größere Gruppen identifizieren zu können, wurden zunächst Tripel von Kollokationen ermittelt, d. h. Tripel von Wortformen, die signifikant häufig gemeinsam im gleichen Satz auftreten. Danach wurde das Verfahen auch für Quadrupel bis Septupel angewendet. Dabei entstanden die folgenden Anzahlen von Kollokations-Tupeln:
 
Tupelgöße  Anzahl Beispiele
Tripel    335.904 laufen Vorbereitungen Hochtouren 
rot Blüten gefärbten 
gelb rot grün 
sitzen essen trinken
trinken Wein Gläser 
Licht Farbe Raum 
Farbe rot blau 
Quadrupel    388.036 Meerschweinchen Katzen Hunde Kaninchen 
Schrank Stuhl Tisch Bett
Bier Wein trinken Gläser 
Quintupel    703.677 gelb orange rot grün blau
Landgericht Rassenhaß Freiheitsstrafe Aufstachelung Bewährung 
Sextupel 1.263.541 Lösemittel Laugen Farben Säuren Fette Sprays 
Septupel 2.038.283 Landgericht Rassenhaß Freiheitsstrafe Aufstachelung Bewährung Volksverhetzung verurteilt; 
Stuttgart Elber Balakow Verlaat Foda Bobic Trautner 

Zunächst verblüffend ist die Tatsache, daß die Anzahlen bei wachsender Tupelgröße nicht drastisch abnehmen. Die Erklärung liegt in der Tatsache, daß es in den verwendeten Texten gelegentlich zu längeren Aufzählungen solcher Kohyponyme kommt (z. B. Manschaftsaufstellungen beim Fußball oder Mitteilungen zur Schadstoffsammlung). Aus einer solchen großen Gruppe mit beispielsweise 15 Elementen kann man 455 Tripel, aber 5005 Sextupel auswählen.
Die semantischen Beziehungen lassen sich in folgende Gruppen teilen:

Im folgenden soll ein Kriterium angegeben werden, welches es erlaubt, gute Kandidaten für die ersten beiden Gruppen zu finden. Schwierigkeiten machen offensichtlich Wörter, die mit einer größeren Anzahl von anderen Wörtern gemeinsam auftreten. Einerseits treten außer Kohyponymie hier häufig andere Relationen auf, andererseits ist dies wegen der großen Anzahl der entstehenden Tupel schwierig auszuwerten. Bemerkenswerterweise zeigen sich drastische Unterschiede in der Homogenität nicht in der Stärke der Signifikanz oder der Anzahl der Tripel, sondern der Veränderung der Tupelanzahl bei wachsender Größe. Die folgende Tabelle zeigt die Anzahl der Kollokationstupel, die jeweils ein bestimmtes Wort enthalten.
 
Wort  Paare   Tripel  Qua-
drupel
Quin-
tupel
Sex-
tupel
Sep-
tupel
Ergebnis
Aluminium   54   18       8       2         -         - Nickel, Kupfer, Zink, Blei, Aluminium, Zinn
Tagebuch   52     6       -       -         -         - Tagebuch Che Guevara; Tagebuch Klemperer Victor; Tagebuch Dzevad Karahasan; Tagebuch Frank Anne; Tagebuch Ea Allesch; Tagebuch Jünger Ernst
gelb   20   21     11       1         -         - gelb orange rot grün blau [braun Farben weiß schwarz rosa]
orange   23     6       4       1         -         - gelb orange rot grün blau 
Ukraine 162   56     24       8         2         - Georgien Ukraine Aserbaidschan Moldawien Armenien Rußland Bulgarien [Gruppe Vorrunde USA Türkei Rumänien]
Aserbaidschan   32   35     13       6         3         - Georgien Türkei Aserbaidschan Moldawien Bulgarien Albanien Ukraine Armenien Rußland [Kasachstan Tadschikistan Usbekistan Kirgisien]
Bewährung 100 236   156     44         9         2 (kein sinnvolles Ergebnis)
Freiheit 200   52   143   340     610     390 (kein sinnvolles Ergebnis)
Verlaat   47 262 1377 4715 24471 14358 (kein sinnvolles Ergebnis)

Die letzte Spalte erhält das Ergebnis, welches man aus den größten Tupeln und (in eckigen Klammern angegeben) durch eventuelle Erweiterung mit Elementen aus kleineren Tupeln (mit starker Überlappung) erhält. Beispielsweise erhält man das Ergebnis für Aluminium aus den zwei (sich überlappenden) Quintupeln, das Ergebnis zu Tagebuch enthält sechs Tripel, die sich nicht weiter überschneiden. Das Quintupel zu gelb erweitert sich wie in eckigen Klammern angegeben, wenn die Quadrupel berücksichtigt werden.

Die in der Tabelle gezeigten Beispiele sowie weitere Tests legen die Vermutung nahe, daß ein schnelles Abklingen der Tupelzahlen bei wachsender Tupelgröße eine sinnvolle Einschränkung der näher zu untersuchenden Wörtern darstellt. Mit dieser Regel würden wir die letzten beiden Zeilen der obigen Tabelle von einer Untersuchung ausschließen.

Um die entstandenen Gruppen auf semantische Homogenität zu überprüfen und einzelne evtl. enthaltene zusätzlich enthaltene Elemente (wie Farben bei gelb sowie Gruppe und Vorrunde bei Ukraine) zu eleminieren, können die dazu ermittelten Kollokation-n-Tupel ermittelt und mit dem jeweils vorhandenen Tupel verglichen werden. Große Unterschiede erlauben das sichere Aussondern des Elements.
 

Literatur

[DUN]    Dunning, T.: Accurate Metods for the Statistics of Surprise and Coincidence. In: S. Armstrong (Ed.): Using large Corpora, MIT Press 1994, S. 61-74
[QUA]    Quasthoff, U. Der Deutsche Wortschatz im Internet, erscheint in: LDV-Forum 1999
[SCH]     Schmidt, F.: Automatische Ermittlung semantischer Zuasammenhänge lexikalischer Einheiten und deren graphische Darstellung, Diplomarbeit, Universität Leipzig 1999.
[WEB]    Weber, E.: Grundriss der biologischen Statistik, Gustav Fischer Verlag Jena, 1980.