Kollokationen und semantisches Clustering
Martin Läuter und Uwe Quasthoff
Fakultät für Mathematik und Informatik
Universität Leipzig
04109 Leipzig
Extended Abstract
Ausgangspunkt sind Kollokationspaare (d. h. Paare von Wortformen, die statistisch
signifikant häufig gemeinsam in einem Satz vorkommen), die mit einem
Verfahren beruhend auf einer angenommenen Poisson-Verteilung ermittelt
wurden [WEB]. Dieses Verfahren ist statistisch zuverlässig und läßt
sich einfach von Paaren auf Tripel und größere Tupel verallgemeinern.
Im Fall von Kollokationspaaren liefern die Daten gute Übereinstimmung
mit Daten, die mit der log-Likelihood-Methode ermitellt wurden [DUN].
Aus ca. 7,5 Millionen deutschsprachigen Beispielsätzen wurden
995432 signifikante Paare ermittelt, in denen insgesamt 210162 verschiedene
Wortformen vorkommen. (Stoppwörter wurden aus den Betrachtungen herausgenommen.)
Sie sind als Listen sowie graphisch aufbereitet zugänglich unter wortschatz.uni-leipzig.de
[SCH, QUA].
Diese Kollokationen zu einem Wort enthalten häufig Wörter,
die in verschiedene semantische Zusammenhänge eingeordnet werden müssen.
Beispielsweise enthalten die Kollokationen zu Katze die Kohyponyme
Hund
und Maus, aber auch Sack und gelassen. Anliegen der
Arbeit ist es, Verfahren und Kriterien vorzustellen, mit deren Hilfe es
möglich ist,
-
größere Gruppen von Kohyponymen zu ermitteln und
-
kleine Gruppen mit anderer semantischer Struktur zu ermitteln.
Um größere Gruppen identifizieren zu können, wurden zunächst
Tripel von Kollokationen ermittelt, d. h. Tripel von Wortformen, die signifikant
häufig gemeinsam im gleichen Satz auftreten. Danach wurde das Verfahen
auch für Quadrupel bis Septupel angewendet. Dabei entstanden die folgenden
Anzahlen von Kollokations-Tupeln:
| Tupelgöße |
Anzahl |
Beispiele |
| Tripel |
335.904 |
laufen Vorbereitungen Hochtouren
rot Blüten gefärbten
gelb rot grün
sitzen essen trinken
trinken Wein Gläser
Licht Farbe Raum
Farbe rot blau |
| Quadrupel |
388.036 |
Meerschweinchen Katzen Hunde Kaninchen
Schrank Stuhl Tisch Bett
Bier Wein trinken Gläser |
| Quintupel |
703.677 |
gelb orange rot grün blau
Landgericht Rassenhaß Freiheitsstrafe Aufstachelung Bewährung |
| Sextupel |
1.263.541 |
Lösemittel Laugen Farben Säuren Fette Sprays |
| Septupel |
2.038.283 |
Landgericht Rassenhaß Freiheitsstrafe Aufstachelung Bewährung
Volksverhetzung verurteilt;
Stuttgart Elber Balakow Verlaat Foda Bobic Trautner |
Zunächst verblüffend ist die Tatsache, daß die Anzahlen
bei wachsender Tupelgröße nicht drastisch abnehmen. Die Erklärung
liegt in der Tatsache, daß es in den verwendeten Texten gelegentlich
zu längeren Aufzählungen solcher Kohyponyme kommt (z. B. Manschaftsaufstellungen
beim Fußball oder Mitteilungen zur Schadstoffsammlung). Aus einer
solchen großen Gruppe mit beispielsweise 15 Elementen kann man 455
Tripel, aber 5005 Sextupel auswählen.
Die semantischen Beziehungen lassen sich in folgende Gruppen teilen:
-
häufig gebrauchte Fügungen (z. B. trinken Wein Gläser
aus einige Gläser Wein trinken);
-
Kohyponymie (z. B. gelb rot grün; Schrank Stuhl Tisch Bett);
-
mehrere Kohyponyme und ein Wort, welches mit allen assoziiert ist (z. B.
Farbe
rot blau; Stuttgart Elber Balakow Verlaat Foda Bobic Trautner)
-
mehrere Wörter, die zwar in einem inhaltlichen Zusammenhang stehen,
der sich aber nicht leicht automatisch erschließen läßt
(z. B. Landgericht Rassenhaß Freiheitsstrafe Aufstachelung Bewährung
Volksverhetzung verurteilt).
Im folgenden soll ein Kriterium angegeben werden, welches es erlaubt, gute
Kandidaten für die ersten beiden Gruppen zu finden. Schwierigkeiten
machen offensichtlich Wörter, die mit einer größeren Anzahl
von anderen Wörtern gemeinsam auftreten. Einerseits treten außer
Kohyponymie hier häufig andere Relationen auf, andererseits ist dies
wegen der großen Anzahl der entstehenden Tupel schwierig auszuwerten.
Bemerkenswerterweise zeigen sich drastische Unterschiede in der Homogenität
nicht in der Stärke der Signifikanz oder der Anzahl der Tripel, sondern
der Veränderung der Tupelanzahl bei wachsender Größe. Die
folgende Tabelle zeigt die Anzahl der Kollokationstupel, die jeweils ein
bestimmtes Wort enthalten.
| Wort |
Paare |
Tripel |
Qua-
drupel |
Quin-
tupel |
Sex-
tupel |
Sep-
tupel |
Ergebnis |
| Aluminium |
54 |
18 |
8 |
2 |
- |
- |
Nickel, Kupfer, Zink, Blei, Aluminium, Zinn |
| Tagebuch |
52 |
6 |
- |
- |
- |
- |
Tagebuch Che Guevara; Tagebuch Klemperer Victor; Tagebuch Dzevad Karahasan;
Tagebuch Frank Anne; Tagebuch Ea Allesch; Tagebuch Jünger Ernst |
| gelb |
20 |
21 |
11 |
1 |
- |
- |
gelb orange rot grün blau [braun Farben weiß schwarz rosa] |
| orange |
23 |
6 |
4 |
1 |
- |
- |
gelb orange rot grün blau |
| Ukraine |
162 |
56 |
24 |
8 |
2 |
- |
Georgien Ukraine Aserbaidschan Moldawien Armenien Rußland Bulgarien
[Gruppe Vorrunde USA Türkei Rumänien] |
| Aserbaidschan |
32 |
35 |
13 |
6 |
3 |
- |
Georgien Türkei Aserbaidschan Moldawien Bulgarien Albanien Ukraine
Armenien Rußland [Kasachstan Tadschikistan Usbekistan Kirgisien] |
| Bewährung |
100 |
236 |
156 |
44 |
9 |
2 |
(kein sinnvolles Ergebnis) |
| Freiheit |
200 |
52 |
143 |
340 |
610 |
390 |
(kein sinnvolles Ergebnis) |
| Verlaat |
47 |
262 |
1377 |
4715 |
24471 |
14358 |
(kein sinnvolles Ergebnis) |
Die letzte Spalte erhält das Ergebnis, welches man aus den größten
Tupeln und (in eckigen Klammern angegeben) durch eventuelle Erweiterung
mit Elementen aus kleineren Tupeln (mit starker Überlappung) erhält.
Beispielsweise erhält man das Ergebnis für Aluminium aus
den zwei (sich überlappenden) Quintupeln, das Ergebnis zu Tagebuch
enthält sechs Tripel, die sich nicht weiter überschneiden. Das
Quintupel zu gelb erweitert sich wie in eckigen Klammern angegeben, wenn
die Quadrupel berücksichtigt werden.
Die in der Tabelle gezeigten Beispiele sowie weitere Tests legen die
Vermutung nahe, daß ein schnelles Abklingen der Tupelzahlen bei wachsender
Tupelgröße eine sinnvolle Einschränkung der näher
zu untersuchenden Wörtern darstellt. Mit dieser Regel würden
wir die letzten beiden Zeilen der obigen Tabelle von einer Untersuchung
ausschließen.
Um die entstandenen Gruppen auf semantische Homogenität zu überprüfen
und einzelne evtl. enthaltene zusätzlich enthaltene Elemente (wie
Farben
bei gelb sowie Gruppe und Vorrunde bei
Ukraine)
zu eleminieren, können die dazu ermittelten Kollokation-n-Tupel ermittelt
und mit dem jeweils vorhandenen Tupel verglichen werden. Große Unterschiede
erlauben das sichere Aussondern des Elements.
Literatur
[DUN] Dunning, T.: Accurate Metods for the Statistics
of Surprise and Coincidence. In: S. Armstrong (Ed.): Using large Corpora,
MIT Press 1994, S. 61-74
[QUA] Quasthoff, U. Der Deutsche Wortschatz im Internet,
erscheint in: LDV-Forum 1999
[SCH] Schmidt, F.: Automatische Ermittlung
semantischer Zuasammenhänge lexikalischer Einheiten und deren graphische
Darstellung, Diplomarbeit, Universität Leipzig 1999.
[WEB] Weber, E.: Grundriss der biologischen Statistik,
Gustav Fischer Verlag Jena, 1980.