Die integrierte Repräsentation linguistischer Daten

Andreas Mengel
Institut für Maschinelle Sprachverarbeitung, Universität Stuttgart
Azenbergstraße 12
70174 Stuttgart
mengel@ims.uni-stuttgart.de

1 Einleitung
In den letzten Jahren ist die Anzahl elektronisch verfügbarer Datenbestände für die Sprachverarbeitung stark angestiegen. Diese Tatsache ist in doppelter Hinsicht eine Herausforderung für die Sprachverarbeitung. Erstens bietet die größere Menge an Daten mehr Möglichkeiten, hypothesengeleitete Fragestellungen mit Hilfe großer Datenmengen zu bearbeiten. Die zweite Herausforderung besteht in der Tatsache, daß die prinzipielle Verfügbarkeit elektronisch gespeicherter Daten, die nicht automatisch einen problemlosen Austausch garantieren kann, ihr Verwendbarkeitspendant durch entsprechende Maßnahmen auf der Codierungsebene finden muß.

2 Problem
Bei elektronisch verfügbaren linguistischen Ressourcen handelt es sich um digitalisierte Sprachaufnahmen, deren Transkripte, geschriebene Texte, linguistische Annotationen, Lexika etc. In vielen Fällen ist es wünschenswert, existierende linguistische Daten zu übernehmen anstatt sie selber zu erstellen, da die Akquisition und Annotation von Sprachdaten sehr aufwendig ist. Für das Ablegen dieser Art von Daten existiert z.Zt. kein Standard. So finden sich unterschiedliche Formate für die Speicherung von Sprachsignal- oder Textdaten ebenso wie es uneinheitliche Standards gibt, in Annotations- oder Lexikondaten die Primärdaten und ihre Kategorisierungs- und Beschreibungsinformation zu kennzeichnen. Dieser Mangel an Standardisierung hat zur Folge, daß der Austausch der Daten erschwert wird: Für die Übernahme von Daten, denen ein anderer Standard zugrundeliegt, muß die zur Verarbeitung nötige Software angepaßt oder neu entwickelt werden. Prinzipiell ist dabei der für die Anpassung der Datenformate an die eigenen Bedürfnisse nötige Aufwand zwar geringer als eine eigene Erhebung und Annotation der Daten selbst. Die fehlende Standardisierung erfordert aber nicht nur den nötigen Aufarbeitungsaufwand, sondern birgt darüberhinaus die Gefahr, daß das spezielle Format der Kodierung falsch interptretiert wird. Nicht zuletzt muß auch der eigene Standard, in den zu konvertieren ist, ebenfalls entwickelt werden. Höherer Aufwand entsteht also durch Entwicklungskosten, da an verschiedenen Stellen für die gleichen Koprora Konvertierungoftware, Repräsentationsstandards und Zugriffssoftware entwickelt werden müßen (s. Abb. 1). Zusätzlich besteht die Gefahr der Fehlinterpretation der Kodierung.


Abb. 1: Zusätzlicher Aufwand durch fehlende Standards.

Die Standardisierung von Korpuskodierungen kann aber nicht nur helfen, den Akquisitionsaufwand zu reduzieren, sondern erhöht auf lange Sicht die Anzahl von Standardkorpora, die für die Messung und den Vergleich der Qualität und Performanz linguistischer Software zur Verfügung stehen.

3 Standardisierungbemühungen
Das EU-Projekt MATE (mate.mip.ou.dk) hat die Entwicklung von Standards für die Repräsentation und Verarbeitung linguistischer Beschreibung von Sprachdaten zum Inhalt. Dafür werden Vorschläge zur theorie- und sprachenunabhängigen Kodierung dieser Information und eine Softwareumgebung, die die Verarbeitung entsprechender Daten unterstützt, gemacht. Die Zielsetzung dieser Standardisierungsvorschläge ist dabei nicht nur die Verbesserung des Austausches linguistischer Daten, sondern die Vereinheitlichung und Integration linguistischer Daten überhaupt. Neben der Beschreibung von Einheiten (Lauten, Morphen, Wörtern etc.) ist dabei eine Fülle anderer Daten zu berücksichtigen:

Angesichts der Unterschiedlichkeit und Anzahl der Daten, gilt es, möglichst einheitliche Verfahren der Kodierung zu entwickeln. Wünschenswertes Objekt der Standardisierungsbemühungen sind dabei mindestens die im folgenden beschriebenen Aspekte.

3.1 Kodierung einzelner Phänomene
Hauptinteresse der linguistischen Beschreibung sind Einheiten, die auf verschiedenen Beschreibungsebenen klassifiziert werden, z.B. Laute, Morphe, Wörter, Phrasen. Für einen einheitlichen Zugriff auf Beschreibungsdaten ist ein Standard nötig, der unabhängig von dem jeweiligen Beschreibungsgegenstand und der verwendeten Theorie ist. Die diesem Standard zugrundeliegenden Prinzipien müssen demnach auch transparent sein, damit jede neue Beschreibung diesem Standard gemäß repräsentiert werden kann. In MATE wird hierfür XML verwendet. XML-Dokumente können eine DTD (document type definition) enthalten, die die Struktur und die Attribute der Elemente eines Dokumentes beschreiben. Dadurch ist nur ein minimaler Anteil der Beschreibung vorbestimmt, nämlich daß es Einheiten (elements) gibt, die in Beziehung zu anderen Einheiten stehen und daß diese Einheiten Eigenschaftsdimensionen (attributes) besitzen können, die bezüglich ihrer Ausprägungen (values) näher spezifiziert werden. Ein einfaches Beispiel wäre die Kodierung des Wortes Haus, das die Wortart (pos: part of speech) NN hat:

<word pos="NN">Haus<word>

Durch diese Bedingungen und Offenheit kann die Beschreibung von Sprachdaten theorie- und phänomenunabhängig kodiert werden. Der Umstand der weiten Verbreitung von XML und der damit einhergehenden guten Verfügbarkeit von verarbeitender Software wirkt sich darüberhinaus begünstigend aus.

3.2 Verteilung der Informationen innerhalb von Dateien und dateiübergreifend
Der Vorgang der Annotation von Sprachdaten bezieht sich im allgemeinen auf eine Sprachebene und in einer gewissen hierarchischen Abhängigkeit. Daten werden für bestimmte Zwecke erhoben, und die bearbeiteten Annotationsebenen sind an dem aktuellen Forschungsinteresse innerhalb der Institution, die diese Annotation erstellt, ausgerichtet. Deshalb werden verschiedene Beschreibungsebenen von verschiedenen Annotatoren produziert. Darüberhinaus gibt es innerhalb einer Beschreibungsebene mehrere Analyseschritte, so geht der Silbenbeschreibung die Segmentierung auf Lautebene voraus, und die syntaktische Beschreibung kann nur auf der Wortebene aufsetzen. Wichtig ist also ein Standard für die organisierteVerteilung dieser verschiedenen Informationen auf Dateien und die Möglichkeit der Bezugnahme der unterschiedlichen Beschreibungseinheiten untereinander.

3.3 Struktur der Bezugnahme auf andere Einheiten
Die Verteilung der Kodierung der Annotation der Einheiten unterschiedlicher Beschreibungsebenen und ihre gegenseitigen Bezüge hat weitere Implikationen: Weil diese Bezüge sich auf für sie konstitutive Eigenschaften der verbundenen Einheiten gründen (so sind Anfangs- und Endzeitpunkt eines Wortes Anfangs- und Endzeitpunkte des ersten bzw. letzten Lautes des Wortes) liegt es nahe, die Kodierung der Eigenschaften (values) ebenfalls zum Objekt der Standardisierung zu machen. Die Verteilung, Berechnung und Vererbung von Eigenschaften garantiert auch eine höhere Konsistenz und einfachere Pflege der Daten, etwa wenn Zeitinformation nur an einer Stelle geändert werden muß.

3.4 Beschreibung der zugrundeliegenden Theorie
Die einheitliche und theorieunabhängige Kodierbarkeit ist ein wichtiges Ziel für die standardisierte Repräsentation von Informationen und die dadurch erleichterte Verarbeitung durch eine geringere Anzahl von Softwarekomponenten. Diese syntaktische Standardisierung garantiert aber nur eine bessere Verarbeitbarkeit auf der Softwareebene. Die Bedeutung dessen, was kodiert wurde, muß denjenigen, die die Annotationen verwenden wollen, aber auch vermittelbar sein. Deshalb sind hier zwei weitere Arten von Informationen sowie ihre Verbindung mit den Annotationen von Bedeutung: Erstens muß der Prozeß der Segmentierung und Klassifizierung, also die Bestimmung der Einheiten und ihrer Eigenschaften beschrieben werden, zweitens ist die genaue - textuelle - Beschreibung und Definition der verwendeten Elementnamen, Attribut- und Attributwertebezeichnungen nötig.

3.5 Beschreibung der Annotation
Weitere Informationen, die die Annotation selbst betreffen, sind alternative Kodierungsmöglichkeiten, die Einzelfälle betreffen, und eine Beschreibung des tatsächlichen Annotationsverlaufes. Bei diesen Fällen handelt es sich um Meta-Annotationen, die ebenfalls für die Interpretation und die Verarbeitung der Daten wichtig sein können.

Abbildung 2 gibt einen Überblick über die beschriebenen Arten von Informationen und deren Bezüge untereinander, die hier durch Pfeile gekennzeichnet sind. Die Pfeilrichtung gibt dabei Hinweise darauf, von welchen Dokumenten auf welche anderen (durch XML href-Attribute) verwiesen wird.


Abb. 2: Unterschiedliche Annotationsinformationen und ihre Beziehungen untereinander.

Der Beitrag wird die im Projekt entwickelten Vorschläge zu den beschriebenen Problemen vorstellen und diskutieren. Die diese Vorschläge unterstützende Softwarearchitektur, die ebenfalls im Projekt entstanden ist, wird ebenfalls erläutert.