TITUS
Das Projekt eines indogermanistischen Thesaurus
Originalfassung in: LDV-Forum.
Forum der Gesellschaft für Linguistische Datenverarbeitung.
Bd. 12, Nummer 1, Juni 1995, S. 35-47
Auf der indogermanistischen Fachtagung in Leiden (September 1987) berieten einige der
Teilnehmer
darüber, inwieweit es möglich sei, im Hinblick auf die an verschiedenen
Forschungsstätten des In-
und Auslands angelaufenen oder laufenden Projekte, die die Einspeicherung von für
die Vergleichende Sprachwissenschaft relevanten Texten auf Datenträger zum Ziel
hatten, zu einer
Zusammenarbeit zu kommen. Man war sich einig, daß es wenig sinnvoll sei, wenn
jeder einzelne
Forscher in diesem Bereich allein und für sich arbeiten würde, weil dies immer
wieder zu einer
überflüssigen Duplizierung des Aufwands führen müsse; statt
dessen sei es zweckmäßig, die Eingabe
von Texten von vornherein zu koordinieren.
Damit war die Idee zu einem - innerhalb der Indogermanistik beispiellosen -
Gemeinschaftsprojekt
geboren, das schon bald darauf, mit einem Aufruf in "Die Sprache" 32/2, 1987, unter dem
Namen
eines "Thesaurus indogermanischer Textmaterialien auf Datenträgern" ins Leben
gerufen wurde.
Nach einer nunmehr achtjährigen Laufzeit ist die primäre Zielsetzung des
Projekts, nämlich über
den gesamten die Grundlage der Vergleichenden Indogermanischen Sprachwissenschaft
darstellenden
Textbestand aus altüberlieferten Sprachen wie dem Altindischen (Sanskrit), dem
Altiranischen
(Avesta, Altpersisch), dem Altgriechischen, dem Lateinischen, altanatolischen Sprachen wie
dem
Hethitischen, altgermanischen Sprachen wie dem Althochdeutschen oder Altenglischen in
einer für
die elektronische Analyse zugänglichen Form zu verfügen, in greifbare
Nähe gerückt. Im Zuge der
ständig wachsenden Kapazitäten von Hard- und Software haben sich
Zielsetzungen und Perspektiven des Projekts im gleichen Zeitraum jedoch ebenfalls erheblich
ausgeweitet, was nicht zuletzt die
neue Namensgebung "Thesaurus indogermanischer Sprach- und Textmaterialien (TITUS)"
reflektieren soll, unter der es seit der 3. Tagung für Computereinsatz in der
Historisch-Vergleichenden
Sprachwissenschaft (Dresden 1994) geführt wird. Aus Anlaß dessen, daß
sich auf der letztgenannten
Tagung zugleich auch ein eigener Arbeitskreis der GLDV mit dem Titel "Historisch-
vergleichende
Sprachwissenschaft" konstituierte, dessen Mitglieder zum größten Teil am
TITUS-Projekt beteiligt
sind, erscheint es angebracht, die Entwicklung, den gegenwärtigen Stand und die
nächsten Vorhaben
des Projekts hier kurz darzustellen.
Das primäre Ziel des TITUS-Projekts bestand, wie bereits gesagt, in der koordinierten
Erfassung der
relevanten Originaltexte altüberlieferter indogermanischer Sprachen. Natürlich
war die Idee,
derartige Texte dem sich seinerzeit eher mühsam durchsetzenden neuen elektronischen
Medium
"anzuvertrauen", nicht wirklich neu; tatsächlich hatte es ja schon seit den 60er Jahren
verschiedene
Projekte (v.a. in USA) gegeben, die auf eine (vollständige oder teilweise) Erfassung
von Textdaten
auch altüberlieferter Sprachen abzielten. Unter ihnen ist zunächst das Projekt
des "Thesaurus
Linguae Graecae" zu nennen, das eine Erfassung sämtlicher klassisch- und
spätklassisch-griechischer
Textmaterialien seit dem Beginn der Überlieferung (Homer) bis in die
frühmittelalterliche byzantinische Zeit anstrebt und inzwischen das gesteckte Ziel zu
ca. 80% erreicht hat. Da das Griechische
innerhalb der indogermanischen Sprachfamilie als einer der bedeutendsten Vertreter gelten
kann,
war mit dem TLG-Projekt von vornherein ein möglicher Kooperationspartner gegeben,
der in
mancherlei Hinsicht auch als Vorbild dienen konnte; im Bereich des Griechischen
reduzierten sich
die für den indogermanistischen Thesaurus verbleibenden Aufgaben auf die
vorklassische Überlieferung (der mykenischen Epoche) sowie auf die
Überlieferung von Textmaterialien aus den
altgriechischen Dialekten, die freilich bis heute noch nicht in befriedigendem Umfang
bearbeitet
sind.
Den eigentlichen Grundstock der Textsammlung innerhalb des Thesaurus bildeten
demgegenüber
zwei Texte aus dem indoiranischen Sprachzweig, die von höchstem
indogermanistischem Interesse
sind und deren elektronische Bearbeitung der Konstituierung des Projektes vorausging. Es
handelt
sich zum einen um die altindische Rgveda-Samhita, die bereits in den 70er Jahren
unter der Leitung
von W.P. Lehmann an der University of Texas eingegeben
worden war, zum anderen um das
altiranische Avesta-Corpus, das im Hinblick auf die Erstellung einer Textkonkordanz im
Rahmen
eines von der DFG geförderten Projekts durch S. Gippert-
Fritz an der Freien Universität Berlin
elektronisch aufbereitet wurde. An diesen beiden Einzelprojekten lassen sich bereits die
wesentlichensten Probleme aufzeigen, die während der Anfangsphase des Thesaurus-
Projekts zu lösen
waren.
Der Rgveda-Text war, wie damals nicht anders möglich, ursprünglich auf einer
Großrechneranlage
eingegeben worden. An eine Eins-zu-eins-Wiedergabe in der schriftlichen Form, in der der
Text
selbst überliefert worden ist, d.h. in einem indischen Alphabet wie der
Devanagari, war damals
nicht zu denken; es wäre allerdings seitens der (sprachwissenschaftlich orientierten)
Fachwelt auch
gar nicht unbedingt erwünscht gewesen, da sich diese seit dem Vorliegen der Edition
von Th.
Aufrecht ("Die Hymnen des Rigveda",
21877) an den transkribierten Text gewöhnt hat. Aber
auch eine solche Transkription war nicht eins zu eins auf den Großrechner abbildbar,
da sie von
zahlreichen diakritischen Buchstabenkombinationen geprägt ist, die (bis heute) in
keinem Codierungsstandard vorgesehen sind (z.B. Kombinationen von Vokalbuchstaben mit
Makron und Akzent
oder Kombinationen von
Konsonantenbuchstaben mit subskribiertem Punkt oder
Kringel). Ein ganz gleich
gelagertes Problem betraf auch das Avestacorpus, das in
einer völlig einzigartigen, in der maßgeblichen Ausgabe K.
Geldners ("Avesta. Die heiligen Bücher
der Parsen", 1895) beibehaltenen Originalschrift ("Avestaschrift") überliefert ist:
dessen Eingabe
konnte zwar bereits mit einem PC begonnen werden, doch gab es auch hier a priori keine
Möglichkeit, die Originalschrift oder auch nur die übliche Transkription, die
mit ungewöhnlichen diakritischen Kombinationen oder griechischen Buchstaben
arbeitet,
auf Bildschirm und Drucker
darzustellen. So mußte in beiden Fällen zunächst auf eine ersatzweise
Darstellung auf der Grundlage
des ASCII-Codes zurückgegriffen werden, bei der z.B. die Diakritika durch
adskribierte Zeichen wie
/, \, ~ repräsentiert wurden.
Auch wenn eine derartige Darstellung für die maschinelle Analyse kein
schwerwiegendes Hindernis
bedeutet, so wurde doch die Möglichkeit einer der wissenschaftlichen Gepflogenheit
entsprechenden
Wiedergabe zumindest transkribierter "Sonderzeichen" mit steigender
Leistungsfähigkeit von Rechnern (PCs) und Druckern mehr und mehr als ein
Desiderat empfunden. Tatsächlich bedeutete die
Schaffung von Programmeinheiten, die eine Ausgabe von Transkriptionssystemen oder
Originalschriften auf Bildschirm und Drucker ermöglichen sollten, seit dem Beginn
des Projekts eine
ständige Herausforderung. Nachdem sich erste "Gehversuche" in dieser Richtung noch
auf das
Drucken mit einem 24-Nadel-Drucker beschränkten, scheint in diesem Bereich jetzt,
wo "maßgeschneiderte" Pakete vektorisierter Fonts (Postscript, True Type u.a.
Formate) für alle in Frage
kommenden Schriftsysteme erarbeitet sind, alles nötige getan. Dennoch kann im
Zusammenhang
mit der Darstellung und der mit ihr stets verknüpften rechnereischen Codierung der
Zeichen aus
mehreren Gründen noch keine "Entwarnung" gegeben werden: Zum einen sind die
verschiedenen
verbreiteten Rechnersysteme nach wie vor weit davon entfernt, eine einheitliche
Zeichendarstellung
zu benutzen. Gemeinsame Grundlage ist nach wie vor lediglich der sog. ASCII-Standard, der
wohl
die 26 Zeichen des latein. Alphabets, aber keinerlei diakritische Kombinationen wie
ä, á oder ý
enthält. Natürlich gibt es in jüngerer Zeit Versuche, die
Codierungslücke durch die Schaffung
einheitlicher, systemunabhängiger Standards zu schließen. Die bisher
vorliegenden Lösungsversuche
sind jedoch für die besonderen Aspekte der im Rahmen des TITUS-Projekts zu
berücksichtigenden
Schriftphänomene in keiner Weise ausreichend, ganz abgesehen davon, wieweit sie
überhaupt schon
von marktgängigen Betriebssystemen und Anwenderprogrammen unterstützt
werden.
Das gilt zunächst für den Standard der sog. WordPerfect-Zeichensätze,
der, seit er vor ca. sechs
Jahren eingeführt (und über die Jahre nicht unerheblich erweitert) wurde,
immerhin einen wichtigen ersten Schritt in die richtige Richtung darstellte. Das hinter dem
WP-Standard stehende System
baut zwar im wesentlichen auf der Grundlage einer 16-Bit-Codierung auf und
ermöglicht damit
theoretisch einen Zeichenvorrat von 65536 Zeichen, ausgenutzt ist es jedoch nur zu einem
äußerst
geringen Teil (ca. 2000 Zeichen), und daß es sich durchsetzen wird, erscheint aus
marktpolitischen
Gründen eher unwahrscheinlich.
Ähnliches gilt auch für den sog. "Unicode", dessen (ebenfalls in 16 Bit
codierte) 65536 Zeichen
- wie schon zuvor die verschiedenen systeminternen 8-Bit-Zeichensätze und
Codepages - in viel zu
starkem Maße an heute gebräuchlichen Nationalalphabeten ausgerichtet sind, als
daß sie zur Bearbeitung der - im TITUS-Projekt vorrangig interessierenden -
schriftlichen Zeugnisse altüberlieferter Sprachstufen, sei es in Originalschriften, sei es
in Transkription, geeignet wären.
Eine bessere Ausgangsposition würde demgegenüber die geplante ISO-Norm
10646 darstellen, die
- bei einer 32-Bit-Codierung - mit insgesamt rund 3 Milliarden Zeichen tatsächlich
einen für alle
je von Menschen benutzten Schriftsymbole ausreichenden Vorrat darstellen könnten.
Leider deutet
im Moment aber nichts darauf hin, daß sich diese Norm irgendwann einmal zur Basis
handelsüblicher Rechnersysteme entwickeln könnte.
Auch ein dritter Lösungsweg, der momentan an Aktualität gewinnt, ist
derzeit noch nicht
genügend ausgereift, um für die Verarbeitung von Sprachmaterialien der
genannten Art eine
geeignete Grundlage zu bilden. Es handelt sich um den sog. HTML-Standard ("HyperText
Markup
Language"), dessen Bedeutung im Zusammenhang mit dem "Weltweiten Netz" ständig
zunimmt.
Tatsächlich wird die Benutzbarkeit dieses Standards durch den in ihm vorgesehenen
Zeichenvorrat,
der neben den reinen "ASCII"-Zeichen, ähnlich wie die durch MS-Windows
verbreitete ANSI Norm, lediglich die in westeuropäischen Nationalalphabeten
gebräuchlichen Zeichenkombinationen
wie Á, ç, Ñ kennt, erheblich
beeinträchtigt. Es ist eines der dringendsten Desiderate, daß die
Entwickler beim ständigen weiteren Ausbau des HTML-Standards die Codierbarkeit
beliebiger
Akzentkombinationen sowie nichtlateinischer Schriften vorsehen. Da der HTML-Standard
(entsprechend den Vorgaben des sog. SGML-Verfahrens ["Standard Generalized Markup
Language"], als
dessen Derivat er gelten kann) eine systemunabhängige 7-Bit-Grundlage verwendet,
bei der nicht zur
ASCII-Norm gehörende Zeichen explizit benannt werden (z.B. "á" für
á, "ß" für ß),
stellt er ein a priori offenes System dar, dessen Ausnutzung die Aufgabe des jeweiligen
Anwendungsprogramms ist; somit wäre er für die avisierte Erweiterung bestens
geeignet.
Es sei noch einmal ausdrücklich festgehalten, daß für eine
sprachwissenschaftlich-philologische
Auswertung gegebener Textmaterialien in beliebigen Sprachen die Eins-zu-Eins-Wiedergabe
der
Daten in Originalschrift bzw. Transkription gar nicht unbedingt die Voraussetzung ist.
Entscheidend ist vielmehr, daß eine umkehrbar-
eindeutige Codierung gegeben ist, die das gemeinte Zeichen
jederzeit exakt abrufbar zu machen gestattet. Zu warnen ist in diesem Zusammenhang v.a.
vor
einem allzu leichtfertigen Umgang mit den Möglichkeiten einer freien Umdefinition
von Zeichen
innerhalb von 8-Bit-Systemen wie denjenigen von Windows-TrueType oder Macintosh-
Postscript,
denn hier ist gerade die Eindeutigkeit nicht immer gewährleistet (v.a. bei einem
Transfer über die
Systemgrenzen hinweg): Wenn in einem gegebenen TrueType-Font dasjenige Zeichen, das
im
zugrundeliegenden Windowssystem als a erscheint (Zeichen Nr. 97),
durch ein griechisches alpha
ersetzt ist, dann hängt die Übermittlung der entscheidenden
Information, daß eben ein griechisches alpha und kein
lateinisches a gemeint ist, davon ab, ob der korrekte Font vorhanden
und
anwählbar ist oder nicht; eine Information, die beim Datentransfer zwischen
verschiedenen
Systemen, aber auch zwischen verschiedenen Anwenderprogrammen auf ein und demselben
System
viel zu leicht verloren geht. Besonders katastrophal wirkt sich dies aus, wenn innerhalb eines
Textes
mehrere derartige Fonts mit "überlappenden" Codierungen nebeneinander benutzt sind
(wenn also
z.B. sowohl griechisches alpha als auch lateinisches
a vorkommen und beide den Bytewert 97
haben). Im Zweifelsfall erscheint demgegenüber jede "unelegant" oder sogar
"unbeholfen" wirkende
Mehrbytecodierung, wenn sie Eindeutigkeit mit sich bringt (z.B.
$a für griechisches a), nach wie
vor zweckmäßiger.
Solange wir also einer eindeutigen und systemunabhängig-einheitlichen
Codierungsmöglichkeit für
sämtliche in Frage kommenden Schriften und Transkriptionszeichen nicht näher
gekommen sind,
ist es für die im TITUS-Projekt erfaßten Textmaterialien noch nicht sinnvoll, ein
bestimmtes
"endgültiges" Format anzustreben. Statt dessen werden die Texte derzeit noch in
verschiedenen
Formaten "nebeneinander" gespeichert, wobei lediglich das Prinzip der eindeutigen
Codierung
obwaltet, durch das die Konvertierbarkeit bedingt ist. Unabhängig von dem jeweiligen
"Ausgangsformat", d.h. demjenigen Format, in dem die Texte von den Beitragenden selbst
erstellt werden,
sollen die Texte in absehbarer Zeit v.a. in eine für ein sprachwissenschaftliches
Retrieval geeignete
Codierung gebracht werden. Von den hierfür zur Verfügung stehenden
Systemen wird (auf DOS Ebene) derzeit das von der Brigham-Young-University (Utah)
entwickelte "Wordcruncher"-System
bevorzugt, das - nach einmal erfolgter Durchindizierung auch großer Textmengen -
einen enorm
schnellen Zugriff auf einzeln oder im Verbund zu suchende Wortformen sowie eine bequeme
Erstellung von Konkordanzen, Indizes etc. ermöglicht. Ob das Wordcruncher-System
das System
der Zukunft sein wird, dürfte allerdings wieder von marktpolitischen Faktoren
abhängen, die nicht
zuletzt das zugrundeliegende Betriebssystem (DOS) betreffen.
Obwohl die Probleme der Codierung und, davon abhängend, der Konvertierbarkeit
den Fortgang
des Projekts bis heute immer wieder behindert haben, konnte der Bestand an zur
Verfügung
stehenden Texten und Textsammlungen seit den Anfängen doch kontinuierlich
ausgeweitet werden,
so daß heute die Zielsetzung nicht mehr unrealistisch erscheint, bis zum Jahre 2000
über sämtliche
für die Vergleichende Indogermanische Sprachwissenschaft relevanten Textmaterialien
in elektronisch codierter Form zu verfügen. Während die Textfiles, die
für eine Integration gewonnen
werden konnten, in der Anlaufphase des Projekts eher "zufällig" dadurch bestimmt
waren, daß sich
jemand - ein Institut, ein Projekt, eine Privatperson - die Mühe gemacht hatte, sie
- meist von
Hand - einzugeben, hat sich in der Zwischenzeit in viel größerem Maße
der Gedanke der Koordination und Kooperation durchgesetzt; im Normalfall bedeutet dies,
daß sich potentielle Beitragende vor dem Beginn ihrer Mitarbeit nach den
offenstehenden "Desiderata" erkundigen und ihren
Beitrag dementsprechend auswählen. Dies hat auch den Vorteil, daß bestimmte
Prinzipien, die die
Eingabe betreffen - insbesondere dasjenige der eindeutigen Codierung, aber auch Fragen
der
Formatierung - vorab geklärt werden können, um so eine nachträgliche
Anpassung, die oft recht
mühsam "von Hand" erfolgen muß, vermeidbar zu machen. Wie sinnvoll ein
solches Verfahren ist,
mag ein Beispiel illustrieren:
Bereits seit einiger Zeit wird der Fachwelt das umfangreiche Corpus des altindischen Epos,
des
Mahabharata, das unter der Leitung von M.
Tokunaga an der Universität von
Kyoto / Japan eingegeben wurde, über das Internet zur
Verfügung gestellt. Die zugehörigen Textfiles (insgesamt ca.
10 MB) enthalten (in einem 16-Bit-Code) den transkribierten Text entsprechend der
meistbenutzten
kritischen Ausgabe (ed. V.S. Sukthankar / S.K.
Belvalkar, Poona 1933-1959) ohne Variantenapparat.
Abgesehen von zahlreichen Transkriptionsfehlern, die nicht ausbleiben können, wenn
eine
derartige Eingabe von Hand gemacht wird, hat die so verbreitete Fassung, die nunmehr auch
in die TITUS-Sammlung integriert werden konnte, den schwerwiegenden Nachteil, daß
in ihr nicht
zwischen Wortgrenzen und den zwischen Kompositalgliedern bestehenden Morphemgrenzen
unterschieden worden ist; man vgl. etwa die Notierung der Komposita
dhrtarâstro (Eigenname,
Nom.Sg.) und mahârâjah
("Großkönig", Nom.Sg.) in folgender Verszeile (mit gegenübergestellter
Transkription):
dhRta.raaSTro.mahaa.raajah.zrutvaa.kim.akaron.mune.//
dhrtarâstro mahârâjah srutvâ kim akaron mune //
Diese Unterscheidung, die in verschiedenen anderen elektronisch bearbeiteten Sanskrittexten
unterschiedlich durchgeführt worden ist (z.B. durch die Anwendung von Zeichen wie
+, ^ oder _:
dhrta+râstrro, mahâ+râjah), kann nun
nicht mit automatischen Verfahren nachträglich appliziert
werden; sie setzt statt dessen eine - bei der Größe des Gesamttexts
höchst aufwendige - manuelle
Weiterbearbeitung voraus, durch die zumindest alle vorkommenden Komposita als solche
vorweg
bestimmt werden müssen. Ein zweites Problem betrifft den sog. Sandhi, d.h. die in
altindischen
Texten grundsätzlich auftretende Erscheinung, daß Wortformen, wo sie im Satz
aufeinander stoßen,
lautlich aneinander angepaßt werden, wobei sich meist der Auslaut des ersten, seltener
der Anlaut
des zweiten Wortes ändert. Bei den bisher verfügbaren elektronisch
verarbeiteten Sanskrittexten
werden in dieser Hinsicht wiederum völlig unterschiedliche Verfahren angewendet:
Teilweise wird,
wie auch in manchen gedruckten Texteditionen, der Sandhi "aufgelöst", d.h. es wird
eine Normalform eingesetzt, die die kontextuellen Veränderungen nicht aufweist und
somit von der tatsächlich
überlieferten Wortgestalt abweicht (im o.g. Fall:
dhrtarâstrah mahârâjah srutvâ kim akarot mune);
oder aber es wird der Sandhi "beibehalten", was dazu führt, daß ein und
dieselbe morphologische
Einheit (z.B. der Nom.Sg. mahârâjah "der
Großkönig") in mehreren verschiedenen lautlichen
Formen im Text erscheint (z.B. -râjas, -râjo, -râja), die nicht ohne
weiteres gemeinsam abrufbar sind.
Da die Äquivalenz zwischen einer gegebenen Sandhivariante und der
zugrundeliegenden Normalform ("Pausaform") nicht in allen Fällen umkehrbar-
eindeutig ist, ist wiederum keine völlig automatische Transposition der einen in die
andere Form möglich. Wünschenswert wäre es in
dieser Hinsicht, eine doppelte Repräsentation der Texte (mit beibehaltenem
und aufgelöstem
Sandhi) zu haben. Eine solche Paralleladaptation liegt innerhalb der TITUS-Sammlung
inzwischen
für die älteste altindische Textsammlung überhaupt, die Rgveda-
Saþhita, vor, wobei dem (inzwischen mehrfach überarbeiteten und
korrigierten) eins-zu-eins transkribierten Ausgangstext (s.o.)
der von A. Lubotsky im Hinblick auf eine zu publizierende
Textstellenkonkordanz erarbeitete,
dem sog. "Pada-Pâtha" nahekommende interpretative Text Vers für Vers
gegenübergestellt ist; man
vgl. folgendes Beispiel:
távét tát satyám angirah
táva ít tát satyám angirah
An diesem Beispiel dürfte bereits klar geworden sein, daß für die
elektronische Textdatenbank, auf
die das TITUS-Projekt abzielt, weit mehr als eine bloße elektronische Erfassung der
Texte in ihrer
kanonischen, z.B. in maßgeblichen Editionen schriftlich niedergelegten Form von
Interesse ist. Eine
solche Encodierung kann in den meisten Fällen allenfalls eine erste Arbeitsgrundlage
sein, auf der
weitere Bearbeitungsschritte, die eine sprachwissenschaftliche Auswertung vorbereiten,
aufzubauen
haben. Derartige Weiterbearbeitungen werden den zukünftigen Ausbau des TITUS-
Thesaurus im
wesentlichen bestimmen. Es wird z.B. vielfach, wie im Falle des Altindischen, darum
gehen, auf
verschiedenen Ebenen gelagerte, durch unterschiedliche Transkriptionsmodalitäten
abbildbare
Interpretationen schriftlich überlieferter Formen aufeinander beziehbar zu machen.
Neben dem
Altindischen betrifft das in hohem Maße z.B. die in Keilschrift überlieferten
Textmaterialien der
Sprachen Altanatoliens, des Hethitischen und seiner Schwestersprachen, die für eine
sprachwissenschaftliche Auswertung in ganz erheblichem Maße einer -
gegenüber der in den meisten gedruckten
Texteditionen gepflogenen rein transliterierenden Wiedergabe - interpretativ-analytischen
Transkription hinsichtlich der zugrundeliegenden Lautgestalt bedarf.
Des weiteren ist daran zu denken, daß elektronische Verfahren im gegebenen
Zusammenhang auch
dort sinnvoll zu einer Erkenntniserweiterung führen können, wo es um die
Erschließung einer
authentischen Textgestalt aus divergierenden handschriftlichen Traditionen selbst geht. So ist
z.B.
wahrscheinlich, daß eine vollständige Auswertung des Handschriftenmaterials
mit elektronischen
Verfahren bei Corpora wie dem (altiranischen) Avesta in zahlreichen Punkten zu einer
Verbesserung des Kenntnisstands gegenüber der manuell erarbeiteten gedruckten
Textedition führen wird,
da es mit elektronischen Mitteln wesentlich leichter ist, sämtliche divergierenden
Schreibweisen, die
in den Handschriften auftauchen, auf ihre Konsistenz hin zu überprüfen und
damit zwischen
singulären, für die Textherstellung relevanten Lesarten und etwaigen, weniger
relevanten, Marotten
oder Eigenheiten bestimmter Schreiber zu differenzieren.
Um gezielte Auswertungen im Hinblick auf morphosyntaktische Fragestellungen zu
ermöglichen,
wird es darüber hinaus erforderlich sein, parallel zu den eigentlichen Textmaterialien
abrufbare
grammatische Angaben zu integrieren. Im Hinblick auf derartige Angaben
("morphologisches
Tagging"), wie sie außerhalb des TITUS-Projekts etwa zu verschiedenen Bibeltexten
verfügbar sind,
ist freilich zu berücksichtigen, daß verschiedene der hier interessierenden
Sprachen als ausgesprochene Spezialgebiete anzusehen sind, bei denen eine communis opinio
im Hinblick auf die Bewertung
morphologischer oder syntaktischer Verhältnisse in vielen Fällen nicht zu
erzielen sein wird. Hier
wird wiederum vieles davon abhängen, ein möglichst flexibles Retrievalsystem
zu haben, das auch
alternative Auffassungen und Interpretationen zu verarbeiten zuläßt. So sollte
z.B. ein morphologisches Tagging im Falle des Avesta die durch die Homographie gegebene
Mehrdeutigkeit von
Formen wie (altavest.) vohû (Adjektiv "gut"
im Nom.Akk.Sg.ntr., Instr.Sg.mask./ntr. oder Nom./ Akk.Pl.ntr. oder Substantiv ntr. "das
Gut" im Nom.Sg., Instr.Sg. oder Nom./Akk.Pl.) nicht
unterdrücken, sondern als solche zu erkennen geben.
Als "automatisches" Zusatzresultat einer derart aufbereiteten Textsammlung sind umfassende
elektronische Wörterbücher zu erwarten, die nicht nur die tatsächliche
Beleglage aller morphologischen Varietäten dokumentieren, sondern zugleich auch -
im Sinne von Indizes - Referenzen auf
die Textstellen selbst enthalten. Damit werden sich zugleich völlig neue Perspektiven
für die
vergleichend-sprachwissenschaftliche Beschäftigung mit dem Material eröffnen,
insofern z.B. die
lautlichen Verhältnisse, die zwischen einzelnen der beteiligten (Corpus-)Sprachen
bestehen, durch
eine in phonologischer, morphologischer und syntaktischer Hinsicht vollständige
Erfassung des
Materials in ganz anderem Maße überprüfbar werden als bisher (etwa im
Hinblick auf Lautgesetze
und Ausnahmen davon sowie im Hinblick auf die relative Chronologie sprachlicher
Veränderungen).
Von einer umfassenden Bearbeitung der Textmaterialien im genannten Sinne ist das TITUS-
Projekt
momentan natürlich noch weit entfernt. Was in absehbarer Zukunft zum
Abschluß gelangen soll,
ist, wie gesagt, als erster Schritt zunächst eine elektronische Erfassung der relevanten
Texte selbst,
wobei auch die oben als notwendig dargestellte Einheitlichkeit und Eindeutigkeit
zunächst noch
nicht in allen Fällen gewährleistet ist. Eine Aufstellung, die den derzeitigen
Stand der Texterfassung
dokumentieren soll, ist hier verfügbar.
Daß eine erschöpfende elektronische Bearbeitung von philologisch
problematischen Textmaterialien
der genannten Art in ganz erheblichem Maße über das hinausgeht, was etwa im
Falle von Textcorpora moderner, gesprochener Sprachen gilt, und im Normalfall nach wie
vor als eine eigene wissenschaftliche Leistung anzusehen ist, dürfte außer Frage
stehen. Damit ist auch der wichtigste Grund
gegeben, warum die im Rahmen des TITUS-Projektes erarbeiteten Textmaterialien derzeit
nicht frei
und für jedermann zugänglich, etwa über das internationale Netz,
abrufbar sind, sondern lediglich
dem Kreis der Beiträger (im Sinne einer Arbeitsgruppe) für ihre
wissenschaftliche Arbeit zur
Verfügung stehen. Einer Publikation von Einzelauswertungen und -Ergebnissen steht
damit
Verfügung stehen. Einer Publikation von Einzelauswertungen und -Ergebnissen steht
damit natürlich nichts im Wege.
Gerade in jüngster Zeit hat das TITUS-Projekt noch eine erhebliche Weiterung
erfahren. Bei einem
informellen Treffen an der Universität Wien wurde Anfang dieses Jahres die
Möglichkeit eruiert,
unter Ausnutzung der durch das Internationale Datennetz vorgegebenen Kapazitäten
ein umfassendes Informationssystem einzurichten, das sich auf alle Bereiche aktueller
Informationen aus
der Indogermanistik bzw. Vergleichenden Sprachwissenschaft erstrecken soll. Über
einige auf dem
WWW-Server der Universität Frankfurt abgelegten HTML-Seiten (URL:
http://www.rz.uni frankfurt.de/home/ftp/pub/titus/public_html) ist dieser Informationsdienst
seit einigen Wochen
erreichbar; in baldiger Zukunft werden sich sprachwissenschaftliche Institute der
Universitäten
Prag, Kopenhagen, Leiden, Wien u.a. beteiligen. Angeboten werden sollen dann - neben
Mitteilungen über das eigentliche TITUS-Projekt - bibliographische, curriculare,
personenbezogene u.ä.
Informationen, die das gesamte Gebiet der Vergleichenden Indogermanischen
Sprachwissenschaft
wie auch angrenzende Gebiete betreffen. Das Gelingen dieses Vorhabens wird ganz
wesentlich von
der Bereitschaft der Benutzer zur Mitarbeit abhängen.
Jost Gippert
Gippert@em.uni-frankfurt.de