EYDES Transcription Workbench:
Zur bidirektionalen Transkription von gesprochenem Jiddisch

(Ausführliche Zusammenfassung)

Frank Wegmann     Rolf Wilkens
Sprachwissenschaftliches Institut     RST GmbH
Ruhr-Universität Bochum     
44780 Bochum     45128 Essen
wegmann@linguistics.ruhr-uni-bochum.de     rwilkens@rst-gmbh.de

 


Kurzzusammenfassung

Die EYDES Transcription Workbench dient zur manuellen Transkription von spontan gesprochenem Jiddisch. Das System unterstützt die Transkription in hebräischen/jiddischen Buchstaben in der Schreibrichtung von rechts nach links wie auch umgekehrt von links nach rechts, wobei Einbettungen in beliebiger Tiefe möglich sind. Die Software ist speziell auf die Erfassung linguistisch und kulturell relevanter Interviews abgestimmt und bietet aufgrund ihrer Fähigkeit, Textstellen mit Positionen im Audiomaterial zu assoziieren, die Grundlage für weitere Studien mit dem Material. Die erstellten Dokumente werden in Unicode 2 kodiert und mittels TEI ausgezeichnet.

Hintergrund: Das Projekt EYDES

Das Ziel von EYDES (Akronym für Evidence of Yiddish Documented in European Societies als auch jiddisch für 'Zeugnis') besteht in der Erstellung einer Datenbank des Jiddischen, in der nicht nur die Audiodaten von ca. 6000 Stunden Interviews mit Sprechern verschiedener Jiddisch-Dialekte erfaßt werden sollen, sondern auch der transkribierte Text in Jiddisch, das im wesentlichen mit hebräischen Buchstaben geschrieben wird. Dieser einzigartige Sprachkorpus wird durch seine Zugänglichkeit in Form einer multimodalen Datenbank Grundlage für zahlreiche Forschungsarbeiten linguistischer und kultureller Art.

Die Interviews sind in den 50er und 60er Jahren anhand eines Fragebogens mit über 3000 Einzelfragen aus einem breiten Themenkreis geführt worden. Die hiermit verbundenen jiddistischen Aspekte sind im LCAAJ (Herzog et al. 1992) dokumentiert. Die Transcription Workbench (TWB) ist am Sprachwissenschaftlichen Institut der Ruhr-Universität Bochum durch Förderung der Europäischen Kommission und des Landes Nordrhein-Westfalen entstanden. Das Projektkonsortium wird von dem in Düsseldorf ansässigen Förderverein für Jiddische Sprache und Kultur geleitet.

Die Transcription Workbench

Der Zweck der TWB besteht in der möglichst ergonomischen, schnellen und effizienten Transkription der LCAAJ-Interviews. Aufgrund des sehr großen Datenmaterials ist die zügige Bearbeitung unerläßlich, da korrigierende Eingriffe bei der Transkription von 6000 Stunden gesprochenem Jiddischs sofort einen dramatischen Anstieg der Kosten nach sich zögen.

Der Transkriptionsprozeß läuft kurzgefaßt so ab: die vom Interviewer gestellte Frage anhand des in einem eigenen Browser dargestellten Fragebogens identifizieren, in das Dokument einsetzen und die Antwort des/der Befragten eingeben. Während der Transkribierung werden automatisch nach einer festen Heuristik Positionen im Audiomaterial mit dem Transkript assoziiert.

Innerhalb der TWB werden Transkripte in einem SGML-ähnlichen Format gespeichert, von dem aus sie dann in ein UTF8-kodiertes TEI-Dokument überführt werden. Die Audiodaten werden den Transkribenten im WAV-Format auf CD-ROMs zur Verfügung gestellt.

Die Merkmale der TWB:

EYDES Transcription Workbench

Abb. 1: Die EYDES Transcription Workbench

Der Editor

Die Transkriptionen erfolgen größ in Jiddisch, werden also in hebräischen Buchstaben von rechts nach links geschrieben. Allerdings gibt es zwischendurch immer wieder Äußerungen in anderen Sprachen wie Deutsch, Englisch, Französisch, so daß in unvorhersehbarer Weise Einbettungen von links nach rechts geschriebenem Material innerhalb des jiddischen Textes vorkommen. Dies erforderte die Implementierung einer Editorkomponente, die vollständig den im Unicode-Standard (Unicode 1996) beschriebenen Algorithmus für bidirektionales Schreiben mit beliebig vielen Einbettungen realisiert. Kommerziell erhältliche Anwendungen erfüllten diese Anforderungen entweder nicht oder verwendeten ein nicht offengelegtes Dateiformat, so daß die Weiterverarbeitung der Daten nicht möglich ist. Die von uns implementierte Editorkomponente zeichnet sich durch folgende Funktionalität aus:

Die virtuelle Tastatur

Da physikalisch nur eine Tastatur zur Verfügung steht, muß durch eine Abbildung von einer Taste auf den jeweils eingestellten Zeichenblock das aktuelle Zeichen bestimmt werden. Die mit 'A' bezeichnete Taste auf einer deutschen Tastatur liefert z.B. ein jiddisches shin bei aktiviertem hebräischem Zeichenblock und ein 'a' bei aktiviertem lateinischem Zeichenblock. Von verschiedenen Transkribenten werden verschiedene Tastaturbelegungen bevorzugt: demnach gibt es etwa Belegungen für Jiddisch auf modernen hebräischen Tastaturen, andere sind speziell auf Jiddisch zugeschnitten.

Das von uns eingesetzte Konzept einer virtuellen Tastatur nutzt vordefinierte Tastaturbelegungen, die auf unterschiedlichen physikalischen Tastaturen eingesetzt werden können und zur Laufzeit frei wählbar sind. Dabei wird eine Taste (oder Tastenkombination) jeweils auf eine Folge von Unicode-Zeichen abgebildet; so ist etwa auch das Umschalten vom lateinischen auf den hebräischen Zeichenblock realisiert: CTRL-h fügt an der aktuellen Cursorposition die für den Schriftrichtungswechsel nötige Folge von Unicode-Steuerzeichen ein. In Abbildung 2 sieht man die für die Taste 'g' einer französischen Tastatur umgesetzte Zeichenfolge (U+5E2, der jiddische Buchstabe 'ayen'), unter Verwendung einer modifizierten Fassung der hebräischen Tastaturbelegung.

EYDES TWB: Die virtuelle Tastatur

Abb. 2: Die virtuelle Tastatur der TWB

Die Workbench im Kontext von SGML

Zur Weiterverarbeitung der Transkripte werden die Dokumente der TWB nach TEI (eine weit verbreitete SGML-Anwendung) überführt. Verschiedene Elemente des in der TWB verwendeten Formats sind für den Benutzer direkt nutzbar und bieten ihm die Auszeichnungen etwa der aktuellen Frage, des Sprechers an, aber auch die Kennzeichnung von Pausen, Gelächter, Unverständlichem etc. (Tabelle 1 zeigt einen Ausschnitt, vgl. Wilkens/Wegmann 1997). Diese Elemente sind wie in SGML durch Markierungen (tags) gekennzeichnet und führen teilweise auch Attributwerte mit sich.

ElementAttributBeschreibung
qx.y kennzeichnet eine Frage, d.h. eine Äußerung des Interviewers. Der Attributwert gibt die Nummer der Frage aus dem LCAAJ an oder aber mit 'new' eine neue, nicht dokumentierte Frage.
f, m[number] kennzeichnet eine Antwort, d.h. eine Äußerung eines weiblichen ('f') bzw. männlichen ('m') Sprechers. Ein eventuell vorhandener numerischer Attributwert kennzeichnet den n-ten weiblichen oder männlichen Sprecher.
pause-- kennzeichnet eine wahrnehmbare Pause.
noise-- kennzeichnet nicht-vokalisierte Geräusche.
amusement--kennzeichnet Gelächter o.ä.
??--kennzeichnet eine Äußerung, die vom Transkribenten nicht verstanden wurde.

Tab. 1: Einige der für den Benutzer sichtbaren Elemente in der TWB

Der Transkribent kann alle Markierungen über Tastaturkürzel vornehmen. Sind Endmarkierungen erforderlich, werden sie automatisch eingefügt und können nur mit der entsprechenden Anfangsmarkierung zusammen gelöscht werden, so daß die Konsistenz des Dokuments gewahrt bleibt. Abbildung 3 zeigt die Verwendungsweise einiger Elemente: Der Interviewer stellt die Frage 101.021 aus dem LCAAJ-Fragebogen (1. Zeile) und erhält eine Antwort von einem weiblichen Sprecher (2. Zeile), gefolgt von einer weiteren, neuen Frage (3. Zeile) usw. Die Äußerungen von Interviewer und Befragten sind zwecks besserer Orientierung farblich unterschieden.

Ausschnitt aus der Transkription eines Interviews

Abb. 3: Ausschnitt aus der Transkription eines Interviews

Assoziierung von Text und Audiomaterial

Ein wichtiger Aspekt für die spätere Arbeit mit dem Material ist die Assoziation von Text mit den zugehörigen Audiodaten. Die eingebaute automatische Verfahrensweise nutzt einige Annahmen über den Transkriptionsprozeß und erreicht eine Genauigkeit von etwa ±5 Sekunden, womit man sich meist innerhalb der Satzgrenze befindet. Eine qualitative Verbesserung durch eine exakte Position läßt sich in der Supervisor Workbench erzielen (vgl. Wilkens/Wegmann 1999), in der eine Form der Qualitätskontrolle realisiert ist.

Die Assoziationen sind in den TWB-Dokumenten durch interne Markierungen gekennzeichnet, die der Transkribent selbst nicht sehen kann. Bei der Umsetzung nach TEI werden diese Informationen ausgewertet und in eine Zeitachse umgesetzt. Jede Assoziation wird dann relativ zu dem Ursprung dieser Zeitachse (eine bestimmte zeitliche Position in dem Interview) gesetzt. Eine solche Repräsentation ist in Abbildung 4 zu sehen.

Repräsentation einer Text-Audio-Assoziation im TEI-Dokument

Abb. 4: Repräsentation einer Text-Audio-Assoziation im TEI-Dokument

Weitere Entwicklungen

Die TWB wird seit kurzer Zeit bei Arbeiten in Mulhouse, Mannheim und Jerusalem eingesetzt, wodurch noch Detailverbesserungen etwa bei der Benutzerführung zu erwarten sind. Die begleitende Supervisor Workbench wird in Kürze ebenfalls installiert werden, so daß in absehbarer Zukunft die ersten Zeugnisse von jiddischen Sprechern, die den Holocaust überlebt haben, zugänglich gemacht werden können.

Danksagung

Die Entwicklung der TWB ist durch das Ministerium für Wissenschaft und Forschung des Landes Nordrhein-Westfalen sowie vom Direktorat X der Europäischen Kommission im Projekt EYDES gefördert worden. Die Entwicklung der SWB ist im Rahmen des Projektes EYDES-2 gefördert worden.

Literatur

Herzog, M., Baviskar, V., Kiefer, U., Neumann, R. Putschke, W., Sunshine, A. & Weinreich, U. (Hrsg.) (1992). The Language and Culture Atlas of Askenazic Jewry. Tübingen: Niemeyer.

Unicode (1996). The Unicode Consortium (ed.) The Unicode Standard, Version 2.0. Reading, MA: Addison-Wesley Developers Press.

Wilkens, R. & Wegmann, F. (1997). EYDES Transcription Workbench. Final Report-Phase 1. Technical Report, Sprachwissenschaftliches Institut, Ruhr-Universität Bochum.

Wilkens, R. & Wegmann, F. (1999). EYDES Transcription Workbench, Supervisor Workbench. Final Report-Phase 2. Technical Report, Sprachwissenschaftliches Institut, Ruhr-Universität Bochum.