| Frank Wegmann | Rolf Wilkens | |
|---|---|---|
| Sprachwissenschaftliches Institut | RST GmbH | |
| Ruhr-Universität Bochum | ||
| 44780 Bochum | 45128 Essen | |
| wegmann@linguistics.ruhr-uni-bochum.de | rwilkens@rst-gmbh.de |
Die EYDES Transcription Workbench dient zur manuellen Transkription von spontan gesprochenem Jiddisch. Das System unterstützt die Transkription in hebräischen/jiddischen Buchstaben in der Schreibrichtung von rechts nach links wie auch umgekehrt von links nach rechts, wobei Einbettungen in beliebiger Tiefe möglich sind. Die Software ist speziell auf die Erfassung linguistisch und kulturell relevanter Interviews abgestimmt und bietet aufgrund ihrer Fähigkeit, Textstellen mit Positionen im Audiomaterial zu assoziieren, die Grundlage für weitere Studien mit dem Material. Die erstellten Dokumente werden in Unicode 2 kodiert und mittels TEI ausgezeichnet.
Das Ziel von EYDES (Akronym für Evidence of Yiddish Documented in European Societies als auch jiddisch für 'Zeugnis') besteht in der Erstellung einer Datenbank des Jiddischen, in der nicht nur die Audiodaten von ca. 6000 Stunden Interviews mit Sprechern verschiedener Jiddisch-Dialekte erfaßt werden sollen, sondern auch der transkribierte Text in Jiddisch, das im wesentlichen mit hebräischen Buchstaben geschrieben wird. Dieser einzigartige Sprachkorpus wird durch seine Zugänglichkeit in Form einer multimodalen Datenbank Grundlage für zahlreiche Forschungsarbeiten linguistischer und kultureller Art.
Die Interviews sind in den 50er und 60er Jahren anhand eines Fragebogens mit über 3000 Einzelfragen aus einem breiten Themenkreis geführt worden. Die hiermit verbundenen jiddistischen Aspekte sind im LCAAJ (Herzog et al. 1992) dokumentiert. Die Transcription Workbench (TWB) ist am Sprachwissenschaftlichen Institut der Ruhr-Universität Bochum durch Förderung der Europäischen Kommission und des Landes Nordrhein-Westfalen entstanden. Das Projektkonsortium wird von dem in Düsseldorf ansässigen Förderverein für Jiddische Sprache und Kultur geleitet.
Der Zweck der TWB besteht in der möglichst ergonomischen, schnellen und effizienten Transkription der LCAAJ-Interviews. Aufgrund des sehr großen Datenmaterials ist die zügige Bearbeitung unerläßlich, da korrigierende Eingriffe bei der Transkription von 6000 Stunden gesprochenem Jiddischs sofort einen dramatischen Anstieg der Kosten nach sich zögen.
Der Transkriptionsprozeß läuft kurzgefaßt so ab: die vom Interviewer gestellte Frage anhand des in einem eigenen Browser dargestellten Fragebogens identifizieren, in das Dokument einsetzen und die Antwort des/der Befragten eingeben. Während der Transkribierung werden automatisch nach einer festen Heuristik Positionen im Audiomaterial mit dem Transkript assoziiert.
Innerhalb der TWB werden Transkripte in einem SGML-ähnlichen Format gespeichert, von dem aus sie dann in ein UTF8-kodiertes TEI-Dokument überführt werden. Die Audiodaten werden den Transkribenten im WAV-Format auf CD-ROMs zur Verfügung gestellt.
Die Merkmale der TWB:
Abb. 1: Die EYDES Transcription Workbench
Die Transkriptionen erfolgen größ in Jiddisch, werden also in hebräischen Buchstaben von rechts nach links geschrieben. Allerdings gibt es zwischendurch immer wieder Äußerungen in anderen Sprachen wie Deutsch, Englisch, Französisch, so daß in unvorhersehbarer Weise Einbettungen von links nach rechts geschriebenem Material innerhalb des jiddischen Textes vorkommen. Dies erforderte die Implementierung einer Editorkomponente, die vollständig den im Unicode-Standard (Unicode 1996) beschriebenen Algorithmus für bidirektionales Schreiben mit beliebig vielen Einbettungen realisiert. Kommerziell erhältliche Anwendungen erfüllten diese Anforderungen entweder nicht oder verwendeten ein nicht offengelegtes Dateiformat, so daß die Weiterverarbeitung der Daten nicht möglich ist. Die von uns implementierte Editorkomponente zeichnet sich durch folgende Funktionalität aus:
Das von uns eingesetzte Konzept einer virtuellen
Tastatur nutzt vordefinierte Tastaturbelegungen, die auf
unterschiedlichen physikalischen Tastaturen eingesetzt werden
können und zur Laufzeit frei wählbar sind. Dabei wird eine
Taste (oder Tastenkombination) jeweils auf eine Folge von
Unicode-Zeichen abgebildet; so ist etwa auch das Umschalten vom
lateinischen auf den hebräischen Zeichenblock realisiert:
CTRL-h fügt an der aktuellen Cursorposition die
für den Schriftrichtungswechsel nötige Folge von
Unicode-Steuerzeichen ein. In Abbildung 2 sieht man die für die
Taste 'g' einer französischen Tastatur umgesetzte Zeichenfolge
(U+5E2, der jiddische Buchstabe 'ayen'), unter Verwendung einer
modifizierten Fassung der hebräischen Tastaturbelegung.
Abb. 2: Die virtuelle Tastatur der TWB
Zur Weiterverarbeitung der Transkripte werden die Dokumente der TWB nach TEI (eine weit verbreitete SGML-Anwendung) überführt. Verschiedene Elemente des in der TWB verwendeten Formats sind für den Benutzer direkt nutzbar und bieten ihm die Auszeichnungen etwa der aktuellen Frage, des Sprechers an, aber auch die Kennzeichnung von Pausen, Gelächter, Unverständlichem etc. (Tabelle 1 zeigt einen Ausschnitt, vgl. Wilkens/Wegmann 1997). Diese Elemente sind wie in SGML durch Markierungen (tags) gekennzeichnet und führen teilweise auch Attributwerte mit sich.
| Element | Attribut | Beschreibung |
|---|---|---|
| q | x.y | kennzeichnet eine Frage, d.h. eine Äußerung des Interviewers. Der Attributwert gibt die Nummer der Frage aus dem LCAAJ an oder aber mit 'new' eine neue, nicht dokumentierte Frage. |
| f, m | [number] | kennzeichnet eine Antwort, d.h. eine Äußerung eines weiblichen ('f') bzw. männlichen ('m') Sprechers. Ein eventuell vorhandener numerischer Attributwert kennzeichnet den n-ten weiblichen oder männlichen Sprecher. |
| pause | -- | kennzeichnet eine wahrnehmbare Pause. |
| noise | -- | kennzeichnet nicht-vokalisierte Geräusche. |
| amusement | -- | kennzeichnet Gelächter o.ä. |
| ?? | -- | kennzeichnet eine Äußerung, die vom Transkribenten nicht verstanden wurde. |
Tab. 1: Einige der für den Benutzer sichtbaren Elemente in der TWB
Der Transkribent kann alle Markierungen über Tastaturkürzel vornehmen. Sind Endmarkierungen erforderlich, werden sie automatisch eingefügt und können nur mit der entsprechenden Anfangsmarkierung zusammen gelöscht werden, so daß die Konsistenz des Dokuments gewahrt bleibt. Abbildung 3 zeigt die Verwendungsweise einiger Elemente: Der Interviewer stellt die Frage 101.021 aus dem LCAAJ-Fragebogen (1. Zeile) und erhält eine Antwort von einem weiblichen Sprecher (2. Zeile), gefolgt von einer weiteren, neuen Frage (3. Zeile) usw. Die Äußerungen von Interviewer und Befragten sind zwecks besserer Orientierung farblich unterschieden.
Abb. 3: Ausschnitt aus der Transkription eines Interviews
Die Assoziationen sind in den TWB-Dokumenten durch interne Markierungen gekennzeichnet, die der Transkribent selbst nicht sehen kann. Bei der Umsetzung nach TEI werden diese Informationen ausgewertet und in eine Zeitachse umgesetzt. Jede Assoziation wird dann relativ zu dem Ursprung dieser Zeitachse (eine bestimmte zeitliche Position in dem Interview) gesetzt. Eine solche Repräsentation ist in Abbildung 4 zu sehen.
Abb. 4: Repräsentation einer Text-Audio-Assoziation im TEI-Dokument
Die TWB wird seit kurzer Zeit bei Arbeiten in Mulhouse, Mannheim und Jerusalem eingesetzt, wodurch noch Detailverbesserungen etwa bei der Benutzerführung zu erwarten sind. Die begleitende Supervisor Workbench wird in Kürze ebenfalls installiert werden, so daß in absehbarer Zukunft die ersten Zeugnisse von jiddischen Sprechern, die den Holocaust überlebt haben, zugänglich gemacht werden können.
Herzog, M., Baviskar, V., Kiefer, U., Neumann, R. Putschke, W., Sunshine, A. & Weinreich, U. (Hrsg.) (1992). The Language and Culture Atlas of Askenazic Jewry. Tübingen: Niemeyer.
Unicode (1996). The Unicode Consortium (ed.) The Unicode Standard, Version 2.0. Reading, MA: Addison-Wesley Developers Press.
Wilkens, R. & Wegmann, F. (1997). EYDES Transcription Workbench. Final Report-Phase 1. Technical Report, Sprachwissenschaftliches Institut, Ruhr-Universität Bochum.
Wilkens, R. & Wegmann, F. (1999). EYDES Transcription Workbench, Supervisor Workbench. Final Report-Phase 2. Technical Report, Sprachwissenschaftliches Institut, Ruhr-Universität Bochum.