Carl-Martin Bunz, M.A., Universität des Saarlan=3D des, Saarbrücken

Vortrag für den Arbeitskreis "Historisch-Vergle=3D ichende Sprachwissenschaft"

Extended Abstract

 

Historische Schriften und die Frage ihrer Codierbarkeit in ISO 10646 / Unicode®

Die für den Bereich Codierung zuständigen Kommittees der ISO sowie das Unicode Technical Committee unternehmen seit einigen Jahren Anstrengungen, historische Schriften für die Codierung in ISO 10646, d.h. im Unicode Standard und in Plane 1, vorzubereiten. Diese Aktivitäten kulminierten kürzlich in einem detaillierten Vorschlag zur Codierung der altägyptischen Hieroglyphen.

Mit Ausnahme der Bearbeitung der altsyrischen Schrift wurden die Codierungsvorschläge bislang ohne Beteiligung der Wissenschaft erstellt. Es versteht sich von selbst, daß dabei die Komplexitität der Probleme weit unterschätzt wurde. Die Material- und Informationsbasis der Codierungsvorschläge entspricht nicht dem Stand der Forschung auf dem jeweiligen Gebiet. Schwerer jedoch wiegt, daß die Autoren der Vorschläge als Nicht-Spezialisten die Frage der Codierbarkeit des Materials erst gar nicht stellen, sondern in ausgewählter Fachliteratur dokumentierte Schriftzeichen als gegebene Einheiten betrachten, die einer Codierung im Sinne einer Standardisierung unmittelbar verfügbar wären. Von einem solchen Standpunkt aus kann der wissenschaftliche Nutzen einer Codierung zwangsläufig nicht abgewogen werden.

Von wissenschaftlicher Seite betrachtet, ist die Überlieferungslage historischer Schriften freilich sehr disparat, die Zustände reichen von durchaus standardisierbaren Zeicheninventaren bis zu trümmerhaft erhaltenen, deren Interpretation nicht gesichert ist. Etwa in der Mitte dieser Skala, d.h. im Falle von Schriften nur bedingter Standardisierbarkeit und/oder unsicherer Bestimmung der funktionalen Werte ihrer graphischen Einheiten, kann der wissenschaftliche Nutzen einer Codierung in ISO 10646 notwendigerweise nur begrenzt sein bzw. gänzlich ausbleiben.

Philologie und Sprachwissenschaft sind nun dazu aufgerufen, zu den vorliegenden Codierungsvorschlägen Stellung zu nehmen und dabei auch grundsätzliche Vorbehalte zu äußern, was im Einzelfall bedeutet, daß bestimmte Codierungsvorhaben bis auf weiteres ausgesetzt werden müssen. Ansonsten besteht die Gefahr, daß Standardisierungskörperschaften und Wissenschaft auseinanderdriften und in der =3D96 per definitionem nicht veränderbaren =3D96 internationalen Norm Codierungen zu stehen kommen, die allenfalls für Liebhaber von Wert sind, die sich für eine Problematisierung der historischen Schriftdaten und ihrer Interpretation aufgrund des tatsächlichen Überlieferungsbefundes nicht interessieren, sondern mit den Schriftzeichen vielmehr wie mit Phantasiezeichen (vgl. die von Tolkien entwickelten Schriften) umgehen.

Erfolgreich kann eine Kooperation zwischen Wissenschaft und Standardisierungskörperschaften jedoch nur dann sein, wenn beide Teile Verständnis für Aufgaben und Rolle des anderen aufbringen:

Die nationalen Körperschaften (DIN, BSI, AFNOR, etc.) sowie die Normierungsorganisationen auf europäischer (CEN) und internationaler Ebene (ISO) erstellen und verabschieden im Bereich Informationstechnologie technische Standards, welche die Industrie bei der Entwicklung von Hard- und Software implementiert, um den weltweiten Informations- und Datenaustausch auf eine einheitliche Grundlage zu stellen. Dazu gehören auch die Zeichensätze (Character Sets) verschiedener Größenordnung (ASCII [7 Bit], ISO 8859-X [8 Bit], ISO 10646-1 [16 Bit]), d.h. codierte Referenzinventare, die der eindeutigen Identifikation von Schriftzeichen in der internationalen Kommunikation dienen. Notwendigerweise hat bei der Standardisierung das kommerzielle Interesse Priorität, welches allerdings oft mit kulturpolitischen bzw. nationalen Aspekten eng verwoben ist, denn die Normierung von Schrift muß als Komponente nationaler und nationalsprachlicher Identität betrachtet werden. Die Norm ISO 10646-1 ist, in Vereinbarung und ständiger Abgleichung mit Unicode, schriftorientiert, nicht sprachorientiert konzipiert, um mit Hilfe von 16-Bit-Zeichen und damit einem Gesamtinventar von 65.536 Zeichen die wichtigsten Schriften der Erde codieren zu können. Daher die Definition von ISO 10646-1 als Basic Multilingual Plane (BMP). ISO 10646-1 / Unicode stellt die erste 16-Bit-Parzelle des 31-Bit-Raumes dar, in dem Zeichen als 32-Bit-Werte codiert werden (ISO 10646). Auf den Ebenen jenseits von Plane 0 / BMP wurden bisher noch keine Codierungen vorgenommen, es existieren nur informelle Planungen. Die Struktur der höheren Planes soll sich am BMP orientieren und dort angelegte Codierungen erweitern bzw. ergänzen. Planes 1-15 sind in Unicode im Format UTF-16 darstellbar, indem Surrogatpaare (High Surrogates U+D800 =3D96 U+DBFF + Low Surrogates U+DC00 =3D96 U+DFFF) für die betreffenden Zeichen definiert werden.

ISO 10646-1 / Unicode soll leicht implementierbar sein und diejenigen Schriften enthalten, die kommerziell und kulturpolitisch relevant sind. Die Codierung ist mittlerweile bis auf 6480 freie Positionen besetzt.

Die informelle Planung der nächsten Ebene, Plane 1, definiert als "Non-Han Plane", sieht dort die Codierung historischer Schriften vor, die kein kommerzielles, ein nur eingeschränkt kulturpolitisches, vornehmlich aber wissenschaftliches Interesse beanspruchen.

Die Indogermanistik verwaltet eine beträchtliche Anzahl historischer Schriften, die nun zur Codierung in ISO 10646 anstehen. In Reaktion auf die Vorschläge aus dem Umfeld von Unicode und ISO sollte sich die Fachwelt über Möglichkeiten und Sinn einer Codierung Rechenschaft ablegen und die relevanten Schriften in Kategorien einteilen, und zwar mit Rücksicht auf die Kooperation mit ISO:

1. Schriften, für welche ein kulturpolitisches Interesse bei der Kommunikation zwischen sozialen Gruppen in der heutigen Welt besteht. Ogham und die (germanischen) Runen sind Beispiele für Schriften dieser Katgeorie, die bereits im BMP codiert sind. Selbstverständlich sind auch religiöse Gruppierungen relevante Benutzergruppen, die ihre Bedürfnisse bei den Standardisierungskörperschaften anmelden können. Im Fall des Altsyrischen (Estrangelo) ist es bereits gelungen, einen Konsens zwischen Kirchen, Wissenschaft und Standardisierungskörperschaften herzustellen; der von allen Beteiligten gemeinsam erarbeitete Codierungsvorschlag für die Schrift wurde bereits vom Unicode Technical Committee genehmigt, nur die Verabschiedung durch das zuständige ISO-Kommittee steht noch aus. Ein ähnliches Verfahren wäre im Bereich der Indogermanistik für die Avesta-Schrift durch Zusammenarbeit zwischen Iranistik und Zoroastrischen Religionsgemeinschaften zu erreichen. Obwohl eine paläographische Aufarbeitung der Avesta-Schrift noch nicht geleistet ist, könnte eine Codierung bereits möglich sein. Die Definition von Standard-Glyphs sollte nicht mit dem Ansatz abstrakter Codes verwechselt werden: Entscheidend ist allein, daß die funktionalen Werte der Schriftzeichen bestimmbar sind. Die als Standard postulierten normalisierten Zeichenformen können später in neuen Versionen der Normdokumentationen aktualisiert werden.

2. Schriften, die zwar ein kulturpolitisches Interesse beanspruchen, jedoch aufgrund ihres Überlieferungsstandes und der Beschaffenheit des mit ihrer Hilfe fixierten Textcorpus hauptsächlich Gegenstand wissenschaftlicher Forschung sind.

2.1. Eine Untergruppe bilden solche Schriften, deren paläographischer und/oder epigraphischer Befund die Voraussetzungen für eine Codierung abstrakter Werte bietet, weniger jedoch für die Aufstellung normalisierter Zeichenformen. Ein Beispiel ist die altpersische Keilschrift. Grundsätzlich ist in einem derartigen Fall der wissenschaftliche Nutzen von Standardformen in Frage zu stellen. Für die Verwaltung von Schriftdaten ist es allerdings von Vorteil, die internationale Codierung als Schriftarchiv zu verwenden und den Zeichen der Originalschrift Codepositionen eindeutig zuzuweisen.

2.2. In der anderen Untergruppe sind diejenigen Schriften zusammenzufassen, die bis auf ein Merkmal die gleichen Voraussetzungen wie die unter 2.1 beschriebenen bieten: Ihr paläographischer bzw. epigraphischer Befund läßt es bislang nicht zu, die funktionalen Werte der Zeichen exakt zu bestimmen. Wenngleich epigraphisch gut beschrieben, gehört die Indus-Schrift ebenfalls in diese Kategorie, da ein Konsens über ihre Deutung bislang nicht erreicht werden kann=3D2E

3. Schriften, die ausschließlich in der wissenschaftlichen (und populärwissenschaftlichen) Forschung bearbeitet werden.

3.1. Die altmesopotamische Keilschrift in all ihren Erscheinungsformen während ihrer 3000jährigen Geschichte wiedersetzt sich einer Standardisierung aus systeminternen Gründen. Sämtliche erhaltenen Textträger bieten Handschriften mit unterschiedlichen Duktus, eine normalisierte Form der Zeichen wurde nicht entwickelt. In der Wissenschaft gibt es keinen Konsens über den Nutzen einer Codierung der Keilschrift. Mögliche Ansätze bedürfen eingehender Diskussion, z.B. ein analytisches Verfahren, nach dem einzelnen graphischen Elemente codiert und die Zeichen dann durch einen Renderer komponiert werden. Auf jeden Fall besteht Interesse daran, eine Aufnahme der Keilschrift in ISO 10646 zu verhindern, die auf der Grundlage von Fonts konzipiert wurde, die unter Lieberhabern kursieren.

3.2. Schriften mit einer Überlieferungslage wie Gruppe 2.2, jedoch mit ausschließlich (populär-)wissenschaftlichem Nutzerkreis. Linear A und die Schrift des Diskos von Phaistos sind Beispiele aus dem (Rand-)Bereich der Indogermania. Schriften dieser Kategorie dürfen in Standardisierungsdiskussionen überhaupt nicht erscheinen. Trotz der etablierten Entzifferung muß auch im Falle von Linear B überprüft werden, ob eine normative Codierung zum jetzigen Zeitpunkt schon möglich ist.

Eine solche Klassifikation sollte helfen, die Zusammenarbeit mit den Standardisierungskörperschaften so effizient wie möglich zu gestalten und Prioritäten zu setzen. Das wissenschaftliche Interesse an der Codierungsvorbereitung insbesondere bei den Kategorien 2.3 und 3.2 liegt zu einem beträchtlichen Teil in einem Bereich, der sich per se der Standardisierung entzieht: das Faskimile-Encoding. Es gilt daher zu untersuchen, inwieweit Faksimile-Codierungen mit der Erstellung und Pflege paläographischer Datenbanken systematisch verknüpft werden und welche Rolle dabei Auszeichnungssprachen wie SGML (XML) spielen können.

Die Kommunikation zwischen ISO und Wissenschaft, vor allem aber die Evaluation des Materials seitens der Wissenschaft werden zeigen, inwieweit die internationale Schriftzeichencodierung ISO 10646 als Arbeitsinstrument für Philologie und Sprachwissenschaft und als Archiv für die Schriften der Menschheitsgeschichte dienen kann.