Forschungsprojekt Blindenkurzschrift-Rückübersetzung | |||||||||||||||||||||||||||||||
![]() |
Das international gültige
Blindenschrift-Alphabet wurde im Jahre 1825 von
Louis Braille (1809 - 1852) geschaffen. Mit dieser Art von
Punktschrift, bei der 6 Punkte in 2 senkrechten Reihen nebeneinander
stehen und einen "Buchstaben" bilden, lassen sich bis zu 63
verschiedene Zeichen darstellen. Die erhabenen Punkte eines Zeichens
stehen dabei so dicht beieinander, dass Sie mit dem Finger als Ganzes
ertastet werden können. Der Platzbedarf eines Zeichens richtet
sich mit 6 mm x 10 mm nach der Fingerkuppe eines erwachsenen
Lesers.[1]
abcdefghijklmnopqrstuvwxyz
Um den Platzbedarf zu reduzieren und Texte schneller
schreiben und lesen zu können, wurde die deutsche
Blindenkurzschrift geschaffen. Diese beinhaltet 346
Abkürzungen für Lautgruppen, Silben und ganze Wörter
(ähnlich der Stenografie). Dazu kommt ein Regelwerk, das
bestimmten Kürzungen abhängig von ihrer Stellung im Wort
jeweils eigene Bedeutungen zuweist und damit die Mehrfachverwendung
einzelner Zeichen ermöglicht. Die Kurzschrift reduziert den
Umfang eines Textes im Mittel um 30 % gegenüber der
"Schwarzschrift", wie die Schrift der Sehenden von
Blinden genannt wird.
Nicht alle Wörter und Sonderzeichen der Blindenkurzschrift sind
zweifelsfrei rückübersetzbar. Während ein menschlicher
Leser diese Zweifelsfälle aus dem Kontext heraus
auflösen kann, hat der Computer in manchen Fällen ernste
Schwierigkeiten. Der Programmieraufwand für eine
100 %-Lösung erscheint bald größer und
größer, wenn man sich intensiver mit der Materie
auseinandersetzt. Die deutsche Blindenkurzschrift galt deshalb in
Fachkreisen weithin als "nicht rückübersetzbar".
Betrachten wir nun die Aufgaben, die es dabei zu lösen gilt.
Die meisten Kürzungen werden in Form einzelner
Buchstaben oder Buchstabenkombinationen dargestellt,
die in der Schwarzschrift auch als normale Wortbestandteile auftreten.
Sie bestehen nur selten aus eindeutig rückübersetzbaren
Zeichen - etwa Zahlen oder Sonderzeichen, wie sie sonst in
Wörtern nicht vorkommen. Es sind also nicht alle Buchstaben oder
Buchstabenfolgen in gekürzten Wörtern als Kürzungen zu
interpretieren.
Beispiele: Die Endungen "-UNG" und "-HEIT" werden mit den einzelnen Buchstaben "u" und "h" dargestellt, und zwar sowohl am Ende eines Wortes als auch mitten im Wort. Eine typische Anwendung dieser Regel finden wir in Wörtern wie "Heizung" und "Heizungsmonteur" entsprechend "h3zu" und "h3zusmont2r" oder "Einheit" und "Einheiten" entsprechend "6h" und "6hc". Demnach müsste das gekürzte Wort "kuh" (das Tier) bei der Rückübersetzung mit "Kungheit" wiedergegeben werden, was offensichtlich falsch ist. Weiterhin gibt es zahlreiche zweiformige Kürzungen, wie etwa "zs" für "zusammen", die häufig als Wortbestandteil von Nomen oder Nomenkomposita auftreten. So darf "zs" bei Wortfugen wie in "Salzsäure" oder "Ersatzspur" nicht rückübersetzt werden.
Es gibt unterschiedliche Wörter, die nach der Kürzung zum
gleichen Wortbild (Punktmuster) führen. Diese Wörter
können nur aus dem Kontext richtig interpretiert werden.
Beispiele: Der Ort "Verchen" und das Wort "vermöchten" werden in Blindenkurzschrift beide als "v74c" dargestellt. Das Wort "Grabschrift" wird in Blindenkurzschrift als "grab5t" dargestellt, ebenso das Verb "grabscht" (von "Grabschen"). Auch der Plural "Grabschriften" wird mit "grab5tc" identisch dargestellt wie das Verb "grabschten". Das "Figurteil" wird ebenso wie das "Fertigurteil" als "f>urt3l" in Blindenschrift dargestellt.
Diese Aufzählung könnte noch fortgesetzt
werden. Insbesondere bei Eigennamen, bei denen alle möglichen
Zeichenfolgen jenseits linguistischer Regeln vorkommen können,
sind solche Mehrdeutigkeiten zu finden.
Da der Zeichenvorrat von 63 möglichen
Punktkombinationen nicht zur Darstellung aller
möglichen Textzeichen ausreicht, arbeitet die Blindenschrift mit
Ankündigungszeichen und Einschubzeichen, bei denen einzelne
Zeichen, Wörter oder längere Texte durch An- und
Abkündigungstechniken eine andere Bedeutung erhalten. Dazu
gehören Einschübe in Mathematikschrift,
8-Punkt-Computerbraille (zur Darstellung von Internet-Adressen und
Dateinamen), Fremdsprachen und ungekürzte Textpassagen. Diese
Einschübe müssen erkannt und durch besondere
Rückübersetzungsmodi in Normalschrift
zurückgeführt werden.
Beispiele: Das Wort "Tagesschau" wird mit "tag%51" übersetzt, die Internet-Adresse "www.tagesschau.de" dagegen als Einschub in Computerbraille mit "'$www.tagesschau.de". Der hierbei verwendete Apostroph (Punkt 6) kann in anderem Zusammenhang auch als Ankündigung für Kleinschreibung dienen, das Dollar-Zeichen (Punkte 4, 6) als Ankündigung für Großschreibung. Fachbegriffe können in Blindenschrift zur besseren Lesbarkeit als Einschub in Vollschrift (weitgehend ungekürzt) dargestellt werden. Dann wird ihnen die Zeichenfolge "Apostroph-Punkt" vorangestellt wie in "'.desoxiribonukleins`ure".
Für fremdsprachliche Einschübe wird dasselbe Zeichen
verwendet, das im Wortinneren oder am Wortende für die
Kürzung "ACH" steht. Für die Großschreibung
einzelner oder mehrerer Buchstaben im Wortinneren werden die gleichen
Zeichen verwendet, die für die Kürzungen "CK" und
"IG" stehen. In solchen Fällen dürfen dann keine
Kürzungen innerhalb des Wortes verwendet werden.
Akzentbuchstaben können in der deutschen
Blindenschrift auf zweierlei Weise dargestellt werden: entweder in
Umschrift oder mit den Braillezeichen aus der jeweiligen Sprache. In
beiden Fällen wird ein Akzentbuchstabe mit einem vorangestellten
Punkt 4 angekündigt (in der Schwarzschrift entspricht dieser
einem Anführungszeichen).
Beispiel: "Café Molière" kann entweder als "'caf"e moli"ere" oder als "'caf"% moli"~re" dargestellt werden. Selbst die letztgenannte Darstellungsform, die Hoffnungen auf eine eindeutige Rückübersetzbarkeit weckt, erweist sich als nicht hinreichend, da es bereits innerhalb der wenigen europäischen Sprachen mehrfach verwendete Braillezeichen bei den Akzentbuchstaben gibt.
Die deutsche Blindenschrift unterscheidet nicht zwischen sich
öffnenden und schließenden Klammern, was
die Zuordnung von Klammerpaaren erschwert.
Beispiele: "(siehe unten)" wird übersetzt mit "=s0he /tc=". "[Anmerkung des Verfassers]" wird übersetzt mit "'=+m7ku . -fa~7s'=".
Dazu kommen weitere Sonderzeichen, für die es in der
Schwarzschrift mehrere unterschiedliche Zeichen gibt.
Beispiele:
Das Abtrennungszeichen, bestehend aus den Punkten 5
und 3, 6 kann je nach Kontext für einen senkrechten Strich, ein
Aufzählungszeichen (Mittepunkt) oder ein Silbentrennzeichen usw.
stehen.
Der Punkt 6 kann als Apostroph, als Ankündigungszeichen für
Kleinschreibung oder als Aufhebungszeichen verwendet
werden. Das Aufhebungszeichen gibt einem oder mehreren nachfolgenden
Zeichen deren ursprüngliche Bedeutung zurück. Diese sind
dann beispielsweise nicht mehr als Kürzung zu interpretieren.
Einige Zeichen haben in der Blindenkurzschrift am
Wortanfang eine andere Bedeutung als am Wortende
oder im Wortinneren. Ein Zeichen kann also abhängig von dessen
Stellung für eine andere Kürzung stehen oder muss als
Ankündigungs- oder Satzzeichen gelesen werden. Bei der
Zahlendarstellung beispielsweise müssen die Buchstaben
"a" bis "j" als Zahlen gelesen werden, wenn ein
Zahlzeichen vorangestellt wird. Diese intensive Mehrfachverwendung
einzelner Zeichen, abhängig von der Stellung im Wort, stellt eine
zusätzliche Hürde dar.
Beispiele: Für die Zahlen 1 bis 9 und 0 werden die Buchstaben a bis j mit vorangestelltem Zahlzeichen verwendet ("#a" bis "#i" und "#j"). Das Zahlzeichen kann jedoch innerhalb und am Ende von Wörtern auch für die Zeichenfolge "ICH" stehen. So wird das Wort "striche" als "}r#e" umgesetzt. Steht zusätzlich ein Komma vor dem Zahlzeichen, so steht es für "richt", etwa in "Gerichte" entsprechend "&,#e". "#e" ist in diesen Fällen nicht als Zahl "5" zu lesen wie etwa bei "5fach" entsprechend "#e'f<". Die Satzzeichen ",", ";", ":", "?" und "!" werden als Ankündigungszeichen oder zur Darstellung von Lautgruppen verwendet, wenn sie nicht am Ende eines Wortes stehen. So wird "analog!:" mit "+:og+:" übersetzt. "+:" ist am Wortanfang als Folge von Buchstaben, am Ende jedoch als Folge von Satzzeichen zu lesen. Das Zeichen "x" steht am Wortanfang für die Vorsilbe "EX-", am Wortende für die Nachsilbe "-NIS" und im Wortinnern ebenfalls für "-NIS" oder für den Doppelkonsonant "MM". Der Buchstabe "x" wird dagegen mit vorangestelltem Apostroph als "'x" dargestellt. Allein stehend steht "x" für "immer", und auch in Wörtern wird es für "immer" verwendet, wobei dann ein Komma vorangestellt werden muss.
Die deutsche Blindenschrift unterscheidet im Regelfall nicht zwischen
Groß- und Kleinschreibung. Eine Kennzeichnung
ist nur in Sonderfällen vorgeschrieben. Von
rückübersetzten Texten wird jedoch eine korrekte Wiedergabe
der Groß-/Kleinschreibung erwartet. Sie müsste durch ein
geeignetes Verfahren rekonstruiert werden, wie etwa der
Klassifizierung von Wörtern und grammatikalischen Analyse von
Sätzen.
Beispiel: Der Satz "Ein Blinder hat bei seinem Lesen große Mühen" wird übersetzt mit "6 bl*d7 ht b 9{ l%c g~e m8hc" (nach der Übersetzung sind keine Großbuchstaben mehr vorhanden).[2]
Der hohe Platzbedarf der Blindenschrift bringt einen häufigeren
Zeilenumbruch mit sich als in der Schwarzschrift.
Die Silbentrennung hilft dabei, Platz zu sparen. Durch die
Silbentrennung werden gekürzte Wörter in 2 Teile getrennt.
Diese Situation muss an Zeilenenden erkannt und die Wörter wieder
zusammengesetzt werden. Diese Problematik wird durch mögliche
Auslassungsstriche vor oder nach Wörtern, die mit Trennstrichen
verwechselt werden könnten, noch verschärft.
Durch die Kurzschrift als Kulturtechnik der Blinden
entsteht ein Kommunikationsbruch zwischen Sehenden und Blinden. Man
könnte sogar sagen, dass die Blindenkurzschrift Sehende
ausgrenzt, da sie Texte, die von Blinden verfasst wurden, nicht lesen
können. Dies ist besonders relevant in Schulen und an
Arbeitsplätzen, an denen Sehende und Blinde gemeinsam lernen und
arbeiten.
Folgende Anwendungsgebiete verdeutlichen die Notwendigkeit für
die Rückübersetzung:
Ausgehend von der UN-Konvention über die Rechte von Menschen mit
Behinderungen entstanden in den letzten Jahren zunehmend
Ländergesetze zur Gleichstellung blinder Menschen. Dies kommt
auch der Blindenschrift als Informations- und Kommunikationsmedium
zugute.
So sagt Artikel 2 der UN-BRK:
"Im Sinne dieses Übereinkommens schließt
'Kommunikation' Sprachen, Textdarstellung,
Brailleschrift, taktile Kommunikation … sowie
ergänzende und alternative Formen, Mittel und Formate der
Kommunikation, einschließlich leicht zugänglicher
Informations- und Kommunikationstechnologie, ein."
Eine EU-Richtlinie aus dem Jahre 2001 hat die Blindenschrift in das
Bewusstsein einer breiteren Bevölkerungsschicht gerückt: die
auf dieser EU-Richtlinie basierende 12. Novelle des
Arzneimittelgesetzes schreibt ab 2007 die Kennzeichnungspflicht in
Blindenschrift auf Verpackungen von Medikamenten vor.
Immer häufiger sieht man Blindenschrift auch im öffentlichen
Raum, in Aufzügen, auf Handläufen in Bahnhöfen und
Flughäfen, auf Türschildern in öffentlichen
Gebäuden usw.
Das deutsche "Behindertengleichstellungsgesetz" (BGG) vom
27.04.2002 möchte eine Benachteiligung von Menschen mit
Behinderungen verhindern und für eine gleichberechtigte Teilhabe
am Leben in der Gesellschaft sorgen und Menschen mit Behinderungen
eine selbst bestimmte Lebensführung ermöglichen
(§ 1 BGG).
Das Behindertengleichstellungsgesetz mündete in zwei für
blinde Menschen bemerkenswerte Verordnungen:
1. Die "Barrierefreie-Informationstechnik-Verordnung" (BITV
2.0)
vom 12.09.2011
vom 17.07.2002
Letztere bildet die Rechtsgrundlage dafür, dass blinde Menschen
einen Anspruch auf Dokumente in Blindenschrift im Verwaltungsverfahren
haben.
Die Forderungen des deutschen Blinden- und Sehbehindertenverbandes
(DBSV) gehen noch weit über das bisher Erreichte hinaus, was die
sog. "Mainzer Erklärung" deutlich macht:
Dieses "Recht auf Braille" sollte sich auch auf die
Bildungspolitik auswirken, was der DBSV unter dem
Thema "UN-Behindertenrechtskonvention und
Bildung" darlegt:
In diesem Zusammenhang muss auch der sog. "Marrakesch-Vertrag"
erwähnt werden, dessen Umsetzung im deutschen
Urheberrecht die Basis für die barrierefreie Aufbereitung und
Verbreitung von Büchern und Zeitschriften bildet:
In diesem Kontext wird deutlich, welche Bedeutung einer
Blindenschrift-Rückübersetzung zugemessen
werden kann, die früher für nicht machbar gehalten
wurde.
5.1 Projektziele
Ziel ist ein
Kurzschrift-Rückübersetzungsprogramm, das sich durch
portablen Code für den Einsatz auf unterschiedlichen Plattformen
eignet (Windows, Macintosh, Linux) und aufgrund hoher Performance auch
für eine Implementierung in embedded Systems geeignet ist.
Im Hinblick auf die oben genannte Problemstellung soll hier nur die
Frage erörtert werden, wie die reine Wortübersetzung
implementiert werden kann. Letztlich entscheidet sich die
Rückübersetzbarkeit im Wesentlichen daran, ob und wie viele
Wörter aus der Schwarzschrift zum gleichen Wortbild in
Blindenschrift führen und somit nicht eindeutig sind.
Die Rückübersetzung von Texten besteht darin, ein jeweils
gegebenes Wortbild in Blindenschrift in das ursprüngliche Wort
aus der Schwarzschrift zu überführen. Es gilt also, ein
bestimmtes Punktmuster zu erkennen und durch ein Wort in Normalschrift
zu ersetzen. Möglicherweise wäre eine Mustererkennung
mithilfe eines neuronalen Netzwerks ein brauchbarer
Lösungsansatz. Oder etwa eine Datenbank, in der alle denkbaren
Punktmuster und deren Entsprechungen gespeichert sind.
In jedem Fall muss eine Trigramm-Analyse durchgeführt werden, um
das jeweils richtige Wort aus dem Kontext zu bestimmen. Wird ein gut
durchdachter "Suchen und Ersetzen"-Algorithmus verwendet, so
ist auch zur Bestimmung der richtigen Kürzungen innerhalb eines
Wortes eine Trigramm-Analyse erforderlich. Das bedeutet, dass
mögliche Kürzungen daraufhin untersucht werden müssen,
ob die Zeichenfolgen davor und danach dafür sprechen. Letztlich
hat sich der Autor für diesen Ansatz entschieden, bei dem ein
Zeichen oder eine Zeichenfolge nur dann als Kürzung interpretiert
wird, wenn der Kontext es hergibt.
Das RTFC Braille Modul ist als Dynamic Link Library
(DLL) für Windows und als portabler C-Quellcode für die
Implementierung in embedded Systems erhältlich.
Zum Test des Algorithmus wird vom Autor ein Wortschatz im Umfang von 2
Millionen Wörtern verwendet, der als reiner
Text einen Speicherbedarf von rund 40 MB
hätte. Der Programmcode einschließlich aller Daten, der
diesen Wortschatz mit über 99,99 % Genauigkeit quasi
fehlerfrei übersetzt, ist jedoch nur rund 400 kB
groß.
Neben RTFC selbst haben bereits 8 Firmen das RTFC Braille Modul in
ihre Programme oder Geräte integriert.
Während RTFC die Rückübersetzung von Dateien und
Tastatureingaben unter Windows ermöglicht, bieten mittlerweile
zahlreiche Braillezeilen, Notizgeräte und Screenreader
gleichartige Funktionen mithilfe des RTFC Braille Moduls an.
Für Software unter Windows bieten wir ein
Braille SDK zum Festpreis an, während das Modul für embedded
Systems zu einem erschwinglichen Stückpreis pro Gerät
erhältlich ist.
Anfragen von Hard- und Softwareherstellern sind erwünscht.
Created: 2010/01/12 18:00 Updated: 2023/28/08 08:00
Author: Dipl.-Ing. (FH) W. Hubert Copyright © 2023 RTFC Service |