Wortdubletten
Mittwoch, 3. August 2005 16:21
Wer sich mit den »Wortfolgen« im Voynich-Manuskript beschäftigt, macht schnell eine seltsame Feststellung, die nicht zu einer Sprache oder zu einem verschlüsselten Text passen will. Und zwar ist dies die Neigung der »Wortfolgen« zu identisch aufeinanderfolgenden »Wörtern«. Diese scheinen sehr häufig aufzutreten.
Nun könnte es sein, dass uns hier unsere Wahrnehmung einen Streich spielt. Das wäre gar nicht ungewöhnlich. Wenn sich die menschliche Wahrnehmung auf regellose Strukturen konzentriert, dann beginnt sie damit, in diesen Strukturen Muster zu erkennen, auch wenn keine vorhanden sind. Ein vertrautes Beispiel für diese Eigenart des Wahrnehmens sind die Sternbilder, die Menschen in der recht regellosen Anordnung der Fixsterne zu erkennen glauben.
Es lohnt sich also, die Wortdubletten mit einem Programm zu untersuchen. Dafür habe ich zunächst meine Skripten für die wortweise Analyse geschrieben. Die folgende Untersuchung ist recht einfach, sie liefert aber klaren Aufschluss darüber, dass die Wortdubletten eine wirkliche Eigenschaft der Wortfolge und kein Artefakt der menschlichen Wahrnehmung sind.
Für meine Untersuchung bediente ich mich Takahashi’s Transkription, weil diese vollständig ist. Mit dem Befehl viat -tH -C > h.txt erzeugte ich eine Datei namens h.txt
, die frei von Kommentaren ist. Danach erzeugte ich mit dem Befehl wsplit h.txt > hw.txt eine Zerlegung der Transkription in Einzelwörter in der Datei hw.txt
. Die Lokatoren wurden in dieser Datei belassen, damit Dubletten über Zeilengrenzen hinweg nicht gezählt würden. (Der Lokator beginnt gewissermaßen jede Zeile mit einem im gesamten Manuskript einmaligen »Wort«, welches für diese Anwendung die Zeilen voneinander trennt.)
Nun konnten die Dubletten einfach mit wdup hw.txt | wc -l gezählt werden. Dabei ergeben sich genau 300 Dubletten in der Transkription, also im Schnitt deutlich mehr als eine Dublette pro Seite.
Um diese Zählung mit einer zufälligen Verteilung der Wörter zu vergleichen, mischte ich die Wortfolge mit meinem shuffle
-Skript und bestimmte die Dubletten in der so gemischten Wortfolge. Da dies ein Monte-Carlo-Ansatz ist, wiederholte ich den Befehl shuffle hw.txt | wdup | wc -l zehn Mal, indem ich ihn in einer Schleife absetzte. Und das ist mein Ergebnis:
$ for i in `seq 10` > do > shuffle hw.txt | wdup | wc -l > done 94 102 89 88 95 97 105 102 110 119
Da es sich hier um ein Experiment unter Verwendung eines Zufallsgenerators handelt, können die bei Ihnen ermittelten Dublettenanzahlen der zufälligen Wortfolge natürlich von meinen Ergebnissen abweichen. Dennoch ist deutlich, dass der Durchschnittswert von ungefähr 100 Dubletten bei zufälliger Verteilung der gleichen Wortmenge signifikant unterhalb der gezählten 300 Dubletten in der originalen Transkription liegt. Die große Häufigkeit von Wortdubletten ist somit kein Artefakt unserer Wahrnehmung, sondern eine wirkliche Eigenschaft des Manuskriptes, deren Bedeutung bei einem Entzifferungsversuch geklärt werden muss.
Neben den Wortdubletten gibt es ebenfalls sehr häufig Anhäufungen aufeinander folgender ähnlicher Worte, die sich in nur einer Glyphe voneinander unterscheiden. So findet sich schon auf der ersten Seite die beachtliche »Wortfolge« chor shey kol chol chol kor chal
, und auf Seite f75r kann man die beachtliche »Wortfolge« qokeedy qokeedy qokedy qokedy qokeedy
finden.
Angesichts dieser Eigenschaften des »Textes« erscheint es mir sehr unwahrscheinlich, dass es sich bei der »Wortfolge« um eine nur einfach verschlüsselte Form einer Mitteilung in einer mitteleuropäischen Sprache handelt.
Thema: Ergebnisse | Kommentare (3) | Autor: elias