Beitrags-Archiv für die Kategory 'Ergebnisse'

Das McCrone-Gutachten ist online

Donnerstag, 2. Juni 2011 2:47

Die chemische Analyse der im Voynich-Manuskripte verwendeten Tinte(n) durch das McCrone-Institut (im Auftrag des ORF für die Dokumentation, die 2009 gesendet wurde) ist jetzt veröffentlicht – und wenn nicht Nick Pelling in seinem Blog darauf hingewiesen hätte, denn hätte ich es gar nicht mitbekommen. Das achtseitige Dokument steht auf der Voynich-Seite der Beinecke-Bibliothek als PDF für interessierte Leser zur Verfügung. Leider hat die Beinecke-Bibliothek eine reine Textversion veröffentlicht, und die im Text erwähnten Abbildungen – unter anderem eine aus meiner Sicht hochinteressante Ultraviolett-Aufnahme der Seite f1r, die auch einige bislang ungesehene Features offenbart hat – sind nicht Bestandteil der Veröffentlichung. Das ist schade und ich hoffe sehr, dass diese Bestandteile der Analyse demnächst nachgereicht werden.

Zum Glück ist Englisch viel leichter zu lesen als der Text des »verdammten Manuskriptes«, aber für jene, die nur eine kurze Zusammenfassung ohne die »blutigen Details« haben möchten, seien hier sehr kurz einige Punkte aufgeführt:

Tinte – Für den Text und den Umriss der Illustrationen wurde mit allergrößter Wahrscheinlichkeit die gleiche Tinte verwendet.

Seitennummerierung – Wer sich schon etwas eingehender mit den hochauflösenden Bildern des Manuskriptes beschäftigt hat, wird nicht überrascht sein, dass bei der Nummerierung der Seiten eine andere Tinte verwendet wurde.

Die Nummerierung der Buchbündel, die schließlich zum Codex gebunden wurden, ist in einer dritten Tinte ausgeführt.

Das lateinische Alphabet auf Seite f1r wurde mit einer vierten Tinte geschrieben.

Darüber hinaus wurde auch die Zusammensetzung der Farben untersucht.

Kurze Interpretation

Ich bin nicht besonders überrascht. Dass die Nummerierung der Seiten mit einer anderen Tinte als der »Text« des Manuskriptes geschrieben wurde, zeigte sich bereits in der deutlich anderen Farbe – für mich sah die Seitennummerierung immer nach einer späteren Hinzufügung aus. Für diese Annahme gibt es jetzt auch ein hartes Indiz. Das bedeutet unter anderem, dass die heute vorliegende Reihenfolge der Seiten nicht unbedingt den Absichten des Autors oder der Autoren entsprechen muss. Schlussfolgerungen aus der Reihenfolge der Seite stehen also auf schwachen Füßen.

Die Beobachtung von J. B. Hurych, dass die Form der Ziffern Ähnlichkeiten zur Handschrift der Glyphen im »Text« des Manuskriptes aufweist, scheint auf diesem Hintergrund nicht mehr ein so sicheres Indiz dafür zu sein, dass diese Nummerierung vom Autor vorgenommen wurde. Allerdings spricht nichts dagegen, dass sie dennoch viele Jahre später vom Autor hinzugefügt wurde, vielleicht auch, weil das Buch gebunden oder neu gebunden werden sollte.

Dass die einzelnen Buchbündel von den Buchbindern nummeriert wurden, überrascht nicht. Es handelt sich um eine eher »technische« Angabe. Und das stark verblichene, ausradierte lateinische Alphabet auf der ersten Seite machte schon immer den starken Eindruck, ein Überbleibsel eines früheren Entzifferungsversuchs zu sein und nicht vom Autor zu stammen. Dies deckt sich auch mit den Schlüssen Jorge Stolfis aus dem Jahr 1999 (hui, 5 Uhr morgens, das klingt nach einer langen Nacht).

Also alles in allem nichts Neues…

Gestützt wird von dieser Analyse, dass das Voynich-Manuskript eine »Geschichte« hat, was der Annahme einer modernen Fälschung (etwa durch Wilfrid Voynich auf der Grundlage alten Pergamentes) widerspricht. Dies war jedoch auch vorher (den meisten Untersuchern) klar.

Thema: Ergebnisse, Sonstiges im Netz | Kommentare (4) | Autor:

Strukturen innerhalb einer Zeile

Donnerstag, 21. Mai 2009 4:18

Die Annahme, dass es sich beim Voynich-Manuskript um eine direkt notierte Sprache in einem lediglich unverständlichen Notationssystem handele, wird durch viele belegte Eigenschaften der Glyphenfolge gestützt. Zusammen mit dem fließenden Text entsteht so der Eindruck von ohne Benutzung von Hilfsmitteln niedergeschriebenen Notizen, die nur relativ schwach verschlüsselt sind. Es gibt jedoch im Manuskripte Eigenschaften, die diesem Eindruck widersprechen. Schon mit relativ einfachen Untersuchungen lassen sich Strukturen innerhalb der Textzeilen des Manuskriptes aufzeigen, die in natürlicher, weitgehend phonetisch notierter Sprache nicht auftreten sollten und sehr rätselhaft sind. Die nähere Untersuchung dieser Eigenschaften verspricht einen Ansatz zum Verständnis des Verfahrens, das für die Verschlüsselung des Voynich-Manuskriptes Verwendung fand.

Viele Forscher gehen davon aus, dass es sich beim Voynich-Manuskript um eine direkt niedergeschriebene Sprache handele. Diese Annahme wird gestützt vom Augenschein und von einigen statistischen Eigenschaften der Zeichenfolge, die eine große Ähnlichkeit zu gewöhnlichen sprachlichen Strukturen nahelegen.

Geht man von dieser Annahme aus, so stellt sich beim »Lesen« des Manuskriptes in erster Linie das Problem, eine phonetische Zuordnung der Glyphen zu finden, welche diese Sprache wieder erklingen lässt, um daraus die Sprache zu identifizieren und nach Möglichkeit zu verstehen. Da ein solches Vorgehen bislang für eine Vielzahl von Sprachen gescheitert ist, kommt es immer wieder zu weit hergeholten Hypothesen, deren bekannteste wohl ist, dass es sich um eine phonetisch notierte fernöstliche Sprache handeln könne. Die Tatsache, dass die Illustrationen des Manuskriptes offensichtlich europäisch sind, dass sie keinerlei Ähnlichkeit mit fernöstlichen Symboliken aufweisen, kann solches Spekulieren leider nicht bremsen.

Diese Spekulationen führen allerdings zu nichts, sie sind nur mit dürftigen Indizien belegt und aufgrund der wegen des ideographischen Schriftsystemes nur rudimentär bekannten, historischen chinesischen Phonetik auch kaum falsifizierbar. Man könnte eben so »gut« annehmen, dass hier eine UFO-Besatzung ein Buch geschrieben und auf der Erde zurückgelassen habe, und man kann damit ebenfalls alles »erklären« ? wenn eine Hypothese jedoch alles »erklären« kann, denn erklärt sie nichts. Dass sich die »fernöstliche Annahme« dennoch so lange halten konnte und bis heute eine gewisse Aufmerksamkeit in Kreisen der »Voynichologen« genießt, ist vor allem ein Zeichen der Hilflosigkeit gegenüber dem »verdammten Manuskript« und dem Mangel an jeglichem Fortschritt im Bestreben, seine Nachricht zu lesen.

Eine wenig beachtete Tatsache, die nach meiner Auffassung der Annahme einer direkt niedergeschriebenen Sprache widerspricht, sind die Strukturen innerhalb der Zeilen des Manuskriptes. Die Länge und Struktur eines »Wortes« verändert sich mit fortschreitender Position des »Wortes« innerhalb der Zeile; das »Wort« wird tendenziell um so kürzer und ärmer an Gallows, je weiter es am Ende der Zeile steht. Zudem gibt es gewisse Glyphen, die geradezu typisch für die letzten »Wörter« einer Zeile sind, etwa EVA »m«. Letzteres ist eine Eigenschaft des Manuskriptes, die schon bei naiver Betrachtung ersichtlich ist, und deshalb wird sie wohl so selten einer Untersuchung gewürdigt und nur selten mit »harten« Daten belegt. Dabei widerspricht diese Beobachtung dem Augenschein, dass es sich beim größten Teil des Manuskriptes um direkt niedergeschriebenen Text handelt, der Absätze in beinahe gewöhnlicher Sprache formt.

Schon sehr einfache computergestützte Untersuchungen können aufzeigen, dass die Wörter innerhalb der Zeile nicht gleichmäßig verteilt sind, dass es also Strukturen innerhalb der Zeile gibt, die einer Erklärung bedürfen, wenn wir das Manuskript lesen wollen.

Verwendete Daten

  • Ich habe für die im Folgenden beschriebenen Untersuchungen die vollständige Transkription von Takeshi Takahashi aus dem interlinearen Archiv von Jorge Stolfi verwendet. Das Transkriptions-Alphabet ist folglich ein nicht-kapitialisertes EVA.
  • Hieraus habe ich ausschließlich den »pflanzenkundlichen Teil« (so benannt nach der Gestalt der Illustrationen, die wirklichen Inhalte sind uns ja nicht bekannt) und die reinen Textseiten untersucht, da in diesen Teilen des Manuskriptes der Augenschein eines fließenden Textes besonders stark ist und die Existenz von Strukturen innerhalb der Zeilen aus diesem Grunde nicht erwartet wird. Eine Unterscheidung zwischen den beiden Currier-Sprachen habe ich nicht gemacht, diese wäre allerdings einfach durchzuführen, wenn eine solche Untersuchung weitere Erkenntnis verspräche.
  • Die »astrologischen« und »kosmologischen« Seiten habe ich aus der Betrachtung ausgenommen, weil sie stark von Labels mit bekannten statistischen Eigenarten und von kreisförmigen Texten geprägt sind. Bei letzteren ist der Startpunkt für die Transkription oft reine Willkür. Die »biologischen« Seiten zeigen eine erhebliche textuelle Anomalie im Manuskript, die sich vor allem in einer hohen Redundanz des »Textes« äußert. (Der durchschnittliche Informationsgehalt eines Zeichens liegt dort unter einem Bit.) Der abschließende Teil besteht aus vielen sehr kurzen »Texten«, die schon für den Augenschein nicht den Eindruck normalen Flusstextes erwecken.
  • Ferner habe ich nur Zeilen verwendet, die im Locator des Transkriptionsarchives als Zeile in einem Absatz gekennzeichnet sind. Labels und Titel sind keine Zeilen und könnten die Ergebnisse verzerren.
    Alle »schwachen« Leerzeichen (in EVA mit einem Komma notiert) werden als Leerzeichen betrachtet, die ebenfalls eine »Wortgrenze« darstellen.
    Eine Zeile, die nicht wenigstens fünf Wörter enthält, wird nicht ausgewertet. Bei den gewählten Methoden zur Untersuchung der Wortgestalt in Abhängigkeit von der Position des »Wortes« in der Zeile könnten solche Zeilen das Ergebnis verzerren.

Auswertungen

Mit diesen Daten habe ich für jeweils

  • das erste »Wort« einer Zeile,
  • das letzte »Wort« eine Zeile,
  • das »Wort« in der Mitte der Zeile (Position ermittelt durch Division der Zeilenlänge durch 2) und zudem für
  • das zweite »Wort« einer Zeile (weil das erste Wort jeweils noch weitere Informationen über die Verschlüsselung der Zeile enthalten könnte und deshalb ungewöhnlich gebildet sein könnte)

die folgenden Statistiken erstellt:

  • Zählung der Worthäufigkeit
  • Zählung der Zeichenhäufigkeit in der Transkription
  • Zählung der Wortlänge in der Transkription

Darüber hinaus habe ich die Verteilung von Wörtern mit Gallows (EVA »t«, »k«, »p«, »f«) innerhalb der Zeilen untersucht.

Die von mir verwendeten Perl-Skripten und die vollständigen Ergebnisse dieser Auswertungen zusammen mit einer gut druckbaren Version dieses Textes als RTF-Datei stehen hier zum freien Download zur Verfügung.

Anmerkung zu den Auswertungen

Sowohl die Zeichenhäufigkeit als auch die »Wortlänge« ist eine Form der Auswertung, für die meines Erachtens die EVA-Transkription eher ungeeignet ist, wenn wirkliche Erkenntnisse erlangt werden sollen. Viele Glyphenfolgen, die im Manuskript den starken Anschein eines »Zeichens« erwecken, werden wegen des analytischen Charakters der EVA-Transkription zu mehreren ASCII-Zeichen, wie etwa die häufigen »ch«, »sh« und »iin«. Die Analyse der »Wortlängen« wird durch diesen Umstand verzerrt, und zwar in Abhängigkeit davon, wie das jeweils gezählte »Wort« gebildet ist; die »Zeichenhäufigkeit« ist ebenfalls eher sinnlos. Im besten Fall können solche Daten als Anhaltspunkte für eventuell lohnende, spätere Untersuchungen gelten.

Ergebnis der Wortzählungen

Dies sind die »Wörter«, die mit einer Häufigkeit von mehr als 0,5 Prozent als erstes »Wort« in einer Zeile erscheinen:

daiin                    81  3.808%
saiin                    39  1.834%
sain                     32  1.504%
dain                     29  1.363%
qokeedy                  29  1.363%
sol                      28  1.316%
sor                      26  1.222%
qokeey                   25  1.175%
qokaiin                  22  1.034%
dshedy                   21  0.987%
qokain                   21  0.987%
sar                      20  0.940%
dar                      19  0.893%
tchedy                   19  0.893%
pol                      18  0.846%
dair                     17  0.799%
ol                       17  0.799%
qokedy                   16  0.752%
tol                      16  0.752%
qol                      15  0.705%
y                        15  0.705%
ycheey                   15  0.705%
dchedy                   13  0.611%
dol                      11  0.517%
qokal                    11  0.517%
sal                      11  0.517%

Zum Vergleich hier die gleiche Liste für das jeweils letzte »Wort« einer Zeile:

am                       39  1.834%
dy                       38  1.787%
ol                       33  1.551%
chedy                    32  1.504%
al                       28  1.316%
oly                      28  1.316%
dam                      26  1.222%
daiin                    23  1.081%
qoky                     23  1.081%
dal                      22  1.034%
otam                     17  0.799%
lchedy                   16  0.752%
lol                      16  0.752%
aiin                     15  0.705%
qokam                    15  0.705%
shedy                    15  0.705%
ary                      13  0.611%
dar                      13  0.611%
ram                      13  0.611%
dain                     12  0.564%
ldy                      12  0.564%
chey                     11  0.517%
oky                      11  0.517%
oldy                     11  0.517%
qoty                     11  0.517%

Einige Unterschiede fallen auf dem ersten Blick auf. Erwartet und schon oft beobachtet ist der häufige Zeilenabschluss mit einem »Wort«, welches auf »m« endet. Etwas unerwarteter ist hier die Tendenz zu eher kurzen »Wörtern« und das auffällige Fehlen von »Wörtern«, die mit »s« beginnen. (In EVA steht das »sh« in »shedy« für ein »ch« mit so etwas Ähnlichem wie einem diakritischen Zeichen darüber und nicht für die Glyphe »s« in »saiin«, »sain«, »sor«, »sal« oder »sar«.) Generell lässt sich ein völliges Fehlen der »s«-Glyphe in den häufigsten »Wörtern« am Ende einer Zeile feststellen. Die möglichen »Wörter« sind also innerhalb einer Zeile nicht gleichmäßig verteilt; zumindest für die erste und letzte Wortposition einer Zeile liegen sehr unterschiedliche Verteilungen der Worthäufigkeit vor.

Dies ist ein unerwartetes Ergebnis, wenn man davon ausgegangen ist, dass hier zusammenhängender Text in Absätzen geschrieben wurde, wie es dem Augenschein entspricht. Würde es sich um einen Text in Versform handeln, wäre dieses Ergebnis hingegen nicht überraschend, da diese Form eine gewisse Verteilung der Wortarten innerhalb der Zeilen begünstigen würde. Die Annahme, dass es sich um einen gewöhnlichen, jeweils eine Pflanze beschreibenden Text in direkt notierter Sprache handelt, kann bereits auf diesem Hintergrund angezweifelt werden.

Wenn aber eine Form von Kryptografie vorliegt, ist es durchaus denkbar, dass das jeweils erste »Wort« einen Hinweis auf den Schlüssel enthält, der für diese Zeile verwendet wurde.

Aus diesem Grund habe ich die gleiche Auswertung für das jeweils zweite »Wort« einer Zeile durchgeführt, und zwar mit dem folgenden Ergebnis:

ol                       69  3.244%
shedy                    56  2.633%
shey                     52  2.445%
aiin                     46  2.163%
chey                     45  2.116%
chedy                    40  1.881%
cheey                    32  1.504%
ar                       31  1.457%
qokeedy                  31  1.457%
qokeey                   25  1.175%
sheol                    25  1.175%
cheol                    24  1.128%
or                       24  1.128%
al                       21  0.987%
chol                     21  0.987%
qokedy                   20  0.940%
sheedy                   20  0.940%
daiin                    19  0.893%
qol                      19  0.893%
sheey                    19  0.893%
qokaiin                  18  0.846%
qokain                   18  0.846%
okaiin                   16  0.752%
ain                      15  0.705%
okeey                    15  0.705%
sheor                    15  0.705%
shol                     15  0.705%
okain                    14  0.658%
lchedy                   13  0.611%
qokal                    13  0.611%

Diese Liste enthält bereits kein »Wort« mehr, das mit »s« beginnt und auffallend viele kurze »Wörter« aus zwei Glyphen, sie weist also eine größeres Maß an Ähnlichkeit zur Verteilung der »Wörter« am Ende der Zeile auf. Allerdings gibt es hier auch eine wichtige Abweichung, und das ist die große Häufigkeit von »Wörtern«, die mit »ch« oder »sh« beginnen, was bei den häufigen »Wörtern« an abschließender Position in der Zeile kaum zu beobachten ist.

Die Zeile scheint also eine besondere, nicht offensichtliche Struktur zu haben. Die zweiten »Wörter« einer Zeile zeigen eine andere Häufigkeitsverteilung als die ersten »Wörter« einer Zeile, und beide Verteilungen unterscheiden sich recht deutlich von den letzten »Wörtern«. Die Ausdrucksweise »nicht offensichtlich« meint hier, dass diese Struktur bei einer Betrachtung des Manuskriptes nicht unmittelbar auffällt, sondern erst in einer Auswertung der Worthäufigkeiten in Abhängigkeit von der Wortposition innerhalb einer größeren Menge Text deutlich wird. In einer solchen Auswertung ist es dann aber sehr offensichtlich.

Es ist übrigens interessant, die gleiche Auswertung mit dem jeweils mittleren »Wort« einer Zeile durchzuführen. Ich habe die Position des mittleren »Wortes« ermittelt, indem ich die Anzahl der Wörter durch 2 geteilt habe und das Wort an dieser Position nahm, und kam so auf die folgende Häufigkeitsverteilung für das jeweils mittlere »Wort« einer Zeile:

chedy                    56  2.633%
shedy                    51  2.398%
ol                       38  1.787%
qokeey                   37  1.740%
daiin                    34  1.598%
qokedy                   34  1.598%
qokeedy                  33  1.551%
qokain                   32  1.504%
qokaiin                  29  1.363%
aiin                     26  1.222%
chey                     26  1.222%
qokal                    25  1.175%
chol                     19  0.893%
qol                      19  0.893%
okaiin                   18  0.846%
ar                       16  0.752%
or                       16  0.752%
qokar                    16  0.752%
otal                     15  0.705%
oteey                    15  0.705%
dal                      14  0.658%
dar                      14  0.658%
otedy                    14  0.658%
okain                    13  0.611%
qotedy                   13  0.611%
sheol                    13  0.611%
shey                     13  0.611%
al                       12  0.564%
cheol                    12  0.564%
okedy                    12  0.564%
okeey                    12  0.564%
cheey                    11  0.517%
dol                      11  0.517%
okeedy                   11  0.517%
otain                    11  0.517%
qoky                     11  0.517%

Auch hier findet sich unter den häufigen Wörtern keines, das mit »s« beginnt. Auffallend ist allerdings die größere Häufigkeit von »Wörtern«, die einen Gallow enthalten. Die Listen der Wörter mit einer Häufigkeit von über 0,5 Prozent an einer untersuchten Position innerhalb der Zeile weisen

  • 9 Gallows (34 Prozent der häufigsten »Wörter«) für die erste Position,
  • 9 Gallows (30 Prozent der häufigsten »Wörter«) für die zweite Position,
  • 17 Gallows (47 Prozent der häufigsten »Wörter«) für die mittlere Position, und
  • 5 Gallows (20 Prozent der häufigsten »Wörter«) für die letzte Position

auf. Auch dies ist ein eher unerwartetes Ergebnis, es erweckt zunächst den Anschein, die Wörter mit Gallows würden sich in der Mitte der Zeile ansammeln. Dies ist jedoch nicht der Fall. Um das zu untersuchen, habe ich die Verteilung der »Wörter« mit Gallows auf die jeweils fünf Positionen am Anfang der Zeile, am Ende der Zeile und in der Mitte der Zeile mit einem weiteren Perl-Skript untersucht. In der folgenden Liste gibt die erste Zeile die Gallowhäufigkeit in den ersten fünf »Wörtern« der Zeile, die zweite Zeile in den mittleren fünf »Wörtern« der Zeile und die dritte Zeile in den letzten fünf »Wörtern« der Zeile wieder:

Start of line       49.365% 44.335% 57.217% 57.264% 54.866% 
Center of line      54.725% 56.041% 55.806% 56.747% 55.101% 
End of line         57.593% 54.020% 56.700% 56.794% 39.821%

Abgesehen von einem leicht geringeren Auftreten der »Wörter« mit Gallows an der zweiten Position und einem deutlich geringerem Auftreten solcher »Wörter« an der letzten Position der Zeile zeigen sich hier keine Auffälligkeiten in der allgemeinen Verteilung.

Die auffällige Häufung von »Wörtern« mit Gallows in der Liste der häufigsten »Wörter« der Mittelposition kann also nur bedeuten, dass die »Wörter« mit Gallows am Anfang einer Zeile signifikant variabler und unregelmäßiger als in die Mitte der Zeile geformt sind und deshalb nicht in einer solchen Auflistung aufscheinen, da sie von regelmäßiger gebildeten »Wörtern« ohne Gallows von dort verdrängt werden. Dies sollte in folgenden Untersuchungen wesentlich präziser gefasst werden, für den Moment reicht die Erkenntnis, dass subtile Feinheiten der Wortstruktur von der Position des Wortes in der Zeile abhängig sind. Und genau das ist ein unerwartetes Ergebnis, wenn Wörter eines Absatzes einfach hintereinander weggeschrieben werden, es ist ein Zeichen dafür, dass hier trotz aller statistischer Sprachähnlichkeit der Glyphenfolge keine natürliche Wortfolge einer prosaischen Sprache vorliegen kann. Weitere Gedanken hierzu folgen in den abschließenden Betrachtungen.

Verteilung der Wortlängen

Eine andere Beobachtung lässt sich hingegen bestätigen. Die Wörter werden zum Ende hin kürzer, zumindest, wenn man die Wortlängen in einer EVA-Transkription betrachtet. Selbst, wenn dies nur ein Artefakt des EVA-Alfabetes sein sollte, zeigt es doch statistisch greifbare, strukturelle Änderungen in der Gestalt der durchschnittlichen »Wörter« in Abhängigkeit von ihrer Position in einer Zeile.

Beim ersten Wort einer Zeile beträgt die durchschnittliche Wortlänge 5,57 Zeichen, beim letzten Wort 4,7 Zeichen, der Unterschied beträgt also fast ein EVA-Zeichen und ist damit durchaus als signifikant zu betrachten. Die Länge des mittleren Wortes beträgt übrigens im Durchschnitt 5,3 EVA-Zeichen, und mit der deutlichen Ausnahme der zweiten Wortposition einer Zeile nimmt die Länge tendenziell mit der Position des »Wortes« in der Zeile ab. Es handelt sich hierbei nicht nur um ein Artefakt, das dadurch entsteht, dass der Autor zum Ende einer Zeile hin zu Abkürzungen tendiert.

Zeichenverteilung

Ohne zu diesem Thema zu sehr in die numerischen Einzelheiten gehen zu wollen, sei noch angemerkt, dass auch die Verteilung der Zeichenhäufigkeiten von der Position des »Wortes« in der Zeile abhängig ist.

Die sieben häufigsten Glyphen der »Wörter«

  • an der ersten Position sind: e, o, y, h, d, i, a;
  • an der zweiten Position sind: e, o, h, y, c, k, d;
  • an der mittleren Position sind: o, e, y, h, d, a, k;
  • an der letzten Position sind: o, a, y, l, d, e, h.

Es zeigt sich, dass zum Ende einer Zeile hin tendenziell die Glyphen »e« und die Gruppe »ch« und »sh« seltener werden, während die Glyphen »a« und »l« in der Häufigkeit zunehmen. Macht bei den »Wörtern« zum Zeilenanfang die Glyphe »a« noch 7,2% und »l« 5,2% des Glyphenvorrates aus, so ist am Ende einer Zeile das »a« mit 12,6% und das »l« mit 9% vertreten. Auf der anderen Seite fällt die Häufigkeit der Glyphe »e« von 12,2% beim ersten »Wort« einer Zeile auf 6,6% beim letzten Wort einer Zeile ab. Der größte Teil des Glyphenvorrates ist aber beinahe invariant gegenüber der Wortposition, so dass diese Veränderungen der Zeichenhäufigkeit innerhalb einer Zeile kaum auffallen.

Wäre das »Voynichianische« eine Sprache, so hätte sie die bemerkenswerte Eigenschaft, dass beim Schreiben zusammenhängender Texte in einem Absatz innerhalb einer Zeile eine Gruppe von Vokalen immer seltener wird, während eine andere Gruppe von Vokalen immer häufiger würde, und das bei jeder geschriebenen Zeile. Es fällt schwer, sich eine menschliche Sprache mit dieser Eigenschaft vorzustellen; es fällt vergleichbar schwer, ein sinnvolles Schriftsystem zu ersinnen, das solche Auffälligkeiten hervorbringt. Könnte man die Verkürzungen der Wörter noch mit Abkürzungen wegerklären, die sich tendenziell zum Zeilenende häufen, so bleibt die Erklärung eines solchen im Schriftbild aufscheinenden Lautwandels sehr knifflig. Die Hypothese, dass das »Voynichianische« eine Sprache ist, scheint mir angesichts dieser Analyse kaum noch haltbar.

Abschließende Betrachtungen

Was bedeutet das alles? Ich weiß es nicht, noch nicht. Mir sind jetzt »nur« ein paar weitere Fakten bekannt, die bei jedem Versuch einer Entzifferung dieser mittelalterlichen Kopfnuss berücksichtigt werden müssen:

  1. Es handelt sich nicht um eine relativ direkt niedergeschriebene Sprache, auch keine fernöstliche. Das Voynich-Manuskript entstand in einem Prozess der Verschlüsselung.
  2. Bei der Verschlüsselung hat die entstehende Zeile den »Wörtern« in dieser Zeile eine nachweisbare Struktur gegeben, die möglicherweise Rückschlüsse auf das angewendete Verfahren gestattet. Die »Wörter« in der Zeile sind in einer Weise geordnet, die ich noch nicht verstehe. Da auch die Glyphen innerhalb eines »Wortes« auf eigentümliche Weise geordnet sind, scheiden einfache Zeichenersetzungen aus. (Diese wären auch schon geknackt worden.) Es handelt sich vielmehr um eine Umordnung von Informationseinheiten, die zur beobachteten Struktur führte und die hoffentlich mit einfachen Mitteln umkehrbar ist. So lange wir nicht wissen, in welcher Sprache der Klartext gehalten ist, erscheint mir das Erraten der beim Verschlüsseln angewendeten Umordnungen als kaum lösbare Aufgabe.
  3. Gesetzt dem Fall, es handelt sich beim Voynich-Manuskript um eine bedeutungslose Zeichenfolge, muss eine Erklärung für die darin aufscheinenden Strukturen gefunden werden. Diese sind einerseits sprachliche Strukturen, da zum Beispiel das Zipfsche Gesetz vom dokumentierten »Wortvorrat« erfüllt wird, sie sind aber andererseits außersprachliche und schwer erklärbare Strukturen.
  4. Wenn das »verdammte Manusskript« eine entzifferbare Mitteilung enthält, ist es die vordringlichste Aufgabe der Entzifferung, diese Strukturen zu verstehen und zu deuten. Insbesondere sollte die Anomalie des zweiten »Wortes« einer Zeile verstanden werden, denn diese liefert möglicherweise einen Hinweis auf den in der jeweiligen Zeile verwendeten Schlüssel.

Das Frustrierende in diesem ganzen Prozess besteht darin, dass das Manuskript so aussieht, als sei es ohne besondere Hilfsmittel verfasst und recht unmittelbar niedergeschrieben worden. Welches Verfahren dabei auch immer angewendet wurde, es kann nicht allzu schwierig sein. Aber es war mit Sicherheit sehr intelligent und völlig anders als die kryptografischen Standards des späten Mittelalters.

Thema: Ergebnisse, Hacking | Kommentare (1) | Autor:

Verteilung unharmonischer Wörter auf Zeilen

Dienstag, 23. September 2008 19:46

Nachdem die Datenbank um eine Tabelle erweitert ist, die eine Zählung von Verstößen gegen die harmonischen Gesetze in den »Wörtern« ermöglicht, liegt es nahe, einmal die Verteilung dieser »Wörter« auf den Seiten des Manuskriptes zu betrachten.

Es erscheint mir unwahrscheinlich, dass bei acht Prozent des »Textes« durch Fehler bei der Transkription oder bei den früheren Restaurationen solche Abweichungen entstanden sein sollten, vielmehr halte ich diese besonders gebildeten »Wörter« für eine Auffälligkeit im Manuskript.

In der ersten derartigen Untersuchung will ich überprüfen, in welcher Weise sich diese Wörter auf den Zeilen einer Seite verteilen. Hierbei ist mir eine Schwäche meiner Datenbank aufgefallen. Sie enthält bislang keine Information darüber, welches die Position der transkribierten Zeile auf der Seite ist. Deshalb habe ich ein kleines Python-Skript geschrieben, das diese Information erstellt, es steht hier zum freien Download: Python-Skript zum Hinzufügen einer Zeilennummer in die Zeilentabelle

Mit dieser Änderung ist eine Analyse nach Zeilen recht einfach geworden, es handelt sich um eine einfache SQL-Abfrage (hier für den pflanzenkundlichen Teil in der Currier-Sprache A aus der Transkription von Takeshi Takahashi angegeben):

SELECT 	lineno AS Line,
	SUM(wordcount) AS Words,
	SUM(harm_failcount) AS Enharm,
	SUM(harm_failcount) / SUM(wordcount) AS Percent
FROM	voy_line
JOIN	voy_lineword ON lword_line = line_id
JOIN	voy_word ON word_id = lword_word
JOIN	voy_harmony ON word_id = harm_word
JOIN	voy_page ON line_page = page_id
WHERE	illustration_type = 'H'
AND	currier_hand = 'A'
AND	line_trans = 'H'
GROUP 	BY lineno

Es ist nicht sehr sinnvoll, diese Analyse über jene Seiten zu machen, bei denen die Transkriptionen eine große Menge Labels enthalten. Diese Labels erscheinen in den Transkriptionen als eigene Zeilen, und die etwas unheitliche Benennung im Lokator einer solchen »Zeile« macht es nicht leicht, solche Zeilen auszuschließen. Diese künstlichen Zeilen sind auf zweierlei Weise besonders; sie sind sehr kurz (oft nur ein »Wort«), und die darin enthaltenen »Wörter« haben eine Häufung von Eigentümlichkeiten, die sie als eine besondere Klasse kennzeichnet. Deshalb habe ich mich auf den pflanzenkundlichen und abschließenden Teil beschränkt, in dem es große Mengen »Fließtext« gibt. Den biologischen Teil habe ich ebenfalls untersucht, aber hier sind alle Ergebnisse wegen der vielen Labels mit ganz besonderer Skepsis zu betrachten.

Die Ergebnisse dieser Untersuchung (durchgeführt an der Transkription von Takeshi Takahashi) stehen wie immer zum freien Download zur Verfügung – allerdings diesmal nur in der Form von Zahlenreihen. Denn es sind eigentlich keine besonderen Ergebnisse, es ist ein kompletter Fehlschlag: Download der Ergebnisse meiner Analyse

Was sich bei dieser einfachen Analyse nämlich zeigt, ist »nur«, dass die nicht den harmonischen Regeln entsprechenden Wörter ohne auffällige Regelmäßigkeit über die Zeilen verteilt sind. Das ist zwar auch eine Erkenntnis, aber nicht unbedingt eine erhellende.

Aber ich bleibe dran…

Thema: Ergebnisse | Kommentare (0) | Autor:

Überprüfung der harmonischen Gesetze

Freitag, 22. August 2008 21:58

Es ist eine Sache, nach einem Blick in die Transkriptionen und vor allem auch in die Bilder des Manuskriptes die »harmonischen« Gesetze für die Bildung der Glyphenfolgen in einem »Wort« zu erkennen. Eine solche Einsicht wirkt jedoch um einiges überzeugender, wenn man sie mit ein paar Zahlen belegen kann.

Um mich dieser Aufgabe zu widmen, habe ich ein Python-Skript geschrieben, dass meiner Voynich-Datenbank eine neue Tabelle hinzufügt. Das Skript für die harmonische Analyse der „Wörter“ im Manuskripte stelle ich hier wie üblich zum freien Download.

Nach der Anpassung der Zugangsdaten für die Datenbank und dem Start des Skriptes wird die neue Tabelle voy_harmony in der Datenbank erzeugt. Diese besteht nur aus zwei Spalten, nämlich

  • harm_word INTEGER
    Die ID des Wortes, für das die Verstöße gegen die Harmonieregeln gezählt wurden
  • harm_failcount INTEGER
    Die Anzahl der Verstöße gegen die harmonischen Regeln für dieses Wort

Das Skript zählt alle Verstöße gegen die harmonischen Regeln, außer, wenn sie in einigen Fällen die letzte Glyphe eines Wortes betreffen. Eine solche Zählung findet für jedes Wort statt, dass ausschließlich aus lesbaren Zeichen besteht. Jeder Weirdo wird – mit Ausnahme seines Auftretens an letzter Position im Wort – als Verstoß gegen die harmonischen Regeln gezählt.

Mit Hilfe dieser Tabelle lassen sich natürlich ausführliche Analysen machen. Um mich von der Gültigkeit der harmonischen Regeln für einen Großteil des Manuskriptes zu überzeugen, habe ich einmal eine kleine Zählung über alle Wörter aus allen Transkriptionen gemacht:

SELECT  COUNT(*) AS words,
        SUM(count) AS frequency,
        harm_failcount AS unharmonicals
FROM    voy_word
JOIN    voy_harmony ON word_id = harm_word
GROUP   BY unharmonicals;

Das Ergebnis dieser Zählung ist erstaunlich, zumal in diese Zählung auch alle »Wörter« derjenigen Seiten eingegangen sind, die eine besondere Häufung von Weirdos und ungewöhnlich geformten »Wörtern« zeigen.

+-------+-----------+---------------+
| words | frequency | unharmonicals |
+-------+-----------+---------------+
|  8384 |    111003 |             0 |
|  2329 |      7779 |             1 |
|   704 |      1836 |             2 |
|   116 |       194 |             3 |
|    14 |        15 |             4 |
|     1 |         1 |             5 |
+-------+-----------+---------------+
6 rows in set (0.91 sec)

Wenn man die verschieden geformten »Wörter« betrachtet, ohne ihre Häufigkeit in Rechnung zu stellen, denn sind 27,4 Prozent des gesamten »Wortschatzes« (der gewiss auch viele Fehler der Transkriptoren und der frühen Restauratoren enthält) »unharmonisch« geformt. Bezieht man jedoch die Häufigkeit dieser Wörter in Betracht, so erweisen sich nur 8,1 Prozent der »Wörter« des gesamten »Textes« im Manuskript als »unharmonisch«.

Die »harmonischen« Regeln erzwingen durch ihre starre Struktur eine recht hohe Redundanz des Textes. Die »unharmonischen« Wörter haben also einen höheren Gehalt an Information, sie tragen vielleicht auch eine (oder sogar: die) Bedeutung.

Was als nächster Schritt sehr interessant wäre, das wäre eine Analyse, ob die »unharmonischen« Wörter gehäuft an bestimmten Stellen des Manuskriptes (Position des »Wortes« in der Zeile, Position der Zeile auf der Seite, bestimmte Abschnitte im Manuskripte) auftreten, oder ob sich sich gleichmäßig über den gesamten Text verteilen. Eine solche Analyse werde ich in den nächsten Wochen einmal angehen.

Thema: Ergebnisse, Hilfsmittel | Kommentare (2) | Autor:

Die Harmonie der Glyphenfolgen

Samstag, 5. Juli 2008 0:21

Dieser Text ist »etwas« älter, ich hatte ihn am 15. Februar 2005 auf einer inzwischen nicht mehr verfügbaren Homepage veröffentlicht. Die geäußerten Gedanken erscheinen mir aber immer noch als wertvoll und wichtig, deshalb diese erneute Veröffentlichung.

Unabhängig von den Feinstrukturen der »Wörter« im Voynich-Manuskript lassen sich harmonische Regeln für die Folge der Glyphen in einem »Wort« feststellen. Diese Regeln sind verhältnismäßig einfach, wurden aber vom Autor im gesamten Manuskript angewandt. Beim Betrachten dieser Regeln kommen Zweifel daran auf, dass es sich beim Voynich-Manuskript um niedergeschriebene Sprache im gewöhnlichen Sinn des Wortes handeln kann.

Die Glyphenklassen im Voynich-ManuskriptIch werde mich für die folgenden Darlegungen des Transkriptions-Systemes EVA bedienen, die »Wörter«, Glyphen und Glyphfolgen werden zur leichteren Erkennung in fetter Schrift gesetzt. Für Wortzählungen habe ich die vollständige Transkription von Takeshi Takahashi verwendet.

Jemand, der sich längere Zeit mit dem Voynich-Manuskript beschäftigt, bekommt eine gewisse Intuition dafür, dass die Reihenfolge der Glyphen in einem Wort sehr festen Regeln folgt. Es kann nicht jede Glyphe an jeder Position stehen – bestimmte Glyphfolgen wirken auf der Stelle »falsch«.

Zunächst fällt ein erkennbares System von Präfixen und Suffixen auf. Das typische »Wort« im Manuskript beginnt mit q-, qo- oder o- und endet mit Glyphenfolgen aus einer recht großen Auswahl, in welcher die Gruppen -in, -ir, -il, -es und -dy besonders auffällig hervorstechen. Diese offensichtlichen Strukturmerkmale führten des öfteren zur Annahme, dass es sich hierbei um durchschimmernde Spuren einer Grammatik mit Flexionsystem handeln müsse – allerdings hat diese Annahme noch nicht bei der Identifikation der Sprache geholfen.

Ich möchte diesen vielbetrachteten Aspekt einmal außer Acht lassen und auf die zeichnerische Harmonie der Glyphfolgen eingehen.

Nach einigen Monaten des ernsthaften Forschens wird jedem Menschen intuitiv klar, dass es sich bei der Glyphenfolge qoteody um ein mögliches »Wort« handelt. Dieses »Wort« erscheint dann auch zwölf Mal im Manuskript – es ist damit eines der nicht besonders häufigen Worte, so dass diese »Klarheit« nicht (wie etwa beim sehr häufigen qoteedy) aus der Erinnerung kommen kann. Ebenso ist intuitiv klar, dass die Glyphenfolge qoteidy, die ja transkribiert auf dem ersten Blick sehr ähnlich aussieht, ein sehr ungewöhnliches »Wort« wäre. Und tatsächlich, dieses »Wort« kommt im Manuskript nicht vor.

Aber was unterscheidet diese Glyphenfolgen? Welches Bildungsgesetz für die »Wörter« nimmt man hier intuitiv auf, so dass man oft recht zielsicher entscheiden kann, ob ein bestimmtes »Wort« möglich ist oder nicht?

Die Beantwortung dieser Frage führt auf ein Harmoniegesetz für die aufeinanderfolgenden Glyphen, welches auch das beobachtete Suffixsystem auf natürliche Weise hervorbringt. Doch um dieses zu erkennen, muss man sich von den Transkriptionen abwenden und dem Schriftbild des Manuskriptes zuwenden. Zur besseren Erläuterung habe ich eine Grafik mit den hier postulierten Glyphenklassen und ein paar Beispielen in diese Seite eingefügt und die Glyphen der EVA-Transkription gegenübergestellt.

Die grundlegenden Glyphenklassen

Wenn man die Glyphen in den Bildern des Manuskriptes sorgfältig untersucht, stellt man schnell fest, dass der Glyphenvorrat relativ einfach aufgebaut ist. Es lassen sich drei Klassen von Glyphen an Hand ihres ersten Striches unterscheiden, dem zur Differenzierung in die speziellen Glyphen verschiedenste Dekorationen hinzugefügt werden können. Diese Reihenfolge beim Zeichnen der Glyphen lässt sich an vielen Stellen des Manuskriptes bestätigen, da durch das Absetzen der Feder Lücken in der Glyphe entstehen und häufig nach dem Absetzen die Feder in die Tinte getaucht wurde, so dass der folgende Strich dunkler erscheint.

Neben diesen drei Klassen gibt es noch zwei wichtige Ausnahmezeichen – leider kümmert sich die Wirklichkeit nicht immer um das analytische Streben nach Vereinfachung. Schon jetzt sei gesagt, dass eine dieser Ausnahmen für die »Wortbildung« im Rahmen der beobachteten Harmoniegesetze von Bedeutung ist.

Die nur an vereinzelten Stellen auftretenden »weirdos« werden hier nicht behandelt, fügen sich jedoch manchmal gut in das System ein. Manchmal allerdings auch nicht.

Die i-Klasse: Der erste Strich aller Glyphen dieser Klasse ist ein kurzer Abwärtsstrich, der um etwa 30 Grad gegen die Vertikale nach links geneigt ist. Beim EVA-Zeichen i wird die Glyphe nur von diesem Strich gebildet, darüber hinaus gibt es die wichtigen Glyphen n, r, l und m, die mit diesem Strich beginnen und ihm eine Verzierung hinzufügen.

Die e-Klasse: Der erste Strich dieser Klasse ist ein ungefähr halbkreisförmiger Bogen, dessen Anfang ähnlich geneigt ist wie der Abwärtsstrich der i-Klasse. Bei den EVA-Zeichen e, c und h wird die Glyphe nur von diesem Stich gebildet, darüber hinaus gibt es in dieser Klasse die wichtigen Glyphen o, d, s, y und die wegen ihrer Seltenheit als »weirdos« zu betrachtenden g und b.

Die Gallows: Der erste Strich dieser Klasse ist ein deutlich über der Scheiblinie angesetzter, strikt vertikaler Abwärtsstrich, dem immer eine weitere Dekoration hinzugefügt wird. Der Strich tritt also niemals allein als Glyphe auf. In diese Klasse gehören die EVA-Zeichen k, t, f und p, ferner sind einige der »weirdos« auf diese Art gebildet.

Die Ausnahmeglyphen

Wie schon erwähnt, gibt es genau zwei Glyphen, die aus diesem einfachen Schema der drei Klassen herausfallen. Beide scheinen wichtige Funktionen im Manuskript zu erfüllen, und eine dieser Ausnahmen (das a) ist entscheidend für die Aufrechterhaltung des später beschriebenen Harmoniegesetzes.

Die q-Glyphe: Diese Glyphe tritt nur am Anfang eines »Wortes« auf. Sie besteht aus einem strikt vertikalen Abwärtsstrich, der aber im Gegensatz zu den Glyphen der Gallow-Klasse auf Höhe der Schreiblinie angesetzt wird und diese Linie nach unten hin deutlich durchbricht. Am oberen Ende dieses Striches wird eine nach links gewandte gerade Linie im Winkel von ungefähr 45 Grad angesetzt, diese wird bis zur Mitte des Schreiblinienbereiches fortgesetzt und dort horizontal, aber leicht nach oben weisend abgeknickt. Die sehr häufig folgende Glyphe o wird mit diesem Horizontalstrich verbunden, so dass in diesem Fall der Eindruck einer Ligatur entsteht.

Die a-Glyphe: Diese Glyphe entsteht aus der Kombination (oder Ligatur) des Bogens der e-Klasse mit dem Abwärtsstrich der i-Klasse. Ihre besondere Bedeutung für die Harmoniegesetze wird an späterer Stelle klar werden.

Die Ligaturen

Es gibt einige sehr bemerkenswerte Glyphenfolgen, die einen starken Eindruck von Ligaturen erwecken und deshalb an dieser Stelle (mit allen Vorbehalten wegen des unbekannten Schriftsystemes) auch so genannt werden, die sich aber fast alle mit einer (relativ seltenen, aber sehr wichtigen) Ausnahme zwanglos in das System einfügen. Die häufigsten Formen seien hier kurz aufgelistet – es gibt aber darüber hinaus vereinzelt sehr komplexe Formen von drei oder mehr Glyphen sowie Ligaturen mit den Glyphen o und y.

Ligaturen der e-Klasse

Die folgenden Ligaturen fügen sich durch den ersten Strich zwanglos in die e-Klasse ein und werden im Folgenden auch so behandelt.

Die ch-Ligatur: Dies sind einfach zwei e-Glyphen, die am oberen Ansatzpunkt durch eine deutliche, strikt horizontale Linie verbunden sind.

Die sh-Ligatur: Sie entspricht der ch-Ligatur, enthält jedoch als zusätzliche Verzierung einen Bogen auf oder über der horizontalen Linie. Die Form dieses Bogens ist so variabel, dass immer wieder die Frage aufgeworfen wurde, ob sie nicht Information tragen könnte. Für die Betrachtung der »harmonischen Wortbildung« spielt diese Frage jedoch keine große Rolle.

Gemischte ie-Ligatur

Die ih-Ligatur: Dies ist die einzige Ligatur dieser Klasse und die zuvor benannte wichtige Ausnahme. Sie sieht der ch-Ligatur sehr ähnlich, aber das erste Zeichen ist der einfache Strich der i-Glyphe. Diese Ligatur tritt nur in dieser Reihenfolge auf, es gibt keine ci-Ligatur. Aus den späteren Darlegungen wird deutlich werden, dass eine hypothetische ci-Ligatur im Rahmen der Harmoniegesetze nicht erforderlich ist und daher wohl auch nicht auftritt.

Ligaturen mit eingebetteten Gallows

Die ch- und ih-Ligaturen (und die gelegentlichen ähnlich gebildeten Ligaturen mit o oder y) können ein eingebettetes Zeichen der Gallow-Klasse enthalten, welches die horizontale Linie kreuzt (cfh, cph, ckh, cth, ifh, iph, ikh und ith). Diese Kombination sieht dann so aus, als würde die Gallow-Glyphe auf einer Art von Podest stehen. Das Auftreten dieser Ligaturen ist sehr rätselhaft und einer umfassenden Betrachtung in einem eigenen Text würdig.

Und damit ist auch alles erklärt, was zum Verständnis der Harmoniegesetze erforderlich ist. Wer sich von den ausführlichen Erläuterungen zu den Zeichenklassen etwas »erschlagen« fühlt, sollte noch einmal einen Blick auf meine kleine Grafik werfen – manchmal sagt ein Bild wirklich mehr als tausend Worte. Alles in allem sollten die Kriterien für die Zuordnung einer Glyphe zu einer Klasse und die Bewertung einer Ligatur jetzt so klar sein, dass sie von jedem Leser verstanden und in einer Analyse angewendet werden können. Dabei ist auch für die meisten (aber natürlich nicht für alle) »weirdos« eine eindeutige Zuordnung zu einer dieser Klassen möglich. Für die wichtigsten Weirdos sei dies hier vorweggenommen:

»Weirdos« der i-Klasse: sind j und eventuell auch z, dessen Glyphe durch den strikt horizontalen ersten Strich zwischen den Gallows und der i-Klasse steht und den starken Eindruck eines zu klein geratenen k macht.

»Weirdos« der e-Klasse: sind b und eventuell u, dessen Glyphe allerdings zusammen mit der a-Glyphe eine Klasse bilden müsste, wenn sie häufiger wäre. Der Eindruck der Glyphe ist der einer Ligatur aus e und n.

»Weirdos« ohne mögliche Zuordnung: sind v und x – in beiden Fällen ist der »normale« Aufbau der Glyphen verlassen worden, die Zeichen scheinen aus einem völlig anderem Zusammenhang in dieses Manuskript geraten zu sein.

Die sieben Harmoniegesetze

Jetzt sind endlich alle Definitionen vorhanden, um die sieben Harmoniegesetze für die Glyphenfolge im Voynich-Manuskript zu postulieren. Verglichen mit den Erläuterungen im Vorfelde sind sie sehr einfach und kurz, die Reihenfolge spiegelt die Wichtigkeit der Gesetze (also den Mangel an Ausnahmen) wider.

Erstes Harmoniegesetz: Die e-Folge – Auf eine Glyphe der e-Klasse folgt eine weitere Glyphe der e-Klasse, eine ch-Ligatur, ein Gallow oder eine a-Glyphe.

Zweites Harmoniegesetz: Die i-Folge – Auf eine i-Glyphe folgt eine weitere Glyphe der i-Klasse oder eine Ligatur der ih-Klasse.

Drittes Harmoniegesetz: Der i-Abschluss – Eine Glyhpe der i-Klasse, die keine i- oder l-Glype ist, beendet in der Regel ein »Wort«.

Viertes Harmoniegesetz: Vermeidung »nackter« Abschlüsse – Ein »Wort« endet niemals mit einer »nackten« i- oder e-Glyphe, sondern immer mit einem komplexeren Zeichen aus diesen Glyphenklassen.

Fünftes Harmoniegesetz: Die l-Ausnahme – Die Glyphe l kann als Glyphe der e-Klasse verwendet werden, obwohl sie an sich eine Glype der i-Klasse ist.

Sechstes Harmoniegesetz: Der i-e-Wechsel – Wenn auf eine Glyphe der i-Klasse eine Ligatur der ih-Klasse folgt, wird das »Wort« mit Glyphen der e-Klasse fortgesetzt.

Siebentes Harmoniegesetz: Die e-Gallow Äquivalenz – Ein Gallow ist fast immer von Glyphen der e-Klasse umgeben oder in eine Ligatur der ih-Klasse eingebettet.

Als leicht verständliche Zusammenfassung dieser Harmoniegesetze, ohne komplizierte Formulierung ausgedrückt, können die folgenden Punkte gelten:

  • Auf i folgt i oder e in der Form ih.
  • Auf e folgt e oder i in der Form a.
  • l ist ein »Jokerzeichen«, das sowohl i als auch e sein kann.
  • Die Gallows gelten als e.

Es sind genau diese sehr einfachen und für einen Großteil des Textes angewandten Regeln, die das Schriftbild des Voynich-Manuskriptes so ästhetisch ansprechend wirken lassen. Jeder Verstoß gegen diese Regeln fällt sofort optisch als ein »unpassendes Zeichen« auf. Wer das nicht glauben kann, besorge sich den Zeichensatz »EVA Hand 1″, installiere ihn und lasse einen beliebigen Text mit diesem Zeichensatz darstellen – vom harmonischen Schriftbild des Voynich-Manuskriptes ist das Ergebnis weit entfernt.

Was hat das zu bedeuten?

Natürlich schreit dieses Ergebnis danach, interpretiert zu werden. Es kann sich auf keinen Fall um einen Zufall handeln, dass konsequent Regeln zum Aufrechterhalten eines harmonischen Schriftbildes angewandt wurden. Es ist sehr schwierig, eine Seite im pflanzenkundlichen Teil zu finden, in der mehr als zwei bis drei »Wörter« eine Ausnahme von diesen Regeln bilden. Die häufigste Ausnahme ist übrigens der Wechsel von i nach o und von o nach i — und ich vermute inzwischen regelmäßig einen Transkriptionsfehler oder eine übersehene »Wortgrenze«, wenn ich letzteres in einer Transkription sehe. Manchmal ist der kleine Strich, der a und o voneinander unterscheidet, fast unsichtbar, und manchmal ist die Erkennung des Zwischenraumes zwischen den »Wörtern« sehr schwierig.

Ich hätte diese sehr häufige Ausnahme durch eine achte Harmonieregel abdecken können. Aber es lag mir viel daran, das Paradigma »auf i folgt i, auf e folgt e und der Wechsel geschieht über a und ih« so deutlich wie nur möglich werden zu lassen. Mit einer Ausnahmenhäufigkeit im Bereich der 2 Prozent kann ich bei diesem Postulat gut leben – wird es doch andererseits so stark bestätigt.

Dennoch, eine »harmonische« Regel für das Schriftbild ist verwunderlich.

Der Schreiber des Voynich-Manuskriptes hat bemerkenswert wenig auf Layout geachtet, er hat in der Regel keine Linien für die »Schrift« vorgezeichnet und so ein recht unregelmäßiges Schriftbild in Kauf genommen. Da nimmt es Wunder, dass diese rigiden »Wortbildungsgesetze« für optische Harmonie im Schriftbild sorgen – das passt einfach nicht gut zusammen.

Dies ist eine leichte Bestätigung für den Verdacht, dass es sich beim vorliegenden Manuskript um eine Abschrift handelt. Die Aussicht, dass der Abschreiber vielleicht ein Manuskript kopierte, das er selbst nicht verstand und dabei gewiss Fehler machte, ist für alle Entzifferungsbemühungen ein Albtraum.

Haben wir es mit einem »Text« zu tun?

Wenn jemand am Voynich-Manuskript forscht und dieses große Rätsel lösen will, so geschieht dies unter der Voraussetzung, dass es einen »sinnvollen Klartext« gibt, der wiederhergestellt und gelesen werden will. Ob man annimmt, es handele sich um eine geistreich ersonnene Verschlüsselung oder eine verloren gegangene Schrift einer unbekannten Sprache, spielt in diesen Bemühungen keine Rolle.

Doch würde bei der Notation oder Verschlüsselung eines sprachlichen Textes ein derartiges, auf optische Harmonie optimiertes Schriftbild entstehen? Mir erscheint das etwas fragwürdig.

Ich will damit nicht sagen, dass im Manuskript keine sinnvolle Botschaft enthalten ist. Ich will nur sagen, dass man den Geist für die Möglichkeit offen halten sollte, dass diese Botschaft nicht unbedingt in der Form eines Textes im gewöhnlichen Sinne des Wortes vorliegen muss – also als Folge von phonetischen Zeichen und Wörtern, die eine Sprache abbilden, so etwas, wie jetzt bei Ihnen gerade im Browser sichtbar ist.

Deshalb meine schnelle Hypothese einer sinnvollen Notation, die kein Text ist – und bei der die harmonischen Regeln sogar ein sinnvolles Feature wären: Das Manuskript könnte eine musikalische Notation einer Form von Musik sein, die nach relativ strengen Regeln komponiert wurde. Eine solche »Botschaft« ist vollkommen sinnvoll, und ihre Niederschrift ist (für Musizierende) sehr nützlich. Nur mit dem »Lesen« wird es natürlich nichts, vielleicht sollte man es einmal mit Singen ausprobieren.

Viele rätselhafte Eigenarten würden auf Grund dieser einfachen Idee erklärlich.

  • Die deutlichen Strukturen, welche die Zeile des Manuskriptes als eine »Bedeutungseinheit« kennzeichnen, könnten die Zeile als eine musikalische »Bedeutungseinheit«, etwa eine Phrase erklären.
  • Die starke Neigung des »Textes« zu Wiederholungen und leichten Abänderungen im nächsten »Wort« sind als musikalisches Stilmittel wirklich nicht ungewöhnlich. Ein kurzes Thema wird mehrfach, eventuell mit leichten Abwandlungen oder in einer anderen Tonhöhe wiederholt — ob im Kinderlied oder in einer komplexen Sinfonie.
  • Die besonderen statistischen Eigenschaften der ersten Zeile eines »Absatzes« oder einer Seite könnten Besonderheiten zum Anfang einer musikalischen Komposition oder eines deutlich abgegrenzten Teiles einer solchen widerspiegeln.
  • Die typischen Endungen der »Wörter« entsprechen bestimmten harmonischen musikalischen Wendungen oder bestimmten, für das Ende einer musikalischen Bedeutungseinheit typischen rhythmischen Mustern.
  • Das hohe Maß an Ordnung, welches den »Text« des Manuskriptes prägt, findet sich in jeder »wohlklingenden« Musik. Ebenso findet sich ein gewisses Maß an Überraschung und Unordnung darin – ansonsten wird die Musik als »langweilig« empfunden.
  • Die beiden »Currier-Sprachen« könnten den heutigen Tongeschlechtern Dur und Moll entsprechen – ich weiß allerdings nicht, ob sich diese zum Erstellungszeitpunkt des Manuskriptes bereits aus den mittelalterlichen Kirchentonarten als wichtige Tonleitern herausgebildet hatten.
  • Das Scheitern aller bisherigen Versuche, den »Klartext« des Manuskriptes unter der Annahme einer sprachlichen Information wiederherzustellen, ist völlig verständlich. Es hat seine Ursache in einer falschen Annahme über die Beschaffenheit des Textes.

Auf Grund dieser Annahme kann die »optische Harmonie der Kursive« mit den hier dargelegten Harmonieregeln eine sinnvolle und vernünftige Eigenschaft sein. Es hätte sich jemand ein musikalisches Notationssystem ausgedacht, welches »wohlklingende« musikalische Stilelemente auch »gut aussehen« lässt. In unserer heutigen Notenschrift ist das gar nicht so sehr anders, krasse Dissonanzen wie der Gleichklang des Intervalles der Sekunde wirken in der Notation auffällig und tonartfremde Noten erfordern zusätzliche Zeichen, die in der Regel schon optisch klar machen, dass hier etwas »ungewöhnliches« erklingt.

Abschließendes

Ich erwarte nicht, dass ein einziger Forscher glücklich über diese etwas plumpe, zurzeit noch mit wenig »harten Daten« belegte Erklärung ist. Zu vieles bleibt dabei unerklärt, etwa die Natur der Illustrationen oder die Labels. Ich selbst werde ein wenig in dieser Richtung weiterforschen – aber ich bin selbst ein »ausgelernter Optimist« und glaube nicht an den großen Durchbruch nach einer einzigen guten Idee.

Fraglich bleibt es vor allem, warum es keinen anderen überlieferten Zeugen für ein derartiges Notationssystem geben sollte. Eine schnelle Erklärung wäre, dass auf diese Weise monophone (einstimmige) Musik notiert wurde – die im späten Mittelalter von der polyphonen (mehrstimmigen) Musik immer mehr abgelöst wurde. Das System verschwand, weil es nicht leicht an die neue »musikalische Mode« anzupassen war – und es begann der Siegeszug des heutigen Notensystemes. Diese geht in seinem Kern übrigens auch auf ein mittelalterliches Vorbild, die »Numensysteme« zurück.

Eines aber sollte jedem klar sein: Nach vielen Jahrzehnten der Forschung, mit vereinter Geisteskraft, großen Enthusiasmus und der verfügbaren Rechenleistung der Jetztzeit ist das Voynich-Manuskript immer noch vollkommen »unverstanden«. Dass es sich nicht um einen mittelalterlichen »Fake« handelt, steht für mich unter Berücksichtung der bekannten Fakten und der sehr fremdartigen Struktur des »Textes« außer Frage. Von daher sollte jeder in aller Ruhe prüfen, ob der Fehler nicht in den grundlegenden Annahmen der bisherigen Forschung liegen könnte. Wir alle wollen aus einer Folge von rätselhaften Glyphen jene Stimme aus dem späten Mittelalter hören, die ein so einzigartiges und rätselhaftes Werk geschaffen hat. Und warum sollte diese Stimme nicht singen?

Thema: Ergebnisse, Interpretation | Kommentare (5) | Autor:

Die verborgenen Strukturen

Montag, 19. November 2007 0:27

Zu den bisherigen Versuchen, Voynich-artige Dokumente ohne Inhalt zu erzeugen, habe ich in diesem Blog mehrfach eine Andeutung über Strukturen im Voynich-Manuskript gemacht, die ich aber bislang nicht mit weiteren Daten belegt habe.

Zwar besteht bei den algorithmschen Reproduktionen bei oberflächlicher Betrachtung eine gewisse Ähnlichkeit zum Voynich-Manuskript, auch werden die typischen Wort-Strukturen des Manuskriptes durchaus überzeugend hervorgebracht, aber die Strukturen innerhalb der Zeilen und innerhalb der Seiten werden niemals reproduziert und wurden von den findigen Forschern gar nicht weiter beachtet. Alle Schlussfolgerungen, die auf einer optisch ähnlichen, aber strukturell unvollständigen mechanischen Reproduktion beruhen, sind fragwürdig – vor allem, wenn lauthals und reißerisch postuliert wird, dass es sich beim gesamten Manuskript um eine inhaltslose Nachricht, um einen Betrugsversuch eines talentierten Fälschers handelt.

Die verborgenen Strukturen sind im Manuskript vorhanden, recht deutlich, durch einfache Analysemethoden aufzudecken und bislang noch nicht mechanisch reproduziert worden. (Auch ich bin übrigens bei einigen einfachen Versuchen, Voynich-ähnliche Texte zu erzeugen, an dieser »Kleinigkeit« gescheitert.) Sie zeigen sich als eine zunächst nicht auffällige, aber statistisch sichtbare Feinstruktur innerhalb der Zeilen, der Absätze und innerhalb der Seiten.

Diese Strukturen sollen hier etwas beleuchtet werden, wobei ich nicht auf alle Einzelheiten eingehen werde. Insbesondere werde ich Strukturen innerhalb der Absätze nicht berücksichtigen.

Das Manuskript ist hoch strukturiert

Schon bei der Betrachtung einer Transkription fällt den meisten Menschen auf, dass die einzelnen Wörter im Manuskript nicht willkürlich gebildet sind. Die Strukturen innerhalb eines Wortes gehören zu den Eigenschaften, die so auffällig sind, dass sie kaum jemand übersieht – diese starken Strukturen innerhalb eines Wortes sind übrigens das deutlichste Argument gegen eine direkte Niederschrift einer heute in Europa gesprochenen Sprache, da keine europäische Sprache vergleichbare Strukturen aufweist.

So weit ich (der ich kein Experte für vergleichende Sprachwissenschaft bin) weiß, passen solche Muster nur auf Sprachen, die angesichts der europäischen Gestaltung der Illustrationen sehr unerwartet sind. Eine phonetische Niederschrift einer Sprache der tibeto-chinesischen Familie würde ähnliche Worteigenschaften hervorbringen, wenn der Ton der jeweiligen Silbe mitnotiert würde.

Im Voynich-Wort hat jede Glyphe ihren festen Platz. Einige Glyphen können nur am Anfang stehen, etwa q oder qo; andere sind typisch für das Ende eines Wortes, etwa iin, iir, dy oder im; wieder andere können an beliebiger Stelle im Wort erscheinen, etwa ch, sh, ee, s, d, p, f, t, k und die charakteristischen Kombinationen aus einem Gallow und ch wie ckh. Diese Regeln werden überlagert von einem zweiten Regelsatz, den ich als »harmonische Regeln« bezeichne; das Aufeinanderfolgen bestimmter Glyphen wird im Manuskript vermieden. Beide Regelsätze sind – um jeden Forscher zu verwirren – nicht völlig ohne Ausnahmen. Gegen die »harmonischen Regeln« verstoßen etwa 10 Prozent der Wörter, gegen die allgemeinen Regeln zum Wortaufbau verstoßen etwa 5 Prozent der Wörter im Manuskript – und diese beiden Gruppen von ungewöhnlich gebildeten Wörtern sind recht regellos im Text verteilt.

Trotz der vielen Ausnahmen: Die Regelmäßigkeit in der Struktur der Wörter ist eine grobe, der Anschauung entgegenkommende Tatsache, die jeder irgendwann bemerkt. Über diese auffällige Wortstruktur wird jedoch die Struktur der Wortverteilung in einer Zeile oft übersehen, obwohl sie sich durch einfachste Analysen offen legen lässt.

Für alle folgenden Analysen habe ich die Transkription von Takeshi Takahashi verwendet. Textuelle Besonderheiten wie Labels und Titel wurden herausgefiltert. Die beiden Perl-Skripten für die Verarbeitung stehen für eigene Experimente zum freien Download zur Verfügung.

Die Verteilung der Wortlängen in einer Zeile

Zunächst findet sich eine recht deutliche Struktur in den Zeilen. Die Wortlängen sind innerhalb einer Zeile nicht gleichmäßig verteilt, tendenziell erscheinen längere Wörter am Anfang der Zeile.

In den folgenden Diagrammen wird für die x-Achse jeweils der Wortindex aufgetragen (also die Information, um das wievielte Wort der Zeile es sich handelt), auf der y-Achse ist die durchschnittliche Länge des Wortes aufgetragen. Diese Analyse wird getrennt für den biologischen, pflanzenkundlichen und abschließenden Teil vorgenommen, sie wird ergänzt um die wenigen reinen Textseiten im Manuskript. Diese Auswahl wurde vorgenommen, weil die anderen Teile des Manuskriptes von ringförmigen Anordnungen des Textes geprägt sind, bei denen es willkürlich ist, bei welchem Wort die Zählung beginnt.

Zunächst die biologischen Seiten:

Wortlängen pro Zeile biologischer Teil

Jetzt die pflanzenkundlichen Seiten:

Wortlängen pro Zeile pflanzenkundliche Seiten

Jetzt die Seiten des abschließenden Teiles, die eine besonders deutliche Verteilung zeigen:

Wortlängen pro Zeile abschließender Teil

Und schließlich noch ein Blick auf die reinen Textseiten:

Wortlängen pro Zeile reine Textseiten

Das Muster in der Verteilung der durchschnittlichen Wortlängen ist recht deutlich, und es kann nicht auf einem Zufall beruhen. In einer Zeile erscheinen zum Anfang tendenziell die längeren (aus mehreren Glyphen bestehenden) Wörter, zum Ende hin nimmt die durchschnittliche Länge eines Wortes ab. Auffällig ist ferner, dass das zweite Wort einer Zeile tendenziell kürzer als das erste und dritte Wort ist, aber diese Erscheinung ist nicht so deutlich, als dass man eine verbindliche Aussage dazu machen möchte.

Wenn das Manuskript einen Inhalt hat, denn muss diese Verteilung der Wortlängen etwas mit der Form zu tun haben, in der dieser Inhalt niedergeschrieben wurde. Die Zeile im Voynich-Manuskript ist deutlich und nachweisbar strukturiert, die Wörter nehmen darin keine willkürliche Position ein. Jede Zeile ist als eine Informationseinheit zu betrachten. Jede Annäherung an den Inhalt des Manuskriptes muss diese Erscheinung in irgendeiner Weise erklären oder reproduzieren können, und diese Erklärung sind bisherige, dem Augenschein verhaftete »Lösungen« völlig schuldig geblieben.

So wenig einem die zählende Einsicht beim Verständnis weiterhilft, so sehr hilft sie doch dabei, vorschnelle Schlüsse einiger Autoren zu verwerfen. Eine direkte sprachliche Niederschrift menschlicher Sprache würde solche Strukturen in einem Fließtext nicht aufweisen, aber es ist sehr wohl möglich, dass solche Strukturen in lyrischen Texten aufscheinen. Wer eine Fälschung des Manuskriptes postuliert und hierzu ein Verfahren entwickelt, dass vergleichbare Texte erzeugt, muss sich auch Gedanken um die Strukturen in der Zeile machen.

Die Strukturen innerhalb einer Seite

Es gibt aber auch Strukturen innerhalb der Manuskript-Seite, die nicht ganz so deutlich sind, aber doch in eingen Teilen deutlich genug, um nicht durch einen Zufall erklärt werden zu können. Bei dieser Untersuchung werden Unterschiede zwischen den einzelnen Teilen des Manuskriptes auch am Text deutlich. Ich werde hier nur eine Struktur innerhalb der Seiten herausgreifen, weil sie sehr unerwartet ist.

Die auffälligsten Zeichen im Manuskript sind die so genannten »Gallows«, dies sind die großen, geschwungenen Glyphen f, p, t und k. Diese Glyphen geben einige Rätsel auf, da sie seltsame Ligaturen mit der ch-Glyphe bilden können, obwohl die Existenz einer solchen Ligatur bei der relativen Seltenheit dieser Zeichenfolgen überrascht. In den folgenden Diagrammen ist auf der x-Achse die laufende Zeilennummer auf der Seite aufgetragen, auf der y-Achse ist die durchschnittliche Anzahl der Gallows in diesen Zeilen aufgetragen. Diese Analysen sind für kleinere Zeilennummern aussagekräftiger, da dort mehr Text eingeflossen ist. Es kommt deshalb bei den hohen Zeilennummern zu deutlichen Fluktuationen.

Zunächst einmal die reinen Textseiten:

Gallows pro Textzeile reine Textseiten

Recht ähnlich sieht dieses Diagramm für die Seiten des abschließenden Teiles aus:

Gallows pro Zeile abschließender Teil

Bei alleiniger Betrachtung dieser Diagramme scheint es nicht den geringsten Zusammenhang zwischen der Häufigkeit der Gallows und der Position auf der Seite zu geben. Es scheint sich um mehr oder minder starke Schwankungen um einen Mittelwert zu handeln. Dieser Mittelwert liegt bei den reinen Textseiten bei 6 Gallows pro Zeile, bei den Seiten des abschließenden Teiles bei 6,6 Gallows pro Zeile. Die vergleichsweise starken Schwankungen der Verteilung für die reinen Textseiten erklären sich aus der Tatsache, dass es nur fünf reine Textseiten gibt, nämlich f1r, f58r, f58v, f66r, f85r1 – der abschließende Teil verfügt hingegen über 23 Seiten, so dass sich lokale Fluktuationen besser herausmitteln können.

Es gibt aber auch noch andere Teile im Manuskript, und da sehen die Diagramme völlig anders aus. Im biologischen Teil ergibt sich die folgende Verteilung:

Gallows pro Seite für den biologischen Teil

Hier zeigt sich schon eine sehr andersartige Verteilung, es gibt einen deutlichen Abwärtstrend in der durchschnittlichen Anzahl der Gallows für den unteren Teil des Dokumentes. Diese Struktur in der Verteilung der Gallows zeigt sich noch etwas deutlicher im pflanzenkundlichen Teil:

Gallows pro Zeile pflanzenkundlicher Teil

Es liegt also ein Zusammenhang zwischen dem mutmaßlichen, an Hand der Illustrationen naheliegenden Inhalt einer Seite und der Verteilung bestimmter Zeichengruppen auf der Seite vor. Dieser Zusammenhang ist nicht offensichtlich, er tritt unerwartet und überraschend bei einer Zählung in Erscheinung. Er ermöglicht es prinzipiell, die Art der Seiten nicht nur an Hand der Illustrationen, sondern auch an Hand einer Struktur des Textes auf dieser Seite zu erkennen. Es handelt sich vielleicht sogar um einen inhaltlichen Zusammenhang, dessen Bedeutung allerdings (mir noch) unklar ist.

Die ungleichmäßige Verteilung bestimmter Glyphen innerhalb des Kontextes einer Seite ist in jedem Fall schwer zu verstehen. Wenn man das Voynich-Manuskript als direkt niedergeschriebene Sprache deutet, würde eine solche Erscheinung bedeuten, dass bestimmte Laute oder Lautfolgen am Anfang eines Textes häufiger erscheinen als zum Ende hin; eine solche Erscheinung wäre eine sehr ungewöhliche lyrische Kunstform. (Gibt es Sprachen, in deren Lyrik so etwas üblich ist?) In jedem Fall zeigt sich durch einfaches Zählen der Gallows bei den biologischen Seiten schwach und recht deutlich bei den pflanzenkundlichen Seiten des Manuskriptes, dass dort jede Seite eine strukturierte Informationseinheit ist.

Abschließendes

Schon relativ einfache Analysen zeigen, dass das gesamte Voynich-Manuskript auf jeder denkbaren Betrachtungsebene (Zeichen, Zeilen, Seiten) hoch strukturiert ist. Die bisherigen Versuche, algorithmisch einen Voynich-ähnlichen Text zu erzeugen, haben nur Teile dieser Struktur reproduzieren können – leider wurden daraus weit reichende Schlüsse gezogen und publiziert.

Jede Erklärung für das Voynich-Manuskript muss die Gesamtheit der auftretenden Strukturen erklären. Es kann durchaus sein, dass dieses Manuskript keine »Nachricht« im herkömmlichen Sinne des Wortes enthält, aber wer das belegen will, indem er einen inhaltsleeren Text mechanisch konstruiert, der muss sehen, dass es mit der bloßen Erzeugung ähnlicher Glyphenfolgen nicht getan ist. Es müssen auch die leicht sichtbar zu machenden Strukturen innerhalb der Zeile und die teilweise auftretenden Strukturen innerhalb der Seite eines bestimmten Abschnittes reproduziert werden – und es muss eine vernünftige Erklärung gefunden werden, warum diese Strukturen in einem Kontext entstanden sind, im anderen hingegen nicht. Diese Aufgabe ist sehr viel schwieriger, als die von Gordon Rugg und seinen Nachahmern erstellten Demonstrationen für die Erzeugung Voynich-artiger Textfragmente, leider wird von solchen Autoren denn auch über diesen Problemkreis geschwiegen.

Wir versuchen jedenfalls weiter, die Botschaft zu lesen…

Thema: Ergebnisse, Hacking | Kommentare (4) | Autor:

f2r: Eine Pflanze namens kydainy

Donnerstag, 8. November 2007 0:19

Miniaturdarstellung der Seite f2rZugegeben, dieser »Pflanzenname« auf der Seite f2r ist in gewisser Weise ein Witz, aber keiner der billigen und schlechten Sorte. Es weiß zwar niemand, wie die »Pflanzen« des Voynich-Manuskriptes heißen, aber Jorge Stolfi hat vor ungefähr zehn Jahren eine ausgesprochen interessante Entdeckung an den »Texten« des »pflanzenkundlichen Teils« gemacht.

Bei seiner Entdeckung aus dem Jahr 1998 ging Jorge Stolfi von der offenbaren Tatsache aus, dass jede dieser Seiten genau eine »Pflanze« darstellt. Wenn es einen inhaltlichen Zusammenhang zwischen dem »Text« und den Darstellungen einer solchen Seite gibt, denn könnte es ja durchaus möglich sein, dass der Name dieser »Pflanze« im Text auftaucht. Diese Annahme setzt allerdings voraus, dass es sich nicht um einen stark verschlüsselten Text, sondern um eine mehr oder minder direkte Notation natürlicher Sprache handelt. Aber die Annahme lässt sich leicht mit Hilfe eines Computers überprüfen, wenn man eine Transkription vorliegen hat – es reicht aus, nach »Wörtern« zu suchen, die einmalig nur auf diesen Seiten erscheinen.

Ganz so einfach ist es allerdings doch nicht. Viele Voynich-Glyphen sehen sich sehr ähnlich, das Transkribieren ist eine fehlerträchtige Tätigkeit und alle Transkriptionen sind umstritten. Deshalb wurde die Untersuchung nicht an einer rohen EVA-Transkription vorgenommen, vielmehr wurde der Text der Transkription so bearbeitet, dass ähnliche Glyphen so in identischen lateinischen Buchstaben zusammengefasst werden, dass häufige Transkriptionsfehler keine Rolle für das Ergebnis spielen. Darüber hinaus sind die Leerzeichen unsicher in der Deutung und die q-Glyphe wird wegen ihres regelmäßigen Auftretens am Wortanfang für eine »grammatikalische« Erscheinung gehalten. Die vorgenommene Transformation sieht im Einzelnen so aus:

  1. Lösche jedes q am Beginn eines Wortes
  2. Ersetze jedes t durch ein k
  3. Ersetze jedes f durch ein p
  4. Ersetze jedes y am Wortanfang durch ein o
  5. Ersetze jedes a oder o am Wortende durch ein y
  6. Ersetze jedes ee durch ein ch
  7. Ignoriere alle Leerzeichen für die Analyse

Es ist klar, dass durch diese Transformation Information aus dem »Text« zerstört wurde. Da im Manuskript viele ähnliche Wörter auftreten, wäre ein eindeutiges Ergebnis trotz dieser Transformation schon ein recht sicheres Indiz.

Jorge Stolfi kam zu einem recht eindeutigen Ergebnis (die Übel-Setzung ins Deutsche ist von mir):

Es hat sich herausgestellt, dass das erste Wort jeder Seite beinahe immer seiten-spezifisch ist. Ich betrachte diese Tatsache als ein Zeichen dafür, dass wir es als Regel betrachten können, dass das erste Wort der Seite der Name der Pflanze ist. Darüber hinaus scheinen die meisten Abweichungen von dieser Regel darin bedingt zu sein, dass ein Wort durch ein fragliches Leerzeichen umbrochen wurde. In diesen Fällen können wir gewöhnlich ein seiten-spezifisches Wort erhalten, wenn wir die ersten zwei oder drei Wörter der Seite zusammenfügen.

Kydainy - der Name der Pflanze?So auch das Wort kydainy, dieses völlig »unverdächtig« aussehende erste Wort der Seite f2r. Die beschriebene Transformation verwandelt dieses »Wort« in »kydaino«, und dieses Muster kommt im gesamten pflanzenkundlichen Teil des Voynich-Manuskriptes nicht noch einmal vor – trotz einer Transformation, die ähnlich gebaute »Wörter« aufgefunden hätte. Das ist – alles in allem – ein eher unerwartetes und verwirrendes Ergebnis einer recht einfachen Untersuchung, das die These stützt, dass es sich beim »Text« des Manuskriptes um eine direkt notierte Sprache handeln könnte.

Kydain, das erste Wort des zweiten Absatzes dieser Seite. Ist das nur eine grammatikalische Erscheinung?Interessanterweise enthält die Seite f2r zwei Absätze, und der zweite Absatz beginnt mit der sehr ähnlichen Glyphenfolge kydain – da fehlt nur die y-Endung. Auch dieses »Wort« ist im gesamten Manuskript eindeutig, so dass der Verdacht sehr nahe liegt, dass gewisse Endungen eine »grammatikalische« Erscheinung sind. Aber das ist ein völlig anderes Thema, das hier einmal ausführlich gewürdigt werden wird.

Die Blüte der Pflanze erinnert entfernt an eine KornblumeDass man einen mutmaßlichen Namen der Pflanze angeben kann, hilft leider nicht beim Lesen des Manuskriptes. Denn diese »Pflanze« ist nicht identifizierbar. Dies gilt für alle Pflanzen der Manuskriptes, so dass die von Jorge Stolfi gefundene Eigenschaft nicht beim Lesen des Textes hilfreich ist.

Die Blüte dieser Pflanze erinnert recht deutlich an eine Kornblume (centaurea cyanus), wenn auch die typische blaue Farbe fehlt. Dies führte Petersen dazu, diese Seite informell als »Cornflower« zu bezeichnen. Leider ist die Blattform völlig falsch, und die rötlichen Strukturen auf dem Stängel widersetzen sich ebenfalls der Deutung der Pflanze als Kornblume.

Die Wurzel dieser PflanzeSehr eigentümlich ist die gezeichnete Form der Wurzel.

Sie sieht – wenn man sie isoliert betrachtet – gar nicht wie eine Wurzel aus, sondern macht den Eindruck, als wenn sie ebenfalls aus Schriftzeichen bestände. Diese »Wurzelschrift« ist allerdings ebenfalls unlesbar, so dass hier unklar bleibt, ob man einem Wahrnehmungsfehler aufgesessen ist oder ob man eine wirkliche Eigenschaft der Illustration sieht. Vielleicht sollte ich es einmal mit einer Zubereitung wirklicher Kornblumen probieren, diese dient unter anderem zur Behandlung der Augen durch Waschungen…

Da viele Pflanzen nichts mit Produkten der irdischen Evolution zu tun haben, lohnt es sich, immer einen offenen Geist für andere Deutungen gewisser enigmatische Elemente in diesen Pflanzen zu haben. Wenn man dabei nur nicht so leicht in haltlose Spekulationen käme… 😉

Thema: Ergebnisse, Seiten | Kommentare (2) | Autor:

Wortdubletten

Mittwoch, 3. August 2005 16:21

Wer sich mit den »Wortfolgen« im Voynich-Manuskript beschäftigt, macht schnell eine seltsame Feststellung, die nicht zu einer Sprache oder zu einem verschlüsselten Text passen will. Und zwar ist dies die Neigung der »Wortfolgen« zu identisch aufeinanderfolgenden »Wörtern«. Diese scheinen sehr häufig aufzutreten.

Nun könnte es sein, dass uns hier unsere Wahrnehmung einen Streich spielt. Das wäre gar nicht ungewöhnlich. Wenn sich die menschliche Wahrnehmung auf regellose Strukturen konzentriert, dann beginnt sie damit, in diesen Strukturen Muster zu erkennen, auch wenn keine vorhanden sind. Ein vertrautes Beispiel für diese Eigenart des Wahrnehmens sind die Sternbilder, die Menschen in der recht regellosen Anordnung der Fixsterne zu erkennen glauben.

Es lohnt sich also, die Wortdubletten mit einem Programm zu untersuchen. Dafür habe ich zunächst meine Skripten für die wortweise Analyse geschrieben. Die folgende Untersuchung ist recht einfach, sie liefert aber klaren Aufschluss darüber, dass die Wortdubletten eine wirkliche Eigenschaft der Wortfolge und kein Artefakt der menschlichen Wahrnehmung sind.

Für meine Untersuchung bediente ich mich Takahashi’s Transkription, weil diese vollständig ist. Mit dem Befehl viat -tH -C > h.txt erzeugte ich eine Datei namens h.txt, die frei von Kommentaren ist. Danach erzeugte ich mit dem Befehl wsplit h.txt > hw.txt eine Zerlegung der Transkription in Einzelwörter in der Datei hw.txt. Die Lokatoren wurden in dieser Datei belassen, damit Dubletten über Zeilengrenzen hinweg nicht gezählt würden. (Der Lokator beginnt gewissermaßen jede Zeile mit einem im gesamten Manuskript einmaligen »Wort«, welches für diese Anwendung die Zeilen voneinander trennt.)

Nun konnten die Dubletten einfach mit wdup hw.txt | wc -l gezählt werden. Dabei ergeben sich genau 300 Dubletten in der Transkription, also im Schnitt deutlich mehr als eine Dublette pro Seite.

Um diese Zählung mit einer zufälligen Verteilung der Wörter zu vergleichen, mischte ich die Wortfolge mit meinem shuffle-Skript und bestimmte die Dubletten in der so gemischten Wortfolge. Da dies ein Monte-Carlo-Ansatz ist, wiederholte ich den Befehl shuffle hw.txt | wdup | wc -l zehn Mal, indem ich ihn in einer Schleife absetzte. Und das ist mein Ergebnis:

$ for i in `seq 10`
> do
>   shuffle hw.txt | wdup | wc -l
> done
94
102
89
88
95
97
105
102
110
119

Da es sich hier um ein Experiment unter Verwendung eines Zufallsgenerators handelt, können die bei Ihnen ermittelten Dublettenanzahlen der zufälligen Wortfolge natürlich von meinen Ergebnissen abweichen. Dennoch ist deutlich, dass der Durchschnittswert von ungefähr 100 Dubletten bei zufälliger Verteilung der gleichen Wortmenge signifikant unterhalb der gezählten 300 Dubletten in der originalen Transkription liegt. Die große Häufigkeit von Wortdubletten ist somit kein Artefakt unserer Wahrnehmung, sondern eine wirkliche Eigenschaft des Manuskriptes, deren Bedeutung bei einem Entzifferungsversuch geklärt werden muss.

Neben den Wortdubletten gibt es ebenfalls sehr häufig Anhäufungen aufeinander folgender ähnlicher Worte, die sich in nur einer Glyphe voneinander unterscheiden. So findet sich schon auf der ersten Seite die beachtliche »Wortfolge« chor shey kol chol chol kor chal, und auf Seite f75r kann man die beachtliche »Wortfolge« qokeedy qokeedy qokedy qokedy qokeedy finden.

Angesichts dieser Eigenschaften des »Textes« erscheint es mir sehr unwahrscheinlich, dass es sich bei der »Wortfolge« um eine nur einfach verschlüsselte Form einer Mitteilung in einer mitteleuropäischen Sprache handelt.

Thema: Ergebnisse | Kommentare (3) | Autor: