Beitrags-Archiv für die Kategory 'Hacking'

Das McCrone-Gutachten ist online

Donnerstag, 2. Juni 2011 2:47

Die chemische Analyse der im Voynich-Manuskripte verwendeten Tinte(n) durch das McCrone-Institut (im Auftrag des ORF für die Dokumentation, die 2009 gesendet wurde) ist jetzt veröffentlicht – und wenn nicht Nick Pelling in seinem Blog darauf hingewiesen hätte, denn hätte ich es gar nicht mitbekommen. Das achtseitige Dokument steht auf der Voynich-Seite der Beinecke-Bibliothek als PDF für interessierte Leser zur Verfügung. Leider hat die Beinecke-Bibliothek eine reine Textversion veröffentlicht, und die im Text erwähnten Abbildungen – unter anderem eine aus meiner Sicht hochinteressante Ultraviolett-Aufnahme der Seite f1r, die auch einige bislang ungesehene Features offenbart hat – sind nicht Bestandteil der Veröffentlichung. Das ist schade und ich hoffe sehr, dass diese Bestandteile der Analyse demnächst nachgereicht werden.

Zum Glück ist Englisch viel leichter zu lesen als der Text des »verdammten Manuskriptes«, aber für jene, die nur eine kurze Zusammenfassung ohne die »blutigen Details« haben möchten, seien hier sehr kurz einige Punkte aufgeführt:

Tinte – Für den Text und den Umriss der Illustrationen wurde mit allergrößter Wahrscheinlichkeit die gleiche Tinte verwendet.

Seitennummerierung – Wer sich schon etwas eingehender mit den hochauflösenden Bildern des Manuskriptes beschäftigt hat, wird nicht überrascht sein, dass bei der Nummerierung der Seiten eine andere Tinte verwendet wurde.

Die Nummerierung der Buchbündel, die schließlich zum Codex gebunden wurden, ist in einer dritten Tinte ausgeführt.

Das lateinische Alphabet auf Seite f1r wurde mit einer vierten Tinte geschrieben.

Darüber hinaus wurde auch die Zusammensetzung der Farben untersucht.

Kurze Interpretation

Ich bin nicht besonders überrascht. Dass die Nummerierung der Seiten mit einer anderen Tinte als der »Text« des Manuskriptes geschrieben wurde, zeigte sich bereits in der deutlich anderen Farbe – für mich sah die Seitennummerierung immer nach einer späteren Hinzufügung aus. Für diese Annahme gibt es jetzt auch ein hartes Indiz. Das bedeutet unter anderem, dass die heute vorliegende Reihenfolge der Seiten nicht unbedingt den Absichten des Autors oder der Autoren entsprechen muss. Schlussfolgerungen aus der Reihenfolge der Seite stehen also auf schwachen Füßen.

Die Beobachtung von J. B. Hurych, dass die Form der Ziffern Ähnlichkeiten zur Handschrift der Glyphen im »Text« des Manuskriptes aufweist, scheint auf diesem Hintergrund nicht mehr ein so sicheres Indiz dafür zu sein, dass diese Nummerierung vom Autor vorgenommen wurde. Allerdings spricht nichts dagegen, dass sie dennoch viele Jahre später vom Autor hinzugefügt wurde, vielleicht auch, weil das Buch gebunden oder neu gebunden werden sollte.

Dass die einzelnen Buchbündel von den Buchbindern nummeriert wurden, überrascht nicht. Es handelt sich um eine eher »technische« Angabe. Und das stark verblichene, ausradierte lateinische Alphabet auf der ersten Seite machte schon immer den starken Eindruck, ein Überbleibsel eines früheren Entzifferungsversuchs zu sein und nicht vom Autor zu stammen. Dies deckt sich auch mit den Schlüssen Jorge Stolfis aus dem Jahr 1999 (hui, 5 Uhr morgens, das klingt nach einer langen Nacht).

Also alles in allem nichts Neues…

Gestützt wird von dieser Analyse, dass das Voynich-Manuskript eine »Geschichte« hat, was der Annahme einer modernen Fälschung (etwa durch Wilfrid Voynich auf der Grundlage alten Pergamentes) widerspricht. Dies war jedoch auch vorher (den meisten Untersuchern) klar.

Thema: Ergebnisse, Sonstiges im Netz | Kommentare (5) | Autor:

Glyphenhäufigkeit pro Seite

Samstag, 7. Mai 2011 22:51

In einer Mail wurde ich mit einer sehr einfachen Frage konfrontiert: Wie sieht es mit einer Betrachtung der Glyphenhäufigkeit für die einzelnen Seiten des Manuskriptes aus?

Es sind manchmal die einfachen Fragen, die sich zwar relativ leicht beantworten lassen, an die ich selbst aber noch nie gedacht habe. Das habe ich für alle Freunde der nummerischen Auswertung gern nachgeholt. Die Ergebnisse dieser Auswertung und das dafür verwendete Skript stelle ich hier zum freien Download zur Verfügung, damit sich niemand noch einmal diese Mühe machen muss.

Das ZIP-Archiv enthält zwei Dateien.

  1. gcount.pl ist das Perl-Skript, mit dem ich die Ergebnisse erhalten habe, und
  2. gcount.txt ist das Ergebnis der Zählung für die vollständige Transkription von Takeshi Takahashi in der von Jorge Stolfi normalisierten Form
  3. .

Das Ergebnis ist eine einfache Textdatei. Die Zeilenenden sind nach Unix-Konvention markiert. Jede Zeile enthält drei durch Tabulatorzeichen getrennte Felder, nämlich

  1. die F-Nummer der Seite,
  2. die gezählte Glyphe und
  3. die Häufigkeit dieser Glyphe auf der Seite.

Leerzeichen erscheinen als Punkte, und unlesbare Glyphen sowie Weirdos als Asterisk. Die Auswertungen für die einzelnen Seiten sind nach Häufigkeit der Glyphen absteigend sortiert. Am Ende erscheint eine Seitenbezeichnung »total«, welche die Häufigkeiten für das gesamte Manuskript wiedergibt.

Das Skript sollte sich problemlos auf andere Transkriptionen anwenden lassen, so lange sie aus einem Lokator in spitzen Klammern bestehen, der die mit einem Punkt beendete F-Nummer enthält und von einer beliebigen Menge Leerzeichen (auch Null) vom Text getrennt ist; es entfernt allerdings keine in die Zeile eingebetteten Kommentare in geschweiften Klammern. Das Skript kann aus der Standardeingabe lesen, es ist aber auch möglich, beliebig viele Dateinamen als Parameter zu übergeben. Die Ausgabe sollte sich in jede Tabellenkalkulation importieren lassen und leicht weiterzuverarbeiten sein.

Thema: Hacking | Kommentare (2) | Autor:

Sprechbares Voynichianisch

Sonntag, 30. August 2009 23:09

bastsehung antheenig ar afenen schoig schorung föstries an thennor schollich sennorung theöstar or an thennachel stefenen schar ari föstar föstar gennan seyachen schithenung or antheenen schokeit föstarung föstes gennarenen senna […]

Unbekannter Autor, etwas dadaistisch transkribiert

Heute einmal etwas Voynich-Dada…

Da ich immer wieder einmal mit Anfragen zu tun habe, ob die beiden Curriersprachen denn wirklich so ein klarer und bedeutsamer Fakt sind oder ob es sich dabei eher um eine »Kleinigkeit« handelt, habe ich mir einmal die Mühe gemacht, die Transkription von Takeshi Takahashi mit einem kleinen Skript zu bearbeiten. Das Ziel der Bearbeitung war es, dass dabei ein (zumindest für mich) leicht sprechbarer Text herauskommt, ohne dass in diesem Zuge dem transkribierten »Text« allzuviel Gewalt angetan wird. Die dabei angewendeten Regeln erzeugen vor allem solche Konsonantengruppen und Diphtonge, die einem Sprecher der Deutschen Sprache entgegenkommen.

Das Ergebnis steht zum freien Download zur Verfügung. Es handelt sich um drei Dateien in einem ZIP-Archiv:

  1. a.txt – Seiten in Currier-Sprache A
  2. b.txt – Seiten in Currier-Sprache B
  3. x.txt – Seiten ohne zugeordnete Currier-Sprache

Natürlich ist eine solche Bearbeitung keine ernstgemeinte Analyse oder gar ein Beitrag zum Verständnis des »Textes«, und natürlich sind alle meine Regeln willkürlich. Dennoch kann das Ergebnis von Wert sein, denn es macht den Text sprechbar und damit auch für jene intuitiv fühlbar, denen die Ergebnisse eher nüchterner Forschung sonst verschlossen bleiben.

Insbesodere wird schnell deutlich, wie sehr die Glyphenfolge an eine natürliche Sprache erinnern kann, wie es sich etwa in der (hier eher willkürlich ausgewählten) Seite f8v in Currier-Sprache A zeigt, wenn man den folgenden Text einmal laut liest:

föstokeit sennooföst sennoig schoig ofoig stig opfestenen opfeydenen seenen
schföstig sennar stor schienen schor stythestung ofenen föcung
und-lich stenig senung storung star schoig sten schenen gennolar
geschoig schoig gennoig stan föstar schialung genen starung
stig stig gennar ofestar ifenen föstig gennar
genen föstan anfestung stung theenen genel ar
scho thestig gennar schinung föstar stofenel rung
othestig thesch stig stig stig fösten genel
schoig orstig stothestung stig föstor sten
sestarstung oenusolich thestung pfestung pfepstaroneit
sennorenel
pfestar sto roig genig schiar stuhfenen stig genen
thestor ofestar othenung stotheenel theiothenung oforstung sennafar
schor othennoig mennotheenen schoig thennoig star föstung festung theöstaneit
or stig stun stetheöcung stor stenel star stuthenung stor rung
stor star star ofenuung gestor stodinung sto renen
genel star genen

So wird schnell klar, warum in der Vergangenheit (und von vielen auch heute noch) dermaßen viel Energie darauf verwendet wird, die »Sprache« des Voynich-Manuskriptes zu identifizieren. Es ist nicht nur so, dass das Schriftbild des Manuskriptes wie eine flüssig geschriebene, natürliche Kursivschrift der beginnenden Neuzeit aussieht, auch hat das Ergebnis dieser Niederschrift viel Ähnlichkeit zu einer Sprache. Es ist zum Beispiel möglich, die Glyphen in eine »vokalische« und »konsonantische« Gruppe zu teilen, um den größten Teil des »Textes« aussprechbar zu machen. Auch wird erkennbar, wie unterschiedliche »Endungen« an den »Wörtern« vorkommen und den Eindruck einer Grammatik im üblichen Sinne dieses Wortes erwecken.

Aber ebenso wird auch klar, dass etwas an diesem »Text« nicht stimmen kann. Auffällig ist die große Neigung zu Wiederholungen. Das stig stig stig ist in EVA ein dreifach aufeinanderfolgendes chol.

cholcholchol.jpg

Auch die Tendenz, dass ähnlich gebildete »Wörter« aufeinanderfolgen, wird deutlich, dieses stor star star lautet in EVA chor chear chear.

chear.jpg

Was hier als föstung festung klingt, unterscheidet sich vor allem durch die Stellung des Gallows in Zusammenhang mit der ch-Glyphe, es lautet in EVA cthey tchy.

chtey.jpg

Nun stellen wir diesen Text einmal einem Beispiel in Currier-Sprache B gegenüber, es hadnelt sich im Folgenden um die Seite f81r.

pfeplstung und-theilich schoig opfestilich olpfestilich obeschlich olung
gestung meschig olstikeit und-thennoig stig ofar stilich othenung
und-finung mestuhs oltheenig oig stilich othennar schilich
gestilich und-theenel oig oig steföstung antheenulich enig
und-ig stoig otheenuung oig oig oig enen oig orenel
sennar oig isies ofenuung schor und-theenuung oig
geschenuhs otheenel steföstung ofinung otheenel
pfestilich und-theenuung ofang und-finung ofenuung olung
und-fenusung und-filich und-theenulich stepföstung
stig genel ofilich stuung und-fenel menung
olschioig oltheilich schithekstilich olfilich
anstilich filich oig schenulich und-theenuung mennolung
gestig schilich und-filich und-ig stilich stifang rung
und-thekstilich und-ig schenulich orenel aroig oäulich
seenel oig stulich und-theenulich ofilich
pfolstlich und-pfestig und-thennor olpfestilich opfoig oronnalung
anstiföstung otheenulich schinung und-theilich oig ostidar
oschenulich schilich oig schilich otheenulich orar
und-theilich schenulich stilich und-fenulich olaneit
und-pfestilich und-ig stilich und-theenuung odenen renel gennalung
geschilich und-theenig oltheenuung ofenuung olschinung ofinung mennoig
und-fenig stilich und-ig oig genen oig stidar oig olung
stung otheenel schitheöstung sennoen stung mestung
pfarolich schipföstung stoig und-fenig gennar ofilich olung
sennar schilich und-ig ofenel otheenul otheenig stilich lich
pfestilich und-theinung ofioig und-ig schior schilich oder-föstdsehung
seenig stilich und-theilich oltheilich gennoig und-thestilich
und-theislich stilich und-thennar stung fenen ofinung mestig
an schenulich schung stung mesteföstung anfar oltheenen oig
me schilich und-theilich sennor olthennar oltheenen oltheschlich
sennoig schilich oig mestilich schilich schung oltheilich stes ar or orenem

Die hier so häufige Endung -lich entspricht in EVA dy, eine geradezu typische »Wortendung« in Currier B. Und das oig ist ein EVA-ol, das im biologischen Teil (daraus stammt der Text) eines der häufigsten »Wörter« ist.

Wenn man diesen »Text« laut liest, wird schnell klar, dass die Ähnlichkeit der unverständlichen Glyphen sehr trügerisch ist. Es klingt anders, und beim Lesen »fühlt es sich anders an«. Wenn es sich wirklich um Sprache handelte, denn wäre es mit Sicherheit eine andere Sprache. Das ist nicht nur eine kleine und eher bedeutungslose Verschiebung in der Statistik, sondern ein wirklicher Unterschied.

Dieser Unterschied geht übrigens einher mit vielen Ähnlichkeiten zwischen den beiden Currier-Sprachen.

Was dieser Unterschied wohl bedeuten mag? Das weiß zurzeit noch niemand. Dass wir so wenig wissen, liegt nicht etwa daran, dass es einen Mangel an Spekulationen gäbe; es liegt vielmehr daran, dass zu häufig die nur wenigen, gesicherten Fakten über das »verdammte Manuskript« bei Lösungsversuchen und Analysen ignoriert werden – selbst ich tendiere manchmal dazu.

Wer jetzt angesichts der sprechbaren Bearbeitung einer Transkription versucht, das Manuskript als direkt niedergeschriebene Sprache zu verstehen, ignoriert übrigens auch viele gesicherte Fakten – es muss angesichts der Strukturen in den Zeilen angenommen werden, dass mindestens die Zeilenenden mit etwas anderem aufgefüllt wurden, von den strikten Gesetzen der Wortbildung und der großen Häufigkeit von Wiederholungen ähnlicher oder gar gleicher »Wörter« direkt nacheinander einmal abgesehen…

Thema: Hacking | Kommentare (0) | Autor:

Strukturen innerhalb einer Zeile

Donnerstag, 21. Mai 2009 4:18

Die Annahme, dass es sich beim Voynich-Manuskript um eine direkt notierte Sprache in einem lediglich unverständlichen Notationssystem handele, wird durch viele belegte Eigenschaften der Glyphenfolge gestützt. Zusammen mit dem fließenden Text entsteht so der Eindruck von ohne Benutzung von Hilfsmitteln niedergeschriebenen Notizen, die nur relativ schwach verschlüsselt sind. Es gibt jedoch im Manuskripte Eigenschaften, die diesem Eindruck widersprechen. Schon mit relativ einfachen Untersuchungen lassen sich Strukturen innerhalb der Textzeilen des Manuskriptes aufzeigen, die in natürlicher, weitgehend phonetisch notierter Sprache nicht auftreten sollten und sehr rätselhaft sind. Die nähere Untersuchung dieser Eigenschaften verspricht einen Ansatz zum Verständnis des Verfahrens, das für die Verschlüsselung des Voynich-Manuskriptes Verwendung fand.

Viele Forscher gehen davon aus, dass es sich beim Voynich-Manuskript um eine direkt niedergeschriebene Sprache handele. Diese Annahme wird gestützt vom Augenschein und von einigen statistischen Eigenschaften der Zeichenfolge, die eine große Ähnlichkeit zu gewöhnlichen sprachlichen Strukturen nahelegen.

Geht man von dieser Annahme aus, so stellt sich beim »Lesen« des Manuskriptes in erster Linie das Problem, eine phonetische Zuordnung der Glyphen zu finden, welche diese Sprache wieder erklingen lässt, um daraus die Sprache zu identifizieren und nach Möglichkeit zu verstehen. Da ein solches Vorgehen bislang für eine Vielzahl von Sprachen gescheitert ist, kommt es immer wieder zu weit hergeholten Hypothesen, deren bekannteste wohl ist, dass es sich um eine phonetisch notierte fernöstliche Sprache handeln könne. Die Tatsache, dass die Illustrationen des Manuskriptes offensichtlich europäisch sind, dass sie keinerlei Ähnlichkeit mit fernöstlichen Symboliken aufweisen, kann solches Spekulieren leider nicht bremsen.

Diese Spekulationen führen allerdings zu nichts, sie sind nur mit dürftigen Indizien belegt und aufgrund der wegen des ideographischen Schriftsystemes nur rudimentär bekannten, historischen chinesischen Phonetik auch kaum falsifizierbar. Man könnte eben so »gut« annehmen, dass hier eine UFO-Besatzung ein Buch geschrieben und auf der Erde zurückgelassen habe, und man kann damit ebenfalls alles »erklären« ? wenn eine Hypothese jedoch alles »erklären« kann, denn erklärt sie nichts. Dass sich die »fernöstliche Annahme« dennoch so lange halten konnte und bis heute eine gewisse Aufmerksamkeit in Kreisen der »Voynichologen« genießt, ist vor allem ein Zeichen der Hilflosigkeit gegenüber dem »verdammten Manuskript« und dem Mangel an jeglichem Fortschritt im Bestreben, seine Nachricht zu lesen.

Eine wenig beachtete Tatsache, die nach meiner Auffassung der Annahme einer direkt niedergeschriebenen Sprache widerspricht, sind die Strukturen innerhalb der Zeilen des Manuskriptes. Die Länge und Struktur eines »Wortes« verändert sich mit fortschreitender Position des »Wortes« innerhalb der Zeile; das »Wort« wird tendenziell um so kürzer und ärmer an Gallows, je weiter es am Ende der Zeile steht. Zudem gibt es gewisse Glyphen, die geradezu typisch für die letzten »Wörter« einer Zeile sind, etwa EVA »m«. Letzteres ist eine Eigenschaft des Manuskriptes, die schon bei naiver Betrachtung ersichtlich ist, und deshalb wird sie wohl so selten einer Untersuchung gewürdigt und nur selten mit »harten« Daten belegt. Dabei widerspricht diese Beobachtung dem Augenschein, dass es sich beim größten Teil des Manuskriptes um direkt niedergeschriebenen Text handelt, der Absätze in beinahe gewöhnlicher Sprache formt.

Schon sehr einfache computergestützte Untersuchungen können aufzeigen, dass die Wörter innerhalb der Zeile nicht gleichmäßig verteilt sind, dass es also Strukturen innerhalb der Zeile gibt, die einer Erklärung bedürfen, wenn wir das Manuskript lesen wollen.

Verwendete Daten

  • Ich habe für die im Folgenden beschriebenen Untersuchungen die vollständige Transkription von Takeshi Takahashi aus dem interlinearen Archiv von Jorge Stolfi verwendet. Das Transkriptions-Alphabet ist folglich ein nicht-kapitialisertes EVA.
  • Hieraus habe ich ausschließlich den »pflanzenkundlichen Teil« (so benannt nach der Gestalt der Illustrationen, die wirklichen Inhalte sind uns ja nicht bekannt) und die reinen Textseiten untersucht, da in diesen Teilen des Manuskriptes der Augenschein eines fließenden Textes besonders stark ist und die Existenz von Strukturen innerhalb der Zeilen aus diesem Grunde nicht erwartet wird. Eine Unterscheidung zwischen den beiden Currier-Sprachen habe ich nicht gemacht, diese wäre allerdings einfach durchzuführen, wenn eine solche Untersuchung weitere Erkenntnis verspräche.
  • Die »astrologischen« und »kosmologischen« Seiten habe ich aus der Betrachtung ausgenommen, weil sie stark von Labels mit bekannten statistischen Eigenarten und von kreisförmigen Texten geprägt sind. Bei letzteren ist der Startpunkt für die Transkription oft reine Willkür. Die »biologischen« Seiten zeigen eine erhebliche textuelle Anomalie im Manuskript, die sich vor allem in einer hohen Redundanz des »Textes« äußert. (Der durchschnittliche Informationsgehalt eines Zeichens liegt dort unter einem Bit.) Der abschließende Teil besteht aus vielen sehr kurzen »Texten«, die schon für den Augenschein nicht den Eindruck normalen Flusstextes erwecken.
  • Ferner habe ich nur Zeilen verwendet, die im Locator des Transkriptionsarchives als Zeile in einem Absatz gekennzeichnet sind. Labels und Titel sind keine Zeilen und könnten die Ergebnisse verzerren.
    Alle »schwachen« Leerzeichen (in EVA mit einem Komma notiert) werden als Leerzeichen betrachtet, die ebenfalls eine »Wortgrenze« darstellen.
    Eine Zeile, die nicht wenigstens fünf Wörter enthält, wird nicht ausgewertet. Bei den gewählten Methoden zur Untersuchung der Wortgestalt in Abhängigkeit von der Position des »Wortes« in der Zeile könnten solche Zeilen das Ergebnis verzerren.

Auswertungen

Mit diesen Daten habe ich für jeweils

  • das erste »Wort« einer Zeile,
  • das letzte »Wort« eine Zeile,
  • das »Wort« in der Mitte der Zeile (Position ermittelt durch Division der Zeilenlänge durch 2) und zudem für
  • das zweite »Wort« einer Zeile (weil das erste Wort jeweils noch weitere Informationen über die Verschlüsselung der Zeile enthalten könnte und deshalb ungewöhnlich gebildet sein könnte)

die folgenden Statistiken erstellt:

  • Zählung der Worthäufigkeit
  • Zählung der Zeichenhäufigkeit in der Transkription
  • Zählung der Wortlänge in der Transkription

Darüber hinaus habe ich die Verteilung von Wörtern mit Gallows (EVA »t«, »k«, »p«, »f«) innerhalb der Zeilen untersucht.

Die von mir verwendeten Perl-Skripten und die vollständigen Ergebnisse dieser Auswertungen zusammen mit einer gut druckbaren Version dieses Textes als RTF-Datei stehen hier zum freien Download zur Verfügung.

Anmerkung zu den Auswertungen

Sowohl die Zeichenhäufigkeit als auch die »Wortlänge« ist eine Form der Auswertung, für die meines Erachtens die EVA-Transkription eher ungeeignet ist, wenn wirkliche Erkenntnisse erlangt werden sollen. Viele Glyphenfolgen, die im Manuskript den starken Anschein eines »Zeichens« erwecken, werden wegen des analytischen Charakters der EVA-Transkription zu mehreren ASCII-Zeichen, wie etwa die häufigen »ch«, »sh« und »iin«. Die Analyse der »Wortlängen« wird durch diesen Umstand verzerrt, und zwar in Abhängigkeit davon, wie das jeweils gezählte »Wort« gebildet ist; die »Zeichenhäufigkeit« ist ebenfalls eher sinnlos. Im besten Fall können solche Daten als Anhaltspunkte für eventuell lohnende, spätere Untersuchungen gelten.

Ergebnis der Wortzählungen

Dies sind die »Wörter«, die mit einer Häufigkeit von mehr als 0,5 Prozent als erstes »Wort« in einer Zeile erscheinen:

daiin                    81  3.808%
saiin                    39  1.834%
sain                     32  1.504%
dain                     29  1.363%
qokeedy                  29  1.363%
sol                      28  1.316%
sor                      26  1.222%
qokeey                   25  1.175%
qokaiin                  22  1.034%
dshedy                   21  0.987%
qokain                   21  0.987%
sar                      20  0.940%
dar                      19  0.893%
tchedy                   19  0.893%
pol                      18  0.846%
dair                     17  0.799%
ol                       17  0.799%
qokedy                   16  0.752%
tol                      16  0.752%
qol                      15  0.705%
y                        15  0.705%
ycheey                   15  0.705%
dchedy                   13  0.611%
dol                      11  0.517%
qokal                    11  0.517%
sal                      11  0.517%

Zum Vergleich hier die gleiche Liste für das jeweils letzte »Wort« einer Zeile:

am                       39  1.834%
dy                       38  1.787%
ol                       33  1.551%
chedy                    32  1.504%
al                       28  1.316%
oly                      28  1.316%
dam                      26  1.222%
daiin                    23  1.081%
qoky                     23  1.081%
dal                      22  1.034%
otam                     17  0.799%
lchedy                   16  0.752%
lol                      16  0.752%
aiin                     15  0.705%
qokam                    15  0.705%
shedy                    15  0.705%
ary                      13  0.611%
dar                      13  0.611%
ram                      13  0.611%
dain                     12  0.564%
ldy                      12  0.564%
chey                     11  0.517%
oky                      11  0.517%
oldy                     11  0.517%
qoty                     11  0.517%

Einige Unterschiede fallen auf dem ersten Blick auf. Erwartet und schon oft beobachtet ist der häufige Zeilenabschluss mit einem »Wort«, welches auf »m« endet. Etwas unerwarteter ist hier die Tendenz zu eher kurzen »Wörtern« und das auffällige Fehlen von »Wörtern«, die mit »s« beginnen. (In EVA steht das »sh« in »shedy« für ein »ch« mit so etwas Ähnlichem wie einem diakritischen Zeichen darüber und nicht für die Glyphe »s« in »saiin«, »sain«, »sor«, »sal« oder »sar«.) Generell lässt sich ein völliges Fehlen der »s«-Glyphe in den häufigsten »Wörtern« am Ende einer Zeile feststellen. Die möglichen »Wörter« sind also innerhalb einer Zeile nicht gleichmäßig verteilt; zumindest für die erste und letzte Wortposition einer Zeile liegen sehr unterschiedliche Verteilungen der Worthäufigkeit vor.

Dies ist ein unerwartetes Ergebnis, wenn man davon ausgegangen ist, dass hier zusammenhängender Text in Absätzen geschrieben wurde, wie es dem Augenschein entspricht. Würde es sich um einen Text in Versform handeln, wäre dieses Ergebnis hingegen nicht überraschend, da diese Form eine gewisse Verteilung der Wortarten innerhalb der Zeilen begünstigen würde. Die Annahme, dass es sich um einen gewöhnlichen, jeweils eine Pflanze beschreibenden Text in direkt notierter Sprache handelt, kann bereits auf diesem Hintergrund angezweifelt werden.

Wenn aber eine Form von Kryptografie vorliegt, ist es durchaus denkbar, dass das jeweils erste »Wort« einen Hinweis auf den Schlüssel enthält, der für diese Zeile verwendet wurde.

Aus diesem Grund habe ich die gleiche Auswertung für das jeweils zweite »Wort« einer Zeile durchgeführt, und zwar mit dem folgenden Ergebnis:

ol                       69  3.244%
shedy                    56  2.633%
shey                     52  2.445%
aiin                     46  2.163%
chey                     45  2.116%
chedy                    40  1.881%
cheey                    32  1.504%
ar                       31  1.457%
qokeedy                  31  1.457%
qokeey                   25  1.175%
sheol                    25  1.175%
cheol                    24  1.128%
or                       24  1.128%
al                       21  0.987%
chol                     21  0.987%
qokedy                   20  0.940%
sheedy                   20  0.940%
daiin                    19  0.893%
qol                      19  0.893%
sheey                    19  0.893%
qokaiin                  18  0.846%
qokain                   18  0.846%
okaiin                   16  0.752%
ain                      15  0.705%
okeey                    15  0.705%
sheor                    15  0.705%
shol                     15  0.705%
okain                    14  0.658%
lchedy                   13  0.611%
qokal                    13  0.611%

Diese Liste enthält bereits kein »Wort« mehr, das mit »s« beginnt und auffallend viele kurze »Wörter« aus zwei Glyphen, sie weist also eine größeres Maß an Ähnlichkeit zur Verteilung der »Wörter« am Ende der Zeile auf. Allerdings gibt es hier auch eine wichtige Abweichung, und das ist die große Häufigkeit von »Wörtern«, die mit »ch« oder »sh« beginnen, was bei den häufigen »Wörtern« an abschließender Position in der Zeile kaum zu beobachten ist.

Die Zeile scheint also eine besondere, nicht offensichtliche Struktur zu haben. Die zweiten »Wörter« einer Zeile zeigen eine andere Häufigkeitsverteilung als die ersten »Wörter« einer Zeile, und beide Verteilungen unterscheiden sich recht deutlich von den letzten »Wörtern«. Die Ausdrucksweise »nicht offensichtlich« meint hier, dass diese Struktur bei einer Betrachtung des Manuskriptes nicht unmittelbar auffällt, sondern erst in einer Auswertung der Worthäufigkeiten in Abhängigkeit von der Wortposition innerhalb einer größeren Menge Text deutlich wird. In einer solchen Auswertung ist es dann aber sehr offensichtlich.

Es ist übrigens interessant, die gleiche Auswertung mit dem jeweils mittleren »Wort« einer Zeile durchzuführen. Ich habe die Position des mittleren »Wortes« ermittelt, indem ich die Anzahl der Wörter durch 2 geteilt habe und das Wort an dieser Position nahm, und kam so auf die folgende Häufigkeitsverteilung für das jeweils mittlere »Wort« einer Zeile:

chedy                    56  2.633%
shedy                    51  2.398%
ol                       38  1.787%
qokeey                   37  1.740%
daiin                    34  1.598%
qokedy                   34  1.598%
qokeedy                  33  1.551%
qokain                   32  1.504%
qokaiin                  29  1.363%
aiin                     26  1.222%
chey                     26  1.222%
qokal                    25  1.175%
chol                     19  0.893%
qol                      19  0.893%
okaiin                   18  0.846%
ar                       16  0.752%
or                       16  0.752%
qokar                    16  0.752%
otal                     15  0.705%
oteey                    15  0.705%
dal                      14  0.658%
dar                      14  0.658%
otedy                    14  0.658%
okain                    13  0.611%
qotedy                   13  0.611%
sheol                    13  0.611%
shey                     13  0.611%
al                       12  0.564%
cheol                    12  0.564%
okedy                    12  0.564%
okeey                    12  0.564%
cheey                    11  0.517%
dol                      11  0.517%
okeedy                   11  0.517%
otain                    11  0.517%
qoky                     11  0.517%

Auch hier findet sich unter den häufigen Wörtern keines, das mit »s« beginnt. Auffallend ist allerdings die größere Häufigkeit von »Wörtern«, die einen Gallow enthalten. Die Listen der Wörter mit einer Häufigkeit von über 0,5 Prozent an einer untersuchten Position innerhalb der Zeile weisen

  • 9 Gallows (34 Prozent der häufigsten »Wörter«) für die erste Position,
  • 9 Gallows (30 Prozent der häufigsten »Wörter«) für die zweite Position,
  • 17 Gallows (47 Prozent der häufigsten »Wörter«) für die mittlere Position, und
  • 5 Gallows (20 Prozent der häufigsten »Wörter«) für die letzte Position

auf. Auch dies ist ein eher unerwartetes Ergebnis, es erweckt zunächst den Anschein, die Wörter mit Gallows würden sich in der Mitte der Zeile ansammeln. Dies ist jedoch nicht der Fall. Um das zu untersuchen, habe ich die Verteilung der »Wörter« mit Gallows auf die jeweils fünf Positionen am Anfang der Zeile, am Ende der Zeile und in der Mitte der Zeile mit einem weiteren Perl-Skript untersucht. In der folgenden Liste gibt die erste Zeile die Gallowhäufigkeit in den ersten fünf »Wörtern« der Zeile, die zweite Zeile in den mittleren fünf »Wörtern« der Zeile und die dritte Zeile in den letzten fünf »Wörtern« der Zeile wieder:

Start of line       49.365% 44.335% 57.217% 57.264% 54.866% 
Center of line      54.725% 56.041% 55.806% 56.747% 55.101% 
End of line         57.593% 54.020% 56.700% 56.794% 39.821%

Abgesehen von einem leicht geringeren Auftreten der »Wörter« mit Gallows an der zweiten Position und einem deutlich geringerem Auftreten solcher »Wörter« an der letzten Position der Zeile zeigen sich hier keine Auffälligkeiten in der allgemeinen Verteilung.

Die auffällige Häufung von »Wörtern« mit Gallows in der Liste der häufigsten »Wörter« der Mittelposition kann also nur bedeuten, dass die »Wörter« mit Gallows am Anfang einer Zeile signifikant variabler und unregelmäßiger als in die Mitte der Zeile geformt sind und deshalb nicht in einer solchen Auflistung aufscheinen, da sie von regelmäßiger gebildeten »Wörtern« ohne Gallows von dort verdrängt werden. Dies sollte in folgenden Untersuchungen wesentlich präziser gefasst werden, für den Moment reicht die Erkenntnis, dass subtile Feinheiten der Wortstruktur von der Position des Wortes in der Zeile abhängig sind. Und genau das ist ein unerwartetes Ergebnis, wenn Wörter eines Absatzes einfach hintereinander weggeschrieben werden, es ist ein Zeichen dafür, dass hier trotz aller statistischer Sprachähnlichkeit der Glyphenfolge keine natürliche Wortfolge einer prosaischen Sprache vorliegen kann. Weitere Gedanken hierzu folgen in den abschließenden Betrachtungen.

Verteilung der Wortlängen

Eine andere Beobachtung lässt sich hingegen bestätigen. Die Wörter werden zum Ende hin kürzer, zumindest, wenn man die Wortlängen in einer EVA-Transkription betrachtet. Selbst, wenn dies nur ein Artefakt des EVA-Alfabetes sein sollte, zeigt es doch statistisch greifbare, strukturelle Änderungen in der Gestalt der durchschnittlichen »Wörter« in Abhängigkeit von ihrer Position in einer Zeile.

Beim ersten Wort einer Zeile beträgt die durchschnittliche Wortlänge 5,57 Zeichen, beim letzten Wort 4,7 Zeichen, der Unterschied beträgt also fast ein EVA-Zeichen und ist damit durchaus als signifikant zu betrachten. Die Länge des mittleren Wortes beträgt übrigens im Durchschnitt 5,3 EVA-Zeichen, und mit der deutlichen Ausnahme der zweiten Wortposition einer Zeile nimmt die Länge tendenziell mit der Position des »Wortes« in der Zeile ab. Es handelt sich hierbei nicht nur um ein Artefakt, das dadurch entsteht, dass der Autor zum Ende einer Zeile hin zu Abkürzungen tendiert.

Zeichenverteilung

Ohne zu diesem Thema zu sehr in die numerischen Einzelheiten gehen zu wollen, sei noch angemerkt, dass auch die Verteilung der Zeichenhäufigkeiten von der Position des »Wortes« in der Zeile abhängig ist.

Die sieben häufigsten Glyphen der »Wörter«

  • an der ersten Position sind: e, o, y, h, d, i, a;
  • an der zweiten Position sind: e, o, h, y, c, k, d;
  • an der mittleren Position sind: o, e, y, h, d, a, k;
  • an der letzten Position sind: o, a, y, l, d, e, h.

Es zeigt sich, dass zum Ende einer Zeile hin tendenziell die Glyphen »e« und die Gruppe »ch« und »sh« seltener werden, während die Glyphen »a« und »l« in der Häufigkeit zunehmen. Macht bei den »Wörtern« zum Zeilenanfang die Glyphe »a« noch 7,2% und »l« 5,2% des Glyphenvorrates aus, so ist am Ende einer Zeile das »a« mit 12,6% und das »l« mit 9% vertreten. Auf der anderen Seite fällt die Häufigkeit der Glyphe »e« von 12,2% beim ersten »Wort« einer Zeile auf 6,6% beim letzten Wort einer Zeile ab. Der größte Teil des Glyphenvorrates ist aber beinahe invariant gegenüber der Wortposition, so dass diese Veränderungen der Zeichenhäufigkeit innerhalb einer Zeile kaum auffallen.

Wäre das »Voynichianische« eine Sprache, so hätte sie die bemerkenswerte Eigenschaft, dass beim Schreiben zusammenhängender Texte in einem Absatz innerhalb einer Zeile eine Gruppe von Vokalen immer seltener wird, während eine andere Gruppe von Vokalen immer häufiger würde, und das bei jeder geschriebenen Zeile. Es fällt schwer, sich eine menschliche Sprache mit dieser Eigenschaft vorzustellen; es fällt vergleichbar schwer, ein sinnvolles Schriftsystem zu ersinnen, das solche Auffälligkeiten hervorbringt. Könnte man die Verkürzungen der Wörter noch mit Abkürzungen wegerklären, die sich tendenziell zum Zeilenende häufen, so bleibt die Erklärung eines solchen im Schriftbild aufscheinenden Lautwandels sehr knifflig. Die Hypothese, dass das »Voynichianische« eine Sprache ist, scheint mir angesichts dieser Analyse kaum noch haltbar.

Abschließende Betrachtungen

Was bedeutet das alles? Ich weiß es nicht, noch nicht. Mir sind jetzt »nur« ein paar weitere Fakten bekannt, die bei jedem Versuch einer Entzifferung dieser mittelalterlichen Kopfnuss berücksichtigt werden müssen:

  1. Es handelt sich nicht um eine relativ direkt niedergeschriebene Sprache, auch keine fernöstliche. Das Voynich-Manuskript entstand in einem Prozess der Verschlüsselung.
  2. Bei der Verschlüsselung hat die entstehende Zeile den »Wörtern« in dieser Zeile eine nachweisbare Struktur gegeben, die möglicherweise Rückschlüsse auf das angewendete Verfahren gestattet. Die »Wörter« in der Zeile sind in einer Weise geordnet, die ich noch nicht verstehe. Da auch die Glyphen innerhalb eines »Wortes« auf eigentümliche Weise geordnet sind, scheiden einfache Zeichenersetzungen aus. (Diese wären auch schon geknackt worden.) Es handelt sich vielmehr um eine Umordnung von Informationseinheiten, die zur beobachteten Struktur führte und die hoffentlich mit einfachen Mitteln umkehrbar ist. So lange wir nicht wissen, in welcher Sprache der Klartext gehalten ist, erscheint mir das Erraten der beim Verschlüsseln angewendeten Umordnungen als kaum lösbare Aufgabe.
  3. Gesetzt dem Fall, es handelt sich beim Voynich-Manuskript um eine bedeutungslose Zeichenfolge, muss eine Erklärung für die darin aufscheinenden Strukturen gefunden werden. Diese sind einerseits sprachliche Strukturen, da zum Beispiel das Zipfsche Gesetz vom dokumentierten »Wortvorrat« erfüllt wird, sie sind aber andererseits außersprachliche und schwer erklärbare Strukturen.
  4. Wenn das »verdammte Manusskript« eine entzifferbare Mitteilung enthält, ist es die vordringlichste Aufgabe der Entzifferung, diese Strukturen zu verstehen und zu deuten. Insbesondere sollte die Anomalie des zweiten »Wortes« einer Zeile verstanden werden, denn diese liefert möglicherweise einen Hinweis auf den in der jeweiligen Zeile verwendeten Schlüssel.

Das Frustrierende in diesem ganzen Prozess besteht darin, dass das Manuskript so aussieht, als sei es ohne besondere Hilfsmittel verfasst und recht unmittelbar niedergeschrieben worden. Welches Verfahren dabei auch immer angewendet wurde, es kann nicht allzu schwierig sein. Aber es war mit Sicherheit sehr intelligent und völlig anders als die kryptografischen Standards des späten Mittelalters.

Thema: Ergebnisse, Hacking | Kommentare (1) | Autor:

Wenn es im Texte blüht

Dienstag, 10. März 2009 17:17

Nur, um einmal so eine kleine Sackgasse aufzuzeigen, in die man immer wieder rennt, wenn man sich mit dem Voynich-Manuskript beschäftigt…

Es kommt vor allem im pflanzenkundlichen Teil des Voynich-Manuskriptes immer wieder vor, dass der Text durch die Zeichnung einer Pflanze unterbrochen wird, wie zum Beispiel hier auf der Seite f17r:

Eine Unterbrechung des Textflusses durch eine Pflanze

Und jedes Mal, wenn ich versuche, mein unlesbares Lieblingsbuch zu »lesen«, kommt es vor, dass ich darin Dinge sehe, die sich bei einer genaueren Untersuchung in Nichts auflösen.

So auch heute.

Als ich die Seite f17r betrachtete, war ich eher am (mutmaßlich lateinischen) Text am oberen Rand dieser Seite interessiert, der mit den Worten »mallior allor« zu beginnen scheint und sich dann in die zunehmende Unlesbarkeit auflöst. Genau genommen, wollte ich nachschauen, ob dieser Text vom gleichen Schreiber geschrieben sein könnte, der auch den Text auf Seite f116v verfasste und ferner, ob es Ähnlichkeiten zwischen dieser Handschrift und der Handschrift der Monatsnamen im Tierkreis gäbe. Wie so oft, hat sich diese kleine Untersuchung in der Beliebigkeit solcher Interpretationen aufgelöst und kein »hartes« Ergebnis zutage gefördert.

Die Augen in den Wurzeln der Pflanze auf Seite f17rDoch ich schaute mir die relativ gewöhnlich aussehende Pflanze mit ihren enigmatischen, in roter Farbe gezeichneten »Wurzelaugen« noch einmal in aller Ruhe an. Dabei fiel mein Blick ganz unwillkürlich auch auf den Text, dessen Fluss im zweiten und dritten Absatz von den Blüten und Blütenstängeln unterbrochen wird.

Und plötzlich glaubte ich, etwas Auffälliges zu sehen. Ausgerechnet auf einer Seite, auf der sogar die Wurzeln Augen bekommen haben, fiel mir ein eigentümlicher »Weirdo« auf, eine Mischung aus »d« und »g« in EVA, der in der vierten Zeile des Textes unmittelbar vor der Blüte auftaucht.

Der Weirdo in der vierten Zeile, im Wort opydgUnd dann fand ich es weiter etwas auffällig, dass eine »g«-artige Form mitten in einer Zeile auftritt. Ich bin es gewohnt, dass die besonderen Glyphen »m« und das viel seltenere »g« gehäuft am Ende einer Zeile auftreten, und ich habe mich schon oft gefragt, warum das so ist. Es ist ja für mich völlig klar, dass es eine Stuktur innerhalb der Zeilen gibt, die gewissermaßen die Wörter innerhalb einer Zeile »sortiert«, und ich weiß auch, dass jeder Versuch einer Entschlüsselung diese Erscheinung in Betracht ziehen sollte, aber ich kann mir immer noch keinen Reim darauf machen. (Vielleicht ist es auch eine formale Eigenart einer mir unbekannten Form der Lyrik…)

Ich schaute mir daraufhin die anderen Wörter an, die dort stehen, wo der Textfluss durch die Pflanze unterbrochen wird. Es handelt sich um die Wörter »okchom«, »opdyg«, »cphaldy«, »chetey«, »zepchy«, »ykchy«, »chypcham«, »mdol« oder »ymdol« und »daiin«. Mit Ausnahme des recht gewöhnlichen »daiin« und des auch manchmal auftretenden »ykchy« sind dies in ihrer Überzahl sehr ungewöhnliche Wörter im Manuskripte.

Und deshalb war ich auf einmal »alarmiert«.

(Für jene, die sich jetzt wundern: Nach einigen Jahren Beschäftigung mit diesem »verdammten Manuskript« bekommt man ein sehr genaues Gefühl dafür, welche Wörter darin »ungewöhnlich« sind und muss kaum noch nachschlagen. Aber die Regeln, die man unbewusst wahrnimmt und die sich in diesem Gefühl verdichtet haben, lassen sich nur sehr schwierig in einer Weise formulieren, aus der sich ein Algorithmus für einen Computer machen lässt. Ich arbeite aber immer noch daran.)

Es erschien mir so, als würde der Umbruch des Textes durch eine Pflanze auf den Text rückwirken, als würde er »ungewöhnliche« Wörter »erzeugen«. Das war nun eine Erscheinung, die ich so noch nie wahrgenommen hatte und die einer kurzen Untersuchung würdig war.

Als erstes schrieb ich mir ein kleines Skript, das Wörter extrahiert und zählt, die vor dem Umbruch durch eine Pflanze auftauchen. Dieses Skript setzt die eingebetteten Kommentare voraus, wie sie in Jorge Stolfis interlinearem Archiv üblich sind. Mit Hilfe dieses Skriptes und meines Tools viat erzeugte ich dann eine Liste von Wörtern aus der vollständigen Transkription von Takeshi Takahashi, die im pflanzenkundlichen Teil vor einer Pflanzenzeichnung im Textfluss auftauchen. Die Kommandozeile dafür ist recht einfach:

viat -t H -i H | perl plantbreak.pl

Als Ergebnis der Ausführung des Skriptes entstehen zwei Dateien.

  • allstat.txt
    In dieser Datei finden sich alle Wörter nach Häufigkeit sortiert, die im gesamten untersuchten Text erscheinen.
  • bplant.txt
    In dieser Datei finden sich die Wörter nach Häufigkeit sortiert, die vor einer gezeichneten Pflanze erscheinen.

Leider sind die ersten zwanzig Zeilen der »Wörter vor den Pflanzen« denn doch nicht mehr so alarmierend, sie sehen so aus:

62    daiin
50    dy
43    s
20    cthy
19    dal
17    dain
15    dam
14    oky
14    dar
13    ol
13    sy
13    aiin
12    d
10    y
9     dan
9     qoty
9     chy
8     chdy
8     or
8     chckhy

Das allgegenwärtige »daiin« ist auch hier an der Spitze. Aber immerhin zeigt sich hier doch eine etwas andere Verteilung von Wörtern als im normalen Textfluss:

474   daiin
234   chol
159   chor
159   s
141   dy
128   or
115   dar
112   shol
107   aiin
105   chy
98    cthy
96    sho
92    ol
85    dain
75    y
73    chey
70    shy
69    ar
67    chedy
67    shor

Die zunächst offenbare, andere Verteilung der Wörter relativiert sich aber schnell, wenn man einen Blick in das Manuskript wirft. Sehr häufig sind die Wörter vor einer Pflanze nämlich auch die letzten Wörter einer Zeile, und diese sind oft ungewöhnlich. (Vor allem häufen sich hier die auf »m« endenden Wörter, ganz so, als sei dieses »m« eine Abkürzung, die verwendet wird, wenn der Raum auf dem Pergament eng wird.)

Dennoch habe ich ein weiteres Experiment angehängt, da ich einmal wissen wollte, wie sich die Endglyphen auf die Wortlisten verteilen. Auch hierfür verwende ich wieder ein sehr einfach gestricktes Skript.

Bei der Wortliste mit allen Wörtern des pflanzenkundlichen Teiles sieht die Verteilung auf die Endglyphen so aus:

a    30       0.26%
c    2        0.02%             
d    234      2.06%
e    45       0.40%
f    11       0.10%     
g    40       0.35%
h    39       0.34%
i    2        0.02%
k    26       0.23%
l    1666    14.66%
m    370      3.26%
n    1840    16.19%
o    491      4.32%
p    11       0.10%
r    1894    16.67%
s    497      4.37%
t    28       0.25%
x    1        0.01%
y    4138    36.41%

Die gleiche Liste für die Wörter vor den Pflanzen zeigt einige charakteristische Abweichungen:

a    5        0.44%
d    55       4.85%
e    1        0.09%
f    1        0.09%
g    4        0.35%
h    9        0.79%
i    1        0.09%
k    1        0.09%
l    140     12.35%
m    72       6.35%
n    202     17.81%
o    19       1.68%
r    76       6.70%
s    87       7.67%
t    2        0.18%
y    459     40.48%

Am augenfälligsten ist dabei vielleicht die doppelt so hohe Häufigkeit der Glyphen »m« und »d«, die im ähnlichen Umfang erhöhte Häufigkeit der Glyphe »s« und das etwas häufigere »y«. Es ist also etwas »anders« vor den Pflanzen, und dies lässt sich schon mit sehr einfachen Mitteln aufzeigen.

Aber so lange sich dieser Effekt mit den Effekten am Zeilenende überlagert, ist er für sich zu wenig aussagekräftig. Ich werde allerdings noch weitere Experimente in dieser Richtung machen und mir einmal anschauen, ob sie irgendwohin führen…

Thema: Hacking | Kommentare (2) | Autor: