Beitrags-Archiv für die Kategory 'Hacking'

Wortzählungen nach Zeilenposition

Sonntag, 6. April 2008 18:38

Im Manuskript sind nicht alle »Wörter« an allen Positionen in der Zeile mit gleicher Häufigkeit auf. Es gibt »Wörter«, die bevorzugt am Ende einer Zeile auftreten, und es gibt »Wörter«, die bevorzugt am Anfang einer Zeile auftreten. Ich ziehe daraus den Schluss, dass jede Zeile eines Manuskriptes eine Informationseinheit ist, aber was bedeutet bei diesem Manuskript schon ein solcher Schluss…

Die Untersuchung dieser Erscheinung ist relativ einfach mit meiner Datenbank der Transkriptionen möglich. Ich habe heute ein kleines Python-Skript geschrieben, das solche Zählungen durchführt. Unsichere Leerzeichen werden dabei nicht berücksichtigt, sondern als vollwertige Worttrenner gezählt, um die Verarbeitung einfach und effizient zu gestalten.

Mein Skript steht hier zum freien Download, aber vor der Verwendung müssen die Zugangsdaten für die Datenbank im Quelltext angepasst werden. (Wenn dies nicht getan wird, steigt das Skript während der Verbindung zum Datenbankserver mit einer Fehlermeldung aus.)

Download-Link: Skript zur Zählung der Worthäufigkeiten an Positionen in der Zeile

Technische Anmerkung: Dieses Skript verwendet eine spezielle Funktion des MySQL RDBMS, so dass weitere Anpassungen nötig sein könnten, wenn ein anderes RDBMS verwendet werden soll. Von der Benutzung des CREATE TEMPORARY TABLE abgesehen, ist das SQL ANSI-konform, so dass eine solche Anpassung einfach sein sollte. Die einfachste Vorgehensweise ist die Löschung oder Kommentierung des Schlüsselwortes TEMPORARY im Quelltext.

Format der Ausgabe

Das Skript gibt eine Zeile für jedes »Wort« aus, das mehr als einmal in der gewählten Transkription auftritt und das vollständig lesbar ist. Nicht vollständig lesbare »Wörter« werden nicht berücksichtigt.

Jede Zeile besteht aus mehreren Feldern, die durch Tabulatoren getrennt sind.

Das erste Feld ist immer das »Wort« in EVA. (Wer ein anderes Alphabet für die Transkription verwendet, kann dies relativ leicht im Quelltext ändern. Die Datenbank ist dafür vorbereitet.) Darauf folgt in Klammern die Häufigkeit dieses Wortes.

Die folgenden Felder enthalten die Position, an der dieses »Wort« auftritt. Darauf folgen in Klammern die Häufigkeit, mit der dieses »Wort« gezählt wurde, ein Leerzeichen und eine Angabe der Häufigkeit in Prozent.

Wenn man den pflanzenkundlichen Teil der Transkription von Takeshi Takahashi extrahiert, sieht die Ausgabe für das »Wort« aim etwa folgendermaßen aus:

aim (2)    4 (1 50%)    8 (1 50%)

Um einen besseren Eindruck von der Ausgabe des Skriptes zu vermitteln, stelle ich hier eine derartige Aufbereitung zum Download. Diese beiden Analysen haben auf meinem recht langsamen Arbeitsrechner jeweils einige Sekunden gedauert. Ein zeitgemäßer Rechner wird die Ergebnisse beinahe unmittelbar ausgeben. Die meiste Arbeit wird übrigens innerhalb der Datenbank verrichtet, so dass es sich lohnen kann, einen schnellen Datenbankserver zu verwenden.

Download-Link: Analyse der Häufigkeiten von Wörtern an bestimmten Positionen im pflanzenkundlichen Teil in der Transkription von Takeshi Takahashi

Benutzung des Skriptes

Das Skript kann mit Optionen aufgerufen werden, die in Unix-üblicher Weise mit einem Minuszeichen eingeleitet werden. Die folgenden Optionen können verwendet werden:

  • -h
    Anzeige eines Hilfetextes für die möglichen Optionen
  • -t<code>
    Auswahl einer Transkription mit dem jeweiligen Code
  • -l<lang>
    Auswahl der Currier-Sprachen. Wenn hier AB angegeben wird, denn werden nur Seiten mit einer bekannten Currier-Sprache extrahiert, so dass auch diese Angabe sinnvoll ist
  • -i<illu>
    Auswahl von Seiten mit einem bestimmten Illustrationstyp. Es ist zum Beispiel möglich, aber wenig sinnvoll, wenn man Seiten des kosmologischen oder astrologischen Teils einbezieht, da hier kreisförmige Diagramme auftreten, in denen die Leseposition für den Zeilenanfang willkürlich gewählt ist.
  • -r
    Die Analyse ermittelt die Position vom Zeilenende aus, nicht vom Anfang der Zeile. Dies gibt einen besseren Blick auf »Wörter«, die sich am Zeilenende zu häufen scheinen; ansonsten geht diese Erscheinung wegen der unterschiedlichen Zeilenlängen etwas unter.

Erste Anmerkungen

Diese Analyse hat bislang vor allem das bestätigt, was ich vorher schon wusste. Die »Wörter« treten nicht an allen Positionen in der Zeile gleich verteilt auf. Allerdings ist mir (und anderen) jetzt eine Möglichkeit gegeben, diese Erscheinung genauer zu untersuchen. Der Blick richtet sich jetzt auch auf bislang unverdächtige »Wörter«.

Zum Beispiel tritt das »Wort« chodaly im pflanzenkundlichen Teil drei Mal auf, und zwar immer an der vorletzten Stelle einer Zeile.  Das gleiche gilt für das »Wort« chokal, dass ebenfalls dreifach und immer an der vorletzten Stelle auftritt. Die Feinstruktur dieser ungleichmäßigen Verteilung der »Wörter« auf die Zeilenpositionen ist meines Erachtens noch nicht genügend untersucht, was auch daran liegen mag, dass es bislang keine geeigneten Werkzeuge für solche Untersuchungen gab. Deshalb fielen nur die auffällig oft am Ende auftretenden »Wörter« wie daiin ins Auge, das in 55 Prozent der Fälle die letzten drei Positionen innerhalb einer Zeile einnimmt.

Interessanterweise widersprechen einige Erscheinungen meinen Erwartungen. Zum Beispiel sind generell »Wörter« mit einem Gallow zum Beginn der Zeile gehäuft, aber es gibt auch spezielle Ausnahmen. Das 18fach auftretende »Wort« okain findet sich zum Beispiel in über 50 Prozent der Fälle auf den letzten beiden Positionen einer Zeile. Das 4fach auftretende »Wort« okary findet sich ausschließlich am Zeilenende.

Ausblick und Pläne

In weiteren Untersuchungen sollte überprüft werden, ob es relativ häufige »Wörter« gibt, die sich gleichmäßig über alle Zeilenpositionen verteilen. Wenn es solche »Wörter« gibt, müssen sie eine besondere Bedeutung haben. Wenn es solche »Wörter« nicht gibt, verrät das eine weitere, überraschende Eigenschaft des verwendeten Schrift- oder Codiersystemes.

Thema: Hacking | Kommentare (1) | Autor:

Eine Transkriptions-Datenbank

Sonntag, 9. März 2008 16:15

Ich habe mir in den letzten Tagen das »Vergnügen« gegönnt, die Transkriptionen aus Jorge Stolfis Interlinear-Archiv in ein etwas anderes Format zu bringen. Das Ergebnis ist eine weit gehend normalisierte SQL-Datenbank, die des Wortzählers Herz erfreuen kann. Einen SQL-Dump dieser Datenbank stelle ich hier zum Download zur Verfügung.

Download-Link: SQL-Dump der Transkriptionsdatenbank

Wer sich die Datenbank anschaut, wird bemerken, dass sie nicht in der dritten Normalform steht. Einige Denormalisierungen habe ich eingefügt, um gewisse Analysen mit größerer Leichtigkeit und Performance ausführen zu können – zum Beispiel enthält jede Zeile die an sich überflüssige Angabe, aus wie vielen Wörtern sie besteht, damit ich Zeilen gleicher Wortlänge untersuchen kann, ohne einen Subselect verwenden zu müssen.

Um eine Verwendung dieser Datenbank mit »kleinen« Systemen wie mSQL zu vereinfachen, wurde auf explizite referenzielle Integrität verzichtet. Da sich dieser Datenbestand nicht verändert (im besten Fall kommt einmal eine neue Transkription hinzu), sollte dies kein Problem darstellen. Erstellt habe ich die Datenbank in MySQL, der Dump ist kompatibel zu ANSI-SQL und sollte so in jedem RDBMS verwendbar sein. Wer ebenfalls eine MySQL verwendet, wird wohl eher einen speziellen Dump für MySQL bevorzugen, auch dieser steht hier zum Download zur Verfügung.

Download-Link: SQL-Dump der Transkriptionsdatenbank für MySQL

Die gesamte Datenbank ist in englischer Sprache kommentiert. Die einzelnen »Wörter« sind in allen gängigen Transkriptionssystemen abgelegt, damit eine Anwendung nach jedem beliebigen System arbeiten kann. Natürlich wurden die anderen Systeme von einem Programm erzeugt, und ich kann nicht ausschließen, dass mir dabei ein Fehler unterlaufen ist, da ich selbst vorwiegend in EVA »lese« und analysiere, wenn ich mich nicht direkt mit Bildern des Manuskriptes beschäftige.

Die Datenbank enthält nur fünf Tabellen, die hier kurz in deutscher Sprache erläutert werden.

Tabelle voy_page

Informationen zu einer Seite.

  • page_id INTEGER
    Primärschlüssel für die Seite
  • fnumber VARCHAR(8)
    Alternativer Schlüssel, die »F-Number« der Seite ohne führendes »f«
  • illustration_type CHAR(1)
    Angabe des Typs der Illustration, entweder »T«, »H«, »A«, »Z«, »B«, »C«, »P« oder »S«
    Dieses Feld ist für MySQL als ENUM definiert
  • quire CHAR(1)
    Das Bündel, in dem die Seite liegt
  • page_in_quire CHAR(1)
    Die Position, welche die Seite im Bündel einnimmt
  • currier_lang CHAR(1)
    Angabe der Currier-Sprache, entweder »A« oder »B«
    Dieses Feld ist für MySQL als ENUM definiert
  • currier_hand CHAR(1)
    Angabe der Handschrift nach Currier, entweder »1″, »2″, »3″, »4″, »5″, »X« oder »Y«
    Dieses Feld ist für MySQL als ENUM definiert
  • has_non_voynich CHAR(1)
    Angabe, ob die Seite Text enthält, der nicht im Schriftsystem des Manuskriptes verfasst wurde, entweder »Y« oder »N«
    Dieses Feld ist für MySQL als ENUM definiert
  • has_key_like CHAR(1)
    Angabe, ob schlüsselartige Texte auf der Seite stehen, entweder »Y« oder »N«
    Dieses Feld ist für MySQL als ENUM definiert
  • has_extraneous CHAR(1)
    Angabe, ob die Seite zusätzliche Schrift enthält, entweder »Y« oder »N«
    Dieses Feld ist für MySQL als ENUM definiert
  • description TEXT
    Aus den Kommentaren extrahierte Seitenbeschreibung

Tabelle voy_trans

Informationen zu einer Transkription.

  • trans_code CHAR(1)
    Transkriptionscode aus dem Interlinear-Archiv
  • second_code CHAR(1)
    Code für die zweite Lesart einer Transkription aus dem Interlinear-Archiv
  • sortkey CHAR(2)
    Ein Sortierungsschlüssel, um die verschiedenen Transkriptionen in Anwendungen in nicht-alphabetischer Reihenfolge präsentieren zu können. (Bei mir stehen Currier und Takeshi Takahashi an den ersten Stellen, und das hat einen guten Grund. Takahashi ist vollständig, und Currier war recht gründlich.)
  • name VARCHAR(64)
    Ein Anzeigename für die Transkription
  • description TEXT
    Weitere Angaben zur Transkription

Tabelle voy_line

Eine Transkription besteht aus transkribierten Zeilen aus Seiten, diese werden hier zugeordnet.

  • line_id INTEGER
    Primärschlüssel, wird aufsteigend vergeben und kann somit als Ordnungselement für die Reihenfolge der Zeilen dienen.
  • line_trans INTEGER
    (Halber) Fremdschlüssel. Verweist auf voy_trans, entweder Feld trans_code oder Feld second_code
  • line_page INTEGER
    Fremdschlüssel. Verweist auf voy_page, Feld page_id
  • locator VARCHAR(20)
    Roh übernommener Angabe zur Zeile, enthält schwach dokumentierte Angaben zur scheinbaren textuellen Einheit, in der diese Zeile auftritt. In dieser ersten Version habe ich das noch nicht in eine sinnvolle Struktur übertragen.
  • wordcount INTEGER
    Anzahl der Wörter in der transkribierten Zeile (wobei schwache Leerzeichen als Leerzeichen gezählt werden)

Tabelle voy_word

Die Wörter aus den Transkriptionen. Jedes eindeutig auftretende Wort ist in dieser Tabelle enthalten. Um die Verarbeitung zu vereinfachen, wurde jedes Wort in allen gängigen Transkriptionsalphabeten aufgenommen.

Darüber hinaus ist ein experimentelles Feature in diese Tabelle aufgenommen. Es existiert ein Feld fuzzy, das leicht verwechselbare oder ähnliche Glypen und Glyphenfolgen auf gleiche Zeichen abbildet, um eine bequeme Suche nach ähnlichen »Wörtern« zu ermöglichen. Dieses Verfahren habe ich mir innerhalb einer halben Stunde und nach eher flüchtigem Blick auf einige Bilder des Manuskriptes ausgedacht, es ist weit von einer brauchbaren Metrik für die Ähnlichkeit von Glyphen entfernt. Vielleicht findet es aber doch jemand anders von Nutzen, deshalb habe ich es in diese Veröffentlichung aufgenommen.

  • word_id INTEGER
    Generischer Primärschlüssel für das Wort
  • readable CHAR(1)
    Angabe, ob das Wort vollständig lesbar ist oder ein unlesbares Zeichen enthält, »Y« oder »N«
    Für die MySQL ist dieses Feld als ENUM definiert
  • eva VARCHAR (40)
    Transkription in EVA
  • frogguy VARCHAR(60)
    Transkription in Frogguy
  • currier VARCHAR(40)
    Transkription im Verfahren von Currier
  • fsg VARCHAR(40)
    Transkription im Verfahren der First Study Group
  • bennett VARCHAR(40)
    Transkription in Verfahren von Bennett
  • fuzzy VARCHAR(40)
    Experimentelle Bearbeitung, um »ähnliche Wörter« auf gleiche Zeichenfolgen abzubilden
  • count INTEGER
    Insgesamte Häufigkeit dieses »Wortes« in allen Transkriptionen, dies kann nützlich sein, wenn seltene »Wörter« in einer Analyse besonders hervorgehoben werden sollen.

Tabelle voy_lineword

Die Wörter werden in einer Reihenfolge zu einer Zeile zugeordnet.

  • lword_id INTEGER
    Generischer Primärschlüssel
  • lword_line INTEGER
    Fremdschlüssel, verweist auf voy_line, Feld line_id
  • lword_word INTEGER
    Fremdschlüssel, verweist auf voy_word, Feld word_id
  • position INTEGER
    Position des Wortes in der Zeile
  • spacing VARCHAR(6)
    Angabe, wie das Leerzeichen zum vorhergehenden Wort zu bewerten ist. Entweder »first«, wenn es das erste Wort in einer Einheit ist, oder »normal«, wenn es sich um eine sichere Leerstelle handelt, oder »weak«, wenn es eine schwache Leerstelle ist oder »big«, wenn das Wort durch eine Illustration oder einen anderen großen Zwischenraum vom vorhergehenden Wort getrennt ist.
    Dieses Feld ist in MySQL als ENUM definiert

Zur Motivation meines Hacks

Die Verwendung einer relationalen Datenbank ermöglicht es, Analysen in SQL durchzuführen und sogar darüber hinaus, die Ergebnisse mit Hilfe eines Reporting-Tools darzustellen – letzteres ist zwar nicht meine Welt, aber es ist eine Möglichkeit, schnell eine übersichtliche Darstellung eines Ergebnisses zu erzeugen. Vielen heutigen Programmierern geht SQL wesentlich leichter von der Hand als awk und sed aus dem Weg der tausend Tools (damit ist Unix gemeint). Ich hoffe, dass ich mit dieser Veröffentlichung auch solche Menschen zu eigenen Untersuchungen und Experimenten anrege, die bislang von den Formaten der Transkriptionen abgeschreckt wurden.

Natürlich ist es nun auch recht bequem, sich sinnvolle Views zu erzeugen, mit denen die Analyse dieser vielleicht nun etwas überstrukturierten Daten vereinfacht werden kann. Ich habe bewusst keine Views aufgenommen, da doch sehr vom Kontext einer Untersuchung abhängt, was man für sinnvoll erachtet.

Ein Beispiel für die Anwendung

Bei einer flüchtigen Unterschung stellt sich heraus, dass die durchschnittliche Länge des zweiten Wortes einer Zeile auffällig ist. Diese durchschnittliche Länge kann man zum Beispiel mit folgendem Statement aus der Transkription von Takeshi Takahashi ermitteln:

SELECT AVG(LENGTH(eva))
FROM voy_lineword
JOIN voy_word ON word_id = lword_word
JOIN voy_line ON line_id = lword_line
WHERE line_trans = 'H'
AND position =2

Mein hier verwendeter Pentium III mit 450 MHz brauchte zur Verarbeitung dieser Abfrage 1,4 Sekunden und lieferte eine durchschnittliche Wortlänge von 5,0011. (Es ist ein wirklich lahmer Computer, den ich hier benutze. Auf einer zeitgemäßen Maschine sollte so ein Ergebnis wesentlich schneller erscheinen.)

Diese Abfrage lässt sich nun sehr einfach so umformulieren, dass eine andere Transkription verwendet wird, ohne dass hierzu ein besonderes Programm in einer Unix-Pipe verwendet werden muss.

Und das ist keineswegs alles, denn es ist auch mit einer kleinen Änderung möglich, alle durchschnittlichen Wortlängen für alle Position zu ermitteln, ich nehme hier aber nur die ersten 19 Positionen auf, um diese Beschreibung nicht mit unnötigen, rohen Daten zu fluten:

SELECT position, AVG(LENGTH(eva))
FROM voy_lineword
JOIN voy_word ON word_id = lword_word
JOIN voy_line ON line_id = lword_line
WHERE line_trans = 'H'
GROUP BY position
HAVING position < 20

Nachdem sich mein armer Computer 4,15 Sekunden von dieser Eingabe erholen musste, erfreute er mich mit dem folgenden Ergebnis (hier als rohe Ausgabe des MySQL-Monitors wiedergegeben):

+----------+------------------+
| position | avg(length(eva)) |
+----------+------------------+
|        1 |           5.4888 |
|        2 |           5.0011 |
|        3 |           5.1632 |
|        4 |           5.1163 |
|        5 |           5.0970 |
|        6 |           5.0959 |
|        7 |           5.0594 |
|        8 |           5.0211 |
|        9 |           4.8615 |
|       10 |           4.6762 |
|       11 |           4.4971 |
|       12 |           4.2664 |
|       13 |           4.2667 |
|       14 |           4.5282 |
|       15 |           5.0309 |
|       16 |           5.1548 |
|       17 |           5.0959 |
|       18 |           5.0286 |
|       19 |           4.9851 |
+----------+------------------+

Eine geplante Beispielanwendung

Ich werde wohl in den nächsten Wochen eine Beispielanwendung für diese Datenbank veröffentlichen. Es handelt sich um ein in Python geschriebenes CGI-Skript, das neben der bequemen Durchsicht der Transkription auch mit erweiterten Möglichkeiten wie einer Konkordanz und einer guten Suchfunktion dienen kann. Natürlich wird es auch über weit gehende Möglichkeiten zum Export von Transkriptionen oder Teilen daraus verfügen. Dass man so etwas nicht eben in einer Viertelstunde »runterhackt«, sollte einleuchten.

Wenn sich das etwas länger als ein »paar« Wochen hinzieht, bitte ich schon einmal um Entschuldigung.

Thema: Hacking, Hilfsmittel | Kommentare (3) | Autor:

Die Glyphen und die Weirdos

Sonntag, 6. Januar 2008 12:55

An sich ist das Schriftsystem des Voynich-Manuskriptes einfach aufgebaut. Es gibt, wenn man die Glyphen nach ihrem ersten Strich kategorisiert, vier große Gruppen von Glyphen sowie einige besonders geformte Zeichen.

Die vier Gruppen der Glyphen

Die erste Gruppe von Glyphen beginnt mit einem kurzen, diagonal von oben links nach unten rechts geführten Strich, der mit weiteren Elementen versehen werden kann. Ich nenne diese Gruppe nach ihrer einfachsten Glyphe die I-Glyphen. (Dies ist meine Benennung und kein allgemein üblicher Name.) Diese sind etwa i, r, n, l, m.

Die zweite Gruppe von Glyphen beginnt mit einem kleinen Bogen, der mit weiteren Elementen versehen werden kann, aber auch häufig für Ligaturen verwendet wird (EVA ch). Ich nenne diese Gruppe nach ihrer einfachsten Glyphe die E-Glyphen. (Auch dieser Name ist nicht allgemein üblich.) Diese sind etwa e, s, ch, g, sh, o; aber auch d, y und a sind wegen ihres ersten Striches zu dieser Gruppe zu zählen.

Die dritte Gruppe sind die Gallows, die mit einem langen, senkrechten Abwärtsstrich beginnen. Ich nenne diese Gruppe von Glyphen der allgemeinen Konvention folgend Gallows. Diese sind t, k, p, f. An einigen Stellen treten fantasievoll ausgeführte Formen der Gallows auf, die aber immer noch klar als Gallows zu erkennen sind.

In einer vierten Gruppe fasse ich Glyphen zusammen, die aus dem gewohnten Schema herausfallen. Der häufigste Vertreter dieser Gruppe ist das beinahe nur am »Wortanfang« auftretende q. Nach diesem auffälligsten Vertreter der ganzen Gruppe spreche ich von den Q-Glyphen. (Was wiederum kein allgemein üblicher Name ist.) Zu dieser Gruppe zähle ich auch das x, das im »Text« des Manuskriptes nur eine sehr untergeordnete Rolle spielt. Es tritt entweder am Ende eines »Wortes« auf, oder es steht vor den Glyphen a, o oder y. Hier drängt sich der Gedanke auf, dass diese ungewöhnliche Glyphe – ähnlich wie q – eine besondere, noch nicht verstandene technische Funktion erfüllt. In den Ringen der kreisförmigen Diagramme erscheint x allerdings gleichberechtigt neben anderen Glyphen, was bei q nicht der Fall ist.

Die Glyphen der ersten und zweiten Gruppe folgen häufig wiederholt aufeinander und scheinen in diesen Kombinationen eigene Zeichen (also Bedeutungseinheiten) zu bilden, wie es sich in den typischen Endungen ir, iir, in, iin, iim am erkennbarsten zeigt. Wenn man sich längere Zeit mit dem Manuskript beschäftigt hat, bekommt man ein Gefühl dafür, dass in den meisten »Wörtern« des »Textes« die Abfolge der Glyphengruppen nicht willkürlich ist, sondern gewissen Regeln folgt, die nur am Ende eines »Wortes« häufiger durchbrochen werden. (Ich werde später einmal mehr darüber schreiben.) Tatsächlich hilft mir diese Einsicht manchmal, fragwürdige Stellen einer Transkription zu erkennen – aber das »verdammte Manuskript« enthält auch wirklich Abfolgen von Glyphen, die diesen Regeln widersprechen.

Es ist also ein praktisches, schnörkelloses und elegantes Schriftsystem, das einem begegnet, wenn man sich mit dem Manuskript beschäftigt. Der größte Teil des »Textes« wird aus sehr einfachen Elementen gebildet, die sich gut mit einer Feder schreiben lassen. Es entsteht fast schon der Eindruck einer gewissen Phantasielosigkeit.

Die Weirdos

Umso verwunderlicher erscheint es da, dass es immer wieder einzelne Glyphen gibt, die sehr selten sind und die sich nicht in das einfache System einzufügen scheinen. So lange die Bedeutung des Schriftsystems nicht bekannt ist, kann niemand eine Aussage darüber treffen, ob diese Zeichen lediglich Nachlässigkeiten (oder Spielereien) des Schreibers sind, oder ob sie eine besondere Bedeutung tragen. Jede Transkription hat mit diesen seltsamen Glyphen zu kämpfen, die meisten einfachen Auswertungen mithilfe eines Computers scheinen dieses Problem zu ignorieren. Im englischen Sprachraum spricht man von den Weirdos, ein Wort, das ich mangels besserer Bezeichnungen gern übernehme…

Die Weirdos sind gar nicht selten. Auf beinahe jeder Seite lässt sich mindestens ein Beispiel finden, und auf einigen Seiten treten sie stark gehäuft auf. Einige Weirdos sind nur leichte Abwandlungen des Zeichenvorrates, einige andere scheinen auf einen unverständigen Versuch der Restauration zurück zu gehen, und wieder andere sind von großer Besonderheit. Die hier vorgestellten Weirdos sind nur eine kleine Auswahl der bösen Überraschungen, die einem das Voynich-Manuskript in den Weg legt, wenn man es zu lesen versucht. Beispiele, die ganz offenbar auf fehlerhafte Restauration zurückgehen, wurden bewusst ausgeklammert; ferner werden solche Weirdos nicht erwähnt, die – wie die beiden seltsamen Gebilde auf dem linken Rand der Seite f1r – nicht sicher als Glyphen im »Text« erkennbar sind. Ich hoffe, das diese kleine und völlig unvollständige Sammlung das Misstrauen gegenüber den gängigen Transkriptionen verstärkt und die Neigung erhöht, sich mit dem richtigen Manuskript zu befassen.

Einige (sehr wenige) Beispiele

q'oViele Weirdos sind gar nicht so ungewöhnlich, wie der Name Weirdos vermuten lässt. Er leitet sich vom englischen Adjektiv »weird« ab, das zu Deutsch so viel wie »sonderbar« oder »unheimlich« bedeutet. Auch an einem »Wort«, das mit qo beginnt, ist zunächst nichts Sonderbares, es handelt sich um ein sehr häufiges Präfix. Auch ist es im Manuskript gar nicht unheimlich, dass ein häufiges Präfix als einzelnes Wort auftritt. Was diesen Weirdo auf Seite f1v auszeichnet, ist der deutlich sichtbare, horizontale Strich über der o-Glyphe, der den Eindruck eines diakritischen Zeichens erweckt. (In lateinischen Handschrift wurde mit einem solchen Strich über einem Vokal ein »m« notiert.) Ein solcher Strich taucht an keiner anderen Stelle des Manuskriptes auf.

polEbenfalls auf Seite f1v findet sich in der letzten Zeile diese Besonderheit, die auf dem ersten Blick kaum ins Auge fällt. Das Wort wird einfach als pol »gelesen«. Dabei ist die p-Glyphe ungewöhnlich geformt. Ihr senkrechter Strich geht nicht bis auf die Grundlinie herunter, sondern ist auf einen e-Strich aufgesetzt, was sehr außergewöhnlich ist. Natürlich kann es sich hier um eine Korrektur des Schreibers handeln, aber es ist schon erstaunlich, dass dieser ausgerechnet ein Gallow vergessen haben sollte, um gleich mit dem ersten Bogen der folgenden o-Glyphe zu beginnen. Selbst, wenn dies sein Fehler gewesen sein sollte, es ist genügend Abstand zum vorhergehenden Wort vorhanden, um das eventuell vergessene p nachträglich einzufügen. Diese Schreibweise erweckt den Eindruck einer Absicht des Schreibers, und zwar einer im Manuskript sehr ungewöhnlichen und damit rätselhaften Absicht.

sa'iinDie Seite f2r erfreut nicht nur durch ihre gute »Lesbarkeit«, sondern auch durch ein besonders seltsames Wort, das sich am zutreffendsten als sa‹iin transkribiert. Doch schon die Gestalt der s-Glyphe entspricht nicht dem Regelfall, da der obere Bogen eine Schleife formt und offenbar vom Autor vorsichtig mit der Federspitze gezogen wurde, um diese Form auch wirklich sicher auf Pergament zu bringen. Sehr ungewöhnlich ist aber auch der – sonst vor allem in der Komposition des sh gebräuchliche – Bogen zwischen a und i.

OsEin in den gewöhnlichen Konzepten gar nicht richtig transkribierbarer Weirdo findet sich auf Seite f4r. Die erste Glyphe passt nicht in die normalen Gestaltmerkmale des Zeichenvorrates. Sie sieht aus, als wäre sie eine um 180 Grad gedrehte e-Glyphe oder der abschließende Bogen einer o-Glyphe ohne den ersten Strich eines o. Um das hier abgebildete »Wort« in eine Transkription zu übernehmen, muss eigens für diese seltsame Glyphe eine Notation eingeführt werden. Tatsächlich haben hier fast alle Transkriptoren eine unlesbare Glyphe notiert oder das deutlich erkennbare Artefakt überhaupt nicht in die Transkription aufgenommen, als sei es ein Tintenklecks. In jedem Fall ist der Bogen zu weit von der Pflanzenzeichnung entfernt, um ein möglicher Bestandteil des grafischen Entwurfes zu sein. Es handelt sich um einen Bestandteil des »Textes«

qoSeite f4v zeigt in der vierten Zeile eine wirklich ungewöhnliche q-Glyphe. Der senkrechte Strich reißt sehr weit nach oben aus und erweckt so fast den Anschein, als hätte der Autor an dieser Stelle beinahe versehentlich einen Gallow schreiben wollen, diesen aber noch zu einem qo »gerettet«. Weil das nächste Wort jedoch nicht direkt mit einem Gallow beginnt, ist diese schnelle Erklärung eher fragwürdig. Da das nächste Wort jedoch mit der Ligatur cth beginnt, könnte sich hier jedoch ein kleiner, sehr unsicherer Hinweis darauf finden, dass der Autor beim Schreiben der ch-Ligaturen mit einem Gallow in der Mitte so vorgegangen ist, dass er mit dem Gallow begann. Aber das ist natürlich eine Spekulation auf sehr dünner Grundlage…

ckyEin recht häufiger Weirdo ist die unvollständig ausgeführte ch-Ligatur mit einem integrierten Gallow. Das abgebildete Beispiel ist der Seite f8r entnommen. Im Regelfall tritt die c-Glyphe nicht alleinstehend auf, sondern nur in der Kombination ch. Aber es gibt im Manuskript immer wieder Beispiele dafür, dass das c an einem Gallow endet und nicht wie erwartet in einem h (oder, was seltener auftritt, in einem o oder y) fortgesetzt wird.

rotchy rodaiinImmer wieder begegnet man auch Ausführungen der vertrauten Glyphen, deren Abweichungen von der normalen Form so stark und auffällig sind, dass man nicht an eine Beiläufigkeit glauben mag. Dies gilt etwa für die beiden einleitenden r-Glyphen der Zeilen 11 und 12 auf Seite f10r, deren Anfangsstrich eine deutlich vom Schema der i-Glyphen abweichende Form hat und aus dem normalen Duktus der Schrift klar herausfällt. Obwohl dies ein sehr auffälliger Weirdo ist, eine Glyphe, deren Gestalt eher an eine arabische Ziffer »3″ als an ein r erinnert, wird hier meistens ein r gelesen.

rDie seltsame Form einer i-Glyphe mit »anderem«, nach hinten gebogenem Anfangsstrich taucht gar nicht so selten im Manuskript auf, ein anderes Beispiel ist dieses n auf Seite f14v in der sechsten Zeile. Trotz des deutlich geformten Bogens und der Tatsache, dass diese Glyphe höher als die anderen Glyphen der Zeile steht und allein dadurch wirklich auffällt, liest hier jede Transkription ein n.

qTain?Die Seite f15v zeigt in der zweiten Zeile eine seltsame Mischbildung aus einer q-Glyphe und einem Gallow. Obwohl diese Seite starke Anzeichen der Restauration zeigt, tritt diese Seltsamkeit gerade an einer eher unverdächtigen Stelle auf. Diese Glyphe ist für einen Gallow zu niedrig, dennoch wurde der Anfangsstrich ungefähr auf der richtigen Höhe begonnen, aber viel zu weit nach unten gezogen.

choyEine seltsame und einmalige Glyphe, die entfernt an die y-Glyphe erinnert, findet sich auf Seite f19r. Auffällig ist hier, dass die Glyphe über einer o-Glyphe begonnen wurde. Da das so geformte Symbol keine erkennbare Ähnlichkeit zu einer anderen Glyphe hat, kann jedoch nicht davon ausgegangen werden, dass es sich hier um eine Korrektur eines Schreibfehlers handelt – oder aber, der Autor hat nur sehr selten Schreibfehler gemacht. Die Tatsache, dass auch f19r stark von Restauration geprägt ist, macht die Beurteilung nicht einfacher.

r?Recht unverdächtig in Hinblick auf Restaurationen sieht hingegen Seite f20r aus, und dennoch findet sich hier ein rätselhafter Weirdo. Was einige Transkriptoren als ein r »gelesen« haben, ist in Wirklichkeit ein etwas zu klein geratenes s mit einem Bogen, der mit dem oberen, rückwärts geschwungenen Bogen des s zusammenfließt. Der Gesamteindruck ist ein schwer deutbares Zeichen, das allerdings mit Gewissheit nicht als r zu »lesen« ist.

okokamViele Weirdos sind ungewöhnlich geformte Gallows, so wie dieses Beispiel aus der ersten Zeile der Seite f24v. Natürlich bleiben diese Gallows noch als Gallows erkennbar, aber es wird schwierig, sie vernünftig zu deuten. So ein k mit einem deutlichen Knick kann einfach nur auf ungewöhnliche Weise verziert sein, es kann aber auch eine Mischform zwischen k und f andeuten oder es kann sich auch um ein völlig anderes Zeichen handeln. Das Transkriptionsalphabet EVA hat eigens für diese eine Glyphe den speziellen Code 146 eingeführt, so dass hier wenigstens die »richtige« Lesart klar ist.

ho?Aber es ist kaum möglich, für jede Seltsamkeit im Schriftfluss einen eigenen Code einzuführen. Diese Glyphe auf Seite f25v erweckt den Eindruck, als sei sie die rechte Hälfte eines Gallows, der ohne den senkrechten Strich geschrieben worden wäre. Um eine Notlösung des Schreibers wegen Platzmangels kann es sich kaum handeln, da genügend Raum zur vorhergehenden o-Glyphe vorhanden ist. Die Glyphe ist genau so rätselhaft wie das kleine Schildkröt-Drachen-Pferd, das in der unteren linken Ecke an der Pflanze nascht. (Vorschläge für einen besseren Namen für dieses »Tier« sind willkommen.)

Abschließendes

Ich habe hier nur Beispiele von Weirdos erwähnt, die auffällig sind und wahrscheinlich nicht auf das Werk einer unverständigen Restauration zurückgehen. Es ist leicht, auf beinahe jeder Seite mindestens ein Beispiel für eine nicht genau bestimmbare Glyphe zu finden. Die recht bekannten Seiten, auf denen sich Weirdos stark häufen, habe ich hierfür gar nicht betrachtet, obwohl diese Seiten in vielfacher Hinsicht sehr interessant sind.

So unsicher die Bedeutung der Weirdos ist – wir wissen ja gar nichts über die Bedeutung des Schriftsystemes – so wichtig ist dieses Thema. Handelt es sich in einigen Fällen um Verschreiber des Autors, die von ihm selbst korrigiert wurden, indem sie zu Weirdos geformt wurden, so können diese Artefakte etwas neues über die Vorgehensweise des Autors bei der Niederschrift verraten. Damit könnten sie auch einen Fingerzeig auf das zur Verschlüsselung angewendete Verfahren geben, wenn hier überhaupt eine Verschlüsselung vorliegt. Angesichts der Tatsache, dass wir alle nach Jahrzehnten der Forschung immer noch nichts wissen, könnten solche kleinen Indizien ein neuer Ansatzpunkt werden, das Manuskript zu verstehen – oder doch wenigstens mit einem neuen Ansatz zu scheitern… 😉

Es lohnt sich also, ein offenes Auge für die Weirdos zu haben. Vor allem, weil wir aus den regelmäßigeren Glyphen auch noch nicht schlau geworden sind. Dennoch verwenden wir alle immer wieder Transkriptionen, die eine Regelmäßigkeit vortäuschen, die sich im wirklichen Manuskript nicht in diesem Maße finden lässt.

Thema: Interpretation | Kommentare (0) | Autor:

Die verborgenen Strukturen

Montag, 19. November 2007 0:27

Zu den bisherigen Versuchen, Voynich-artige Dokumente ohne Inhalt zu erzeugen, habe ich in diesem Blog mehrfach eine Andeutung über Strukturen im Voynich-Manuskript gemacht, die ich aber bislang nicht mit weiteren Daten belegt habe.

Zwar besteht bei den algorithmschen Reproduktionen bei oberflächlicher Betrachtung eine gewisse Ähnlichkeit zum Voynich-Manuskript, auch werden die typischen Wort-Strukturen des Manuskriptes durchaus überzeugend hervorgebracht, aber die Strukturen innerhalb der Zeilen und innerhalb der Seiten werden niemals reproduziert und wurden von den findigen Forschern gar nicht weiter beachtet. Alle Schlussfolgerungen, die auf einer optisch ähnlichen, aber strukturell unvollständigen mechanischen Reproduktion beruhen, sind fragwürdig – vor allem, wenn lauthals und reißerisch postuliert wird, dass es sich beim gesamten Manuskript um eine inhaltslose Nachricht, um einen Betrugsversuch eines talentierten Fälschers handelt.

Die verborgenen Strukturen sind im Manuskript vorhanden, recht deutlich, durch einfache Analysemethoden aufzudecken und bislang noch nicht mechanisch reproduziert worden. (Auch ich bin übrigens bei einigen einfachen Versuchen, Voynich-ähnliche Texte zu erzeugen, an dieser »Kleinigkeit« gescheitert.) Sie zeigen sich als eine zunächst nicht auffällige, aber statistisch sichtbare Feinstruktur innerhalb der Zeilen, der Absätze und innerhalb der Seiten.

Diese Strukturen sollen hier etwas beleuchtet werden, wobei ich nicht auf alle Einzelheiten eingehen werde. Insbesondere werde ich Strukturen innerhalb der Absätze nicht berücksichtigen.

Das Manuskript ist hoch strukturiert

Schon bei der Betrachtung einer Transkription fällt den meisten Menschen auf, dass die einzelnen Wörter im Manuskript nicht willkürlich gebildet sind. Die Strukturen innerhalb eines Wortes gehören zu den Eigenschaften, die so auffällig sind, dass sie kaum jemand übersieht – diese starken Strukturen innerhalb eines Wortes sind übrigens das deutlichste Argument gegen eine direkte Niederschrift einer heute in Europa gesprochenen Sprache, da keine europäische Sprache vergleichbare Strukturen aufweist.

So weit ich (der ich kein Experte für vergleichende Sprachwissenschaft bin) weiß, passen solche Muster nur auf Sprachen, die angesichts der europäischen Gestaltung der Illustrationen sehr unerwartet sind. Eine phonetische Niederschrift einer Sprache der tibeto-chinesischen Familie würde ähnliche Worteigenschaften hervorbringen, wenn der Ton der jeweiligen Silbe mitnotiert würde.

Im Voynich-Wort hat jede Glyphe ihren festen Platz. Einige Glyphen können nur am Anfang stehen, etwa q oder qo; andere sind typisch für das Ende eines Wortes, etwa iin, iir, dy oder im; wieder andere können an beliebiger Stelle im Wort erscheinen, etwa ch, sh, ee, s, d, p, f, t, k und die charakteristischen Kombinationen aus einem Gallow und ch wie ckh. Diese Regeln werden überlagert von einem zweiten Regelsatz, den ich als »harmonische Regeln« bezeichne; das Aufeinanderfolgen bestimmter Glyphen wird im Manuskript vermieden. Beide Regelsätze sind – um jeden Forscher zu verwirren – nicht völlig ohne Ausnahmen. Gegen die »harmonischen Regeln« verstoßen etwa 10 Prozent der Wörter, gegen die allgemeinen Regeln zum Wortaufbau verstoßen etwa 5 Prozent der Wörter im Manuskript – und diese beiden Gruppen von ungewöhnlich gebildeten Wörtern sind recht regellos im Text verteilt.

Trotz der vielen Ausnahmen: Die Regelmäßigkeit in der Struktur der Wörter ist eine grobe, der Anschauung entgegenkommende Tatsache, die jeder irgendwann bemerkt. Über diese auffällige Wortstruktur wird jedoch die Struktur der Wortverteilung in einer Zeile oft übersehen, obwohl sie sich durch einfachste Analysen offen legen lässt.

Für alle folgenden Analysen habe ich die Transkription von Takeshi Takahashi verwendet. Textuelle Besonderheiten wie Labels und Titel wurden herausgefiltert. Die beiden Perl-Skripten für die Verarbeitung stehen für eigene Experimente zum freien Download zur Verfügung.

Die Verteilung der Wortlängen in einer Zeile

Zunächst findet sich eine recht deutliche Struktur in den Zeilen. Die Wortlängen sind innerhalb einer Zeile nicht gleichmäßig verteilt, tendenziell erscheinen längere Wörter am Anfang der Zeile.

In den folgenden Diagrammen wird für die x-Achse jeweils der Wortindex aufgetragen (also die Information, um das wievielte Wort der Zeile es sich handelt), auf der y-Achse ist die durchschnittliche Länge des Wortes aufgetragen. Diese Analyse wird getrennt für den biologischen, pflanzenkundlichen und abschließenden Teil vorgenommen, sie wird ergänzt um die wenigen reinen Textseiten im Manuskript. Diese Auswahl wurde vorgenommen, weil die anderen Teile des Manuskriptes von ringförmigen Anordnungen des Textes geprägt sind, bei denen es willkürlich ist, bei welchem Wort die Zählung beginnt.

Zunächst die biologischen Seiten:

Wortlängen pro Zeile biologischer Teil

Jetzt die pflanzenkundlichen Seiten:

Wortlängen pro Zeile pflanzenkundliche Seiten

Jetzt die Seiten des abschließenden Teiles, die eine besonders deutliche Verteilung zeigen:

Wortlängen pro Zeile abschließender Teil

Und schließlich noch ein Blick auf die reinen Textseiten:

Wortlängen pro Zeile reine Textseiten

Das Muster in der Verteilung der durchschnittlichen Wortlängen ist recht deutlich, und es kann nicht auf einem Zufall beruhen. In einer Zeile erscheinen zum Anfang tendenziell die längeren (aus mehreren Glyphen bestehenden) Wörter, zum Ende hin nimmt die durchschnittliche Länge eines Wortes ab. Auffällig ist ferner, dass das zweite Wort einer Zeile tendenziell kürzer als das erste und dritte Wort ist, aber diese Erscheinung ist nicht so deutlich, als dass man eine verbindliche Aussage dazu machen möchte.

Wenn das Manuskript einen Inhalt hat, denn muss diese Verteilung der Wortlängen etwas mit der Form zu tun haben, in der dieser Inhalt niedergeschrieben wurde. Die Zeile im Voynich-Manuskript ist deutlich und nachweisbar strukturiert, die Wörter nehmen darin keine willkürliche Position ein. Jede Zeile ist als eine Informationseinheit zu betrachten. Jede Annäherung an den Inhalt des Manuskriptes muss diese Erscheinung in irgendeiner Weise erklären oder reproduzieren können, und diese Erklärung sind bisherige, dem Augenschein verhaftete »Lösungen« völlig schuldig geblieben.

So wenig einem die zählende Einsicht beim Verständnis weiterhilft, so sehr hilft sie doch dabei, vorschnelle Schlüsse einiger Autoren zu verwerfen. Eine direkte sprachliche Niederschrift menschlicher Sprache würde solche Strukturen in einem Fließtext nicht aufweisen, aber es ist sehr wohl möglich, dass solche Strukturen in lyrischen Texten aufscheinen. Wer eine Fälschung des Manuskriptes postuliert und hierzu ein Verfahren entwickelt, dass vergleichbare Texte erzeugt, muss sich auch Gedanken um die Strukturen in der Zeile machen.

Die Strukturen innerhalb einer Seite

Es gibt aber auch Strukturen innerhalb der Manuskript-Seite, die nicht ganz so deutlich sind, aber doch in eingen Teilen deutlich genug, um nicht durch einen Zufall erklärt werden zu können. Bei dieser Untersuchung werden Unterschiede zwischen den einzelnen Teilen des Manuskriptes auch am Text deutlich. Ich werde hier nur eine Struktur innerhalb der Seiten herausgreifen, weil sie sehr unerwartet ist.

Die auffälligsten Zeichen im Manuskript sind die so genannten »Gallows«, dies sind die großen, geschwungenen Glyphen f, p, t und k. Diese Glyphen geben einige Rätsel auf, da sie seltsame Ligaturen mit der ch-Glyphe bilden können, obwohl die Existenz einer solchen Ligatur bei der relativen Seltenheit dieser Zeichenfolgen überrascht. In den folgenden Diagrammen ist auf der x-Achse die laufende Zeilennummer auf der Seite aufgetragen, auf der y-Achse ist die durchschnittliche Anzahl der Gallows in diesen Zeilen aufgetragen. Diese Analysen sind für kleinere Zeilennummern aussagekräftiger, da dort mehr Text eingeflossen ist. Es kommt deshalb bei den hohen Zeilennummern zu deutlichen Fluktuationen.

Zunächst einmal die reinen Textseiten:

Gallows pro Textzeile reine Textseiten

Recht ähnlich sieht dieses Diagramm für die Seiten des abschließenden Teiles aus:

Gallows pro Zeile abschließender Teil

Bei alleiniger Betrachtung dieser Diagramme scheint es nicht den geringsten Zusammenhang zwischen der Häufigkeit der Gallows und der Position auf der Seite zu geben. Es scheint sich um mehr oder minder starke Schwankungen um einen Mittelwert zu handeln. Dieser Mittelwert liegt bei den reinen Textseiten bei 6 Gallows pro Zeile, bei den Seiten des abschließenden Teiles bei 6,6 Gallows pro Zeile. Die vergleichsweise starken Schwankungen der Verteilung für die reinen Textseiten erklären sich aus der Tatsache, dass es nur fünf reine Textseiten gibt, nämlich f1r, f58r, f58v, f66r, f85r1 – der abschließende Teil verfügt hingegen über 23 Seiten, so dass sich lokale Fluktuationen besser herausmitteln können.

Es gibt aber auch noch andere Teile im Manuskript, und da sehen die Diagramme völlig anders aus. Im biologischen Teil ergibt sich die folgende Verteilung:

Gallows pro Seite für den biologischen Teil

Hier zeigt sich schon eine sehr andersartige Verteilung, es gibt einen deutlichen Abwärtstrend in der durchschnittlichen Anzahl der Gallows für den unteren Teil des Dokumentes. Diese Struktur in der Verteilung der Gallows zeigt sich noch etwas deutlicher im pflanzenkundlichen Teil:

Gallows pro Zeile pflanzenkundlicher Teil

Es liegt also ein Zusammenhang zwischen dem mutmaßlichen, an Hand der Illustrationen naheliegenden Inhalt einer Seite und der Verteilung bestimmter Zeichengruppen auf der Seite vor. Dieser Zusammenhang ist nicht offensichtlich, er tritt unerwartet und überraschend bei einer Zählung in Erscheinung. Er ermöglicht es prinzipiell, die Art der Seiten nicht nur an Hand der Illustrationen, sondern auch an Hand einer Struktur des Textes auf dieser Seite zu erkennen. Es handelt sich vielleicht sogar um einen inhaltlichen Zusammenhang, dessen Bedeutung allerdings (mir noch) unklar ist.

Die ungleichmäßige Verteilung bestimmter Glyphen innerhalb des Kontextes einer Seite ist in jedem Fall schwer zu verstehen. Wenn man das Voynich-Manuskript als direkt niedergeschriebene Sprache deutet, würde eine solche Erscheinung bedeuten, dass bestimmte Laute oder Lautfolgen am Anfang eines Textes häufiger erscheinen als zum Ende hin; eine solche Erscheinung wäre eine sehr ungewöhliche lyrische Kunstform. (Gibt es Sprachen, in deren Lyrik so etwas üblich ist?) In jedem Fall zeigt sich durch einfaches Zählen der Gallows bei den biologischen Seiten schwach und recht deutlich bei den pflanzenkundlichen Seiten des Manuskriptes, dass dort jede Seite eine strukturierte Informationseinheit ist.

Abschließendes

Schon relativ einfache Analysen zeigen, dass das gesamte Voynich-Manuskript auf jeder denkbaren Betrachtungsebene (Zeichen, Zeilen, Seiten) hoch strukturiert ist. Die bisherigen Versuche, algorithmisch einen Voynich-ähnlichen Text zu erzeugen, haben nur Teile dieser Struktur reproduzieren können – leider wurden daraus weit reichende Schlüsse gezogen und publiziert.

Jede Erklärung für das Voynich-Manuskript muss die Gesamtheit der auftretenden Strukturen erklären. Es kann durchaus sein, dass dieses Manuskript keine »Nachricht« im herkömmlichen Sinne des Wortes enthält, aber wer das belegen will, indem er einen inhaltsleeren Text mechanisch konstruiert, der muss sehen, dass es mit der bloßen Erzeugung ähnlicher Glyphenfolgen nicht getan ist. Es müssen auch die leicht sichtbar zu machenden Strukturen innerhalb der Zeile und die teilweise auftretenden Strukturen innerhalb der Seite eines bestimmten Abschnittes reproduziert werden – und es muss eine vernünftige Erklärung gefunden werden, warum diese Strukturen in einem Kontext entstanden sind, im anderen hingegen nicht. Diese Aufgabe ist sehr viel schwieriger, als die von Gordon Rugg und seinen Nachahmern erstellten Demonstrationen für die Erzeugung Voynich-artiger Textfragmente, leider wird von solchen Autoren denn auch über diesen Problemkreis geschwiegen.

Wir versuchen jedenfalls weiter, die Botschaft zu lesen…

Thema: Ergebnisse, Hacking | Kommentare (4) | Autor:

f2r: Eine Pflanze namens kydainy

Donnerstag, 8. November 2007 0:19

Miniaturdarstellung der Seite f2rZugegeben, dieser »Pflanzenname« auf der Seite f2r ist in gewisser Weise ein Witz, aber keiner der billigen und schlechten Sorte. Es weiß zwar niemand, wie die »Pflanzen« des Voynich-Manuskriptes heißen, aber Jorge Stolfi hat vor ungefähr zehn Jahren eine ausgesprochen interessante Entdeckung an den »Texten« des »pflanzenkundlichen Teils« gemacht.

Bei seiner Entdeckung aus dem Jahr 1998 ging Jorge Stolfi von der offenbaren Tatsache aus, dass jede dieser Seiten genau eine »Pflanze« darstellt. Wenn es einen inhaltlichen Zusammenhang zwischen dem »Text« und den Darstellungen einer solchen Seite gibt, denn könnte es ja durchaus möglich sein, dass der Name dieser »Pflanze« im Text auftaucht. Diese Annahme setzt allerdings voraus, dass es sich nicht um einen stark verschlüsselten Text, sondern um eine mehr oder minder direkte Notation natürlicher Sprache handelt. Aber die Annahme lässt sich leicht mit Hilfe eines Computers überprüfen, wenn man eine Transkription vorliegen hat – es reicht aus, nach »Wörtern« zu suchen, die einmalig nur auf diesen Seiten erscheinen.

Ganz so einfach ist es allerdings doch nicht. Viele Voynich-Glyphen sehen sich sehr ähnlich, das Transkribieren ist eine fehlerträchtige Tätigkeit und alle Transkriptionen sind umstritten. Deshalb wurde die Untersuchung nicht an einer rohen EVA-Transkription vorgenommen, vielmehr wurde der Text der Transkription so bearbeitet, dass ähnliche Glyphen so in identischen lateinischen Buchstaben zusammengefasst werden, dass häufige Transkriptionsfehler keine Rolle für das Ergebnis spielen. Darüber hinaus sind die Leerzeichen unsicher in der Deutung und die q-Glyphe wird wegen ihres regelmäßigen Auftretens am Wortanfang für eine »grammatikalische« Erscheinung gehalten. Die vorgenommene Transformation sieht im Einzelnen so aus:

  1. Lösche jedes q am Beginn eines Wortes
  2. Ersetze jedes t durch ein k
  3. Ersetze jedes f durch ein p
  4. Ersetze jedes y am Wortanfang durch ein o
  5. Ersetze jedes a oder o am Wortende durch ein y
  6. Ersetze jedes ee durch ein ch
  7. Ignoriere alle Leerzeichen für die Analyse

Es ist klar, dass durch diese Transformation Information aus dem »Text« zerstört wurde. Da im Manuskript viele ähnliche Wörter auftreten, wäre ein eindeutiges Ergebnis trotz dieser Transformation schon ein recht sicheres Indiz.

Jorge Stolfi kam zu einem recht eindeutigen Ergebnis (die Übel-Setzung ins Deutsche ist von mir):

Es hat sich herausgestellt, dass das erste Wort jeder Seite beinahe immer seiten-spezifisch ist. Ich betrachte diese Tatsache als ein Zeichen dafür, dass wir es als Regel betrachten können, dass das erste Wort der Seite der Name der Pflanze ist. Darüber hinaus scheinen die meisten Abweichungen von dieser Regel darin bedingt zu sein, dass ein Wort durch ein fragliches Leerzeichen umbrochen wurde. In diesen Fällen können wir gewöhnlich ein seiten-spezifisches Wort erhalten, wenn wir die ersten zwei oder drei Wörter der Seite zusammenfügen.

Kydainy - der Name der Pflanze?So auch das Wort kydainy, dieses völlig »unverdächtig« aussehende erste Wort der Seite f2r. Die beschriebene Transformation verwandelt dieses »Wort« in »kydaino«, und dieses Muster kommt im gesamten pflanzenkundlichen Teil des Voynich-Manuskriptes nicht noch einmal vor – trotz einer Transformation, die ähnlich gebaute »Wörter« aufgefunden hätte. Das ist – alles in allem – ein eher unerwartetes und verwirrendes Ergebnis einer recht einfachen Untersuchung, das die These stützt, dass es sich beim »Text« des Manuskriptes um eine direkt notierte Sprache handeln könnte.

Kydain, das erste Wort des zweiten Absatzes dieser Seite. Ist das nur eine grammatikalische Erscheinung?Interessanterweise enthält die Seite f2r zwei Absätze, und der zweite Absatz beginnt mit der sehr ähnlichen Glyphenfolge kydain – da fehlt nur die y-Endung. Auch dieses »Wort« ist im gesamten Manuskript eindeutig, so dass der Verdacht sehr nahe liegt, dass gewisse Endungen eine »grammatikalische« Erscheinung sind. Aber das ist ein völlig anderes Thema, das hier einmal ausführlich gewürdigt werden wird.

Die Blüte der Pflanze erinnert entfernt an eine KornblumeDass man einen mutmaßlichen Namen der Pflanze angeben kann, hilft leider nicht beim Lesen des Manuskriptes. Denn diese »Pflanze« ist nicht identifizierbar. Dies gilt für alle Pflanzen der Manuskriptes, so dass die von Jorge Stolfi gefundene Eigenschaft nicht beim Lesen des Textes hilfreich ist.

Die Blüte dieser Pflanze erinnert recht deutlich an eine Kornblume (centaurea cyanus), wenn auch die typische blaue Farbe fehlt. Dies führte Petersen dazu, diese Seite informell als »Cornflower« zu bezeichnen. Leider ist die Blattform völlig falsch, und die rötlichen Strukturen auf dem Stängel widersetzen sich ebenfalls der Deutung der Pflanze als Kornblume.

Die Wurzel dieser PflanzeSehr eigentümlich ist die gezeichnete Form der Wurzel.

Sie sieht – wenn man sie isoliert betrachtet – gar nicht wie eine Wurzel aus, sondern macht den Eindruck, als wenn sie ebenfalls aus Schriftzeichen bestände. Diese »Wurzelschrift« ist allerdings ebenfalls unlesbar, so dass hier unklar bleibt, ob man einem Wahrnehmungsfehler aufgesessen ist oder ob man eine wirkliche Eigenschaft der Illustration sieht. Vielleicht sollte ich es einmal mit einer Zubereitung wirklicher Kornblumen probieren, diese dient unter anderem zur Behandlung der Augen durch Waschungen…

Da viele Pflanzen nichts mit Produkten der irdischen Evolution zu tun haben, lohnt es sich, immer einen offenen Geist für andere Deutungen gewisser enigmatische Elemente in diesen Pflanzen zu haben. Wenn man dabei nur nicht so leicht in haltlose Spekulationen käme… 😉

Thema: Ergebnisse, Seiten | Kommentare (2) | Autor:

Entschuldigung

Dienstag, 20. Februar 2007 18:24

Es gibt ja wirklich keine Sache, die so einfach ist, dass ich sie nicht falsch machen kann. Vor beinahe einem Jahr habe ich einen Download einer vollständigen Konkordanz aller bis dahin verfügbaren Transkriptionen des Manuskriptes angeboten. Und jetzt erst wurde ich darauf hingewiesen, dass das Archiv dieser Konkordanz fehlerhaft und deshalb unvollständig war.

Noch einmal meinen ausdrücklichen Dank für diesen Hinweis.

Natürlich habe ich jetzt ein korrektes Archiv mit einer wirklich vollständigen Konkordanz hochgeladen. Bei allen Lesern, die meine »kaputte« Version benutzt haben, möchte ich mich ausdrücklich entschuldigen.

Aber das war noch nicht das Ende der Pannen. Nach meinem Umzug auf die neue Domain sind viele Download-Links ins Leere gelaufen. Wenn ich das nächste Mal den Mund voll nehme, dass keine Probleme zu erwarten sind, werde ich vorher die wichtigsten Links durchklicken.

Thema: Hacking | Kommentare (0) | Autor:

Download der Konkordanz

Freitag, 14. April 2006 15:58

Da es doch immer wieder Probleme mit den allgemeinen Tücken von Perl-Skripten unter verschiedenen Betriebssystemen und mit den besonderen Tücken meiner Programmierung zu geben scheint, habe ich die vollständige Konkordanz aller Transkriptionen des Voynich-Manuskriptes zum Download gestellt. Es handelt sich um ein mit gzip komprimiertes tar-Archiv mit einer noch relativ download-freundlichen Dateigröße von 8,1 Megabyte, dieses Archiv lässt sich zum Beispiel unter Microsoft Windows mit WinZip oder WinRar entpacken.

Ich habe mich dazu entschlossen, die Konkordanz nicht einfach zu zippen, weil die gezippte Konkordanz zu einer gut sechsmal größeren Datei führt — für den Download mit einer schmalbandigen Anbindung am Internet wäre das eine Zumutung, und auch der mir zur Verfügung stehende Webspace ist nicht unbegrenzt. Da praktisch jedes Archiv-Tool auch tar-Archive zumindest entpacken kann, sehe ich auch kein großes Problem in der Verwendung eines Formates, das vielen Menschen mit nicht unixoiden Betriebssystemen vielleicht etwas ungewöhnlich erscheint.

Thema: Hacking | Kommentare (3) | Autor:

Erstellen einer Konkordanz

Montag, 10. April 2006 21:20

Wer sich mit der »Wortfolge« des Voynich-Manuskriptes beschäftigen möchte, bekommt schnell den Wunsch, eine vollständige Konkordanz aller Transkriptionen zu verwenden. In einer solchen Konkordanz werden sämtliche »Wörter« mit allen ihren Fundstellen aufgelistet, zu jedem Wort wird jeweils noch ein Stück Kontext der Zeile aufgeführt, in der dieses Wort auftritt.

Ich habe mein kleines Programm zum Erstellen einer solchen Konkordanz in HTML ja schon vor vielen Monaten hier veröffentlicht, und die damit erstellte Konkordanz stellt mich vollständig zufrieden. Besonders angenehm ist die Auszeichnung aller »Wörter« als Hyperlinks, so dass die gesamte Konkordanz mit der Maus navigierbar wird. Wer einmal einen Eindruck haben möchte, wie so etwas aussieht: Ich habe mal die Seite für das Wort qokain in der Transkription von Takeshi Takahashi zum Download gestellt — natürlich funktionieren dabei die Links nicht, weil die weiteren Seiten fehlen.

Allerdings hat sich inzwischen der Leser- und Nutzerkreis dieses Blogs etwas verändert, da dieses Blog nun auch als Informationssammlung für die deutschsprachige Voynich-Group bei Yahoo dient. Deshalb kann ich hier nicht mehr bei jedem so viel Hintergrundwissen voraussetzen, dass die sehr knappen Erläuterungen zur Erstellung einer Konkordanz ausreichend wären. Ich habe schon daran gedacht, die Konkordanz als Ganzes zum Download zu stellen, sie hat allerdings einen Umfang von knapp 110 Megabyte, was sowohl eine erhebliche Last für den zur Verfügung stehenden Webspace und Traffic als auch für den Download über langsame Leitungen eine Zumutung wäre.

Deshalb gebe ich hier eine sehr genaue Anleitung, wie die Konkordanz der Transkriptionen des Voynich-Manuskriptes aus frei verfügbaren Dateien mit Hilfe eines Computers erstellt werden kann. Wer dabei das erste Mal in seinem Leben mit Programmierung konfrontiert ist, sollte deshalb nicht verzagen: Die Programme sind bereits fertig, sie müssen nur zum Laufen gebracht werden. Und der Ablauf eines Computerprogrammes ist ein strikt deterministischer Vorgang, der aus den gleichen Eingabedateien überall die gleichen Ausgabedateien macht. Es ist also nicht halb so schlimm, wie es hier auf dem ersten Blick aussieht.

Was benötigt wird

Folgendes wird benötigt, um die Konkordanz zu erstellen — vor dem Erstellen ist also ein bisschen Download gesetzt.

  • Ein Perl-Interpreter für ihr System
    Alle Programme sind in der Programmiersprache Perl geschrieben. Der Interpreter für diese Sprache ist für beinahe jedes Betriebssystem frei verfügbar und kann unter www.perl.org kostenlos heruntergeladen werden. Wenn sie allerdings Mircosoft Windows benutzen, ist ActivePerl von ActiveState wohl die beste Wahl für ihr System. Anwender von Linux oder MacOS X sollten bereits ein Perl auf ihrem System installiert haben.
  • Den Zeichensatz EVA Hand 1
    Die generierten HTML-Dokumente verwenden diesen Zeichensatz, um eine möglichst große Nähe zur optischen Erscheinung der Glyphen im Manuskript zu erreichen. Natürlich können sie die Konkordanz auch ohne diesen Zeichensatz verwenden, wenn sie sehr geübt im Lesen von EVA sind.
  • Das Interlinear-Archiv der Transkriptionen in EVA
    Diese große Arbeit von Jorge Stolfi ist im Moment noch die am besten zu verwendende Zusammenstellung der Arbeit vieler Menschen. Alle meine Programme bauen auf diesem Werk auf.
  • Mein Programm viat
    Dieses Perl-Programm wird verwendet, um interessierende Bereiche aus Jorge Stolfis Interlinear-Archiv zu extrahieren. Es ist auch für andere eigene Forschungen sehr hilfreich, wenn man etwa für bestimmte Untersuchungen eine Datei erstellen möchte, die nur aus den biologischen Seiten in der Transkription von Currier besteht.
  • Mein Programm voyconc
    Dieses Perl-Programm erstellt die vollständige Konkordanz mit Hilfe des Programmes viat.

Um die Programme anzuwenden, müssen sie sie nicht verstehen. Alle meine Programme sind auf einem unixoiden Betriebssystem entstanden und folgen den dortigen Gepflogenheiten, sie werden also an der Kommandozeile aufgerufen. Es gibt auch kein besonderes Installationsprogramm, und so haben sie etwas Mühe und müssen von Hand installieren.

Installation des Perl-Interpreters

Folgen sie einfach den Anweisungen, die sie dort finden, wo sie ihren Perl-Interpreter herunterladen. Wenn sie ActivePerl unter Microsoft Windows verwenden, ist die Installation genau so einfach wie die Installation jeder anderen Windows-Anwendung.

Installation des Zeichensatzes

Der Zeichensatz befindet sich in einer ZIP-komprimierten Datei, sie extrahieren ihn mit dem Entpacker ihrer Wahl. Unter Windows XP ist das bequeme Entpacken durch einen einfachen Klick bereits mit Mitteln der graphischen Oberfläche möglich, unter früheren Versionen von Windows verwenden sie entweder WinRAR oder WinZIP, wenn sie kein UNZIP.EXE für das Entpacken an der Kommandozeile verwenden wollen. Auch alle anderen Dateien sind ZIP-komprimiert und werden auf die gleiche Weise entpackt.

Die Installation von Zeichensätzen ist von Betriebssystem zu Betriebssystem verschieden, deshalb kann hier keine genaue Anleitung gegeben werden. Unter Microsoft Windows wird die TTF-Datei einfach in den entsprechenden Ordner verschoben, das Betriebssystem löst alle weiteren Aktionen im Hintergrund aus. Unter anderen Systemen kann deutlich mehr Mühe erforderlich sein, um einen neuen Zeichensatz zu installieren.

Weitere Vorbereitungen

Entpacken sie alle weiteren Dateien in ein Verzeichnis.

Die weitere Vorgehensweise ist wieder von System zu System verschieden, ich gebe hier eine Anleitung für unixoide Systeme (nicht nur Linux, sondern auch MacOS X) und für Microsoft Windows.

Unixoide Systeme

Für die folgende Kommandofolge wird vorausgesetzt, dass sie die bash als Shell verwenden. Dies ist beinahe immer der Fall, und wenn sie bewusst etwas anderes verwenden, dann werden sie sich zu helfen wissen. Sie müssen auf jeden Fall eine Shell öffnen und mit cd in das Verzeichnis wechseln, in dem sich die Dateien befinden. Für dieses Beispiel habe ich angenommen, dass sich die Dateien im Verzeichnis /home/es/voy befinden. Das Zeichen $ soll ihren Prompt repräsentieren, es ist nicht einzugeben.

$ cd /home/es/voy
$ chmod +x viat voyconc
$ export VOYNICH=/home/es/voy
$ voyconc

Danach hat der Rechner etwas zu tun. Am Ende befindet sich die gesamte Konkordanz im Verzeichnis concordance, die Datei index.html kann mit jedem Webbrowser verwendet werden. Die Benutzung der Konkordanz erklärt sich hoffentlich von selbst.

Microsoft Windows

Auch hier müssen sie an der Kommandozeile bedienen, und es wird auch leider ein kleines bisschen komplizierter. Zunächst müssen sie eine »MS/DOS-Eingabeaufforderung« öffnen; unter Windows NT, 2000 oder XP können sie hierzu vom Startmenü aus »Ausführen…« wählen und als Programm cmd.exe eingeben. Auch dort müssen sie in das Verzeichnis wechseln, in dem sich die entpackten Dateien befinden, für das Beispiel wurde C:\voy angenommen. Das Zeichen > am Anfang der Zeilen soll ihren Prompt darstellen, es ist nicht einzugeben. Ich gehe davon aus, dass sie ActivePerl verwenden und dass folglich das Programm pl2bat bei ihnen installiert ist.

> cd c:\voy
> pl2bat viat
> set VOYNICH=C:\voy
> perl voyconc

Auch unter Windows ist der Rechner eine Weile beschäftigt, um ca. 110 MB Konkordanz zu erstellen.

Fertig

Wenn alles ohne Fehler durchgelaufen ist, haben sie eine vollständige Konkordanz über sämtliche Transkriptionen des Vonyich-Manuskriptes zur Verfügung. Das war doch das bisschen Mühe wert…

Thema: Hacking | Kommentare (0) | Autor:

Vergleich mit anderen Texten

Sonntag, 14. August 2005 2:28

Ein Problem bei Analysen von Transkriptionen des Voynich-Manuskiptes ist es, dass kein Vergleichsmaterial in »natürlichen« Sprachen zur Verfügung steht. Ein Analyse-Programm für eine Transkription erwartet doch ein sehr spezielles Format, und die händische Aufbereitung von bestehendem Textmaterial in diesem Format wäre sehr mühsam.

So etwas kann ein Computer besser. Und deshalb habe ich das Programm html2evt geschrieben, welches Dateien im HTML-Format in das richtige Format bringt. Allerdings bedient es sich zu diesem Zweck des Textbrowsers Lynx, was aber den angenehmen Nebeneffekt hat, dass auch direkt Texte aus dem Internet umgewandelt werden können. Hierzu muss einfach nur die URL als Parameter angegeben werden.

Eine kurze Dokumentation ist im Programm enthalten und kann mit perldoc extrahiert werden.

Thema: Hacking | Kommentare (0) | Autor:

Wortdubletten

Mittwoch, 3. August 2005 16:21

Wer sich mit den »Wortfolgen« im Voynich-Manuskript beschäftigt, macht schnell eine seltsame Feststellung, die nicht zu einer Sprache oder zu einem verschlüsselten Text passen will. Und zwar ist dies die Neigung der »Wortfolgen« zu identisch aufeinanderfolgenden »Wörtern«. Diese scheinen sehr häufig aufzutreten.

Nun könnte es sein, dass uns hier unsere Wahrnehmung einen Streich spielt. Das wäre gar nicht ungewöhnlich. Wenn sich die menschliche Wahrnehmung auf regellose Strukturen konzentriert, dann beginnt sie damit, in diesen Strukturen Muster zu erkennen, auch wenn keine vorhanden sind. Ein vertrautes Beispiel für diese Eigenart des Wahrnehmens sind die Sternbilder, die Menschen in der recht regellosen Anordnung der Fixsterne zu erkennen glauben.

Es lohnt sich also, die Wortdubletten mit einem Programm zu untersuchen. Dafür habe ich zunächst meine Skripten für die wortweise Analyse geschrieben. Die folgende Untersuchung ist recht einfach, sie liefert aber klaren Aufschluss darüber, dass die Wortdubletten eine wirkliche Eigenschaft der Wortfolge und kein Artefakt der menschlichen Wahrnehmung sind.

Für meine Untersuchung bediente ich mich Takahashi’s Transkription, weil diese vollständig ist. Mit dem Befehl viat -tH -C > h.txt erzeugte ich eine Datei namens h.txt, die frei von Kommentaren ist. Danach erzeugte ich mit dem Befehl wsplit h.txt > hw.txt eine Zerlegung der Transkription in Einzelwörter in der Datei hw.txt. Die Lokatoren wurden in dieser Datei belassen, damit Dubletten über Zeilengrenzen hinweg nicht gezählt würden. (Der Lokator beginnt gewissermaßen jede Zeile mit einem im gesamten Manuskript einmaligen »Wort«, welches für diese Anwendung die Zeilen voneinander trennt.)

Nun konnten die Dubletten einfach mit wdup hw.txt | wc -l gezählt werden. Dabei ergeben sich genau 300 Dubletten in der Transkription, also im Schnitt deutlich mehr als eine Dublette pro Seite.

Um diese Zählung mit einer zufälligen Verteilung der Wörter zu vergleichen, mischte ich die Wortfolge mit meinem shuffle-Skript und bestimmte die Dubletten in der so gemischten Wortfolge. Da dies ein Monte-Carlo-Ansatz ist, wiederholte ich den Befehl shuffle hw.txt | wdup | wc -l zehn Mal, indem ich ihn in einer Schleife absetzte. Und das ist mein Ergebnis:

$ for i in `seq 10`
> do
>   shuffle hw.txt | wdup | wc -l
> done
94
102
89
88
95
97
105
102
110
119

Da es sich hier um ein Experiment unter Verwendung eines Zufallsgenerators handelt, können die bei Ihnen ermittelten Dublettenanzahlen der zufälligen Wortfolge natürlich von meinen Ergebnissen abweichen. Dennoch ist deutlich, dass der Durchschnittswert von ungefähr 100 Dubletten bei zufälliger Verteilung der gleichen Wortmenge signifikant unterhalb der gezählten 300 Dubletten in der originalen Transkription liegt. Die große Häufigkeit von Wortdubletten ist somit kein Artefakt unserer Wahrnehmung, sondern eine wirkliche Eigenschaft des Manuskriptes, deren Bedeutung bei einem Entzifferungsversuch geklärt werden muss.

Neben den Wortdubletten gibt es ebenfalls sehr häufig Anhäufungen aufeinander folgender ähnlicher Worte, die sich in nur einer Glyphe voneinander unterscheiden. So findet sich schon auf der ersten Seite die beachtliche »Wortfolge« chor shey kol chol chol kor chal, und auf Seite f75r kann man die beachtliche »Wortfolge« qokeedy qokeedy qokedy qokedy qokeedy finden.

Angesichts dieser Eigenschaften des »Textes« erscheint es mir sehr unwahrscheinlich, dass es sich bei der »Wortfolge« um eine nur einfach verschlüsselte Form einer Mitteilung in einer mitteleuropäischen Sprache handelt.

Thema: Ergebnisse | Kommentare (3) | Autor: