Beitrags-Archiv für die Kategory 'Ergebnisse'

Die verborgenen Strukturen

Montag, 19. November 2007 0:27

Zu den bisherigen Versuchen, Voynich-artige Dokumente ohne Inhalt zu erzeugen, habe ich in diesem Blog mehrfach eine Andeutung über Strukturen im Voynich-Manuskript gemacht, die ich aber bislang nicht mit weiteren Daten belegt habe.

Zwar besteht bei den algorithmschen Reproduktionen bei oberflächlicher Betrachtung eine gewisse Ähnlichkeit zum Voynich-Manuskript, auch werden die typischen Wort-Strukturen des Manuskriptes durchaus überzeugend hervorgebracht, aber die Strukturen innerhalb der Zeilen und innerhalb der Seiten werden niemals reproduziert und wurden von den findigen Forschern gar nicht weiter beachtet. Alle Schlussfolgerungen, die auf einer optisch ähnlichen, aber strukturell unvollständigen mechanischen Reproduktion beruhen, sind fragwürdig – vor allem, wenn lauthals und reißerisch postuliert wird, dass es sich beim gesamten Manuskript um eine inhaltslose Nachricht, um einen Betrugsversuch eines talentierten Fälschers handelt.

Die verborgenen Strukturen sind im Manuskript vorhanden, recht deutlich, durch einfache Analysemethoden aufzudecken und bislang noch nicht mechanisch reproduziert worden. (Auch ich bin übrigens bei einigen einfachen Versuchen, Voynich-ähnliche Texte zu erzeugen, an dieser »Kleinigkeit« gescheitert.) Sie zeigen sich als eine zunächst nicht auffällige, aber statistisch sichtbare Feinstruktur innerhalb der Zeilen, der Absätze und innerhalb der Seiten.

Diese Strukturen sollen hier etwas beleuchtet werden, wobei ich nicht auf alle Einzelheiten eingehen werde. Insbesondere werde ich Strukturen innerhalb der Absätze nicht berücksichtigen.

Das Manuskript ist hoch strukturiert

Schon bei der Betrachtung einer Transkription fällt den meisten Menschen auf, dass die einzelnen Wörter im Manuskript nicht willkürlich gebildet sind. Die Strukturen innerhalb eines Wortes gehören zu den Eigenschaften, die so auffällig sind, dass sie kaum jemand übersieht – diese starken Strukturen innerhalb eines Wortes sind übrigens das deutlichste Argument gegen eine direkte Niederschrift einer heute in Europa gesprochenen Sprache, da keine europäische Sprache vergleichbare Strukturen aufweist.

So weit ich (der ich kein Experte für vergleichende Sprachwissenschaft bin) weiß, passen solche Muster nur auf Sprachen, die angesichts der europäischen Gestaltung der Illustrationen sehr unerwartet sind. Eine phonetische Niederschrift einer Sprache der tibeto-chinesischen Familie würde ähnliche Worteigenschaften hervorbringen, wenn der Ton der jeweiligen Silbe mitnotiert würde.

Im Voynich-Wort hat jede Glyphe ihren festen Platz. Einige Glyphen können nur am Anfang stehen, etwa q oder qo; andere sind typisch für das Ende eines Wortes, etwa iin, iir, dy oder im; wieder andere können an beliebiger Stelle im Wort erscheinen, etwa ch, sh, ee, s, d, p, f, t, k und die charakteristischen Kombinationen aus einem Gallow und ch wie ckh. Diese Regeln werden überlagert von einem zweiten Regelsatz, den ich als »harmonische Regeln« bezeichne; das Aufeinanderfolgen bestimmter Glyphen wird im Manuskript vermieden. Beide Regelsätze sind – um jeden Forscher zu verwirren – nicht völlig ohne Ausnahmen. Gegen die »harmonischen Regeln« verstoßen etwa 10 Prozent der Wörter, gegen die allgemeinen Regeln zum Wortaufbau verstoßen etwa 5 Prozent der Wörter im Manuskript – und diese beiden Gruppen von ungewöhnlich gebildeten Wörtern sind recht regellos im Text verteilt.

Trotz der vielen Ausnahmen: Die Regelmäßigkeit in der Struktur der Wörter ist eine grobe, der Anschauung entgegenkommende Tatsache, die jeder irgendwann bemerkt. Über diese auffällige Wortstruktur wird jedoch die Struktur der Wortverteilung in einer Zeile oft übersehen, obwohl sie sich durch einfachste Analysen offen legen lässt.

Für alle folgenden Analysen habe ich die Transkription von Takeshi Takahashi verwendet. Textuelle Besonderheiten wie Labels und Titel wurden herausgefiltert. Die beiden Perl-Skripten für die Verarbeitung stehen für eigene Experimente zum freien Download zur Verfügung.

Die Verteilung der Wortlängen in einer Zeile

Zunächst findet sich eine recht deutliche Struktur in den Zeilen. Die Wortlängen sind innerhalb einer Zeile nicht gleichmäßig verteilt, tendenziell erscheinen längere Wörter am Anfang der Zeile.

In den folgenden Diagrammen wird für die x-Achse jeweils der Wortindex aufgetragen (also die Information, um das wievielte Wort der Zeile es sich handelt), auf der y-Achse ist die durchschnittliche Länge des Wortes aufgetragen. Diese Analyse wird getrennt für den biologischen, pflanzenkundlichen und abschließenden Teil vorgenommen, sie wird ergänzt um die wenigen reinen Textseiten im Manuskript. Diese Auswahl wurde vorgenommen, weil die anderen Teile des Manuskriptes von ringförmigen Anordnungen des Textes geprägt sind, bei denen es willkürlich ist, bei welchem Wort die Zählung beginnt.

Zunächst die biologischen Seiten:

Wortlängen pro Zeile biologischer Teil

Jetzt die pflanzenkundlichen Seiten:

Wortlängen pro Zeile pflanzenkundliche Seiten

Jetzt die Seiten des abschließenden Teiles, die eine besonders deutliche Verteilung zeigen:

Wortlängen pro Zeile abschließender Teil

Und schließlich noch ein Blick auf die reinen Textseiten:

Wortlängen pro Zeile reine Textseiten

Das Muster in der Verteilung der durchschnittlichen Wortlängen ist recht deutlich, und es kann nicht auf einem Zufall beruhen. In einer Zeile erscheinen zum Anfang tendenziell die längeren (aus mehreren Glyphen bestehenden) Wörter, zum Ende hin nimmt die durchschnittliche Länge eines Wortes ab. Auffällig ist ferner, dass das zweite Wort einer Zeile tendenziell kürzer als das erste und dritte Wort ist, aber diese Erscheinung ist nicht so deutlich, als dass man eine verbindliche Aussage dazu machen möchte.

Wenn das Manuskript einen Inhalt hat, denn muss diese Verteilung der Wortlängen etwas mit der Form zu tun haben, in der dieser Inhalt niedergeschrieben wurde. Die Zeile im Voynich-Manuskript ist deutlich und nachweisbar strukturiert, die Wörter nehmen darin keine willkürliche Position ein. Jede Zeile ist als eine Informationseinheit zu betrachten. Jede Annäherung an den Inhalt des Manuskriptes muss diese Erscheinung in irgendeiner Weise erklären oder reproduzieren können, und diese Erklärung sind bisherige, dem Augenschein verhaftete »Lösungen« völlig schuldig geblieben.

So wenig einem die zählende Einsicht beim Verständnis weiterhilft, so sehr hilft sie doch dabei, vorschnelle Schlüsse einiger Autoren zu verwerfen. Eine direkte sprachliche Niederschrift menschlicher Sprache würde solche Strukturen in einem Fließtext nicht aufweisen, aber es ist sehr wohl möglich, dass solche Strukturen in lyrischen Texten aufscheinen. Wer eine Fälschung des Manuskriptes postuliert und hierzu ein Verfahren entwickelt, dass vergleichbare Texte erzeugt, muss sich auch Gedanken um die Strukturen in der Zeile machen.

Die Strukturen innerhalb einer Seite

Es gibt aber auch Strukturen innerhalb der Manuskript-Seite, die nicht ganz so deutlich sind, aber doch in eingen Teilen deutlich genug, um nicht durch einen Zufall erklärt werden zu können. Bei dieser Untersuchung werden Unterschiede zwischen den einzelnen Teilen des Manuskriptes auch am Text deutlich. Ich werde hier nur eine Struktur innerhalb der Seiten herausgreifen, weil sie sehr unerwartet ist.

Die auffälligsten Zeichen im Manuskript sind die so genannten »Gallows«, dies sind die großen, geschwungenen Glyphen f, p, t und k. Diese Glyphen geben einige Rätsel auf, da sie seltsame Ligaturen mit der ch-Glyphe bilden können, obwohl die Existenz einer solchen Ligatur bei der relativen Seltenheit dieser Zeichenfolgen überrascht. In den folgenden Diagrammen ist auf der x-Achse die laufende Zeilennummer auf der Seite aufgetragen, auf der y-Achse ist die durchschnittliche Anzahl der Gallows in diesen Zeilen aufgetragen. Diese Analysen sind für kleinere Zeilennummern aussagekräftiger, da dort mehr Text eingeflossen ist. Es kommt deshalb bei den hohen Zeilennummern zu deutlichen Fluktuationen.

Zunächst einmal die reinen Textseiten:

Gallows pro Textzeile reine Textseiten

Recht ähnlich sieht dieses Diagramm für die Seiten des abschließenden Teiles aus:

Gallows pro Zeile abschließender Teil

Bei alleiniger Betrachtung dieser Diagramme scheint es nicht den geringsten Zusammenhang zwischen der Häufigkeit der Gallows und der Position auf der Seite zu geben. Es scheint sich um mehr oder minder starke Schwankungen um einen Mittelwert zu handeln. Dieser Mittelwert liegt bei den reinen Textseiten bei 6 Gallows pro Zeile, bei den Seiten des abschließenden Teiles bei 6,6 Gallows pro Zeile. Die vergleichsweise starken Schwankungen der Verteilung für die reinen Textseiten erklären sich aus der Tatsache, dass es nur fünf reine Textseiten gibt, nämlich f1r, f58r, f58v, f66r, f85r1 – der abschließende Teil verfügt hingegen über 23 Seiten, so dass sich lokale Fluktuationen besser herausmitteln können.

Es gibt aber auch noch andere Teile im Manuskript, und da sehen die Diagramme völlig anders aus. Im biologischen Teil ergibt sich die folgende Verteilung:

Gallows pro Seite für den biologischen Teil

Hier zeigt sich schon eine sehr andersartige Verteilung, es gibt einen deutlichen Abwärtstrend in der durchschnittlichen Anzahl der Gallows für den unteren Teil des Dokumentes. Diese Struktur in der Verteilung der Gallows zeigt sich noch etwas deutlicher im pflanzenkundlichen Teil:

Gallows pro Zeile pflanzenkundlicher Teil

Es liegt also ein Zusammenhang zwischen dem mutmaßlichen, an Hand der Illustrationen naheliegenden Inhalt einer Seite und der Verteilung bestimmter Zeichengruppen auf der Seite vor. Dieser Zusammenhang ist nicht offensichtlich, er tritt unerwartet und überraschend bei einer Zählung in Erscheinung. Er ermöglicht es prinzipiell, die Art der Seiten nicht nur an Hand der Illustrationen, sondern auch an Hand einer Struktur des Textes auf dieser Seite zu erkennen. Es handelt sich vielleicht sogar um einen inhaltlichen Zusammenhang, dessen Bedeutung allerdings (mir noch) unklar ist.

Die ungleichmäßige Verteilung bestimmter Glyphen innerhalb des Kontextes einer Seite ist in jedem Fall schwer zu verstehen. Wenn man das Voynich-Manuskript als direkt niedergeschriebene Sprache deutet, würde eine solche Erscheinung bedeuten, dass bestimmte Laute oder Lautfolgen am Anfang eines Textes häufiger erscheinen als zum Ende hin; eine solche Erscheinung wäre eine sehr ungewöhliche lyrische Kunstform. (Gibt es Sprachen, in deren Lyrik so etwas üblich ist?) In jedem Fall zeigt sich durch einfaches Zählen der Gallows bei den biologischen Seiten schwach und recht deutlich bei den pflanzenkundlichen Seiten des Manuskriptes, dass dort jede Seite eine strukturierte Informationseinheit ist.

Abschließendes

Schon relativ einfache Analysen zeigen, dass das gesamte Voynich-Manuskript auf jeder denkbaren Betrachtungsebene (Zeichen, Zeilen, Seiten) hoch strukturiert ist. Die bisherigen Versuche, algorithmisch einen Voynich-ähnlichen Text zu erzeugen, haben nur Teile dieser Struktur reproduzieren können – leider wurden daraus weit reichende Schlüsse gezogen und publiziert.

Jede Erklärung für das Voynich-Manuskript muss die Gesamtheit der auftretenden Strukturen erklären. Es kann durchaus sein, dass dieses Manuskript keine »Nachricht« im herkömmlichen Sinne des Wortes enthält, aber wer das belegen will, indem er einen inhaltsleeren Text mechanisch konstruiert, der muss sehen, dass es mit der bloßen Erzeugung ähnlicher Glyphenfolgen nicht getan ist. Es müssen auch die leicht sichtbar zu machenden Strukturen innerhalb der Zeile und die teilweise auftretenden Strukturen innerhalb der Seite eines bestimmten Abschnittes reproduziert werden – und es muss eine vernünftige Erklärung gefunden werden, warum diese Strukturen in einem Kontext entstanden sind, im anderen hingegen nicht. Diese Aufgabe ist sehr viel schwieriger, als die von Gordon Rugg und seinen Nachahmern erstellten Demonstrationen für die Erzeugung Voynich-artiger Textfragmente, leider wird von solchen Autoren denn auch über diesen Problemkreis geschwiegen.

Wir versuchen jedenfalls weiter, die Botschaft zu lesen…

Thema: Ergebnisse, Hacking | Kommentare (4) | Autor:

f2r: Eine Pflanze namens kydainy

Donnerstag, 8. November 2007 0:19

Miniaturdarstellung der Seite f2rZugegeben, dieser »Pflanzenname« auf der Seite f2r ist in gewisser Weise ein Witz, aber keiner der billigen und schlechten Sorte. Es weiß zwar niemand, wie die »Pflanzen« des Voynich-Manuskriptes heißen, aber Jorge Stolfi hat vor ungefähr zehn Jahren eine ausgesprochen interessante Entdeckung an den »Texten« des »pflanzenkundlichen Teils« gemacht.

Bei seiner Entdeckung aus dem Jahr 1998 ging Jorge Stolfi von der offenbaren Tatsache aus, dass jede dieser Seiten genau eine »Pflanze« darstellt. Wenn es einen inhaltlichen Zusammenhang zwischen dem »Text« und den Darstellungen einer solchen Seite gibt, denn könnte es ja durchaus möglich sein, dass der Name dieser »Pflanze« im Text auftaucht. Diese Annahme setzt allerdings voraus, dass es sich nicht um einen stark verschlüsselten Text, sondern um eine mehr oder minder direkte Notation natürlicher Sprache handelt. Aber die Annahme lässt sich leicht mit Hilfe eines Computers überprüfen, wenn man eine Transkription vorliegen hat – es reicht aus, nach »Wörtern« zu suchen, die einmalig nur auf diesen Seiten erscheinen.

Ganz so einfach ist es allerdings doch nicht. Viele Voynich-Glyphen sehen sich sehr ähnlich, das Transkribieren ist eine fehlerträchtige Tätigkeit und alle Transkriptionen sind umstritten. Deshalb wurde die Untersuchung nicht an einer rohen EVA-Transkription vorgenommen, vielmehr wurde der Text der Transkription so bearbeitet, dass ähnliche Glyphen so in identischen lateinischen Buchstaben zusammengefasst werden, dass häufige Transkriptionsfehler keine Rolle für das Ergebnis spielen. Darüber hinaus sind die Leerzeichen unsicher in der Deutung und die q-Glyphe wird wegen ihres regelmäßigen Auftretens am Wortanfang für eine »grammatikalische« Erscheinung gehalten. Die vorgenommene Transformation sieht im Einzelnen so aus:

  1. Lösche jedes q am Beginn eines Wortes
  2. Ersetze jedes t durch ein k
  3. Ersetze jedes f durch ein p
  4. Ersetze jedes y am Wortanfang durch ein o
  5. Ersetze jedes a oder o am Wortende durch ein y
  6. Ersetze jedes ee durch ein ch
  7. Ignoriere alle Leerzeichen für die Analyse

Es ist klar, dass durch diese Transformation Information aus dem »Text« zerstört wurde. Da im Manuskript viele ähnliche Wörter auftreten, wäre ein eindeutiges Ergebnis trotz dieser Transformation schon ein recht sicheres Indiz.

Jorge Stolfi kam zu einem recht eindeutigen Ergebnis (die Übel-Setzung ins Deutsche ist von mir):

Es hat sich herausgestellt, dass das erste Wort jeder Seite beinahe immer seiten-spezifisch ist. Ich betrachte diese Tatsache als ein Zeichen dafür, dass wir es als Regel betrachten können, dass das erste Wort der Seite der Name der Pflanze ist. Darüber hinaus scheinen die meisten Abweichungen von dieser Regel darin bedingt zu sein, dass ein Wort durch ein fragliches Leerzeichen umbrochen wurde. In diesen Fällen können wir gewöhnlich ein seiten-spezifisches Wort erhalten, wenn wir die ersten zwei oder drei Wörter der Seite zusammenfügen.

Kydainy - der Name der Pflanze?So auch das Wort kydainy, dieses völlig »unverdächtig« aussehende erste Wort der Seite f2r. Die beschriebene Transformation verwandelt dieses »Wort« in »kydaino«, und dieses Muster kommt im gesamten pflanzenkundlichen Teil des Voynich-Manuskriptes nicht noch einmal vor – trotz einer Transformation, die ähnlich gebaute »Wörter« aufgefunden hätte. Das ist – alles in allem – ein eher unerwartetes und verwirrendes Ergebnis einer recht einfachen Untersuchung, das die These stützt, dass es sich beim »Text« des Manuskriptes um eine direkt notierte Sprache handeln könnte.

Kydain, das erste Wort des zweiten Absatzes dieser Seite. Ist das nur eine grammatikalische Erscheinung?Interessanterweise enthält die Seite f2r zwei Absätze, und der zweite Absatz beginnt mit der sehr ähnlichen Glyphenfolge kydain – da fehlt nur die y-Endung. Auch dieses »Wort« ist im gesamten Manuskript eindeutig, so dass der Verdacht sehr nahe liegt, dass gewisse Endungen eine »grammatikalische« Erscheinung sind. Aber das ist ein völlig anderes Thema, das hier einmal ausführlich gewürdigt werden wird.

Die Blüte der Pflanze erinnert entfernt an eine KornblumeDass man einen mutmaßlichen Namen der Pflanze angeben kann, hilft leider nicht beim Lesen des Manuskriptes. Denn diese »Pflanze« ist nicht identifizierbar. Dies gilt für alle Pflanzen der Manuskriptes, so dass die von Jorge Stolfi gefundene Eigenschaft nicht beim Lesen des Textes hilfreich ist.

Die Blüte dieser Pflanze erinnert recht deutlich an eine Kornblume (centaurea cyanus), wenn auch die typische blaue Farbe fehlt. Dies führte Petersen dazu, diese Seite informell als »Cornflower« zu bezeichnen. Leider ist die Blattform völlig falsch, und die rötlichen Strukturen auf dem Stängel widersetzen sich ebenfalls der Deutung der Pflanze als Kornblume.

Die Wurzel dieser PflanzeSehr eigentümlich ist die gezeichnete Form der Wurzel.

Sie sieht – wenn man sie isoliert betrachtet – gar nicht wie eine Wurzel aus, sondern macht den Eindruck, als wenn sie ebenfalls aus Schriftzeichen bestände. Diese »Wurzelschrift« ist allerdings ebenfalls unlesbar, so dass hier unklar bleibt, ob man einem Wahrnehmungsfehler aufgesessen ist oder ob man eine wirkliche Eigenschaft der Illustration sieht. Vielleicht sollte ich es einmal mit einer Zubereitung wirklicher Kornblumen probieren, diese dient unter anderem zur Behandlung der Augen durch Waschungen…

Da viele Pflanzen nichts mit Produkten der irdischen Evolution zu tun haben, lohnt es sich, immer einen offenen Geist für andere Deutungen gewisser enigmatische Elemente in diesen Pflanzen zu haben. Wenn man dabei nur nicht so leicht in haltlose Spekulationen käme… ;-)

Thema: Ergebnisse, Seiten | Kommentare (2) | Autor:

Wortdubletten

Mittwoch, 3. August 2005 16:21

Wer sich mit den »Wortfolgen« im Voynich-Manuskript beschäftigt, macht schnell eine seltsame Feststellung, die nicht zu einer Sprache oder zu einem verschlüsselten Text passen will. Und zwar ist dies die Neigung der »Wortfolgen« zu identisch aufeinanderfolgenden »Wörtern«. Diese scheinen sehr häufig aufzutreten.

Nun könnte es sein, dass uns hier unsere Wahrnehmung einen Streich spielt. Das wäre gar nicht ungewöhnlich. Wenn sich die menschliche Wahrnehmung auf regellose Strukturen konzentriert, dann beginnt sie damit, in diesen Strukturen Muster zu erkennen, auch wenn keine vorhanden sind. Ein vertrautes Beispiel für diese Eigenart des Wahrnehmens sind die Sternbilder, die Menschen in der recht regellosen Anordnung der Fixsterne zu erkennen glauben.

Es lohnt sich also, die Wortdubletten mit einem Programm zu untersuchen. Dafür habe ich zunächst meine Skripten für die wortweise Analyse geschrieben. Die folgende Untersuchung ist recht einfach, sie liefert aber klaren Aufschluss darüber, dass die Wortdubletten eine wirkliche Eigenschaft der Wortfolge und kein Artefakt der menschlichen Wahrnehmung sind.

Für meine Untersuchung bediente ich mich Takahashi’s Transkription, weil diese vollständig ist. Mit dem Befehl viat -tH -C > h.txt erzeugte ich eine Datei namens h.txt, die frei von Kommentaren ist. Danach erzeugte ich mit dem Befehl wsplit h.txt > hw.txt eine Zerlegung der Transkription in Einzelwörter in der Datei hw.txt. Die Lokatoren wurden in dieser Datei belassen, damit Dubletten über Zeilengrenzen hinweg nicht gezählt würden. (Der Lokator beginnt gewissermaßen jede Zeile mit einem im gesamten Manuskript einmaligen »Wort«, welches für diese Anwendung die Zeilen voneinander trennt.)

Nun konnten die Dubletten einfach mit wdup hw.txt | wc -l gezählt werden. Dabei ergeben sich genau 300 Dubletten in der Transkription, also im Schnitt deutlich mehr als eine Dublette pro Seite.

Um diese Zählung mit einer zufälligen Verteilung der Wörter zu vergleichen, mischte ich die Wortfolge mit meinem shuffle-Skript und bestimmte die Dubletten in der so gemischten Wortfolge. Da dies ein Monte-Carlo-Ansatz ist, wiederholte ich den Befehl shuffle hw.txt | wdup | wc -l zehn Mal, indem ich ihn in einer Schleife absetzte. Und das ist mein Ergebnis:

$ for i in `seq 10`
> do
>   shuffle hw.txt | wdup | wc -l
> done
94
102
89
88
95
97
105
102
110
119

Da es sich hier um ein Experiment unter Verwendung eines Zufallsgenerators handelt, können die bei Ihnen ermittelten Dublettenanzahlen der zufälligen Wortfolge natürlich von meinen Ergebnissen abweichen. Dennoch ist deutlich, dass der Durchschnittswert von ungefähr 100 Dubletten bei zufälliger Verteilung der gleichen Wortmenge signifikant unterhalb der gezählten 300 Dubletten in der originalen Transkription liegt. Die große Häufigkeit von Wortdubletten ist somit kein Artefakt unserer Wahrnehmung, sondern eine wirkliche Eigenschaft des Manuskriptes, deren Bedeutung bei einem Entzifferungsversuch geklärt werden muss.

Neben den Wortdubletten gibt es ebenfalls sehr häufig Anhäufungen aufeinander folgender ähnlicher Worte, die sich in nur einer Glyphe voneinander unterscheiden. So findet sich schon auf der ersten Seite die beachtliche »Wortfolge« chor shey kol chol chol kor chal, und auf Seite f75r kann man die beachtliche »Wortfolge« qokeedy qokeedy qokedy qokedy qokeedy finden.

Angesichts dieser Eigenschaften des »Textes« erscheint es mir sehr unwahrscheinlich, dass es sich bei der »Wortfolge« um eine nur einfach verschlüsselte Form einer Mitteilung in einer mitteleuropäischen Sprache handelt.

Thema: Ergebnisse | Kommentare (3) | Autor: