Beitrags-Archiv für die Kategory 'Hacking'

Wortweise

Mittwoch, 3. August 2005 2:20

Es scheint sinnvoll, die Folge der einzelnen Wörter einer Analyse zu unterwerfen. Zu diesem Zweck habe ich drei einfache Programme geschrieben. Diese werde ich ebenfalls als elementare Tools für weitere Analysen verwenden.

Alle Programme sind dokumentiert, die Dokumentation kann mit dem perldoc-Tool extrahiert werden. Des weiteren liegt eine kurze Einführung in englischer Sprache bei.

Es ist empfehlenswert, diese Programme in den Suchpfad für Kommandos zu kopieren.

  • wsplit zerlegt einen Text in einzelne Wörter, wobei jedes Wort in einer eigenen Zeile ausgegeben wird. Kommentare einer Transkription werden dabei entfernt. Über Optionen können Wörter mit Asterisk und Passagen in eckigen Klammern ausgeschlossen werden.
  • wdup zählt aufeinanderfolgende identische Wörter, die ja im Manuskript außerordentlich häufig sind. Es kann aber auch für andere Zwecke benutzt werden.
  • shuffle mischt die Zeilen einer Eingabedatei durch, bringt sie also in eine zufällige, neue Reihenfolge.

Thema: Hacking | Kommentare (0) | Autor:

Ausnahmen ohne Regel

Dienstag, 2. August 2005 1:36

Bei einer ersten, nicht besonders gründlichen Durchsicht der frisch angelegten Konkordanz stellte ich keine auffälligen Muster in den »Wörtern« fest. Natürlich gibt es »Wörter«, die tendenziell häufiger zu Anfang oder zum Ende einer Zeile auftreten, dies liegt jedoch an der schon häufiger beobachteten Struktur in einer Zeile. Der Eindruck, dass die Zeile eine Informationseinheit ist, lässt sich nicht leicht von der Hand weisen.

Wenn etwa das mit 98 Vorkommen (in der Transkription von Takeshi Takahashi, die ich für diese kurze Analyse verwendet habe) recht häufige »Wort« dam besonders häufig als letztes Wort in einer Zeile auftritt, so liegt das an der wohl bekannten Eigenschaft der Glyphe m, bevorzugt am Ende einer Zeile aufzutreten. Das ist keine neue Erkenntnis.

Ich erhoffte mir allerdings jetzt einen besseren Blick auf die Ausnahmen, also jene Fälle, in denen dam nicht am Ende einer Zeile steht. Würden in solchen Fällen besondere Muster in den vorherigen oder folgenden »Wörtern« auftauchen?

Aber die traurige Wahrheit ist: Zumindest für dam gibt es keine Regelmäßigkeiten in den Ausnahmen. Es finden sich häufige »Wörter« ebenso wie seltene oder einmalige, es gibt keine auffälligen Strukturen in diesen »Wörtern«, es gibt einfach nichts, was ein neues Licht auf die Sache wirft. Alles andere hätte mich auch überrascht. Aber die Hoffnung stirbt zuletzt.

Aber es ist ja gar nicht so sicher, dass die Leerzeichen »Wörter« voneinander trennen: di ege schick te eins tre ungvonle erz eich enkan nein entex tschong utvers chle iern, was denn jeden Versuch, Wortarten aufzufinden, schnell scheitern lässt. Und wie Sie an diesem Beispiel sehen, ist ein solcher Text für einen der Sprache kundigen Menschen durchaus noch lesbar, wenn auch mit etwas Mühe.

Aber die Konkordanz bleibt dennoch ein schönes und einfaches Hilfsmittel, um kleine Vermutungen bezüglich der Wortfolge schnell zu überprüfen.

Thema: Interpretation | Kommentare (0) | Autor:

Vollständige Konkordanz

Montag, 1. August 2005 21:01

Wenn man die Wörter im Voynich-Manuskript für eine Sprache hält, dann ist es eine gute Idee, eine Konkordanz des gesamten Manuskriptes anzulegen, also eine Übersicht, die jede Fundstelle jedes Wortes in ihrem Zusammenhang darstellt. So schafft man sich eine Möglichkeit, Wortarten zu identifizieren oder einfache Hypothesen zu überprüfen.

Gut, dass es Computer gibt, als Handarbeit wäre so etwas eine Qual. Mit einem Rechner hat man nur die Qual des Programmierens. Damit ist man zwar auch ein paar Stündchen beschäftigt (vor allem mit der Fehlersuche), aber danach arbeitet der Rechner. Und der liefert in wenigen Minuten ein Ergebnis, für das ein Mensch auf Jahre beschäftigt gewesen wäre.

Mein Perl-Skript concord erstellt mit Hilfe des Tools viat eine vollständige Konkordanz aus den Transkriptionen in Jorge Stofis Interlinear-Archiv. Die Konkordanz wird in leicht navigierbarem HTML erzeugt, für die Darstellung wird der Font EVA Hand 1 verwendet. Für jedes Wort, dass keine unidentifizierten Glyphen enthält, wird eine Liste aller Vorkommen mit einem kleinen Kontext erstellt. Die im Kontext dargestellten Wörter sind Links und verweisen wiederum auf die entsprechende Liste des jeweiligen Wortes.

Das hört sich alles komplizierter an, als es ist. Tatsächlich ist die generierte Konkordanz so leicht verwendbar, dass sie kaum einer Erklärung bedarf. (Das Programm ist dafür umso komplizierter geworden.) Da sie aber geradezu absurd viel Speicherplatz belegt (es sind 130 MB in insgesamt 28270 Dateien), stelle ich sie hier nicht zum Download zur Verfügung. Sicherlich, die Daten lassen sich mit zip auf gut 30 MB komprimieren, aber keine Kompression ist hier so gut wie das generierende Programm mit seinen 5,3 KB.

Thema: Hacking | Kommentare (1) | Autor:

Skripten für das Interlinear-Archiv

Samstag, 30. Juli 2005 23:54

Für die weitere Arbeit mit dem Interlinear-Archiv der Transkriptionen habe ich mir ein paar gängige Skripten an meine Arbeitsweisen angepasst. Diese Skripten stehen hier zum Download. Es handelt sich um die Perl-Programme viat.pl und vhtml.pl. Das Skript viat.pl extrahiert dabei definierbare Bereiche aus der Transkriptionsdatei und löst optional auch die Weirdos in Einzelzeichen auf, das Skript vhtml.pl formatiert EVA-Transkriptionen als HTML-Dateien unter Verwendung des Zeichensatzes EVA Hand 1.

Freunde der Maus seien gewarnt: Es handelt sich um Programme, die an der Kommandozeile zu benutzen sind. Da sie in Perl geschrieben sind, wird zusätzlich ein Perl-Interpreter für Ihr System benötigt.

Die folgenden Änderungen habe ich an den Skripten vorgenommen:

  • Die Extension .pl wurde entfernt, da es für ein Unix-System ausreicht, wenn ein Skript ausführbar ist und ein korrekter Hashbang mit dem Pfad des Interpreters gesetzt wurde. Und ich bin etwas tippfaul, da mag ich nichts überflüssiges zum Tippen.
  • Die eingebettete Dokumentation wurde an die vorgenommenen Änderungen angepasst. Sie kann mit dem perldoc-Programm gelesen oder in ein anderes Format gewandelt werden.
  • Es ist nicht mehr erforderlich, dass sich die Transkriptionsdatei im aktuellen Verzeichnis befindet. Die Umgebungsvariable VOYNICH muss jetzt so gesetzt werden, dass sie den kompletten Pfad zur Transkriptionsdatei enthält, wenn nicht eine andere Transkriptionsdatei auf der Kommandozeile angegeben wird.

Um diese Programme zu installieren, müssen sie

  1. zunächst einmal heruntergeladen werden.
  2. Dann müssen sie irgendwo in den Suchpfad für Programme kopiert werden, unter Unix-artigen Systemen wird dieser Suchpfad über die Umgebungsvariable PATH definiert.
  3. Anschließend sollte das Interlinear-Archiv der Voynich-Transkriptionen heruntergeladen und entpackt werden. Die Umgebungsvariable VOYNICH ist so zu setzen, dass sie den vollständigen Pfad dieser Datei enthält.
  4. Nun stehen die Programme zur Verfügung. Probieren Sie einmal viat -tH -f1 an der Kommandozeile aus, um Folio 1 in der Transkription von Takeshi Takahasi zu extrahieren. Weitere Informationen über den Programmaufruf erhalten sie mit viat -h.

Thema: Hacking | Kommentare (0) | Autor: