Erstellen einer Konkordanz

Wer sich mit der »Wortfolge« des Voynich-Manuskriptes beschäftigen möchte, bekommt schnell den Wunsch, eine vollständige Konkordanz aller Transkriptionen zu verwenden. In einer solchen Konkordanz werden sämtliche »Wörter« mit allen ihren Fundstellen aufgelistet, zu jedem Wort wird jeweils noch ein Stück Kontext der Zeile aufgeführt, in der dieses Wort auftritt.

Ich habe mein kleines Programm zum Erstellen einer solchen Konkordanz in HTML ja schon vor vielen Monaten hier veröffentlicht, und die damit erstellte Konkordanz stellt mich vollständig zufrieden. Besonders angenehm ist die Auszeichnung aller »Wörter« als Hyperlinks, so dass die gesamte Konkordanz mit der Maus navigierbar wird. Wer einmal einen Eindruck haben möchte, wie so etwas aussieht: Ich habe mal die Seite für das Wort qokain in der Transkription von Takeshi Takahashi zum Download gestellt — natürlich funktionieren dabei die Links nicht, weil die weiteren Seiten fehlen.

Allerdings hat sich inzwischen der Leser- und Nutzerkreis dieses Blogs etwas verändert, da dieses Blog nun auch als Informationssammlung für die deutschsprachige Voynich-Group bei Yahoo dient. Deshalb kann ich hier nicht mehr bei jedem so viel Hintergrundwissen voraussetzen, dass die sehr knappen Erläuterungen zur Erstellung einer Konkordanz ausreichend wären. Ich habe schon daran gedacht, die Konkordanz als Ganzes zum Download zu stellen, sie hat allerdings einen Umfang von knapp 110 Megabyte, was sowohl eine erhebliche Last für den zur Verfügung stehenden Webspace und Traffic als auch für den Download über langsame Leitungen eine Zumutung wäre.

Deshalb gebe ich hier eine sehr genaue Anleitung, wie die Konkordanz der Transkriptionen des Voynich-Manuskriptes aus frei verfügbaren Dateien mit Hilfe eines Computers erstellt werden kann. Wer dabei das erste Mal in seinem Leben mit Programmierung konfrontiert ist, sollte deshalb nicht verzagen: Die Programme sind bereits fertig, sie müssen nur zum Laufen gebracht werden. Und der Ablauf eines Computerprogrammes ist ein strikt deterministischer Vorgang, der aus den gleichen Eingabedateien überall die gleichen Ausgabedateien macht. Es ist also nicht halb so schlimm, wie es hier auf dem ersten Blick aussieht.

Was benötigt wird

Folgendes wird benötigt, um die Konkordanz zu erstellen — vor dem Erstellen ist also ein bisschen Download gesetzt.

  • Ein Perl-Interpreter für ihr System
    Alle Programme sind in der Programmiersprache Perl geschrieben. Der Interpreter für diese Sprache ist für beinahe jedes Betriebssystem frei verfügbar und kann unter www.perl.org kostenlos heruntergeladen werden. Wenn sie allerdings Mircosoft Windows benutzen, ist ActivePerl von ActiveState wohl die beste Wahl für ihr System. Anwender von Linux oder MacOS X sollten bereits ein Perl auf ihrem System installiert haben.
  • Den Zeichensatz EVA Hand 1
    Die generierten HTML-Dokumente verwenden diesen Zeichensatz, um eine möglichst große Nähe zur optischen Erscheinung der Glyphen im Manuskript zu erreichen. Natürlich können sie die Konkordanz auch ohne diesen Zeichensatz verwenden, wenn sie sehr geübt im Lesen von EVA sind.
  • Das Interlinear-Archiv der Transkriptionen in EVA
    Diese große Arbeit von Jorge Stolfi ist im Moment noch die am besten zu verwendende Zusammenstellung der Arbeit vieler Menschen. Alle meine Programme bauen auf diesem Werk auf.
  • Mein Programm viat
    Dieses Perl-Programm wird verwendet, um interessierende Bereiche aus Jorge Stolfis Interlinear-Archiv zu extrahieren. Es ist auch für andere eigene Forschungen sehr hilfreich, wenn man etwa für bestimmte Untersuchungen eine Datei erstellen möchte, die nur aus den biologischen Seiten in der Transkription von Currier besteht.
  • Mein Programm voyconc
    Dieses Perl-Programm erstellt die vollständige Konkordanz mit Hilfe des Programmes viat.

Um die Programme anzuwenden, müssen sie sie nicht verstehen. Alle meine Programme sind auf einem unixoiden Betriebssystem entstanden und folgen den dortigen Gepflogenheiten, sie werden also an der Kommandozeile aufgerufen. Es gibt auch kein besonderes Installationsprogramm, und so haben sie etwas Mühe und müssen von Hand installieren.

Installation des Perl-Interpreters

Folgen sie einfach den Anweisungen, die sie dort finden, wo sie ihren Perl-Interpreter herunterladen. Wenn sie ActivePerl unter Microsoft Windows verwenden, ist die Installation genau so einfach wie die Installation jeder anderen Windows-Anwendung.

Installation des Zeichensatzes

Der Zeichensatz befindet sich in einer ZIP-komprimierten Datei, sie extrahieren ihn mit dem Entpacker ihrer Wahl. Unter Windows XP ist das bequeme Entpacken durch einen einfachen Klick bereits mit Mitteln der graphischen Oberfläche möglich, unter früheren Versionen von Windows verwenden sie entweder WinRAR oder WinZIP, wenn sie kein UNZIP.EXE für das Entpacken an der Kommandozeile verwenden wollen. Auch alle anderen Dateien sind ZIP-komprimiert und werden auf die gleiche Weise entpackt.

Die Installation von Zeichensätzen ist von Betriebssystem zu Betriebssystem verschieden, deshalb kann hier keine genaue Anleitung gegeben werden. Unter Microsoft Windows wird die TTF-Datei einfach in den entsprechenden Ordner verschoben, das Betriebssystem löst alle weiteren Aktionen im Hintergrund aus. Unter anderen Systemen kann deutlich mehr Mühe erforderlich sein, um einen neuen Zeichensatz zu installieren.

Weitere Vorbereitungen

Entpacken sie alle weiteren Dateien in ein Verzeichnis.

Die weitere Vorgehensweise ist wieder von System zu System verschieden, ich gebe hier eine Anleitung für unixoide Systeme (nicht nur Linux, sondern auch MacOS X) und für Microsoft Windows.

Unixoide Systeme

Für die folgende Kommandofolge wird vorausgesetzt, dass sie die bash als Shell verwenden. Dies ist beinahe immer der Fall, und wenn sie bewusst etwas anderes verwenden, dann werden sie sich zu helfen wissen. Sie müssen auf jeden Fall eine Shell öffnen und mit cd in das Verzeichnis wechseln, in dem sich die Dateien befinden. Für dieses Beispiel habe ich angenommen, dass sich die Dateien im Verzeichnis /home/es/voy befinden. Das Zeichen $ soll ihren Prompt repräsentieren, es ist nicht einzugeben.

$ cd /home/es/voy
$ chmod +x viat voyconc
$ export VOYNICH=/home/es/voy
$ voyconc

Danach hat der Rechner etwas zu tun. Am Ende befindet sich die gesamte Konkordanz im Verzeichnis concordance, die Datei index.html kann mit jedem Webbrowser verwendet werden. Die Benutzung der Konkordanz erklärt sich hoffentlich von selbst.

Microsoft Windows

Auch hier müssen sie an der Kommandozeile bedienen, und es wird auch leider ein kleines bisschen komplizierter. Zunächst müssen sie eine »MS/DOS-Eingabeaufforderung« öffnen; unter Windows NT, 2000 oder XP können sie hierzu vom Startmenü aus »Ausführen…« wählen und als Programm cmd.exe eingeben. Auch dort müssen sie in das Verzeichnis wechseln, in dem sich die entpackten Dateien befinden, für das Beispiel wurde C:\voy angenommen. Das Zeichen > am Anfang der Zeilen soll ihren Prompt darstellen, es ist nicht einzugeben. Ich gehe davon aus, dass sie ActivePerl verwenden und dass folglich das Programm pl2bat bei ihnen installiert ist.

> cd c:\voy
> pl2bat viat
> set VOYNICH=C:\voy
> perl voyconc

Auch unter Windows ist der Rechner eine Weile beschäftigt, um ca. 110 MB Konkordanz zu erstellen.

Fertig

Wenn alles ohne Fehler durchgelaufen ist, haben sie eine vollständige Konkordanz über sämtliche Transkriptionen des Vonyich-Manuskriptes zur Verfügung. Das war doch das bisschen Mühe wert…

Tags »

Autor:
Datum: Montag, 10. April 2006 21:20
Trackback: Trackback-URL Themengebiet: Hacking

Feed zum Beitrag: RSS 2.0 Diesen Artikel kommentieren

Kommentar abgeben