Beiträge vom Mai, 2011

Glyphenhäufigkeit pro Seite

Samstag, 7. Mai 2011 22:51

In einer Mail wurde ich mit einer sehr einfachen Frage konfrontiert: Wie sieht es mit einer Betrachtung der Glyphenhäufigkeit für die einzelnen Seiten des Manuskriptes aus?

Es sind manchmal die einfachen Fragen, die sich zwar relativ leicht beantworten lassen, an die ich selbst aber noch nie gedacht habe. Das habe ich für alle Freunde der nummerischen Auswertung gern nachgeholt. Die Ergebnisse dieser Auswertung und das dafür verwendete Skript stelle ich hier zum freien Download zur Verfügung, damit sich niemand noch einmal diese Mühe machen muss.

Das ZIP-Archiv enthält zwei Dateien.

  1. gcount.pl ist das Perl-Skript, mit dem ich die Ergebnisse erhalten habe, und
  2. gcount.txt ist das Ergebnis der Zählung für die vollständige Transkription von Takeshi Takahashi in der von Jorge Stolfi normalisierten Form
  3. .

Das Ergebnis ist eine einfache Textdatei. Die Zeilenenden sind nach Unix-Konvention markiert. Jede Zeile enthält drei durch Tabulatorzeichen getrennte Felder, nämlich

  1. die F-Nummer der Seite,
  2. die gezählte Glyphe und
  3. die Häufigkeit dieser Glyphe auf der Seite.

Leerzeichen erscheinen als Punkte, und unlesbare Glyphen sowie Weirdos als Asterisk. Die Auswertungen für die einzelnen Seiten sind nach Häufigkeit der Glyphen absteigend sortiert. Am Ende erscheint eine Seitenbezeichnung »total«, welche die Häufigkeiten für das gesamte Manuskript wiedergibt.

Das Skript sollte sich problemlos auf andere Transkriptionen anwenden lassen, so lange sie aus einem Lokator in spitzen Klammern bestehen, der die mit einem Punkt beendete F-Nummer enthält und von einer beliebigen Menge Leerzeichen (auch Null) vom Text getrennt ist; es entfernt allerdings keine in die Zeile eingebetteten Kommentare in geschweiften Klammern. Das Skript kann aus der Standardeingabe lesen, es ist aber auch möglich, beliebig viele Dateinamen als Parameter zu übergeben. Die Ausgabe sollte sich in jede Tabellenkalkulation importieren lassen und leicht weiterzuverarbeiten sein.

Thema: Hacking | Kommentare (2) | Autor: