Verteilung unharmonischer Wörter auf Zeilen
Nachdem die Datenbank um eine Tabelle erweitert ist, die eine Zählung von Verstößen gegen die harmonischen Gesetze in den »Wörtern« ermöglicht, liegt es nahe, einmal die Verteilung dieser »Wörter« auf den Seiten des Manuskriptes zu betrachten.
Es erscheint mir unwahrscheinlich, dass bei acht Prozent des »Textes« durch Fehler bei der Transkription oder bei den früheren Restaurationen solche Abweichungen entstanden sein sollten, vielmehr halte ich diese besonders gebildeten »Wörter« für eine Auffälligkeit im Manuskript.
In der ersten derartigen Untersuchung will ich überprüfen, in welcher Weise sich diese Wörter auf den Zeilen einer Seite verteilen. Hierbei ist mir eine Schwäche meiner Datenbank aufgefallen. Sie enthält bislang keine Information darüber, welches die Position der transkribierten Zeile auf der Seite ist. Deshalb habe ich ein kleines Python-Skript geschrieben, das diese Information erstellt, es steht hier zum freien Download: Python-Skript zum Hinzufügen einer Zeilennummer in die Zeilentabelle
Mit dieser Änderung ist eine Analyse nach Zeilen recht einfach geworden, es handelt sich um eine einfache SQL-Abfrage (hier für den pflanzenkundlichen Teil in der Currier-Sprache A aus der Transkription von Takeshi Takahashi angegeben):
SELECT lineno AS Line, SUM(wordcount) AS Words, SUM(harm_failcount) AS Enharm, SUM(harm_failcount) / SUM(wordcount) AS Percent FROM voy_line JOIN voy_lineword ON lword_line = line_id JOIN voy_word ON word_id = lword_word JOIN voy_harmony ON word_id = harm_word JOIN voy_page ON line_page = page_id WHERE illustration_type = 'H' AND currier_hand = 'A' AND line_trans = 'H' GROUP BY lineno
Es ist nicht sehr sinnvoll, diese Analyse über jene Seiten zu machen, bei denen die Transkriptionen eine große Menge Labels enthalten. Diese Labels erscheinen in den Transkriptionen als eigene Zeilen, und die etwas unheitliche Benennung im Lokator einer solchen »Zeile« macht es nicht leicht, solche Zeilen auszuschließen. Diese künstlichen Zeilen sind auf zweierlei Weise besonders; sie sind sehr kurz (oft nur ein »Wort«), und die darin enthaltenen »Wörter« haben eine Häufung von Eigentümlichkeiten, die sie als eine besondere Klasse kennzeichnet. Deshalb habe ich mich auf den pflanzenkundlichen und abschließenden Teil beschränkt, in dem es große Mengen »Fließtext« gibt. Den biologischen Teil habe ich ebenfalls untersucht, aber hier sind alle Ergebnisse wegen der vielen Labels mit ganz besonderer Skepsis zu betrachten.
Die Ergebnisse dieser Untersuchung (durchgeführt an der Transkription von Takeshi Takahashi) stehen wie immer zum freien Download zur Verfügung – allerdings diesmal nur in der Form von Zahlenreihen. Denn es sind eigentlich keine besonderen Ergebnisse, es ist ein kompletter Fehlschlag: Download der Ergebnisse meiner Analyse
Was sich bei dieser einfachen Analyse nämlich zeigt, ist »nur«, dass die nicht den harmonischen Regeln entsprechenden Wörter ohne auffällige Regelmäßigkeit über die Zeilen verteilt sind. Das ist zwar auch eine Erkenntnis, aber nicht unbedingt eine erhellende.
Aber ich bleibe dran…