Лого на страниците (малко). Система Orphus
Ако забележите грешка, маркирайте израза с мишката и натиснете Control+Enter. Благодаря!
ggrablist.py
 
Предназначение: Извлича количествена информация от списъчно представен текст с 1) килофонни маркери и 2) с класификатори и (евентуално) с честоти. Данните се представят като списък в Python, та лесно може да се копират било в отчетния ви файл, било в конзолата на ipython, където може да ги обработвате (например, с модула gstat).
Технически изисквания: Python 3.x и модулите numpy и gtools.
Параметри:
-a | --allinfo – изнася и данни за класификаторите и честотите им във всяка килофона; пренасочвайте изхода към файл, резултатът често е много обемен.
-h | --help – малко помощна информация;
Пример:
$ ggrablist.py -a < my_list_with_classifiers.txt
 
ИЗТЕГЛЯНЕ: ggrablist.py.zip.
 
Разяснения: Може да ви се стори странно, защо съм предвидил програмата да обработва и честоти (ако ги поставите). Ама ето пример:
джудже    M    2
Тук с класификатора M аз отбелязвам монофонно произношение на дилитеремата дж. Ама нали е ясно, че в тази заглавка това се среща два пъти? Та затова съм предвидил възможност да поставяте след класификатора и честота. Както винаги разделител между заглавката, класификатора и честотата трябва да бъде табулаторът.
Маркерите за килофони в български текст се поставят с програмата gkphn_bg.py след килофоната. При това вие може да поставяте килофонните маркери преди да въведете класификаторите или след като ги въведете, ако спазвате едно просто правило — класификаторите да съдържат само букви от латинската азбука и цифри.
Близко до ума е, че килофонният маркер обикновено „влиза“ вътре в заглавката, в по-редки случаи той може да попадне непосредствено след заглавката. Та трябва да разясня как извлича данните в тези два случая програмата ggrablist.py.
Когато килофонният маркер е след заглавката, данните от този ред се включват в килофоната. Но когато килофонният маркер е вътре в заглавката, данните от този ред се елиминират.
Не тъжете за това „редуциране“ на данните ви! То е добре обосновано от математикостатистическа гледна точка и е практика от десетилетия в глотометрията. Тук е хубаво да погледнете отново Н. В. Котова, М. Янакиев. Глотометрията експлицира основите на съпоставителната лингвистика. В сп. Съпоставително езикознание, III, 1978, 3, с. 3–15 [pdf].
Обърнете внимание на последните два абзаца в раздела „Лексиметризация“, където се обсъжда точно този въпрос. В тази статия авторите са отразили повече от 25 години практически опит в глотометричните изследвания, та на много практически въпроси може да намерите отговор точно тук.
И накрая. Програмата прави две семпли проверки на входните данни. Тя проверява 1) дали в текста има табулатор (значи, дали в текста има класификатори) и 2) дали в текста има килофонни маркери. Ама ако на лошо редактиран текст (с табулатори) поставите килофонни маркери и го пуснете на програмата ggrablist.py, ще получите като резултат нищо (без съобщение за грешка). Оправете си, моля, входните данни.
Програмиране: 2014, А. Иванов