Лого на страниците (малко).

Заглавна страница > glotta > ggrablist.py

 

ggrablist.py

Предназначение: Извлича количествена информация от списъчно представен текст с 1) килофонни маркери и 2) с класификатори и (евентуално) с честоти. Данните се представят като списък в Python, та лесно може да се копират било в отчетния ви файл, било в конзолата на ipython, където може да ги обработвате (например, с модула gstat).

Технически изисквания: Python 3.x и модулите numpy и gtools.

Параметри:

-a | --allinfo – изнася и данни за класификаторите и честотите им във всяка килофона; пренасочвайте изхода към файл, резултатът често е много обемен.

-h | --help – малко помощна информация;

Пример:

$ ggrablist.py -a < my_list_with_classifiers.txt

ИЗТЕГЛЯНЕ: ggrablist.py.zip.

Разяснения: Може да ви се стори странно, защо съм предвидил програмата да обработва и честоти (ако ги поставите). Ама ето пример:

джудже    M    2

Тук с класификатора M аз отбелязвам монофонно произношение на дилитеремата дж. Ама нали е ясно, че в тази заглавка това се среща два пъти? Та затова съм предвидил възможност да поставяте след класификатора и честота. Както винаги разделител между заглавката, класификатора и честотата трябва да бъде табулаторът.

Маркерите за килофони в български текст се поставят с програмата gkphn_bg.py след килофоната. При това вие може да поставяте килофонните маркери преди да въведете класификаторите или след като ги въведете.

Близко до ума е, че килофонният маркер обикновено „влиза“ вътре в заглавката, в по-редки случаи той може да попадне непосредствено след заглавката. Та трябва да разясня как извлича данните в тези два случая програмата ggrablist.py.

Когато килофонният маркер е след заглавката, данните от този ред се включват в килофоната. Но когато килофонният маркер е вътре в заглавката, данните от този ред се елиминират.

Не тъжете за това „редуциране“ на данните ви! То е добре обосновано от математикостатистическа гледна точка и е практика от десетилетия в глотометрията. Тук е хубаво да погледнете отново Н. В. Котова, М. Янакиев. Глотометрията експлицира основите на съпоставителната лингвистика. В сп. Съпоставително езикознание, III, 1978, 3, с. 3–15 [pdf].

Обърнете внимание на последните два абзаца в раздела „Лексиметризация“, където се обсъжда точно този въпрос. В тази статия авторите са отразили повече от 25 години практически опит в глотометричните изследвания, та на много практически въпроси може да намерите отговор точно тук.

И накрая. Програмата прави две семпли проверки на входните данни. Тя проверява 1) дали в текста има табулатор (значи, дали в текста има класификатори) и 2) дали в текста има килофонни маркери. Ама ако на лошо редактиран текст (с табулатори) поставите килофонни маркери и го пуснете на програмата ggrablist.py, ще получите като резултат нищо (без съобщение за грешка). Оправете си, моля, входните данни.

Програмиране: 2014, А. Иванов

Страница: А. И.
Електронна поща
Дата на публикуване: 25.VIII.2014
Последна редакция: 29.IV.2023
Съобразено с
html5/css3