glotta
Тук отварям общодостъпна инициатива — нека да я наречем glotta (γλῶττα/γλῶσσα ’език, говор, диалект’) — в която предвиждам два раздела:
— софтуер: програмно осигуряване, което да подпомага работата на филолога (и не само на филолога);
— ресурси: разнообразни материали за филолога глотометрист.
Повече разяснения има в първия раздел.
Засега използвайте за връзка електронната поща, пък ако стане напливът голям, ще го мислим…
Александър Иванов
Програмно осигуряване
(Вижте и Промени в програмното осигуряване)
Следните две програмки (сценарии) се нуждаят от cream/gvim с поддръжка на Python 2.x. Повече разяснения има в glatcyr.vim — един полезен макрос за vim на пайтън.
glatcyr.vim — макрокоманда за cream/gvim/vim — поправя погрешно въведен на латиница/кирилица текст.
gtools.vim — „сборна“ макрокоманда за cream/gvim/vim — въвежда бързи клавиши и полезни функции.
Модулите по-долу и програмките към тях изискват Python 3.x. Препоръчвам още модулите chardet, numpy, scipy и matplotlib, както и работната среда ipython с графичната конзола (qtconsole).
gstat.py — модул със статистически функции.
gtools.py — основен програмен модул, който се използва от всички програмки надолу.
gchardet.py — програмката съкращава работата с chardet.
gchardict.py — направа на речник (фреквентен или рангов) на символите в текста.
ggrablist.py — извличане на информация от списъчно представен текст с 1) килофонни маркери и с 2) класификатори и (евентуално) честоти.
gkphn_bg.py — преброяване на килофони в съвременен български текст.
glist2dict.py — направа на речник от списъчно представен текст.
grenumb_kphn.py — преномериране на килофоните, поставени вече в текст или в списъчно представен текст.
gtext2dict.py — направа на речник от (добре редактиран) текст.
gtext2list.py — списъчно представяне на текст.
gtools.zip — ВСИЧКИ ПРОГРАМИ В ЕДИН АРХИВ.
gtools.md5 — контролни суми.
Кратка инструкция за инсталиране: направете си локална директория (например gtools) и запишете всичко там. Включете тази директория в PATH. За автоматично зареждане на макрокомандите (от типа .vim) вижте препратката по-горе. В линукс трябва да направите питонските програмки (от типа .py) изпълними:
$ chmod +x *.py
или по-добре:
$ chmod 766 *.py
В Windows май се налага да прибавите и пътя до интерпретатора (например C:\Python33) в PATH.
Кратка инструкция за употреба: всички програми са разработени като филтри, тоест, трябва да ги употребявате така:
$ gtext2list.py < my.txt > my.list
ВИНАГИ, ВИНАГИ! давайте на двата файла различни имена. Иначе ще си затриете данните във входния файл. Разясненията ще ги давам другаде.
Всички параметри към програмата вписвайте преди пренасочването (тоест, преди знака <):
$ gtext2list.py -s < my.txt > my.list
Бе всичко това може да ви се струва сложновато, ама то дава възможност в cream да направите следното:
1) Записвате си текста my.txt като my.list.
2) Изпълнявате в cream (в режим „експерт“):
:%!gtext2list.py -s
3) Записвате си създадения файл със списъчно представяне на текста (без пунктуацията).
Нали не е лошо?
Ресурси
ВКС
Глотометричен архив на катедрата Български език към Софийския университет. Протоколи.
Цв. Николова. Честотен речник на българската разговорна реч.
Честотен речник от глотометричния архив на катедрата Български език към СУ.