miryan.org — Четива — Четива за глотометрията — cream в режим „expert“

Александър Иванов

cream в режим „expert“

Адресна информация за лексите в текста

Ако направите от текста списък от думи, както е показано в примера в) Списък от думи (лекси), и номерирате лексите (значи — без да номерирате празните редове и редовете, съдържащи евентуално само тирета), вие приписвате към списъка адресна информация. Нали е очевидно, че ако една лекса е с адрес 100, левият й контекст ще се определя от лекси с адрес 99, 98, 97 и т. н., а десният — от 101, 102, 103 и т. н. За да запазите тази информация по-нататък, когато правите фреквентен или рангов речник от списъка, достатъчно е да „влечете“ тази информация заедно с лексата.

Тази адресна информация е била вписвана във фишовете на фреквентния речник, правен от Мирослав Янакиев със студенти през 60-те години. Материалите по този речник са представлявали според съвременната терминология текстов корпус — с впечатляващи за времето си размери. За съжаление в Софийския университет не са оценили и не са запазили този огромен и първооткривателски труд. Но практиката на адресната информация за лексата в текста може да използваме и днес.

Програмата филтър nl (англ. numbering lines of file) върши добре тази работа. Преди да номерирате списъка с думи, разумно е да махнете пунктуацията (или поне редовете с тирета) и празните редове. След това запишете файла и

:%!nl

Махнете водещите шпации пред номерата и разместете двете колони (разделител между номера и лексата е табулаторът).

Забележка: По подразбиране програмата nl не номерира празните редове. Обаче ако обработвате в Linux файл с край на редовете, маркирани за DOS/Windows, редовете не са празни — те съдържат управляващия символ с код 13 и ще бъдат номерирани. Преформатирайте файла преди номерирането (Format > File Format... и клавиша Unix).

И една филологическа забележка. Аз не съм изнамерил още прост начин да се „влачи“ информацията за адрес (номер) на лексата, когато се прави фреквентен или рангов речник вътре в cream. В същото време това е елементарна задача, когато се използва някакъв програмен език — било вграденият Vimscript, било някакъв друг, например бейсик, пайтън и пр.

Изводът?

Работещият с глотометрия непременно ще стигне до убеждението, че е необходимо да усвои някакъв програмен език. И след като отдели месец или два за това, той с изненада ще установи, че може да прави с данните си вече наистина всичко... Но това е друга тема, за която трябва да напиша друг текст.

Погледнете и документацията към glotta — програмките gtext2dict.py и glist2dict.py правят фреквентни и рангови речници по подразбиране без адресна информация, но може да я включите.