miryan.org — Четива — Методика на глотометричното изследване

Александър Иванов

Методика на глотометричното изследване

Предвидими трудности

Определяне на темата

Определяне на текстовия материал

Глотометричното изследване е винаги съпоставително изследване

Видове текст. Стилистика

Лематизация

Морфосинтактични маркери и тагери

Текстови корпуси и глотометричния архив на Софийския университет

По-нататъшна обработка на текста

Списъчно представяне на текста и формат на данните

Данни. Проба и извадка

Фонометризация и морфологичен анализ

Организация — директории и файлове

Мерки и теглилки

Ето че пак съм сложил заглавие, което я някой филолог погледне, я не.

От личен опит знам, че думата методика се свързва със скука, със задължителна дисциплина, през която трябва да се мине по възможно най-бързия и лесен начин.

Което не е справедливо към методиката.

Хайде да погледнем като филолози на тази дума. От къде произлиза тя?

От старогръцките μετά, което от наречие е започнало да се слива със следходната дума, та се е превърнало почти в представка със значение ’след, през’, и от ὁδόϛ ’път’ (обяснявам: ὁ е „о“ със силно придихание — spiritus asper по латински — което се е произнасяло като аспирирано „х“ пред „о“-то, та е сходно етимологически с ход, ходя); значи методика е как да преминеш през..., как да последваш някой, който е минал през... Ако го преведем на съвременен компютърен жаргон, това е просто howto. Та не е чудно, че методика изисква след себе си някакво пояснение: …на преподаването на български език като чужд; …на научния труд и пр.

Предвидими трудности

Пред филолога, който иска да се научи как се прави глотометрично изследване, стоят три трудности, за които съм длъжен да го предупредя:

Първо, независимо дали е студент, докторант или вече научен работник, на филолога му липсват технически компютърни умения. Дори ако е изкарал курса по „компютърна грамотност“, той има необходими, но крайно недостатъчни знания.

Второ, на филолога му липсва количествена грамотност, както евфемистично се изразяваше Янакиев. Аз ще го кажа по-пряко — филологът е забравил дори онова минимално математическо знание, което се усвоява в училище. Някои дори се хвалят: „На мене никак не ми вървеше математиката!“. Сякаш да не знаеш е гордост.

Трето, много ще е трудно филологът да си намери научен ръководител. Още по-трудно ще е да се намери комисия или научен съвет, пред които да представи работата си. Това може да ви се види странно — глотометрията е разработвана най-вече в България, а българският език е измежду най-добре проучените в количествено отношение езици. Ама ако погледнете историята на българската научна общност от септември 1944 година насам, нещата стават ясни.

Тоест, на филолога, който иска да се занимава с глотометрия, ще му е нужна находчивост и доста твърдоглавие.

Пиша тези четива за глотометрията с идеята, че мога да ви помогна да се преборите с първата и с втората трудност. С третата трудност аз няма да мога да ви помогна. По една проста причина.

Вие и вашите студенти сте утрешните научни ръководители. Вие и вашите студенти сте утрешните членове на каквато и да било комисия или научен съвет. Казано по друг начин: вие сте утрешната научна общност.

Да, да! Знам! Звучи много патетично, ама е просто факт.

Та твърдоглавие и находчивост ще са ви необходими.

Време е да напиша и нещо по-оптимистично.

Определяне на темата

Когато използвате глотометричния подход, вие правите и най-сложните и „абстрактни“ теми наблюдаеми и измерими, осезаеми, така да се каже.

Да дам пример.

Захванали сте се, например, с категорията определеност в българския език, тема „сложна и абстрактна“.

Изпоизчели сте Стоян Стоянов, Светомир Иванчев, Юрий Маслов, Валентин Станков, Татяна Шамрай, Академичната граматика, други граматики и пр. И сега — какво? Чувствате се малко объркани, нали? Какво бихте могли вие да добавите към всички тези автори?

Ама преди това погледнете и какво пишат Н. Котова и М. Янакиев в Грамматика болгарского языка для владеющих русским языком.

А! Оказва се, че нашата „сложна и абстрактна“ категория определеност авторите свеждат до една морфема. Вярно, измежду най-често срещаните в съвременния български език (а това означава, че е и измежду най-абстрактните) — демонстративното т. (Обърнете внимание и на забележката на стр. 458, че авторите приемат това наименование на морфемата като „завещано от традицията“ — що не се позамислите по този въпрос малко? Хубаво е да погледнете и статията на Н. Котова и М. Янакиев Морфема „демонстративное т“ в истории болгарского языка (глоттометрическая характеристика), където са очертани няколко изследователски перспективи.)

Сега ще ви кажа нещо много тривиално — ама езикът е знакова (семиотична) система. Може и да сте го чували това вече.

Припомням ви го, защото от това следва едно просто, но задължително правило: за никакво „значение“, за никаква „семантика“ не може да говорите, без да посочите знака (или комплекса от знакове), който носи това значение.

Материален. Значи — осезаем и преброим.

Ако използваме терминологията на Фердинанд дьо Сосюр — няма как да има означаемо, без да има означаващо.

То и това е тривиално, ама ви го припомням, защото множество разработки, които претендират да са филологически, просто игнорират факта, че връзката (отношението на едно-еднозначно съответствие) между означаемо и означаващо е задължителна, за да говорим за знак.

Ако не сте в състояние да посочите материалния носител на значението, вие се занимавате може би с логика, може би с философия, а най-вероятно — с нищо смислено, но в никакъв случай не се занимавате със семиотика, с филология или лингвистика.

И точно такива очевидни съображения дават основание на М. Янакиев да твърди, че колкото и сложна семиотична система да е, „езикът е изцяло наблюдаем“. А това значи — и измерим.

Та това е научната основа на глотометрията и в това отношение тя е безкомпромисна — няма как да измерите нещо, което не сте дефинирали, което не сте определили, което не можете да го подчертаете с молив в писмен текст или да ми го посочите в пример от аудиозапис на разговорен текст.

След Ян Будуен дьо Куртене „зърнестата“ знакова структура (морфемната структура) на текста би трябвало да е ясна за филолога. Именно в тази привидна яснота логическият и количественият анализ, направен от Мирослав Янакиев и съмишлениците му, внася значителни, неочаквани и много съществени уточнения.

Проблемите за морфологизацията на текста не са решени до край, никак даже.

Погледнете, например, статията на Н. Котова К проблематике частотного морфемиария болгарского языка [pdf], където има синтезиран обзор на трудностите и идеи за решаването им. Вижте още и М. Янакиев. „Числото“ в българската глаголна парадигма и морфемният му израз [html] [pdf], където резултатите от морфемния анализ може малко да ви изненадат. Но не повече от „класиката“: За грамемите, наричани в българската граматика „сегашно време“ и „бъдеще време“ [djvu] [един файл].

Наричам това „класика“, защото тази статия е май най-цитираната по света публикация на български лингвист.

Сега вече ще сте готови да препрочетете внимателно Стилистиката и езиковото обучение [[djvu]] [един файл], където много подробно е разгледан въпросът за възникването на значението, за семантизацията, за семиосиса.

След което вероятно ще усетите необходимост внимателно да изучите Грамматика болгарского языка для владеющих русским языком [един файл].

Въпреки теоретичните трудности пред морфемизацията в практическо изследване винаги можем да анализираме (да „разглобим“) проблема до не сложен морфемен комплекс или до не голям набор от морфемни комплекси. Това може да се направи дори с чисто теоретични теми като, например, периодизацията на българския език — погледнете от такава гледна точка на статията на Н. Котова Глоттометрия и вопрос о начале нового периода истории болгарского литературного языка [djvu] [един файл].

Значи, първото, което трябва да се направи, е компетентен филологически анализ на темата, при който да я „разглобите“ на не много, но ясно различими морфемни комплекси.

При това е много разумно да се придържате към установено (практически задължително, ако не искате да си създавате главоболия) правило в глотометричните изследвания: по-често срещаните морфеми да се разглеждат по-напред.

Теоретичната същност на това правило е ясна: именно най-често срещаните морфеми са най-чувствителни към разликите между различни езици, между различни стилове на един и същи език, между различни исторически състояния на един език. Това е и „интуитивно“, и „философски“ ясно, а досегашната глотометрична практика не е дала никакви факти, които да ни накарат да се усъмним в него.

Практическата полза от това правило е пак очевидна: ако с извадка от 10 проби (хектолексни, килофонни и пр.) доказвате тезата си, що ви трябва да обработвате извадка от 100 или 1000 проби? На това условие, разбира се, отговарят именно по-често срещаните морфемни комплекси. (Какво е „проба“ и какво е „извадка“ ще обяснявам малко по-нататък.)

От друга страна, извадка от 10 проби може да се окаже недостатъчна, за да се потвърди или за да отхвърлите вашата догатка. Ами тогава опитайте да я увеличите малко — днес с компютрите това не е чак толкова трудоемко. Имайте предвид, че като увеличавате размера на извадката, вие все едно увеличавате разделителната способност на микроскопа, тоест способността му да увеличава.

Това, разбира се, е сравнение, ама не е лошо, ако си мислите за глотометрията като за микроскоп. Увеличаването на извадката (на „разделителната способност“) обикновено ви довежда до решение — приемате или отхвърляте предварително създадената хипотеза.

Редки са случаите — ама се случват! — когато увеличаването на извадката не ви дава категоричен отговор. Този разочароващ резултат обаче също е полезен (в глотометрията няма резултати, които да не са полезни): той най-често означава, че хипотезата, на която търсите отговор, не е добре формулирана, че съдържа взаимно противоречиви постановки.

Това може да ви върне назад, за да преосмислите свършеното дотук. А това е хубаво.

От правилото по-често срещаните морфеми да се разглеждат по-напред следва един малко изненадващ извод — не се бойте от много разработвани теми; глотометричният подход непременно ще изведе нови, неразработвани страни на темата. Ето, например, определеността е от много разработваните теми, ама ако последвате Н. Котова и М. Янакиев (вижте цитираната по-горе статия), пред вас веднага излизат неразработени страни на темата.

Някои от тези страни авторите на статията са дефинирали в текста си (с. 86): „Следует отметить еще одну особенность данных, не выявляемую показателями λ² и t: XII век является временем не увеличения, а уменьшения частоты «демонстративного т». Если дальнейшие глоттометрические исследования большего количества рукописей подтвердят наличие этого процесса, придется в ином свете рассматривать вопрос о перипетиях развития артикля в болгарском языке.“.

Съвсем ясно определена и, по моему, вълнуваща изследователска задача. И през коя година е формулирана? 1979. Преди 35 години. Ама не ми е известно досега някой да се е захванал с нея.

Не ви се занимава с история на езика? Хванете тогава съвременен въпрос — авторите споменават, че в диалога демонстративното т се среща по-рядко, отколкото в монолога. Що не проверите дали е така? Ако се потвърди, изниква въпросът: защо? А това отваря пред вас широка изследователска перспектива.

Определяне на текстовия материал

Зависи от темата и от целта, която си поставяте.

Ако правите дипломна работа, моят съвет е да определите конкретни текстове, с които работите. Например темата „Съпоставка на някои глотометрични характеристики в разказите на Елин Пелин и Иван Вазов“ е подходяща за дипломна работа.

Първо, темата ясно заявява, че няма да изследвате „всички“ глотометрични характеристики (то е и немислимо) и ви дава възможност да се съсредоточите върху добре изследвани вече характеристики (например, вербална, адйективна и субстантивна температура), което пък ви дава възможност за доста сравнения с вече публикувани данни за други текстове.

Второ, разказите на Елин Пелин и разказите на Иван Вазов са достатъчно ясно определени масиви от текстове, при това са практически достъпни в интернет. Вие може да ги обработите всичките, ама може да направите дори още едно ограничение в работата си — да вземете, например, по пет разказа от двамата автори, а да не изследвате всичките им текстове.

Ама тук възниква един класически въпрос в математическата статистика — как ги подбирате тия пет разказа? Тоест, как сте формирали текстовата си извадка?

Ако на защита кажете: „Аз подбрах по пет разказа от…“, всеки ваш грамотен количествено опонент ще ви зададе въпроса: „Как ги подбра?“. Ако отговорите: „Ми тези ми харесаха…“, добронамереният опонент ще каже: „И какво ни гарантира, че не представяш резултатите от твоето харесване за текстови характеристики на автора?“; злонамереният опонент ще каже: „Да, да! Подбрал си тия пет разказа, за да ти уйдисват на тезата!“. И в двата случая няма какво да възразите.

Но решението е просто — то се нарича рандомизация. Произлиза от англ. random ‘случаен, произволен‘.

Уговорете в текста си, например, че използвате ранните разкази на Елин Пелин (1901–1906) по двутомното издание на „Български писател“ от 1987 г. Там съставителят (Радосвет Коларов) е включил 33 разказа, от които вие сте избрали 5 по случаен начин.

Ето как в конзолата на IPython може да генерирате пет случайни числа в интервала от 1 до 33:

Разяснения: в модула random има метод random(), който дава случайни числа в интервала от 0.0 до 0.9(9). Като умножавам този резултат по 33, получавам случайни числа в интервала от 0.0 до 32.9(9). Функцията int() просто премахва дробната част на числото, затова прибавям 1 и получавам случайни числа между 1 и 33.

Ако числото се повтори, както се е случило тук с 19, просто го прескачате и генерирате следващото.

Така петият разказ по съдържанието на книгата е „Изкушение“, деветнадесетият е „Адвокат“ и карате нататък до пет разказа.

Разучете модула random — в него има и други възможности за изграждане на случайни извадки.

Знаете ли как може да се направи рандомизация без таблица на случайни числа, без калкулатор и без компютър? Написвате числата от 1 до 33 на еднакви листчета, сгъвате ги по еднакъв начин, така че да не се виждат числата, слагате ги в шапка или в тенджера и добре ги разбърквате; след това молите съквартиранта или съседа да извади пет листчета.

Ама при повече елементи голямо писане и сгъване пада. Та по-добре разучете малко Python, например.

Разбира се, по същия начин трябва да определите и петте разказа на Иван Вазов.

След тази процедура никой вече не може да ви обвини, че сте проявявали лични предпочитания или че сте нагласяли материала спрямо тезата си.

Методът на рандомизация може да ви спести много труд. Ако имате голям и еднотипен текст, може би не е необходимо да го обработвате целия — рандомизирана извадка от 10–20 килофони, които да обработите, може добре да представя характеристиките на текста, които ви интересуват.

Ама не сте сигурни, че извадката представя добре характеристиките на текста? Ами направете още една случайна извадка и сравнете двете. Ако излязат различия по отношение на характеристиката, която изследвате, увеличете малко размера на двете извадки („разделителната способност на микроскопа“).

И сега е моментът да разучите по-подробно онзи дял от математическата статистика, който наричат планиране на експеримента (англ. design of experiments или experimental design) — там се обсъжда как по наличните дотук данни може да прецените колко голяма извадка ще бъде представителна за текста ви (тоест, правилно ще отразява характеристиката на текста, която следите — това е смисълът на „представителна“: извадката вярно представя характеристиката, която изследвате, в целия текст).

Ако сте замислили по-широко изследване — докторска дисертация, студия, монография, — пет кратки разказа от двама автори май няма да са ви достатъчни. Ама опитът, който имате вече от курсова или дипломна работа, много ще ви помогне.

Може да разширите темата си в най-различни направления.

Например, може да разширите темата си с още автори от първото десетилетие на двадесети век — можем да допуснем, че съпоставката на прозаични текстове на автори, които днес смятаме за класици, с автори, на които днес дори имената не помним, ще доведе до интересни изводи.

Може да потърсите съпоставка между езиковите характеристики на текстовете на автори от първото десетилетие на двадесети век и от първото десетилетие на двадесет и първи век. Подозирам, че такова едно изследване ще трябва да тълкува „отрицателни резултати“, тоест, липси на разлики: темите сигурно са се сменили, но „езикът на прозата“ надали се е сменил: езикът е инертна система, която се променя много бавно. Ама проверете.

Може също да разширите набора от глотометрични характеристики, които изследвате, и да потърсите зависимости между тях.

Изобщо — колкото повече работите, толкова повече идеи ще ви идват.

Глотометричното изследване е винаги съпоставително изследване

Може да съпоставяте два текста по една и съща глотометрична характеристика; може да съпоставяте първата половина на текста с втората половина по същата характеристика; може да съпоставяте две глотометрични характеристики в един текст.

То, ако се позамислите, ще видите, че и в традиционната лингвистика е така. Не може да направите „фонемен анализ“, без да съпоставите две форми, които да се различават само по една „фонема“ (каквото и да означава тази дума); няма как да различите една форма на глагола, без да я съпоставите с други форми на глагола и т. н.

Важно е да разберете, че без съпоставка никаква нова информация не може да извлечете. То и статистическите тестове, които се използват в глотометрията, изискват от вас да съпоставяте поне две неща. Та в това няма нищо ново.

Но глотометрията изисква от вас съпоставката да е експлицитна — трябва да сте съвсем наясно какво с какво съпоставяте и с каква цел. И да го изясните в текста си, когато представяте резултатите.

Ама и в традиционно разбираната съпоставителна лингвистика (тоест, в съпоставката между два различни езика), глотометричното изследване вече е показало силата си — вижте, например в Библиотеката статиите на В. Н. Гливинска, на Т. Прокопиева и Е. Тимонина. В Библиографията ще намерите и по-общи глотометрични славистични изследвания, правени от Н. Котова и М. Янакиев. В тази област има да се прави още много — това е златна мина за слависта.

Не ми е известно нито едно глотометрично изследване, което да съпоставя изследван, повече или по-малко, славянски език с неславянски. Това не е златна мина, това са неизследвани космически пространства.

А идеи идват лесно. Ето:

Известно е, че най-често срещаната буква за съгласна в английски текст, е t. Известно е, че най-често срещаната буква за съгласна в български текст, е т.

Не е нужно да си кой знае какъв мислител, за да се сетиш каква е причината — определителният член.

А що не ги съпоставите? Едно българо-английско глотометрично изследване върху определеността би било твърде интересно. То, вероятно, ще покаже съществени различия при известна формална прилика. А има и някои неглотометрични изследвания, та има с какво да съпоставяте наблюденията си.

Видове текст. Стилистика

Съвместната работа между Радослав Мутафчиев и Мирослав Янакиев през 60-те години довежда до важни изводи за типологията на текста. Оказва се, че по глотометричните си характеристики текстовете се разделят:

1) на диалог и монолог;

2) монологът от своя страна се разделя на разказ и на описание (или разсъждение).

Тук никак не е лошо да погледнете последната глава Езиков стил (с. 222) от Стилистиката и езиковото обучение [[djvu]] [един файл]. Погледнете и изследването на Радослав Мутафчиев Статистическа еднородност на текстовете [djvu].

Янакиев предлагаше на студентите си и няколко мнемоники: при достатъчно голям разговорен текст във върха на ранговия речник се формира да-се-и-на; при достатъчно голям текст от художествена литература във върха на ранговия речник се формира и-се-да-на; при достатъчно голям публицистичен (или научен) текст във върха на ранговия речник се формира на-и-в.

Погледнете ранговия речник на BulTreeBank — най-големия текстов корпус на български език:

на 3572829

и 2288298

в 1767775

да 1742874

се 1462317

за 1398263

и т. н.

Като по учебник: на-и-в. Следователно корпусът е създаден от монологични публицистични текстове на българския език (в описанието на източниците се споменава и известно количество художествена литература, но то явно не е достатъчно, за да промени стиловата характеристика на корпуса).

На страницата на Секцията по компютърна лингвистика към Института за български език са достъпни няколко фреквентни и рангови речника. Прегледът им насочва към мисълта, че текстовете (най-вероятно, теглени от интернет с бот) се обработват програмно без каквато и да било филологическа намеса. Резултатът от общия рангов речник е озадачаващ. Ето как изглежда върхът му:

на 24877629

и 17524313

аз 14106754

съм 12653639

в 11626846

да 11452756

се 10582987

Лексите аз и съм няма как да се появят във върха на ранговия списък. Единственото обяснение може да бъде, че това не са лекси, а „основни форми“, тоест, че материалът за речника е бил подложен на „лематизация“ (какво е „лематизация“ обяснявам малко по-долу). И проверките ми показват, че е така. Ама никъде не видях това да е уговорено.

Ако махнем обаче тези „основни форми“, пак се получава на-и-в. Явно, програмистите в тази секция много се забавляват, ама ще е трудно да измъкнете от страницата смислена количествена лингвистична информация.

Забележка от 13 октомври 2015 г.: тези речници изглежда са вече недостъпни.

М. Янакиев обръщаше внимание, че от философска гледна точка е доста озадачаващо, че точните методи на глотометрията отново обособяват три стила — както у Аристотел, както у Буало и пр.

Аз съм склонен да допусна, че това отразява по някакъв начин комуникативните роли, които може да заема говорещият човек. Ако това допускане е вярно, то означава, че във всички човешки езици ще се обособяват глотометрично точно три основни типа текст, три стила. Глотометричните им характеристики може да бъдат различни, те са езиково зависими, но комуникативните роли не са. Та ето ви още една голяма изследователска задача: да проверим дали по глотометричните си характеристики текстовете се разделят отново на три типа (стила) и в други езици.

Янакиев подбутваше аспирантите си (докторантите си) слависти към подобен тип изследвания. Ама без особен успех. Аспирантурата (докторантурата) все пак е учебна степен, нали? Не предполага, че си откривател.

Следователно, няма „журналистически стил“, няма „стил на художествената литература“, още по-малко пък „авторов стил“. Всички тези уж „стилове“ представляват смес от основните три типа текст.

Ако се захванете с разговорна реч — горещо препоръчвам! данните ни в тази област дори за българския език са доста ограничени, — не си мислете, че се занимавате само с диалог. В разговор съвсем естествено преминаваме от диалог в монолог: обикновено разказ, но описанията/разсъжденията съвсем не са изключени.

От всичко, казано дотук, следва едно чисто практическо (методическо) правило за глотометриста: няма много смисъл да обработвате като цяло текст, който представлява смес от стилове. След като знаете предварително какви са възможните типове текст, разделете ги и ги обработвайте отделно.

Да се върнем към примера по-горе с разказите на Елин Пелин и на Иван Вазов. Ами разделете текстовете на двамата автори най-малко на диалог и монолог (най-силното стилистично разделение). След това може да обедините всички диалози на Елин Пелин в един файл и всички монолози в друг и да ги обработвате като цяло. С текста на Иван Вазов постъпете по същия начин.

И тук могат да излязат неприятни изненади: може да се окаже, например (допускам, не съм правил подобно изследване), че монологът в Елин Пелин не ви е достатъчен или обратното — диалогът у Иван Вазов е малко.

Няма страшно: включете още няколко разказа от двамата автори по процедурата, описана по-горе. Ама вече имате количествени наблюдения за диалога и монолога у двамата автори и може да допълните с количествени данни Искра Панова. Вазов, Елин Пелин, Йовков. Майстори на разказа, Народна просвета, София, 1988. Не е лошо.

За да облекча малко работата ви по разделянето на текста, аз съм включил във файла gtools.vim четири бързи клавиша, които въвеждат маркери за типа текст. А в текста на Арсени Костенцев, който тук съм включил за пример, диалогът и монологът са разделени — погледнете да видите за какво става дума.

* * *

Впрочем — филологът би трябвало да знае това — и по отношение на стилистиката Янакиев е новатор. Той я превръща от класификационна (и скучновата) наука в наука за редактирането: как с целенасочени промени върху текста можеш да смениш „жанра“ и „стила“.

Със студентите си по журналистика той е правел твърде поучителни упражнение: как от една дописка (информационен жанр), чрез редакции, които повдигат вербалната температура, получаваш… очерк.

Лематизация

До не много отдавна лема беше непознат термин за българската граматика. Ама не и за английската — там той означава ‘основна форма‘, а оттам и ‘лексема‘ — нали за име на лексемата обикновено използваме основната форма. Произлиза от старогръцкото λῆμμα ‘вземане‘ (ама и руското взятка ‘подкуп‘; я виж ти колко си приличали хората по света от всички времена! чак да ти стане неудобно…), та това е формата, която „взема“, „прибира“ останалите форми, а лематизация е процесът, при който се намира „основната форма“ или се „събират“ всички лекси на лексията покрай нея като пилци.

Хайде сега да помислим малко с главите си — за какво ни е нужна „основната форма“?

Другото й име — „речникова форма“ — ни насочва в правилна посока: това е онази лекса от лексията на лексемата, която лексикографите използват за заглавка на речниковата статия.

А как я избират?

Трябва да си признаем — случайно, по традиция, по подражание на чужда лексикографска практика и без много-много филологически съображения.

Защо за „основна форма“ на съществителното е избрана нечленуваната форма в ед.ч.? Нямаше ли да е по-разумно, ако вместо учител в заглавката на речниковата статия стоеше учителя(т)? Така се експлицира мекостта на наставката, а и българите, а и чужденците, които изучават български, нямаше да се чудят как се пише: пазáря(т) или пазáръ(т).

Нямаше ли да е по-разумно, ако за „основна форма“ на глагола използвахме 3. лице ед.ч. сег.в. вместо 1 лице: пише, ходи, казва вместо пиша, ходя, казвам? Нали точно във формата за 3.л. ед.ч. сег.в. се вижда сегашната основа, тематичната гласна и спрежението?

И така нататък.

Ясно е защо в лексикографията е „изобретена“ основната (речниковата) форма — пести се хартия и печат.

Спестяват си лексикографите и „теоретични спорове“ — ако например лексикографът трябва да представя цялата лексия на глагола, включва ли в нея отглаголното съществително, или не? Включва ли в лексията съкратения инфинитив? Изрази като „Не мога каза“, „Недей плюска толкова!“ или „може би“ и досега са редовни в българската разговорна практика и надали скоро ще изчезнат.

Днес, в компютърния интернетски свят въпросът с „основната форма“ се реши по един прекрасен начин — чрез елиминиране. Този въпрос просто отпадна.

Идете на речника на Читанката, потърсете яж, яжте, ядох — при всички случаи ще получите препратка към ям (това е очевидно дан на традицията, ход, който може да бъде прескочен), където е събрана и тълковна информация, и синонимика, и граматическа информация, и опит да се отгатне грешно изписване, и пр.

Аз сега няма да се отплесвам по компютърната лексикография — тя отвори пред лексикографите такива възможности, че, съвсем нормално, те се стъписаха. Ама да се върнем сега върху методиката на глотометричното изследване.

Имате ли полза от „събирането“ на различни лекси на една лексема към една, пък било тя и „основна“? Тоест — каква е ползата от лематизацията?

За глотометрията — никаква.

Лематизацията е действие, отнемащо труд и време.

Затова от десетилетия програмистите се забавляват да пишат програми за лематизация. Обикновено те използват механизма на регулярните изрази, ама при езици с изявена флексия програмите им стават малко сложни, малко бавни, а омографията непременно предизвиква грешки.

Добре де, да дам пример. Използвали сте някаква програма за лематизация, събрали сте всички лекси на лексемата „съм“ към лексата съм.

Почти е сигурно, че:

— всички частици (или междуметия) е са сумирани тук като форма за сег.вр., 3.л. ед.ч.;

— всички притежателни местоимения си са сумирани тук като форма за сег.вр. 2.л. ед.ч.

И така нататък. Тоест, оплесквате си данните. При това не знаете как и колко.

Да си представим, че сте много твърдоглав човек, маркирате на ръка всички истински срещания на лексемата „съм“ и ги сумирате.

Доста труд сте си отворили. А какво сте постигнали? Унищожили сте най-чувствителната, най-важната — граматическата информация от текста си.

Така че изводът е ясен — лематизацията е трудоемък и сложен начин да загубите съществена информация и да си оплескате данните. Не го правете!

Вместо това помислете — „основна (речникова) форма“ е работен термин в лексикографията и няма никаква теоретична стойност. Когато използвате основната форма като име на лексема, слагайте я в кавички, моля, както всички останали условни наименования.

Бе сигурно може да се намери случай, при който да е разумно да си подредите данните към „основна форма“, например, ако си издавате фреквентния речник на хартия.

Ама постъпете, моля, като Цв. Николова — дайте отдолу и всички лекси, които реално се срещат в текста ви, с данните за тях. За да има смисъл от изданието ви.

Разгледайте по-внимателно речника на Цв. Николова, обърнете внимание колко от лексемите не са се срещнали в текста с нито една реализация точно на „основната“ си форма. А това все пак е речник от 100 000 лекси… И пак така ще става, ако не изследвате текст на… речник.

Морфосинтактични маркери и тагери

Ама не знаете какво са „морфосинтактични маркери“? Да, това не сме го учили в училище.

Бе мислете общо взето като за училищния термин „морфологичен анализ“ — определяне на лексите като части на речта и определяне на „морфологичните“ им характеристики.

Ама я помислете и като филолози — не е ли синтактична разликата между човек и човека/човекът? А остатъците от „падежи“ при местоименията (и донякъде при съществителните) не са ли синтактично мотивирани? Слагам „падежи“ в кавички, защото Петър Пашов, например, изразява известни съмнения дали трябва да говорим за падежи при местоименията (Пашов, П. За „падежите“ на местоименията в съвременния български език. Известия на Института за български език, VIII, София, 1962, с. 385–400).

Ама ако помислите още малко, сигурно ще се сетите, че в изрази като Аз казах и Вие казахте именно синтактични причини обособяват „морфологичните“ характеристики на двете лекси в израза. Не е тук мястото да се впускам в обсъждане дали сказуемото определя формата на подлога или обратното, или някак иначе. Важното сега е, че синтактичната връзка е ясна.

Не е лошо сега пак да погледнете Котова Н., М. Янакиев. Грамматика болгарского языка для владеющих русским языком. Москва, 2001 [един файл] — там няма раздел „Синтаксис“, има раздел „Морфосинтактика“. Що не помислите върху обясненията на авторите?

И разумните филолози, които стоят зад инициативата BulTreeBank, са се съобразили с това, когато преди десетина години разработваха системата от морфосинтактични маркери (англ. morphosyntactic tagset).

Тя не само е разумно направена, ама е и международно приета, та не е лошо да се съобразяваме с нея в работата си, когато е възможно — в помощния файл gtools.vim аз също съм направил няколко клавишни последователности, с които може да въвеждате „подмножество“ от тази система — класовете „части на речта“.

Разучете я — тя е позиционна. Ето как може да добавяте, например, информация за род към съществителните: N-m, N-f, N-n. Много малко съобразителност трябва, за да си направите бързи клавиши с тези комбинации в редактора.

На английски tag наричат морфосинтактичния маркер, та tagger е програмата, която го поставя. Погледнете в препратките бележката за Tree Tagger, например. Включил съм в нея и други полезни препратки.

Това е научен софтуер и обикновено е достъпен за некомерсиални цели при едни или други условия. В тези програми се използват находчиви алгоритми — никак не е лошо да прочетете повече за тези алгоритми, за да знаете как горе-долу работи програмата. Обикновено тя трябва да бъде „обучавана“, за да може да работи с един или друг език.

Това става, като се обработва масив от текст, в който морфосинтактичните маркери са поставяни от специалист и се предполага, че масивът от текст е добре изчистен от грешки. Резултатът е файл с данни, с които програмата вече може да обработва и новия език.

Една от трудоемките работи в глотометрията е именно поставяне на маркери за характеристиката, която следим. Та близко до ума е да използвате някоя програма тагер. Ама не го правете!

Има няколко причини да не го правите.

Първата е техническа. Програмите тагери „разпознават“ лексите като „части на речта“ с точност от около 90%. Грешка от 10% може да не ви се вижда кой знае колко голяма. Затова ще ви дам пример.

Една стандартна машинописна страница от 1800 символа съдържа 200–250 думи. Може ли да си намери работа секретарка, която прави 20–25 грешки на машинописна страница?

Втората причина да не използвате тагери е дори по-важна, филологическа е.

Аз съм писал и пак ще повтарям — четете си текста! Точно докато го четете, ще ви дойдат нови идеи. Няма как иначе. Така че, докато поставяте маркери за една или друга глотометрична характеристика, идват идеи.

Вие как си мислите, че е възникнала идеята предлози и представки да се обработват съвместно (вижте работите на В. Н. Гливинска)? Бъдете сигурни, че не е станало, докато някой е изучавал учебника по историческа граматика (макар филологическата мотивировка да е точно там).

Накрая — колкото и да е подробна системата от морфосинтактични маркери, разработена в BulTreeBank (в нея е включено дори правописното различие между пълен и кратък член при имената от мъжки род), с какво може тя да ви помогне, ако изследвате характеристика, която не е отразена в нея?

Ама нали се предполага, че вие изследвате нещо неизследвано преди вас? И откъде може да се появи програма (tagger някакъв), която да ви го отделя? Трябва да се проявява все пак здрав разум.

Пак ще дам пример. Изследвате разпределението на глаголите по тематична гласна (по „спрежение“) в български текст.

Не ми е известно такова изследване. Пък ако се окаже, че може да го разширите и в диахронен план, давате ли си сметка какви данни ще получите?

Измислете си маркери (tags) с главни латински букви, например A, E, I, и си направете в редактора бързи клавиши за тях. Очевидно е, че в текста „Писаха му“ никой, освен вас (филолога) не може да индексира писаха с E.

И като свършите тази работа, сигурно ще препрочетет с други очи статията на Н.В. Котова и М. Янакиев Сопоставление некоторых количественных характеристик славянских языков [djvu] [един файл], сигурно ще се вгледате по-внимателно в таблицата на с. 66 и ще си дадете сметка, че вашата тема е частен случай в общославянски контекст. Нали не е необходимо да обяснявам какви перспективи отваря това?

Пестете труд и време!

Обикновено не е нужно да обработвате „цял текст“ — работете с извадки. Достатъчни, за да получите резултат. Ако не получавате резултат, спрете и помислете: може би не сте си поставили задачата достатъчно ясно и непротиворечиво? Или може би трябва да прибавите още малко данни, за да видите какво се получава?

Най-простият начин е да съставяте извадката от случайно подбрани проби (рандомизирани проби). Понякога нещата се усложняват — ако искате, например, да сравнявате начало и край на текстове, няма как да вземате случайни проби от тях. Ама нали може по случаен начин да подберете текстовете си (от достатъчно голям набор текст)?

Мисълта ми е — помислете, преди да се захванете за работа. Пестети труд и време.

В глотометрията използваме методите на математическата статистика. Филологът без притеснения може да мисли за математическата статистика като за наука за синекдохата: по част от цялото („извадка“) правиш изводи за цялото („генералната съвкупност“). Ама мотивирани от математиката, де.

Та почва да става интересно да ги изучиш, нали? И можеш да изследваш не „всичко“, а „достатъчното“.

За филолога това е малко необичаен поглед към материала, та обърнете му внимание, моля!

Текстови корпуси и глотометричния архив на Софийския университет

В първата половина на 60-те години се случват две важни събития за съвременната лингвистика, пък ако щете — и за общата семиотика.

Едното е всеизвестно. В американския университет Браун (Brown University) в Роуд Айлънд (Rhode Island) Уинтроп Нелсън Франсиз (Winthrop Nelson Francis) и Хенри/Индржих Кучера (Henry/Jindřich Kučera) започват изработката на първия компютърен текстов корпус — Brown University Standard Corpus of Present-Day American English, тоест, Стандартен корпус на съвременния американски английски език към Университета Браун.

Корпусът обхваща малко повече от 1 милион словоформи от американски английски печатани текстове от 1961 г., като стремежът е бил авторите да са англоезични и публикацията да е първа. Корпусът е създаден от 500 извадки, всяка една по около 2000 словоформи — размерът на извадките леко варира, тъй като съставителите изграждат извадките от цели изречения.

Съставителите са определили 15 „жанра“ и са описали всеки включен текст. Корпусът е завършен през 1964 г., като първоначално е съдържал само текст, по-късно претърпява още две редакции и допълнения (1971 и 1979), като са поставени и морфосинтактични маркери. Повече информация може да намерите в Brown Corpus Manual. Корпусът днес е свободно достъпен, включен е в данните към инициативата NLTK дори в два варианта.

Другото събитие аз оценявам като не по-малко съществено, макар и да не е толкова известно. А че не е толкова известно, колкото заслужава да бъде, сме виновни ние — филолозите в България. А и в Русия отчасти.

Към 1964 година в Софийския университет, в катедрата „Български език“ Мирослав Янакиев започва изграждането на глотометричен архив.

Без достъп до компютърна техника, с помощта на стотици дипломанти за около десетилетие глотометричният архив покрива повече от 6 милиона лекси разнообразни български текстове — проза и публицистика, поезия и драма, няколко души ентусиасти дори са направили дипломни работи върху разговорни текстове, записани с магнитофон. Към което М. Янакиев очевидно ги е подтиквал.

М. Янакиев е описал доста подробно работата върху глотометричния архив в О количественном основании лингвистических классификаций (това е доклад от 1975 г.) [html] [djvu]. Погледнете го!

Публикуваният текст на доклада е силно съкратен, при това са съкратени точно подробностите около изграждането на глотометричния архив. За щастие запазен е магнетофонен запис на доклада, който може да прослушате във Фоноархив.

Там той обсъжда и недостатъците на работата — трудно е търсенето в архива (ама нали не е компютърен! на фишове е). Наложило се е да се откаже и от първоначалното изискване дипломантът да определя „основна форма“ и „морфологични характеристики“ на лексата.

Щото се оказало, че завършващите филология, повечето от тях директори на училища, не могат да се справят с тази задача. (Прочетете обясненията на Янакиев в доклада на тази тема — днес те са толкова актуални, колкото са били и през 1975 година.)

— Тогава аз извадих късмет — разправяше Янакиев. — Излезе разпореждане, че всички директори на училища трябва да бъдат с висше образование.

Повечето от тези хора са били с полувисше педагогическо образование и е трябвало бързо да завършат задочно, без да прекъсват работата си. Макар и учители по български език и литература, те се страхували от „литературни“ теми и лесно приемали предложението да направят глотометрична дипломна работа. Привличала ги е вероятно и възможността да си изработят работата вкъщи, без да са обвързани с продължителен престой в София.

Професор Янакиев притежаваше качество, присъщо на инженерите и рядко срещано при филолозите — той умееше да „разглоби“ и най-сложната дейност на прости действия, изпълними от не чак толкова квалифицирани работници. А картината на цялото, разбира се, винаги беше ясна пред очите му. Може да придобиете известна предастава за това от Глотометричен архив на катедрата Български език към Софийския университет. Протоколи.

Всеки четвъртък в 17 часа пред 140 кабинет в Софийския университет се събираше тълпа — професор Янакиев имаше приемен час.

В последните години от преподавателската дейност на професор Янакиев имах възможност да присъствам на тези консултации. Случваше се понякога професор Янакиев да е забравил името на дипломанта, но никога, никога не се е случвало да е забравил работата му.

Във всеки един момент той знаеше какво е трябвало да направи дипломантът дотук, какво предстои да направи, къде ще срещне трудности и точно каква помощ ще трябва да получи, било от него, професор Янакиев, било от друг преподавател.

Професор Янакиев възприемаше университета така, както трябва да се възприема и какъвто би трябвало да бъде — като широка научна общност.

Случваше се да каже на дипломанта си „Чакай сега! Ще се наложи да направим една консултация. Ела с мене!“ и го повеждаше към някой от съседните кабинети. Влизаше вътре и казваше „Професор Първев/Иванчев/Пашов, тази наша студентка/този наш студент (тук представяше дипломанта си) има нужда от консултация с тебе по еди-какъв си въпрос“.

Тук не се изненадвайте от странната стилистична смес в изказа на Янакиев — той просто подсказваше на дипломанта си какво обръщение трябва да използва към съответния човек и как трябва да се държи с него.

И като съм почнал със забележките — още една: професор Янакиев никога не казваше „мой студент“, винаги казваше „наш студент“.

Не е чудно, че консултациите при Янакиев често завършваха късно през нощта.

В доклада си от 1975 г. Янакиев съобщава за 500 души дипломанти. Към края на преподавателската си работа той оценяваше дипломантите си над 800 души. При това имайте предвид, че в периода от 1969 година до 1984 година М. Янакиев е в Московския университет.

Впрочем, в Москва съвместно с Н. В. Котова М. Янакиев отново е научен ръководител на няколко десетки дипломни работи. Мисля, че ще е много хубаво, ако някой колега от Московския университет издири тези дипломни работи и публикува отчет за тях — тема, методика, резултати.

От една страна, това ще е принос в историята на славистиката. Ама от друга страна, данните от тези дипломни работи са актуални и днес и могат да стимулират съвременни изследвания (като пример за това вижте работата на Н. В. Котова Глоттометрия и вопрос о начале нового периода истории болгарского литературного языка [djvu] [един файл], която донякъде е свързана с дипломната работа на Мариана Ярославска от 1968 г. на сходна тема).

Хайде сега да си представим как е изглеждала една дипломна работа от 20 000 лекси. В една стандартна кутия с лексикографски фишове се събират около 2800–3000 фиша. Значи фишовете за една дипломна работа се събират в поне седем кутии.

А как ли изглежда архив от над 6 милиона лекси? Сабина Павлова (още веднъж благодаря, Сабина!) ми обърна внимание, че малко по-голям е архивът на лексикографската секция към Института за български език — по този архив основно се изработва многотомният тълковен речник. Архивът заема две помещения, едното доста обширно, запълнени с картотечни шкафове.

Сигурно си мислите, че Софийският университет и Факултетът по славянски филологии много се гордеят с глотометричния архив на М. Янакиев, че го показват на новопостъпилите студенти и че данните от него са достъпни днес на университетския сървър.

Няма такова нещо.

Докато М. Янакиев е бил в Москва, архивът е унищожен. Ето как описва нещата доцент Мая Байрамова: И кърмилиците, и рожбите на „Записките“ бяха стотици дипломни работи от глотометричен тип за създаване на честотен речник на българския език. Голяма част от тях успях да спася благодарение на П. Илчев, който при случайна среща ми каза, че в момента, в отсъствието на М. Янакиев (той продължително пребиваваше в Москва) изхвърлят материалите му от срещуположното на „стаичката на д-р Фауст“ помещение; изживях мерзостния акт съкрушително, защото не знаех дали М. Янакиев има дублиращ запис от резултатите на обединителните дипломни работи. Когато се появиха „Записките по стилистика“ на М. Янакиев, малко преди това и много след това. [html] [pdf].

Глупаво е да питаш първопроходеца: ти що мина по тоя път, бе? що не мина по оня? Ама след повече от половин век количествени изследвания върху езиците струва си да зададем някои въпроси и да потърсим някои отговори.

Защо създателите на корпуса Браун са определили 15 „жанра“? Въз основа на какви съображения? Защо са включили в раздела „хумор“ 9 текста, а в раздела „научни“ — 80? По какви съображения? Иначе казано — доколко корпусът Браун е представителен за писмените американски английски текстове през 1961 година?

Това е обсъждано в американската корпусна лингвистика (с нужното уважение към труда на първопроходците). Ама изводът е ясен — методиката, по която е изработен корпусът Браун, не дава представителна извадка.

Ето защо аз бях доста изненадан, когато преди десетина години в Секцията по компютърна лингвистика към Института за български език беше създаден „български Браун корпус“. Удивлението ми не намаля от забележката, че „При съставянето, поради невъзможност да се покрият всички категории, са пренебрегнати някои принципи на Принстънския Браун корпус (оригиналност и съвременност на текстовете и др.)“. Тъй като и тук достъпът до данните е ограничен и до голяма степен случаен, аз няма какво да коментирам повече по тази работа.

Забележка от 18 януари 2016 г.: цитираният текст е премахнат от страницата на Секцията по компютърна лингвистика, а за „български Браун корпус“ май дори не се споменава…

И забележка от 12 януари 2017 г.: А! Има го, има го! Пак го има българския Браун корпус [html]. Има и търсене в корпуса. Очевидно страниците се преработват за пореден път.

В това отношение М. Янакиев е подходил далече по-прозорливо. Още в началния етап на работата той е оставил студентите си да си избират текстове по вкус — един избирал да обработва текстове от вестник, друг — от учебници, трети — от роман, драма, стихосбирка. Е, Янакиев сигурно ги е подтиквал с ясна цел — текстовете да са колкото може по-разнообразни.

На следващия етап, когато студентите са обединявали по пет изходни речника от по 20 килолекси в един речник от 100 килолекси, изборът на изходните пет речника се е правел по случаен начин, чрез рандомизация.

Само тук не забравяйте — Янакиев е разполагал с 6 пъти повече текстов материал от създателите на корпуса Браун.

Материалът е рандомизиран втори път, когато в заключителния етап речниците от по 100 килолекси са обединявани по пет в речници от 500 килолекси.

Така че на тези сводни речници ние можем да гледаме като на „стилистично неутрални“. Никой количествено грамотен човек не може да възрази срещу този подход.

Някаква представа за сводните речници може да придобиете от раздела Ресурси на glotta, където съм публикувал текста на един от тези речници. Прочетете внимателно бележката: отнасяйте се с нужната предпазливост към данните в този речник!

Впрочем, Янакиев не беше доволен от начина, по който беше организирал глотометричния архив. „Ех, ако тогава знаех…“ възкликна по този повод той веднъж, но стана нещо и той не довърши.

Аз няма да гадая какво е имал предвид Янакиев — той обикновено изненадваше събеседника си с нетрадиционни предложения, които се оказваха по-добре обмислени от всичките ти предположения. Ама си мисля, че все някак е смятал да пригоди глотометричния архив към типологията на текста (вижте по-горе Видове текст. Стилистика). А може да е имал и съвсем друго нещо на ум. Не зная.

Хайде сега да направим някои изводи.

Колекция от текстове не е текстов корпус — най-хубавата колекция от текстове на български език е Читанката, ама това е библиотека, а не е текстов корпус.

За да направиш текстов корпус, трябва текстовете по някакъв начин да ги „класифицираш“, тоест да предвидиш как ще ги групираш по „жанр“, „стил“ или по някакъв друг признак. И по този модел започваш да ги събираш.

Както и да бъде направена тази предварителна класификация, тя не може да бъде „идеална“. По една проста причина — липсва знанието за характеристиките на текстовете, което може би ще получиш, след като си ги събрал.

Та се получава малко като параграф 22.

Ето защо сред специалистите по корпусна лингвистика днес се налага мнението, че да се създаде „уравновесен“ и „представителен“ корпус за един език, е идеал, който не може да се постигне.

Освен това корпусите не са „универсални“, те се правят с някаква определена изследователска цел. Например, ще отделяш ли „изречения“, ще им рисуваш ли „дървета“? Нашият корпус BulTreeBank е изграден точно с такава цел — предимно за синтактични изследвания.

А „думите“ ще ги определяш ли като „части на речта“? Колко подробно?

А морфемите? Морфемен анализ ще правиш ли? Колко дълбок?

А „звуковете“ и „фонемите“? А интонацията и ударенията?

И така нататък.

Няма корпус, който да съдържа всичката тази информация. По една проста причина: ако създателите му решат да въвеждат всичката тази лингвистична информация, те никога няма да завършат корпуса си.

Така че след като един текстов корпус е създаден — а това изисква значителни средства и много, наистина много квалифициран човешки труд, — започват съмненията.

Дали избрахме достатъчно добре методиката за събиране на материала? Дали лингвистичната информация, която е въведена, не можеше да бъде структурирана по-разумно, за да дава възможност за по-полезни справки? И така нататък.

Едно е ясно. В организацията на текстовия корпус вие залагате предварителното си филологическо знание с надежда, че ще получите по-подробна количествена информация за онова, което предварително сте заложили. Казано по друг начин — иновативна информация тук е трудно, много трудно да се извлече.

Този „вроден“ недостатък на текстовите корпуси донасяше много разочарования на филолозите и дълго отлагаше по-сериозните количествени изследвания върху текста. Оказваше се, че текстовите корпуси са по-полезни за информатиците, отколкото за филолозите.

За да илюстрирам колко различни могат да бъдат интересите на информатиците и на филолозите, ще ви посоча корпуса An Crúbadán. Инициаторът му Kevin Scannell отбелязва, че създаването на текстови корпуси е твърде скъпо, та текстови корпуси се създават предимно за английски, френски, немски и той си поставя задача да събере данни за „малки езици“, доколкото текстове от тези езици са достъпни в интернет.

Дотук – добре. Но с каква цел?

Оказва се, че основната цел е да се съберат статистически данни за триграми (съчетания от три последователни символа в текста), за да се направи автоматично (тоест, програмно) разпознаване на писмеността.

Такъв подход на „нормалния“ филолог изглежда съвсем безумен. Но той (подходът) върши хубава работа, особено при текстове, кодирани в еднобайтова кодова таблица.

Освен това корпусът предлага и съвсем прилични рангови речници с позоваване на източниците (интернетските страници), от които е теглен материалът, та след като се ориентира в източниците, филологът може да ги използва.

Ситуацията се промени някъде през 90-те години. В крайна сметка количествените натрупвания доведоха до качествени промени. Натрупването на много текстови корпуси, създавани с различна цел, започна да компенсира донякъде „вродения“ недостатък на отделните корпуси.

И компютърната лингвистика започна да става отново… лингвистика.

Появиха се корпуси на стари писмени текстове; на езика на отделни информационни издания; на диалозите в гледани сериали (като най-близко приближение до разговора); на разговори (а разговорът е естествената форма на езиково общуване, далеч предхождаща писмеността); дори на телефонни разговори, които пък представят малко специфични комуникативни условия.

И пак — и така нататък.

Ама тук не мога да не направя едно отклонение.

Още през 80-те години Цв. Николова включва в своя речник на разговорния език и телефонни разговори. И някои интересни глотометрични наблюдения върху тях (виж. стр. 24. 5. Някои стратистически (количествени) данни за българската разговорна реч) [djvu] [един файл]). А данните от нейното изследване са достъпни в glotta.

Сътрудничеството и интеграцията между различни корпуси, създадени с различи цели, доведе до ясно осъзнаване колко важен е модулният подход в корпусната лингвистика. И през 90-те години, когато започна изграждането на големи („национални“) корпуси, те вече се изграждаха като една или друга система от отделни подкорпуси, в които пък влизат отделни единици (модули). В Британския национален корпус (BNC), например, „модулът“ е от 45 000 лекси. Едновременно с това се появи и стремеж към уеднаквяване (стандартизиране) на използваните в корпусите средства (вижте, например, TEI: Text encoding initiative).

Осъзнаването на тази промяна, свързана с количественото натрупване на корпуси, които дават качествено нови възможности, често свързват с книгата на Елена Тонини-Бонели (Tognini-Bonelli, E. Corpus Linguistics at Work. John Benjamins Publishing Company, 2001).

А по-нови изследвания показват и ползата от този, на практика, глотометричен подход.

За моя читател сигурно ще е полезно да разгледа изданията на Cambridge University Press в поредицата Studies in English Language. На мене ми се струва особено интересен сборникът The verb Phrase in English, 2013, а някои от студиите в него са достъпни като „предварителни публикации“ (drafts), например Jill Bowie, Sean Wallis, Bas Aarts. The perfect in spoken British English [pdf] или Bas Aarts, Joanne Close, Sean Wallis. Choices over time: methodological issues in investigating current change [pdf].

Но едно трябва да е ясно — създаването на голям, „национален“ корпус е работа тежка, скъпа и трудоемка, работа, която изисква интелигентно планиране и настойчива и последователно провеждана организаторска работа.

Затова не са много обществата (страните), които могат да отделят такива ресурси.

Днес не става дума дори толкова за материалните, колкото за интелектуалните ресурси. Филологът, който се занимава с глотометрия, бързо ще се убеди, че въпреки модата да се правят „национални“ корпуси, съвсем не са много онези от тях, от които може да се извлече смислена лингвистична информация.

* * *

Когато М. Янакиев започва през 60‑те години работата върху глотометричния архив, той не е разполагал с никакви възможности да строи текстов корпус.

За да си създаде съвременният читател някаква представа за съществуващата по онова време възможности, нека дам малко факти.

В края на 1963 г. в България започва да работи първият български компютър Витоша, лампов, с 40‑битова машинна дума и с оперативна памет на магнитен цилиндър 4096 машинни думи (около 20 KB, ако я приведем към сегашни мерни единици, ама такова „преизчисляване“ няма много смисъл).

Компютърът е излязъл два пъти по-скъп от планираното, тоест около 3 милиона лева и никога не е пуснат в серийно производство, дори намерение за това е нямало. По същото време средната месечна заплата в страната е 88 лева.

През април 1964 г. фирмата IBM пуска в серийно производство първия си компютър от серията System/360. Изграден е с полупроводникови елементи (много по-бързи от ламповите и много по-лесни за охлаждане), като базовият модел е бил с 8 KB оперативна памет с възможност за разширение до 64 KB.

Тези машини, разбира се, са били недостъпни за учените в социалистическа България.

Но нещо повече — М. Янакиев изглежда никога не е и искал да прави текстов корпус.

Днешният поглед върху онова, което той е правел през 60‑те години, ясно показва, че той твърде прозорливо е оценявал „вродените“ недостатъци на текстовите корпуси, че е виждал този подход като твърде трудоемък и не достатъчно ефективен.

Като започва работата по глотометричния архив, Янакиев „стандартизира“ размера на текста, който ще се обработва в една дипломна работа, на 20 klx (20 000 лекси). Ама това не е ли модулният подход от корпусната лингвистика?

Но по-интересното идва по-нататък.

Всяка дипломна работа трябва да предоставя основни глотометрични характеристики: средна аритметична и средно квадратично отклонение за глаголи, съществителни и прилагателни; „върхът“ на ранговия списък с честотите, многообразието от лекси в извадки от 100, 200, 400, 800 лекси и т. н. с оценка на средното квадратично отклонение (разсейването).

А това дава възможност на М. Янакиев да следи на всяка стъпка (тоест, при всяка внесена дипломна работа) състоянието на архива и да направлява изграждането му. Ако мислим за глотометричния архив като за текстов корпус (на хартия), можем да кажем, че Янакиев го е строил отдолу нагоре с „контрол на качеството“ на всяка стъпка и е управлявал изграждането му.

И резултатите бързо проличават — още след 20‑та дипломна работа Янакиев вече е наясно, че глотометричните характеристики на монолога и на диалога в художествения текст са достатъчно различни, за да започне да дава като различни теми за дипломни работа изследването на авторовата реч (монолога) и на пряката реч (диалога) в един и същ художествен текст.

На филологът глотометрист днес може да му се стори, че 35 години по-рано М. Янакиев е прилагал идеите на Е. Тонини-Бонели за corpus-driven linguistics. Но това надали е така. Очевидно Янакиев е гледал на глотометричния архив като на „жива“ динамична система, която непрекъснато расте, а не като на завършена и фиксирана цялост.

Янакиев добре познаваше методите на математическата статистика и в частност високо ценеше възможностите на секвенционния (последователния) анализ, разработен от Abraham Wald, та начинът на изграждане на глотометричния архив по-скоро е повлиян оттам.

У Урбах на страница 158. [djvu] [един файл] има хубаво обяснение „с думи“ за секвенционния анализ, а студията на A. Wald е достъпна на project euclid. Ама може да ви се стори „много математическа“…

Освен всичко друго секвенционният анализ дава възможност да се вземе статистическо решение с около два пъти по-малко данни, отколкото традиционния извадков (тук може да мислите за „корпусен“) подход. Затова не е чудно, че от глотометричния архив са изведени толкова много данни за българската езикова практика. При не чак толкова голям обработен текст по сегашните разбирания: около 6 милиона лекси.

И най-накрая — модулният подход (тоест на „вноски“ от не големи текстове по 20 klx) дава възможност данните да се обработват кумулативно, с натрупване. Сам Янакиев го нарича понякога кумулативно изследване.

Като пример вижте хистограмата и разясненията на Янакиев на стр. 218 в Стилистиката и езиковото обучение [djvu] [един файл], където са обединени данни за глаголната температура за разговорен текст от шест дипломни работи. Направете си труда да разберете как са пресмятани теоретичните честоти (втория ред отдолу нагоре) и „частните“ хи-квадрат (последния ред).

Личи, че същата техника е използвал Янакиев и в работните материали — на лист 1. (гръб) той е оценявал разпределението на съюза и в публицистични текстове, като обединява резултатите от 100 дипломни работи.

Ама това са само два примера. Ако внимателно следите откъде взема данните си Янакиев в публикациите си, ще установите, че е именно от кумулативно използване на наличните данни.

Това съвсем не означава, че е „яхнал гърба на студентите си“, както би казал злобарят завистник. Всъщност много данни, особено за по-стари, архаични текстове, са извлечени предимно от Янакиев и от Надежда Василиевна Котова, публикувани са и вие днес също може да ги използвате кумулативно.

Няма съмнение, че заключителните, сводните фреквентни речници от глотометричния архив са полезни и можем да ги използваме и сега.

Ама още по-полезна е информацията, която е набрана, докато тези речници се изработват. Затова Янакиев изтъква преди всичко архива и по-рядко фреквентните речници, макар те да представляват отново новаторско и забележително за 60‑те години постижение.

Сега ще опитам, доколкото е възможно, да изведа методическите принципи от практиката на Янакиев и съмишлениците му.

1) Вървете към целта по най-прекия път. Работете просто. Това, разбира се, изисква разум и знания.

2) Работете на малки стъпки, „модулно“. Проверявайте „качеството“ на всяка стъпка. Така ще знаете кога сте достигнали целта си и дали вървите по верния път, а ще ви предпази и от грешки.

3) Пазете резултатите, до които сте достигнали — те ще ви потрябват пак, кумулативно. Пък най-добре ги правете достъпни в интеренет — така хем ще са ви под ръка винаги, хем ще са достъпни и за колегите ви, хем ще може да използвате (пак кумулативно) и техните резултати. А аз ще бъда много доволен, ако glotta стане мястото, на което публикувате.

Днес интернет дава възможност да публикувате не само резултатите от изследванията си, но и материала, върху който сте достигнали до този резултат, тъй да се каже „лабораторните материали“. Защото една работа има някакъв смисъл за науката само ако може да бъде повторена и проверена.

4) Търсете съмишленици. Ако няма — създавайте си ги. Защото взаимоучителната система е най-прекият път до знанието, а в глотометрията има безкрайно поле за работа.

5) Ако не знаете, питайте. Не се срамувайте да питате. Как другояче може да научите нещо ново?

Виждал съм Янакиев в пълна зала със стотици колеги слависти (на X международен конгрес на славистите в София, 14–22 септември 1988 г.) да стане и да каже: „Аз това не го знам, не го разбрах. Може ли да ми обясните малко по-подробно?“

Разбира се, всичките останали слушатели на този доклад, които са го изслушали с достолепен вид, това са го знаели и няма какво да питат.

6) След всичко, което ви разказах за работата на професор Янакиев, може да изпитате акутен пристъп на национална гордост. Недейте! Вместо това изучавайте какво са правили Янакиев и съмишлениците му, мислете и го прилагайте. Като не забравяте, разбира се, да споменете къде сте го научили всичко това.

По-нататъшна обработка на текста

След като сте подбрали текстовия материал, нужно е да го редактирате (вижте обясненията ми в Добре редактиран текст).

В зависимост от целта на изследването ви обикновено е разумно да отделите поне диалога от монолога. Като втори етап е възможно да отделите в монолога разказа от описанията/разсъжденията. И тези два (или три) текста да обработвате отделно.

Няма как тази работа да бъде автоматизирана — тя може да бъде извършена само от вас, от изследователя. Ето пример, който илюстрира защо:

Едни казвали: никога не се е псалило в Струмица по български, нито пък ще оставим някого да псали, други казвали — ще оставите, ще оставите, а трети — кръв ще пролеем, но български да се пее няма да оставим.

Кой друг освен вас може да отдели в този абзац от текста на Арсени Костенцев трите диалогични реплики, „вградени“ в авторовия текст?

За да подпомогна работата ви, аз съм включил в макроса gtools.vim четири бързи клавиша. Ето как се работи с тях:

Маркирате текста (разучете бързите клавиши; да се маркира текстът с мишката е много бавно):

И натискате Alt+D:

Маркираният текст се обгражда с маркерите за диалог. Курсорът застава след затварящия маркер и може да продължите нататък.

Направил съм маркерите в стил XML, ама не използвайте вложени маркери. Опитът ми сочи, че практически е невъзможно да не ги объркаме. Така че поставяйте си маркерите последователно. В примера това ще изглежда така:

Може, разбира се, да маркирате монологичния текст, вместо диалогичния. Но понеже в „Спомените“ на Арсени Костенцев диалогът е по-малко, по е лесно него да маркираме. В драма, например, сигурно ще е по-лесно да маркираме монологичния текст.

Може да разгледате файла Arseni_Kostencev_class_dia.petxt — това е целият текст на „Спомените“ с поставени маркери за диалогичния текст.

За да разделим двата текста, необходимо е да изградим шаблон за търсене на диалогичния текст в редактора, например така:

/<dia>\_.\{-}<\/dia>

Тук има две тънкости. Първата е, че трябва да се използва „мързелив“ (не лаком) множител. Опитайте с лаком, за да видите какво се получава. Втората е в съчетанието \_., което обхваща всички символи, включително символа за край на реда. Необходимо е да го използвате, защото понякога са маркирани като диалог няколко реда.

Когато е готов шаблонът за търсене, може да използвате функцията CopyMatches, за да отделите диалога (вижте разясненията за нея в Конкорданс).

Прекопирайте текста с ново име, което да отбелязва, че тук е само монологът, и със същия шаблон за търсене изтрийте диалога. Във файла с диалога сега трябва да премахнете маркерите — те си свършиха работата. Може да използвате подобен шаблон за търсене:

/<.\{-}>

След това разделяне на текста в зависимост от това как сте поставяли маркерите може да останат шпации в началото или в края на реда — махнете ги, за да вървят добре обработките на текста по-нататък. Проверете също и за двойни шпации.

На някакъв етап от обработката на текста е разумно да се направи от него фреквентен (или рангов) речник. И тогава възниква въпросът какво правим с малките и главните букви.

Очевидно трябва да премахнем „синтактичната“ и „стилистичната“ главна буква, докато „морфологичната“ е разумно да запазим. Така Роза и Любов ще бъдат собствени имена, докато роза и любов ще са нарицателни и това ясно ще личи в речника. Някои насоки аз съм дал в Направа на фреквентен или рангов речник, сега ще добавя още малко.

Препишете си текста с разширение, например, .Ul (от UPPER/lower).

Минете в режим „експерт“ и оцветете главните кирилски букви:

:set hlsearch

:set noignorecase

/[А-Я]

Така рискът да пропуснете някоя главна буква намалява. С кръглите скоби се придвижвате бързо между изреченията (вижте 4. Придвижване на курсора из текста), а с ~ сменяте главна и малка буква (вижте 10. Главни букви, малки букви).

Така „пропълзяването“ през текста става сравнително бързо. След това може да използвате програмката gtext2dict.py.

Списъчно представяне на текста и формат на данните

В примерите към cream в режим „експерт“ аз разглеждам няколко начина за разбиването на текст на елементи (англ. tokenization). Но много полезно в глотометричната практика е разбиването на текста като списък от лекси — погледнете обясненията ми във в) Списък от думи (лекси), а още по удобно е да използвате програмката gtext2list.py — тя решава по-лесно проблема с тиретата, а при желание може да премахнете и пунктуацията.

Резултатът изглежда горе-долу така:

Ако се вгледате по-внимателно, ще видите, че в тоя текст вече е премахната „синтактичната“ главна буква. Даже програмата за правописна проверка ми е подчертала със синичко началната дума в изречението (аз) – това е предупреждение, че след точка нямам главна буква.

Този списъчно представен текст е много удобен за работа, защото контекстът е запазен (е, вярно, вертикално), а вдясно от всяка лекса може да добавяте допълнителна информация. Ето как изглежда същият текст с добавена информация за личните глаголни форми:

cream: a text presented as a list whith classifiers

Разгледайте файла gtools.vim. Там аз съм определил единадесет клавишни последователности, с които в режим „експерт“ на cream може да въвеждате класификатори за „части на речта“. По подобен начин може да си въведете и други клавишни последователности, погледнете и обясненията ми в раздела Макроси и препрограмиране на клавиши във Вашият текстов редактор, а в 28. Още информация на раздела cream в режим „експерт“ съм дал и полезни препратки (за мене бяха много полезни обясненията на Steve Losh. Learn Vimscript the Hard Way).

Тук внимателният читател трябва да се запита — защо единадесет клавишни последователности? Нали частите на речта все пак са десет?

Ама аз нали посъветвах — разучете системата от морфосинтактични маркери, разработена в BulTreeBank. Там е въведен един допълнителен клас, „хибриден“, в който се включват имена, за които без контекст е трудно да се определи дали са съществителни собствени, или са притежателни прилагателни: Иванка Петрова/Петрова къща.

Това решение на специалистите в BulTreeBank вероятно е инспирирано от по-раншни разработки в Пловдивския университет, от 90-те години, в кръга изследователи около доцент Христо Крушков.

Разделител между заглавката (в примера по-горе — лексата) и класификатора (в примера по-горе — V) е табулаторът. Това дава възможност заглавката да бъде и фраза, тоест да съдържа шпации. Изобщо, програмите в glotta разглеждат табулатора като разделител между „полета“ в реда. Та възниква въпросът каква структура на реда създават и „разбират“ те.

Най-пълна е структурата на реда, която създава програмата glist2dict.py:

заглавка<TAB>класификатор<TAB>честота<TAB>адреси

Както споменах, заглавката може да съдържа и шпации. Вие може да си създавате собствени класификатори, но не използвайте в класификатора кирилски букви! ~~Това може да доведе до значително изкривяване на данните ви.~~ Не, вече не може — вижте поправките в метода KphnBG() от 26 февруари 2015 г., но все пак… Използвайте латинската азбука в английския й вариант, цифри и пунктуационни знакове.

Честотата е ясна — тя показва колко пъти се е срещнала дадена заглавка в текста ви. Малко повече обяснения са нужни за адресната информация.

Когато е започвала работата по глотометричния архив, Янакиев е инструктирал студентите си, когато фишират поредната дума от текста, да вписват във фиша и поредния й номер. Точно това е адресът на словоформата в текста.

Програмите в glotta, които правят речници (това са glist2dict.py и gtext2dict.py) могат да бъдат инструктирани да създават и да запазват тази информация. Близко до ума е, че броят на адресите е равен точно на честотата, та речникът може да стане големичък. Ама за сметка на това от речника може да бъде възстановяван при нужда контекстът. По подразбиране програмите не създават това поле.

Ако за заглавката няма класификатор, полето за класификатор остава празно, тоест между заглавката и честотата има два табулатора.

Накрая на този раздел искам да дам един практически съвет: не се опитвайте да поставяте класификатори едновременно за две или повече глотометрични характеристики. Ще направите прекалено много грешки, а ще е доста трудно и да ги откриете.

Вместо това си запазете файла със списъчно представен текст, копирайте го с друго име, което отразява характеристиката, която следите, и внимателно си нанесете класификаторите за тази характеристика. Със следващата глотометрична характеристика постъпете по същия начин. Файловете стават много, ама работата всъщност се облекчава, а практически неизбежната „човешка грешка“ остава в допустими граници.

Данни. Проба и извадка

Е, добре. Редактирали сте си грижливо текста, представили сте го в списъчен вид (като списък от лекси), грижливо сте наслагали класификатори за глотометричната характеристика, която ви интересува. Време е да извлечете количествените данни.

В cream (vim) е много лесно да преброите в списъчно представен текст колко пъти се среща маркерът за глотометрична характеристика, който сте поставили. Вземете от glotta, Работни текстове архива с текстове на Арсени Костенцев и прочетете в редактора файла Arseni_Kostencev_dialogue_verbs_305-364.kphn. В добре направения списъчно представен текст броят на редовете отговаря на броя на лексите. Тук броят на редовете (лексите) е точно 14 252.

Не е трудно да преброите колко от тях са маркирани като лични глаголни форми. Просто в cream в режим „експерт“ изпълнете следната команда:

:%s:\tV::n

Като резултат ще получите 2612. Това е броят на личните глаголни форми в този диалогичен текст.

И сега може да получите средна аритметична величина: 2612/14252 = 0.1833. И като я умножите по 100, ще получите в проценти 18.33% лични глаголни форми. Можем ли да твърдим, че в 100 лекси (една хектолекса) от диалогичния текст на „Спомените“ на Арсени Костенцев можем да очакваме около 18–19 лични глаголни форми?

Съжалявам! Право на такъв извод нямаме.

Да проверим. Отваряме графичната конзола на IPython и правим следното:

Разяснения: на ред 34 аз съм написал малка функция count100(), която преброява колко лични глаголни форми има във всяка последователна стотица лекси (в последователни хектолекси, ако използваме глотометричния термин). Не се искат чутовни познания по програмиране, за да си напишете такава функция. Аз няма да обяснявам тук как работи тя, ама искам да уверя филолога, че може да се научи да пише подобни функции за месец-два, не повече. Аз пък малко съм я доработил и съм я включил в модула gtools.py с името count_hectolexes().

На ред 35 просто изчитам текста, а на ред 36 показвам резултата от преброяването на личните глаголни форми в хектолекса (тоест, получения числов, вариационен ред).

Списъкът на ред 36 съдържа точно 142 числа. От всички 14 252 лекси в текста последните 52 не формират хектолекса, те са „опашката“ на текста и просто ги премахваме. С малко сръчност може да се убедите, че така отстраняваме последните 10 лични глаголни форми — не тъжете за тях, те няма да променят резултатите ви.

Обаче от ред 37 и от ред 38 се вижда, че минималното количество лични глаголни форми в хектолекса в нашия текст е 10, а максималното — 27.

Е, добре — каква полза имаме от „средната стойност“ 18.33%, след като в материала ни има стойност 10 на сто, и стойност 27 на сто?

Ами… няма много полза. Средната аритметична величина (процентите също са средни величини) не е много значеща сама по себе си. Математиците статистици са създали пространен хумористичен фолклор на тази тема, например, един се чувствал средно взето добре с глава във фризера и с крака във фурната.

За да придобие смисъл средната аритметична, трябва да пресметнем още една величина: оценка за разсейването, разпръскването на данните около средната аритметична. Тази величина носи малко тромавото име средно квадратично отклонение. С тези две оценки на данните вече може да правим смислени и издържани от математикостатистическо гледище изводи.

Аз сега няма да се отклонявам към математикостатистически разяснения, ще ги оставя за друг път. Само ще ви уверя, че ако обработваме същия по тип диалогичен текст, очакваното разпръсване на данните с 99.7% вероятност трябва да е между 9.02 и 27.62. А очакваният интервал, в който при същите условия би трябвало да варира средната аритметична величина е от 17.54 до 19.10.

Когато Янакиев пише, че глотометристът трябва да придобие „интервално мислене“, той има предвид точно това. Средната стойност сама по себе си няма много смисъл. Очевидно е, че в друг текст от същия тип, дори в друга извадка от същия текст, тя ще бъде различна.

Далече по-важен и по-значещ е интервалът, в който очакваме да се разпръскват данните или в който очакваме да влизат средните аритметични на различни извадки. При това математическата статистика ни дава възможност да определяме тия интервали с точност, каквато ни е необходима.

Когато преди малко написах, че с вероятност 99.7% средната аритметична на извадка от същия по тип текст трябва да влезе в интервала от 17.54 до 19.10, аз всъщност твърдя, че ако правим много, много, много изследвания на същия по тип текст средно в три случая на хиляда средната аритметична ще е извън този интервал.

Грешка от три хилядни във филологията е съвсем допустима. Всъщност в цялата хилядолетна история на филологията трудно ще намерите твърдения, направени с по-голяма точност, от твърденията, до които достига глотометрията.

Ама ако знаете, че асансьорът в блока пада средно три пъти на хиляда използвания, ще се качите ли на него? Аз бих използвал стълбите.

Затова в области, свързани с човешкия живот, като фармация, медицина, транспорт, строителство, също се използват математикостатистически измервания, но с далече по-високи изисквания към грешката.

* * *

Сега да спрем и да помислим. Дотук аз ви предложих два подхода към данните.

Нека първия да го наречем условно „директен“ — преброявате си личните глаголни форми, разделяте ги с общия брой на лексите и получавате средната аритметична. Това е бързо и лесно.

Ама няма как при този подход да определите разсейването на данните около средната аритметична — средното квадратично отклонение. А това, както посочих, е много важно.

Всъщност — има. Има начин да пресметнете средното квадратично отклонение (оценката на разсейването), ако знаете общия брой на лексите и средната аритметична. Ама е малко по-сложно за обяснения и за пресмятане, а има и някои ограничения.

Ама ако нямате достъп до текста, а ви е предоставен само речник — рангов или фреквентен, нямате друг избор — трябва да работите по този „теоретичен“ начин. Та ще трябва да напиша обяснения по-нататък.

„Директният“ метод е и трудоемък: текст от 14 хиляди лекси не е чак толкова голям и може да го индексирате с класификатори за лична глаголна форма. А ако трябва да обработвате текст от милиони лекси? Какво правим тогава?

И най-накрая — този уж прост „директен“ метод е неприложим при безкрайни съвкупности. Филологът не е свикнал нито да работи с безкрайни съвкупности, нито да мисли за безкрайни съвкупности, ама в други науки не е така.

Затова в математическата статистика е създаден извадковият метод — аз вече казах, това е методът на синекдохата: по част от цялото посредством математическата статистика да правиш изводи, значими за цялото.

Нека да видим как в глотометрията се формира извадката.

Не подценявайте обясненията тук!

Всички, които се занимават с глотометрия, в началото бъркат проба и извадка. „И Енчо ги бъркаше“, каза веднъж Янакиев по този повод — той имаше предвид професор Енчо Герганов, който се специализира по-късно в психолингвистика и психометрия.

Пробата е мярка, мислете за нея като за кофичка или мензура, казваше Янакиев.

В примера по-горе всяка една хектолекса е една проба от текста. И всяка проба дава едно число в числовия ред (вижте в илюстрацията по-горе ред 36).

От практическа гледна точка е много удобно пробите да са с еднаква големина. В глотометричната практика това условие винаги може да бъде спазено. Така, освен всичко друго, резултатът от преброяване на срещанията на глотометричната характеристика, която следите, е цяло число. А това облекчава пресмятанията.

Дайте си сметка, че М. Янакиев разработва методиката на глотометрията по време, когато не само компютрите не бяха достъпни, но практически не бяха достъпни у нас дори калкулаторите (първият български електронен калкулатор е разработен чак в 1965 г., сравнително рано за историята на компютърната техника, но доста след създаването на глотометрията). Затова в математическата статистика от онова време са разработени много методи, които облекчават „ръчната“ изчислителната работа и, съответно, намаляват възможностите за грешка при пресмятанията. С тези познания, в същия дух Янакиев е организирал цялата методика на глотометричното изследване.

Убеден съм, че си струва да се направи едно съпоставително изследване между методиката на глотометрията, както е разработена от М. Янакиев, и останалите количествени изследвания върху естествения език. Предполагам, че то ще подчертае, от една страна, изключително компетентната математикостатистическа основа, върху която стъпва глотометрията, а от друга страна — забележителната оптимизация на работата.

Така няколко проби формират извадката. Пак с оглед опростяване на математическите пресмятания Янакиев препоръчва извадката да се формира от десет или кратни на десет проби, а двете извадки, които съпоставяме, да бъдат с еднакви размери. Ако данните от тези две извадки се окажат недостатъчни, има смисъл да увеличим размера на извадките, като го запазим еднакъв.

Днес, когато извършваме изчисленията с компютърни програми, можем да работим с извадки с различни размери — усложняването на изчислителната работа е прехвърлено върху програмите и ние не сме склонни да ги жалим.

Ама помислете — ако се придържаме към препоръките на Янакиев, пестим собствения си труд. Ако с две извадки от по десет, двадесет, петдесет проби можем да достигнем до убедителен математикостатистически извод, не е необходимо да обработваме целите текстове от сто, триста или хиляда проби.

Хайде сега да повторя.

Пробата е мярка, измерителна единица. От нея извличаме едно цяло число — колко пъти в пробата се среща изследваната от нас глотометрична характеристика. В глотометрическата практика почти винаги е възможно пробите да бъдат с еднаква големина — придържайте се към това практическо правило, много ще си облекчите живота.

От гледище на математическата статистика няма никакъв проблем да обработвате проби с различен размер. Само че данните трябва да ги „претегляте“ спрямо размера на пробата. А това веднага означава, че започвате да работите с дробни числа. Не си усложнявайте работата, моля!

Няколко проби (удобно е да са кратни на десет) формират извадка. От извадката извличаме числов ред. Този числов ред е суровият количествен материал за по-нататъшните математикостатистически обработки.

Близко до ума е, че глотометричната характеристика, която следим, варира между отделните проби, тоест тя приема различна числова стойност в отделните проби. Затова числовият ред, извлечен от извадката, понякога наричат и вариационен ред.

* * *

В историята на глотометрията М. Янакиев и сътрудниците му са експериментирали с различни „измерителни единици“ за съставяне на пробата.

В началото на 60-те Янакиев предлага на студентите си размерът на пробата да е от сто лекси (една хектолекса). Практиката е показала, че извадка от проби от декалекси (10 лекси) не е достатъчна, за да се стабилизират глотометричните характеристики. А проба от килолекса (1000 лекси) пък е твърде трудоемка. Тоест пробата от хектолекса е била оптимизирана — от една страна, е достатъчно голяма, за да „хваща“ основните глотометрични характеристики, от друга страна, е достатъчно малка, за да се обработва ръчно, на фишове.

През 60-те М. Янакиев явно е търсел и е създавал терминология за този нов дял от филологията. В дипломните работи от онова време се среща, например, терминът вокабула и вокабулема вместо лекса и лексема, които по-късно в публикациите на Янакиев май никъде не се използват.

Очевидно е, че Янакиев е мислел за „графична дума“, виждал е, че не е адекватен термин, търсел е друг по-адекватен, ама най-накрая е стигнал до извода, че лекса и лексема достатъчно добре описват фактите. И, всъщност, е облекчил терминологията, вместо да я усложнява.

Та си мисля, че едно събиране на дипломните работи от 60-те, свързани с глотометричния архив, ще даде възможност да се види и каква усилна работа върху терминологичния апарат е извършил тогава М. Янакиев.

Някои не достатъчно прозорливи колеги на М. Янакиев разправяха след смъртта му на студентите си, че, видите ли, М. Янакиев си измислял термини ей така, за да е по-интересно. Точно по отношение на М. Янакиев това е съвършено невярно и могат да го твърдят само хора, които не знаят какво е наука и как се гради тя.

Това твърдение изглежда едва ли не достоверно по една проста причина — двадесети век е период на дълбока криза в езикознанието, която действително довежда до много „обобщения върху обобщенията“, тоест до много съчинения, които не предлагат нищо ново, но преразказват старото с нови термини.

Този процес, при който извадката се формира от хектолексни (по-рядко — килолексни) проби, Н. Котова и М. Янакиев ще определят по-късно като лексиметризация.

Но когато глотометрията започва да се прилага в съпоставителни изследвания, става ясно, че лексиметризацията не е достатъчно адекватен подход за сравняване на текстове от различни езици. Нещо повече, оказва се, че дори в различните стилове на един и същи език средната дължина на думите може да е съществено различна.

А от това следва, че пробите при лексиметризацията не са достатъчно добре изравнени по, така да се каже, „количество езикова материя“.

В началото, преди да бъде изяснена типологията на текстовете (вижте по-горе Видове текст. Стилистика), когато са се обработвали текстове от по 20 килолекси, които са били очевидно „смес“ от различни по тип текстове, този недостатък на лексиметризацията не е изпъквал, може би дори не е бил забелязван.

Ама щом започват по-детайлни изследвания, този недостатък веднага изпъква.

Затова Н. Котова и М. Янакиев създават метода на фонометризацията. Той е подробно разяснен в статията „Глотометрията експлицира основите на съпоставителната лингвистика“ в списание Съпоставително езикознание, III, 1978, № 3, с. 3–15 [pdf].

В статията авторите казват: „Примерите подсказват, че ако се познават правилата за трансформиране на едно записано според официалния правопис съобщение в съобщение, записано във фонетична транскрипция, няма да бъде трудно да се фонометризира то, като се „прескочи“ фонетичното му транскрибиране. Нещо повече — за много езици (например за всички славянски с изключение на сърбохърватския, защото сърбите и хърватите не отбелязват задължително по различен начин дългите и кратките гласни) фонометризацията на правописно записаните съобщения може лесно да се автоматизира. Несложността на такава автоматизация се обяснява с това, че за да се фонометризира едно писмено съобщение, необходимо е да се вземат под внимание не всички особености на фонетичната транскрипция, а само тези, които имат отношение към размера (дължината) на звучащата част от съобщението. А тези особености за щастие се поддават леко на формализация.“

Казано по друг начин: за повечето славянски езици (и не само за славянските) не е трудно да се направи програма, която да отброява килофони. И за съвременния български език аз такава програма съм направил: gkphn_bg.py. Ама съществената част е в модула gtools.py, в класа KphnBG() — там съм включил подробни обяснения и библиография.

Мисля, че всеки студент филолог, докато слуша курса по фонетика, може да напише питонски клас — например, KphnPL(), KphnRU(), KphnRO() и пр. — и да го включим тук в модула gtools.py.

Ползите от това са много.

Първо, студентът ще се подготви по фонетика прекрасно, защото работата по програмата му изисква да отдели съществените за фонометризацията неща от несъществените. А това не се учи в клас.

Второ, студентът ще изучи програмния език пайтън в достатъчна степен, за да може да си обработва данните. А днес да се познава някакъв програмен език е просто задължително за каквато и да било изследователска работа по-нататък.

Трето, когато включи написания от него клас в gtools, инициатива с отворен код, студентът прави влог в науката. Идеята за свободния код беше създадена от програмисти и учени, първоначално за програмисти и учени, ама както виждате, днес от свободния код може да се ползва всеки. Това просто е формата на съществуване на съвременната култура.

Фонометризация и морфологичен анализ

А не можем ли да формираме пробите от, например, 100 (ало)морфи? Тоест, не можем ли да минем към морфометризация? При положение, че сме учени да смятаме морфемата за елементарен знак, това изглежда най-смисленото, нали?

Опитайте. Много ще е полезно за квалификацията ви като филолог да опитате.

Създателите на глотометрията също са опитвали.

Ама трудностите, пред които се изправяме, са доста.

Ще дам няколко прости примера.

Обработвате жена́ и села́. Учени сме, че и в двете лекси крайното акцентувано -а́ е морфема: приемаме и не мислим, че в първия случай това е морфема, означаваща ж.р. ед.ч., а във втория — ср.р. мн.ч. Дори сме научени да наричаме това „полисемия“.

Ама хайде сега да помислим. Какво става с изискването на Фердинанд дьо Сосюр на едно означаващо да съответства едно означаемо и обратното, за да говорим за знак?

И изобщо, възможно ли е в една семиотична система да има „полисемия“?

Като разяснява как се обяснява в граматиките значението и употребата на сегашното време, Янакиев е съвсем категоричен:

За да проличи незадоволителността на разглежданите граматически описания, достатъчно е да се опише по подобен начин някакъв „език“, състоящ се от сигнали на улични светофари: 1) основно значение на ‘червения сигнал‘ е „Спри!“ 2) основно значение на ‘зеления сигнал‘ е „Премини!“; 3) ‘червеният сигнал‘ често се употребява за по-голяма нагледност и живост на съобщението и със значение „Премини!“; 4) ‘зеленият сигнал‘ се употребява понякога и със значение „Спри!“ (За грамемите, наричани в българската граматика „сегашно време“ и „бъдеще време“. В сб.: Известия на Института за български език, кн. VIII, 1962, с. 419–432 [djvu] [един файл]).

Значи, изправени сме пред логическо противоречие.

Нещата няма да се влошат повече, ако се сетите, че в баща́ или в диалектно-разговорното чича́ има същото окончание акцентувано а́, ама значението му описваме като м.р. ед.ч.

Нито ще се влошат повече, ако се сетите, че в „Под игото“ Вазов пише „По друмищата кръстосват читача́: обирите и пакостите нямат чет...“ Очевдно тук удареното „а́“ е събирателно (от читак). Тук явно с мономерфема(?) „мекост“. Ама дали това събирателно значение не обяснява и агресивното навлизане на училища́, студия́, въпреки протестите на езиковедите?

Ако семиотичната система си върши работата — а естествените езици очевидно си вършат работата, — значи логическото противоречие все пак не е в нея (тя работи!), а в описанието й.

Два възможни изхода има от това противоречие.

Единият е да отнемем знаковия (морфемен) характер на акцентуваното а́. Но тогава възниква друга трудност — ако акцентуваното а́ е само част от морфема, от коя морфема е то част?

По този път тръгва филологът, който казва, че „многозначността се сваля от контекста“. Но спира на първата крачка и не прави втората — не посочва кой е минималният необходим контекст, за да се получи еднозначен израз (тоест, морфема). А минималният контекст създава проблеми — запомнящ се пример дава М. Янакиев на страница 80-та от Стилистиката и езиковото обучение [djvu] [един файл].

Другият възможен изход е да запазим морфологичния статус на акцентуваното а́, но да опишем по-адекватно неговото значение. Обърнете внимание, че „окончание за м.р. ед.ч., …за ж.р. ед.ч., …за ср.р. мн.ч.“ не е значението на морфемата, а е изброяване на морфосинтактичните й функции, което от гледище на логиката не е издържано. Значението, семантиката на тази морфема би трябвало да представлява инвариантът, общото, което можем да извлечем от тези разнообразни морфосинтактични функции.

И по този път вървят Н.В. Котова и М. Янакиев. Впрочем, картината която се очертава в изследванията им, е по-сложна — вижте раздела Именное окончание А и „число“ (с. 407) в Грамматика болгарского языка… [един файл].

Нека да си призная, че като ви дадох „морфемата а“ за пример, аз ви бутнах в най-дълбокото: тя е най-честата в българския език, а това означава, че е най-абстрактната и най-трудната за описание.

Ама помните ли? Тръгнахме от чисто техническия въпрос да броим морфемите, а се натъкнахме на твърде теоретичен въпрос, който поставя пред нас дилемата дали да броим акцентираното а́ като морфема, или не. При това се натъкнахме на този проблем с три-четири школски примера.

* * *

Нека дам още един училищен пример. Да си помислим за корена на глагола тека. На пръв поглед няма съмнение — това е -тек-. А в поток кой е коренът? Може би -ток-? Можем да се задоволим с обяснението, че това са (ало)морфи на морфемата. Няма да се заяждам сега с вас и да ви питам, а коя е „основната форма“ на морфемата, как да я назоваваме.

Дори имаме термин за това явление, когато гласната в корена се променя, наследен от времето на Якоб Грим: аблаут. Ама лошото в цялата работа е, че в индоевропеистиката се твърди, че „степен“ -о- и „степен“ -e- са свързани с различни значения: „Не може да се отрече и зависимост между отгласните различия и разлики в значението на думите, напр. в множество случаи е се явява в глаголни корени за сег. време, а о в имена и в минало свършено време, ако и да има някои „изключения“, някои привидни, а други в следствие на кръстосване“ (Ст. Младенов. Сравнително индоевропейско езикознание. София, 1936, с. 175).

Ако разликата в значението се изразява с коренната гласна, не е ли тя инфикс, вътрешна флексия? И като броите морфеми, за да си създадете пробата, ще броите ли аблаута за морфема, или не?

Нека само да ви подсетя, че в протакам и претакам има същия корен и същия проблем. Тук добрият филолог ще се сети и за глагола тъка и аористната му форма тках, тоест за „вътрешна флексия“ ъ и за „нулева вътрешна флексия“.

А терминът назален инфикс се появява още у младограматиците, преди Ян Бодуен дьо Куртене, преди да се формулира ясно понятието морфема. Подобни факти дават основание на М. Янакиев да говори за подранилата антибуквена революция на младограматиците (Стилистиката и езиковото обучение, с. 113 [[djvu]] [един файл]).

Добре, отбелязваме морфемата с т-к и обясняваме, че в нея може да има инфикс -o-/-a-/-e- (да прескочим -ъ- и „нулевата флексия“). Ама в такъв случай май коренната морфема т-к трябва да я наречем циркумфикс. Тоест инфиксът „прониква“ в друга морфема (в циркумфикса).

В статията О количественном основании лингвистических классификаций, 1976 [html] [djvu] М. Янакиев скромно пише: Так, например, с помощью специальной методики [Янакиев тук очевидно има предвид метода за измерване на литеремната кохезия — А.И.] были установлены надежные критерии определения иерархии морфемного анализа слов (точнее, полиморфем), удалось доказать существование циркумфиксного класса морфем.

По-нататък по-лесно не става.

Нека да ви припомня, че 3л. ед.ч. от тека е тече. Какво стана с нашето описание на корена като т-к? Може да го запишете така: корен т-к/ч. Ама каква е ползата от това?

Цялото описание на корена ни става такова:

т + инфикс/аблаут + к/ч.

Сложновато, ама и неубедително.

Във фонетиката се обосновава промяната на к в ч като палатализация (смекчаване). Ама причините за тази промяна не са в корена, а са в „мекостта“ на следващата морфема. Схващате ли разликата? Следходната морфема променя предходната. Тоест, морфемите си влияят взаимно по оста на времето.

И от този факт не можем да се отървем с обичайната забележка: „ама това е фонетичен проблем“, тоест, това е проблем, който няма отношение към знаковата същност на езика. Как да няма, като променя именно морфемата, знака!?

И ако сме последователни, трябва по същия начин да тълкуваме и асимилационните процеси на морфемна граница: отделно се представя във фонетична транскрипция [одде́лно], подчертая се транскрибира [потчерта́йъ] и много други такива случаи.

Заради такива явления във втората половина на XX век се създаде дори цял дял във филологията — морфонологията. Аз тук няма да се впускам в разяснения по тази тема. Нека само да ви насоча към един добър текст: Бернштейн, С. Б. Очерки сравнительной грамматики славянских языков [djvu].

* * *

И така. Филологът живее с (пред)убеждението, че морфемите се редят като мъниста по връвта на времето, че в точно определен момент свършва едната морфема и започва другата.

Това дори не е аксиома, това е само (пред)убеждение.

Аксиомата изисква да е ясно формулирана и, следователно, може да бъде критикувана и обсъждана, може да се усъмните в нея или да я защитите. Така математиците са се усъмнили в аксиомата за успоредните прави в Евклидовата геометрия (където тя е дефинирана съвсем категорично, макар и доста сложно) и са създали неевклидовите геометрии.

Вие виждали ли сте в теоретичен труд по филология категорично твърдение, че морфемите в речта се разполагат линейно по оста на времето? Аз никога не съм го виждал. А ако едно твърдение не е ясно формулирано, то няма как и да бъде обсъждано.

(Ако сега не може да ми възразите, значи не сте чели достатъчно внимателно Мирослав Янакиев — у него, в Стилистиката и езиковото обучение [[djvu]] [един файл] на с. 113 ясно е формулиран „постулатът за «линейната подредба на морфемите в съобщението»“, съпоставен е с реалните езикови факти и е очертан път за преодоляването му.)

И откъде тогава идва това категорично предубеждение за „линейната подредба на морфемите в съобщението“ у филолозите?

Ами… от примерите. От удобно подбраните примери.

И, разбира се, от традицията филологът да се учи да запомня, да „зубри“, а не да размишлява върху езиковите факти.

В цитираната вече статия О количественном основании лингвистических классификаций, 1976 [html] [djvu] М. Янакиев пише: Когда преподают грамматику, стараются подобрать примеры „чистенькие“, фразы, в которых „всe ясно“. Если во фразе что нибудь „не так“, ею не воспользуются. Таким образом, в средней школе (да и в университетах) у обучаемых создается впечатление, что материя языка полностью подчинена пройденным грамматическим правилам. После экзамена, на котором студенту также предлагается решать задачи, разрешимые в рамках преподававшихся знаний, студент забывает почти все, чему его учили по грамматике, до того времени, пока сам не станет обучать (если такое время наступит). Тогда он тоже выберет себе примеры „почище“, и цикл замкнется.

Очевидно е, че морфемният анализ като „по-задълбочена“ част на граматическия се преподава по същия начин с примери, в които „всё ясно“. И чрез тези примери се създава категоричното предубеждение за линейния характер на морфемната структура.

А контрапримерите са пред очите ни.

Вместо ясно да дефинираме аксиома за линейна последователност на морфемите във времето, да я съпоставим с наличните факти и да я обсъдим, ние, филолозите сме постъпили малко по-другояче: създали сме цял дял от науката — морфонологията, за да запазим привичното си предубеждение, че морфемите са подредени линейно по оста на времето. Ама морфонологията се занимава точно с онези факти, които би трябвало да ни накарат да се усъмним в линейната подредба на морфемите!

Тук е мястото да погледнете Н. В. Котова. Морфонология и морфемный анализ. В: Славянское и балканское языкознание. Проблемы морфонологии. М., 1981. с. 329–339. [djvu] [един файл]. (Всички сборници от тази серия са достъпни на страницата на Института по славистика към РАН.)

В статията Н. В. Котова пише: „Морфемы устного сообщения не влияют друг на друга — они „вливаются“ друг в друга.“

Този съвършено нов възглед върху фонетичните и морфологичните явления в езика става възможен поради две големи постижения на филологията през XX век.

Едното е „разглобяването“ на говорния звук на елементарни съставки — диференциалните фонетични елементи (англ. distinctive features), направено от Роман Якобсон, Карл Гунар Михаел Фант и Морис Хале. В Библиотеката съм включил том II на Новое в лингвистике, където има руски превод на студията им, както и препратка към английския оригинал Preliminaries to Speech Analysis.

Независимо от това, че наборът от фонетични диференциални елементи тепърва трябва да бъде критично оглеждан и усъвършенстван, самата идея е революционна — на нея можем да гледаме като на съвременно продължение на „подранилата антибуквена революция на младограматиците“. На фонетичния диференциален елемент трябва да гледаме като на атом, „атом“ в античния смисъл на думата — неподлежащ по-нататък на анализ елемент. И тогава се оказва, че знаем „дълбочината“ на морфемния анализ — няма как една мономорфема (по терминологията на Котова и Янакиев) да бъде „по-малка“ от диференциален фонетичен елемент.

Второто постижение е ясното формулиране на предубеждението за „темпоралната непроницаемост“ на морфемите и категоричното му опровергаване, което е направено в работите на М. Янакиев и Н. В. Котова.

Да, морфемите могат да влизат една в друга по схемата инфикс/циркумфикс. Да, морфемите не само могат, а практически винаги се реализират синхронно — частично или изцяло се застъпват във времето. А това създава една съвсем друга представа за морфологичната (знаковата) структура на естествения език, която Янакиев и Котова определят като вълнова.

И не е нужно да си кой знае колко прозорлив, за да се досетиш, че този модел на описание на знаковата структура на езика отговаря далеч по-адекватно на естествената вълнова (акустична) форма на човешката реч.

* * *

Днес дори е трудно да си представим какви последствия в развитието на филологията могат да имат тези революционни постижения на XX век. Но поне две неща са ясни.

Първо. Пред филологията се отваря възможността да възвърне своята цялост като наука.

Защото днес специалистът по синтаксис може да има съвсем смътни представи от историческа граматика и никакви от фонетика. Ако се сетите за Нoaм Чомски, ще съобразите, че той дори не е филолог, а в едно интервю обяснява, че не знае чужди езици, защото ученето на езици му е скучно.

Специалистът по фонетика днес може да има само смътни представи от граматика, а може да няма и никакви — днес с експериментална фонетика се занимават предимно инженери и физици, специалисти по акустика.

„Вълновата“ теория за знаковата структура на езика може да промени всичко това.

Н. В. Котова и М. Янакиев вече обвързаха синтаксиса плътно с морфологията — погледнете от тази гледна точка на раздела Морфосинтактика в тяхната граматика.

В ръкописите на М. Янакиев лежи една доста пространна Лексикология, която не е публикувана, за съжаление. Тя тепърва ще трябва да бъде изучавана и разучавана, но от сега е ясно, че е съобразена с предложения от Котова и Янакиев морфологичен модел, с отношенията между спаниоморфемите (редките, коренните морфеми, „големите вълни“) и сихноморфемите (граматическите, честите морфеми, „малките вълнички“).

А с фонетиката какво става?

Как какво! Ами пред нея се отваря възможност да прерасне в наука за мономорфемите, за минималните знакове в езиковата материя. И ще престане да стърчи извън филологията като някаква наука, за която не знаеш дали е филологическа, или не точно.

Второ. Пред филологията се отваря възможност, която рядко, много рядко се представя пред която и да било наука — взривообразно да разшири предмета си, да се превърне от наука за естествените човешки езици в обща семиотика, тоест в наука за всички познати на човека знакови системи.

Погледнете от тази гледна точка книгата Стилистиката и езиковото обучение [djvu] [един файл], където М. Янакиев подробно разглежда как се създава идиолектът. Разбира се, на възникването на „значение“, на семиозиса е обърнато специално внимание. При това семиозисът е разглеждан именно като процес, в развитие, като неделима част от изграждането на идиолекта.

Струва ми се, че в този процес възлова е констатацията на Янакиев, че семантиката („невъзпроизводимата суровина“) се формира от информация, която постъпва едновременно от всичките ни сетива. Без да се вземе предвид този факт, „крепостта семантика“ ще остане непревземаема.

Но сетивните рецептори са преводачи — те превеждат разнообразни въздействия на един единствен разбираем за мозъка език, езикът на нервната система.

Този процес на „универсален превод“ и механизмите на изграждане на знакови структури в идиолекта са общи за всички знакови системи, независимо от това на какво сетиво разчитат.

Мирослав Янакиев, разбира се, е съсредоточил вниманието си върху естествения човешки език поне по две причини: първата е важността, жизнената важност на езика за човешкия интелект; втората е, че колкото и сложна семиотична система да е естественият човешки език, тя все пак е измежду най-добре изучените.

Така че не се подмамвайте по външни белези — книгата е написана популярно, насочена е към учители и будни ученици и студенти, но това никак не пречи да е основен труд по обща семиотика.

* * *

Този раздел стана твърде „теоретичен“… Ама вие защо мислите, че методиката не се занимава с теоретични въпроси?! Именно опитът да приложиш теорията в практиката обикновено възвръща обратно към теорията, развива я и я обогатява.

Започнахме с идеята да формираме проби от морфеми. Показах ви какви трудности ще срещнем (при това някои значителни трудности дори не съм ги споменал). Ама пък колко интересно беше!

И все пак — това не е работа.

Янакиев и Котова са решили въпроса, както Александър Велики се е справил с Гордиевия възел.

Като определят пробите в килофони, те въвеждат лесна за работа „измерителна единица“, тя съдържа уеднаквени по „количество езикова материя“ проби независимо от стила или езика, а работата с нея в много случаи може дори да се автоматизира. Ясно е, че някоя от следените единици — морфа, лекса, фраза — може да бъде „разполовена“ от границата между две килофони, както се е случило тук с личния глагол оплакват в диалогичния текст на Арсени Костенцев:

Мнозина се колебаят в такива случаи как да постъпят, а решението е просто — когато извличате данните си (в примера — за личните глаголни форми), няма да броите „разполовената“ форма оплакват. Такова редуциране (минимално) на данните не въвежда грешки и изкривявания в тях. И може да спите спокойно.

Организация — директории и файлове

Аз вече дадох съвет — добре редактирания текст трансформирайте в списъчно представен текст, ама непременнно го запазете в друг файл. Разумно е този друг файл да има разширение, което да показва какво съдържа, например *.list.

Когато маркирате данни за някаква глотометрична характеристика, например глаголна или субстантивна температура, копирайте този файл *.list с ново име и/или разширение, например *.verb или *.V, *.noun или *.N. За следващата глотометрична характеристика, например „демонстативното т“, копирайте файла *.list отново с друго име или разширение, например *.Tt.

Става ясно — докато работите, единичният текстов файл бързо се „размножава“ на множество файлове.

Ама вие сигурно ще обработвате и още текстове?

Та не е лошо да помислите за организация на работата си.

И много ще си опростите живота, ако в една директория има само един текст и производните от него работни текстове. А структурата на директориите може да ви води до текстовете. Например така:

Имената на директориите и файловете транслитерирайте с латиница. Вместо шпации използвайте подчертаващото тире. Тези прости правила ще ви спестяват много главоболия. Защото имената на файлове и директории ще трябва да включвате и в разни команди, нали?

Аз използвам (и препоръчвам) подобен набор от разширения за работните файлове:

Разширение	Файл
.txt	„Суровият“ текстов файл. Той съдържа допълнителна („мета“) информация — автор, издателско каре, оригинално заглавие на текста (ако е преводен), бележки под линия и пр. Ако сте свалили този текст от интернет и не личи явно интернетският адрес, включете го тук — сирурно ще ви потрябва по някое време.
.petxt	Това е съкращение от properly edited text, добре редактиран текст. Това е първият етап от приготвянето на „лабораторния материл“: премахвате допълнителната информация, оправяте бележките под линия, решавате как ще обработвате числителните (цифрите), идеографичните знакове, графичните съкращения, абревиатурите. Отстранявате буквени и правописни грешки, включително омографични грешки между кирилица и латиница.
.Ul	Съкращение от UPPER/lower. Премахнали сте тъй наречената синтактична и стилистична главна буква, оставили сте само „морфологичната“. Този етап от обработка на текста ви е необходим, ако предвиждате да правите речници, фреквентни или рангови, и той не оказва влияние при по-късно измерване на текста в килофони. Вж. 10. Главни букви, малки букви.
.class	В текста са поставени разделители за диалог, монолог или по-подробно. Предполага се, че това все пак е вече добре редактиран текст. Погледнете по-горе По-нататъшна обработка на текста.
.dia, .mono, .narr, .cog и пр.	Отрязък от текста (разбира се, от файл от типа *.class), който съдържа само диалога, само монолога или там както сте си разделяли текста. Вижте по-горе Видове текст. Стилистика както и обясненията към gtools.vim. Знам ли? Вие може да откриете по-деликатни стилистични различия между тесктовете или пък да оспорите установената класификация. Затова съм написал „и пр.“ — при необходимост може да допълвате или да променяте този набор от разширения.
.list	Списъчно представен текст. Вижте по-горе обясненията ми към Списъчно представяне на текста и формат на данните, още към в) Списък от думи (лекси) и към gtext2list.py.
.kphn	Текст с маркери за килофони.
.V, .N, .A и пр.	Списъчно представен текст с класификатори за личен глагол, съществително, прилагателно и пр. Предвидените класификатори заедно с бързите клавиши, с които може да ги въвеждате, ще видите в gtools.vim. Малко разяснения има и в Списъчно представяне на текста и формат на данните. Важно е да помните, че винаги може да си създадете бърз клавиш със създаден от вас класификатор — например Tt не е лош класификатор за определителен член („демонстративно т“), а разширението става .Tt.
.freq, .range	Разширения за фреквентни и рангови речници.

Удобна техника също е имената на файловете да наследяват като суфикси разширението на името от предишната обработка. Например, „суровият“ текст е във файл na_brazdata.txt. Препишете го като na_brazdata.petxt и редактирайте текста.

След това сте решили да разрешите въпроса с главните букви. Препишете файла na_brazdata.petxt като na_brazdata_petxt.Ul и го редактирайте.

На следващия етап слагате маркери в текста за диалог, например — препишете предишния файл с име na_brazdata_petxt_Ul.class.

След като разделите текста на монолог и диалог, ще сте създали още два файла: na_brazdata_petxt_Ul_class.dia и na_brazdata_petxt_Ul_class.mono. И така нататък.

С натрупването на малко опит ще съобразите, че някои суфикси за подразбиращите се обработки може да си спестите. Всички обработки тръгват от добре редакторания текст, та суфикса _petxt_ може да не вписвате. Диалогът и монологът се извличат непременно от файла с разширение .class, та суфикса _class_ също може да си спестите.

Така в директорията вашите файлове може да изглеждат така:

README.txt
data.txt
na_brazdata.UL
na_brazdata.petxt
na_brazdata.txt
na_brazdata_Ul.class
na_brazdata_Ul.dia
na_brazdata_Ul.mono
na_brazdata_Ul_dia.list
na_brazdata_Ul_dia_list.kphn
na_brazdata_Ul_dia_list_kphn.A
na_brazdata_Ul_dia_list_kphn.N
na_brazdata_Ul_dia_list_kphn.V
na_brazdata_Ul_mono.list
na_brazdata_Ul_mono_list.kphn
na_brazdata_Ul_mono_list_kphn.A
na_brazdata_Ul_mono_list_kphn.N
na_brazdata_Ul_mono_list_kphn.V

Забележка. Това все пак е само пример за имена на файлове. На практика разказът „На браздата“ предоставя малко текст за самостоятелно изследване и е добре да се обедини с други разкази на Елин Пелин.

Файловете бързо стават много и без някакъв „практически стандарт“ за имената им непременно ще ги объркате.

Начинът, който ви предлагам, „разказва“ историята на обработката на текста във файла, а е удобен и за създаване на шаблони за подбор на файловете, например

$ ls -l *dia*kphn.*

Много препоръчвам още преди да започнете обработката на „суровия“ текст, да си създадете файл README.txt, в който да описвате имената на създаваните файлове и действията си. Описвайте ги така, сякаш ги обяснявате на човек, съвсем незапознат с работата ви.

Не подценявайте този ми съвет!

Вие ще се захванете да обработвате други текстове, може би със съвсем други изследователски цели, със съвсем други методи. И когато след месеци или години се върнете към този текст, ще четете файла README.txt точно както бих го чел аз — като съвсем непознат текст.

След като сте изработили списъци с класификатори (от типа *list_kphn.*), вие може вече да извличате количествени данни — числови (вариационни) редове. Вижте обясненията към програмката ggrablist.py.

Създайте си файл data.txt. Вписвайте в него извлечените с програмката ggrablist.py данни (нали се сещате? това става с Copy/Paste). Впишете тук и параметрите им (използвайте модула gstat.py като най-прост начин да ги пресметнете). Вече сте готови да проверявате една или друга ваша хипотеза — резултата отново вписвайте тук, в data.txt.

Описвайте и данните, и резултатите достатъчно подробно. Нали се сещате — на самия вас ще ви е необходимо след време достъчно смислено описание. Защото ще сте позабравили какво сте правили.

Пък когато сте завършили работата си, архивирайте цялата директория и я направете достъпна в glotta.

Мерки и теглилки

Някога в часовете по физика филологът трябва да е чувал, че на света съществува Международно бюро за мерки и теглилки (Bureau International des Poids et Mesures) и Международна система (от измерителни) единици SI (Système international d'unités).

Тези неща (с мерките и теглилките) филологът ги е позабравил, защото обикновено не вижда никаква връзка между измерванията и собствените си занимания.

По отношение на оценката на количество филологът се задоволява с много/малко, често/рядко. И, разбира се, със степените за сравнение по- и най- (най- обикновено не е добре обосновано дори „интуитивно“, та разумният научен ръководител учи студентите си да избягват тази частица в текста си, както и „екстремните“ епитети).

Е, има случаи, в които вместо често филологът пише „фреквентно“. Ама това нерядко е за псевдонаучност — всъщност оценка за честотата на явлението авторът няма. И ако няма, аз тук преставам да чета текста.

Да разяснявам ползата и необходимостта от измервания днес, ми се струва чак неудобно.

Мирослав Янакиев влагаше много усилия, за да убеди колегите си, че преходът към измервания във филологията е преход към зрялост на науката, че е неизбежен, ако филологията иска да просъществува като наука в съвременния свят.

И, да — изминалите години показват колко е бил прав.

А идеята за измерване във филологията съвсем не е толкова нова.

Филологът е чувал термина метрика, сеща се, че това беше свързано май със стихознанието, май с ударенията, със стъпките и сричките.

По-рядко се сеща за латинския термин mora (забавяне).

И още по-рядко — за старогръцкото му, по-ясно по смисъл съответствие χρόνος πρώτος — първично (в смисъл ’елементарно’) време.

Да! В стихознанието е направен първият опит да се въведе метрика към „езиковата материя“, да се създаде метрична единица.

Бързо ще съобразите — метриката в мори е „частна“, частична — тя мери само дължините на гласните и не обръща никакво внимание на съгласните и на групите съгласни. Поради която причина си остава само в стихознанието и с хилядолетия не излиза извън него.

А с появата на акцентното стихосложение в новите европейски езици тя започва да се превръща и в екзотичен исторически реликт. При това още в латинския термин мора е останала неосъзната, неотразена същината — мярката, измерването, χρόνος πρώτος като единица време.

И това продължава май до средата на XX век.

* * *

Ще има и още. Имайте търпение.