miryan.org — Четива — Четива за глотометрията

Александър Иванов

Добре редактиран текст

Тук аз няма да говоря нито за научна, нито за езикова, нито за полиграфическа (техническа) редакция на текста. Вместо това ще разказвам как да си приготвите текста (по-точно — текстовия файл) за глотометрични изследвания, като целта е

а) по-лесна обработка с по-малко грешки;

б) извличане на достоверна информация.

Няма да сбъркате, ако мислите за добре редактирания текст (на английски properly edited text) като за лабораторен препарат — не е необходимо да е „красив“ и да има „търговски вид“, необходимо е да ни е полезен за извличане на филологическа информация.

Предполагам, че знаете вече какво е текстов файл и какво е текстов редактор. Ако не сте сигурни, погледнете първо Текстов файл, бинарен файл и Вашият текстов редактор. Аз ще давам примери в cream с препратки към cream в режим „експерт“.

А сега — бързия отговор за нетърпеливите: добре редактираният текст представлява неформатиран текстов файл, в който

— няма пренасяне на части от думата на нов ред;

— няма врезки (отстъпи) в началото на абзаца; няма шпации или табулатори и след края на абзаца;

— всеки абзац се представя като един „дълъг“ ред;

— между абзаците има един (точно един!) празен ред;

— няма празни редове в края (след последния текстов ред) или в началото (преди първия текстов ред) на файла;

— няма табулатори;

— няма повече от една шпация между „думите“;

— няма латински букви вместо кирилски, нито кирилски вместо латински;

— изчистени са правописните и буквените грешки;

— разрешили сте (по някакъв начин) случаите с графичните съкращения и абревиатурите, с идеографичните символи и прочее.

Преди да премина към подробностите, нека да предупредя за две неща — първо, гледайте на съветите ми тука като на предложения, като на споделен опит, а не като на рецептурен справочник; второ — четете си текста!

Четете си внимателно текста — няма откъде другаде да ви хрумне някаква изследователска идея, освен от материала, който обработвате. Просто няма откъде другаде. А материалът сам си „разказва“ какво трябва да направите.

Записвайте текста си в нов файл преди всяка обработка

Нека да подскажа — никак не е лоша практика в началото на текста си, ако сте го свалили от интернет, да копирате интернетския адрес.

Че това ще е полезно и за другите, които ще използват вашия текст, няма съмнение. Ама знаете ли колко пъти този интернетски адрес е бил полезен на мене, дето съм „дръпнал“ текста и уж си го зная…?

Запазете оригиналния текст, копирайте го с ново име, например с разширение .petxt (properly edited text) и тогава започвайте редакцията. В Методика на глотометричното изследване разглеждам въпроса с разширенията на имената на файловете малко по-подробно.

Махнете съпътстващата информация

В добре редактирания текст съпътстващата информация, тоест информацията, която не е част от текста, обикновено е удобно да се премахне.

Това е издателското каре, информацията за положението на текста в интернет, за кодирането (при езици, чиято писменост е различна от английската латинска азбука), предговорът. В края на текстове, свалени от инициативата Gutenberg, например, са включени и лицензните условия, при които може да използвате този текст. Ама това нали няма отношение към изследването ви?

Разбира се, че трябва да проявявате съобразителност: ако предговорът е написан от автора на текста, където той се представя за издател на неизвестен ръкопис, няма да го махате. То това май се подразбира.

Бележките под линия обикновено също са съпътстващ текст — допълнения на научния редактор или на преводача, ако текстът е преводен. Ама не винаги — авторът също може да си допълни нещо под линия.

Ако решите да запазите текста на бележка под линия, удобна практика е да я „впишете“ в текста в квадратни скоби на мястото на препратката. Така съм постъпил и аз с няколко бележки на Арсени Костенцев в текста, който съм дал като пример (гледайте файла Arseni_Kostencev_all.petxt):

При това пишех и прошенията на евреите, от които ми плащаха по един-два-три франка на прошение. [Бяхме представени с господина Разсолкова за награда пред Негово сиятелство, но заедно с Джумая пропадна и тя.]

Тази практика въведе на времето си Виктор Любенов в bezmonitor.com, подобна практика използват и сътрудниците на Читанката, а тя се оказа и много удобна при глотометричната обработка на текста.

В някои случаи може да се наложи да вземате и по-гъвкави решения.

Представете си, че изследвате текста на Библията. Това е вероятно най-коментираният и изследван текст на света, но глотометричните данни за него не са чак толкова много.

Пред вас възниква конкретен въпрос — какво да правите с номерацията на стиховете?

Ако вземете предвид колко късно се появява тази номерация (в католишката библия — във втората половина на XVI век, в православната — буквално вчера), може да приемете, че тя е съпътстваща информация и да я премахнете. И това е разумно, защото иначе ще увеличите недостоверно много броя на числителните в текста.

Ама така пък ще загубите възможността да се позовавате на части от текста по традиционния начин книга:глава:стих. Та сигурно ще ви се наложи да проявите малко находчивост и техническа сръчност.

Произход на текста и буквени грешки

Днес интернет е богат, макар и едностранчив източник на текстове. Едностранчив е, защото в него преобладават предимно писмени текстове и предимно монологични, но това не е основание да не използваме този източник.

Текстовете в интернет обаче рядко са добре изчистени от грешки, било защото много се бърза да се публикуват (например в новинарските сайтове), било защото общуването се усеща като „неформално“ (например във форумите или в коментарите към блоговете), било защото са обработвани с някакъв софтуер.

Типичен случай за софтуерно разпознаване са големите библиотеки с текстови файлове – Gutenberg, Читанката, lib.ru, където текстовете на произведенията обикновено са сканирани от печатан на хартия текст и след това са разпознавани с програми от типа OCR (optical character recognition). Това е много находчив софтуер, но качеството на разпознаването силно зависи от оригинала — понякога оригиналът е с толкова лошо качество, че се налага просто да се пренабере.

Текстовете, разпознавани с някаква програма от типа OCR, непременно трябва да се изчетат внимателно коректорски. Най-трудното тук е, че програмите от този тип заменят букви по оптична прилика и без всякаква логика, например, много често се разменят „и“ и „н“, понякога и „в“ и „п“, „ш“ и „щ“, „б“ и цифрата 6, главна бука „З“ с цифрата 3 и други трудно предвидими такива случаи.

На места текстът може да е съвсем объркан, така че тази коректура трябва да се прави с оригинала или поне със снимките от него. Ако погледнете в „Ателието“ на Читанката, ще научите още по въпроса.

В такива случаи програмите за правописна корекция помагат, ама не много. Те не са много умни и обикновено просто проверяват само дали думата съществува в списък от словоформи. Така те правят два типа грешки:

— ако думата е правилно изписана, но я няма в речника на програмата, те я отбелязват като сгрешена;

— а ако думата е сгрешена, но съвпада със словоформа от речника, например ако вместо съюза и е поставен предлогът в, това няма да бъде отбелязано като грешка въпреки абсурдния контекст.

Този втори тип грешки съвсем не е рядко срещан. Помислете за случаите като разпознаваме/разпознаване — „типова“ буквена грешка, при която съвпада (със само една буква разлика) формата на глагола от III спр. с отглаголното съществително. Ако помислите, ще откриете още такива възможности за типови грешки. Това е тема, която си заслужава една дипломна работа.

Очевидната полза от такава разработка е само един от многобройните примери за необходимостта от количествени филологически изследвания. И практиката ще изисква все повече и повече такова количествено филологическо познание, както прозорливият Мирослав Янакиев е предвиждал още през 60-те и 70-те години.

При отстраняване на буквените грешки може да е полезна и следната техника: направете рангов речник и проверете думите с честота 1: разчита се на принципа на Янакиев „неповторими са само глупостите“ (М. Янакиев. Записки по стилистика на българския език, с. 5). След това търсите съответната глупост в текста и я поправяте.

Отстраняване на излишните шпации и табулаторите

Внимание! Ако текстът, който обработвате, съдържа абзаци с къси редове и няма празен ред между абзаците, вмъкнете първо празни редове между абзаците и след това премахнете водещите шпации или табулатора в началото на абзаца — с тях правят врезка в началото на абзаца. Погледнете Превръщане на форматиран (многоредов) абзац в неформатиран (едноредов) абзац.

Как да замените табулаторите в текста с шпации и как да премахнете излишните шпации съм показал в 23. Пак търсене и заместване — регулярни изрази. Погледнете и Как да махнем шпации и табулатори в началото и в края на редовете.

Ясно е защо не трябва да имаме поредици от шпации — когато превръщаме текста в списък от думи, там ще се отварят празни редове, а ще ни се усложнява и животът при търсене на две или повече думи, ако в текста има неопределен брой шпации между тях.

А символът за табулатор в разработената методика се използва като разделител между полетата при създаване на списъци и речници. На такава структура на списъците и речниците разчитат и програмите в glotta и цялата библиотека gtools.py.

Та ако по някакви причини (аз не съм се сблъсквал с такъв случай) трябва да запазите табулатори в текста, заменете ги с друг неизползван в текста ви символ и при необходимост ги възстановявайте. С търсене и заместване, разбира се. Ама пак ще си направите живота сложен. Налага ли се наистина?

Един абзац — един ред

Когато в паметта на компютъра трябва да се запомни текст, създава се (от програмиста се създава) памет за поредица от символи.

На английски такава памет се нарича string, та и на български говорим за стрингове, макар да има много хубав и точен аналог на български — низ. Наистина — такава памет представлява просто низ от символи. При това краен брой — в материалния свят на компютъра има много, но безкрайно няма.

По-рано имаше разни ограничения за дължината на стринговете, та общо взето един текстов ред от текстовия файл се записваше в един стринг. Сега дължината на стринга в повечето програмни езици е вероятно по-голяма от оперативната памет на компютъра ви.

Та затова се създаде практика всеки абзац да е в отделен стринг като един дълъг ред. В cream с Ctrl-W (от wrap) може да „начупите“ такъв дълъг ред (абзац), за да го виждате на екрана, или — обратно — да го „опънете“, при което абзацът често не се събира в прозореца на редактора и все едно „стърчи отстрани“. С три сини точици cream ви подсказва, че има още текст извън рамката на прозореца.

И при двата случая се променя само екранният вид на текста, а не самият текст. С клавиша F4, който прави видими прозрачните символи, може да се убедите, че е така.

Буквена омография

В компютърните, пък и в полиграфическите шрифтове има значителна омография между букви от кирилската азбука и от латинската. Читателят не обръща внимание на това. Филологът също е склонен да пренебрегва този въпрос. Но може да го прави само докато започне да си обработва текстовете с компютър.

Защото А е българската главна буква, A е латинската, а Α е гръцката главна алфа — изглеждат еднакво, но са различни символи с различно представяне в компютърната памет, при сортиране ще се подреждат на различни места, а ако търсите едната, няма да намирате другите две. Опитайте още сега тук.

Ако програмата за правописна проверка упорито ви подчертава някоя най-обикновена дума, например ехо или расо, вероятно поне някоя от буквите е от латинската азбука. Такива грешки може да направи всеки, правят ги и разпознаващите програми (OCR).

Още от времето на компютрите Правец-8 М. Янакиев се беше намъчил с тази буквена омография — в раздела Снимки и документи има няколко факсимилета, които показват как Янакиев се е стремял да отстрани омографията на българските букви с латинските. Погледнете от такава гледна точка и на шрифта в Грамматика болгарского языка…

Отстраняването на грешки в резултат от буквената омография в cream не е трудно. Просто в режим „експерт“ направете търсене на латинските букви:

/\a\+

С клавиш n отивате на следващата група латински букви, с N — на предишната. Непременно включете оцветяване на търсения текст, така случайно попаднала латинска буква в кирилска дума се вижда съвсем ясно. Повече разяснения има в cream в режим „експерт“.

Римски цифри в текста може да откриете така:

:set noignorecase

/[IVXLC]\+

Понякога в български текстове обаче има омографична замяна с кирилски букви, най-често на Х. Но в кирилицата на Windows има и друга изненада — римската единица не се представя с главно латинско I, а със CYRILLIC CAPITAL LETTER BYELORUSSIAN-UKRAINIAN I (U+0406). На вид не се различава от главна латинска буква I, само дето е кирилска буква и е включена в блока с кирилица.

Нали е ясно? Тия неща се виждат, като си правите речник на символите.

Намалете символното многообразие в текста!

Този призив може да ви се стори странен, дори може да ви възмути. И наистина, днес чрез стандарта Unicode имаме достъп до 1 114 112 различни символа (вероятно повече, отколкото човечеството е измислило през съществуването си), пък аз ви призовавам да намалявате символното многообразие!

Ама чакайте да се разберем — аз не ви съветвам да махате букви и буквени символи, тоест не ви съветвам да премахвате текст. Напротив, текстът за глотометриста е „свещен“ — това е неговият изследователски обект, на който той трябва да бъде верен.

Ако в текста ви има средновековен китайски текст с корейския му оригинал, разбира се, че ще го запазите. Ако имате ранновизантийски оригинал с превода му на коптски и арменски, разбира се, че ще го запазите. То това е ясно.

Даже ще включите „думите“ от тези текстове във вашия фреквентен или рангов речник на този български текст. И ще ги публикувате.

Те, най-вероятно, ще бъдат хапакс легомена (мн. ч. от ἅπαξ λεγόμενον — буквално „веднъж казано“, тоест дума с единична употреба в някакъв текстов масив), но обикновената научна почтеност изисква да ги включите в речника на българския текст, просто защото са употребени там, не някъде другаде.

Сега обаче моите съвети ще бъдат за друго, не за хапакс легомена, а за далече по-често срещани феномени: пунктуационните знакове.

— тирета. Филологът знае или поне би трябвало да знае, че в българския правопис се прави разлика между два знака: дефис и тире („дефис“ се произнася с ударение на последната сричка, моля! заели сме го от френски).

В школската граматика и в съчиненията по езикова култура за дефиса се използват още изразите „малко тире“ и взаимно противоречивите „разделителна чертица“ и „съединителна чертица“. Всъщност противоречие няма — изразите отразяват двете различни функции на дефиса: той е „разделителна чертица“ в синьо-бяло-червено (френско знаме) и е „съединителна чертица“ при пренасяне на думите на нов ред или след частиците по- и най- в степените за сравнение на прилагателните и наречията.

В съвременния стандарт Unicode има още два „дефиса“ със специално предназначение: HYPHEN („мек“ дефис за пренасяне на части от думата на нов ред) и NON-BREAKING HYPHEN („твърд“ дефис, забраняващ пренасянето на част от думата на нов ред) и един съвсем специфичен символ, пак свързан с пренасянето на части от думите на следващия ред — HYPHENATION POINT. Всички тези символи са в блока General punctuation на Unicode и се използват в предпечатната полиграфическа подготовка на текста, та може да ги има във вашия текст, ако е такъв произходът му. Очевидно HYPHEN и HYPHENATION POINT трябва да бъдат премахнати, а NON-BREAKING HYPHEN трябва да бъде заменен с обикновения дефис от клавиатурата.

Твърде досадно е, ако в текста има пренасяния на части от думите на следващи ред. Досадно е, защото не може да ги премахнете с търсене и заместване, трябва да ги обходите всичките. Може малко да си облекчите работата, ако първо направите търсене на по- и най- в края на реда:

/$по$\|$най$-$

После може да премахнете дефиса в края на реда с известен риск да премахнете и дефиса в някоя дума с полуслято писане:

:%s:-\n::

Докато дефисът се описва просто като графичен знак, на тирето се приписва „по-важен статут“ на пунктуационен знак. В полиграфическата практика дори са въведени две тирета — „средно тире“ (англ. ndash, тире с ширина на буква N) и „голямо тире“ (англ. mdash, тире с ширина на буква M), а в Unicode са включени още и FIGURE DASH и HORIZONTAL BAR. Всички тези символи са в блока General punctuation, обаче в блока Mathematical operators е включен още и знакът MINUS SIGN, който твърде много прилича на „средното“ тире, но не е лошо да го използвате, ако обработвате математически текстове: така няма да има риск да изтриете знака минус при обработка на пунктуацията по-нататък.

Малко вероятно е да попаднете на текст с цялото това разнообразие от тирета, ама с част от него непременно ще се срещнете — ако свалите текст, например, от Читанката, в него тиретата ще са представени с mdash („голямото“ тире), ама в екранните шрифтове разликата между тиретата не си личи много, та се случва и да са объркани. В такива случаи речникът на символите в текста става много полезен.

Можем да се отървем от всичките тези тирета, като преминем към старата машинописна практика — на машинописната клавиатура има само знака дефис. Той се използва и за пунктуационния знак тире, когато от двете му страни има шпация или е в началото на реда и след него има шпация (за въвеждане на пряка реч). Следователно дефисът се различава по това, че поне от едната му страна има буквен или цифров символ, например α- и β-разпад. Правилата са достатъчно ясни, за да разпознавате двата символа, ако изобщо това ви потрябва.

— кавички. В полиграфическата практика на различните европейски народи се използва значително многообразие от кавички в различни комбинации. Те често се появяват в текста, независимо от това дали текстът е разпознаван с някаква програма, или е набиран на ръка — текстообработващите програми от типа на MSWord или Writer „въртят“ отварящите и затварящите кавички съобразно с настройките за език. Ако вземете текст от Читанката, също ще установите, че се използват два типа кавички според българската полиграфическа практика (която е повлияна от немската) — отваряща („) с код U+201E и затваряща (“) с код U+201C. Текстовете в Читанката обикновено са много добре редактирани, но с друга цел — за четене, а не за глотометрични обработки.

За глотометрична обработка е разумно всички кавички в текста да се сведат до един знак — стандартната кавичка в английската клавиатура (") с код U+0022. Това, разбира се, се прави с търсене и заместване. Свеждаме отварящите и затварящите кавички до един символ, но пак можем да ги разпознаваме, ако се налага — отварящата кавичка или е в началото на реда, или е след шпация или отваряща скоба; пред затварящата кавичка не може да има шпация или отваряща скоба.

— многоточие. В стандарта Unicode е предвиден символ за многоточие (…) — HORIZONTAL ELLIPSIS, U+2026. Разумно е да го замените с три последователни точки. В cream това може да стане със следната команда:

:%s:…:\.\.\.:g

Точките в полето за заместване трябва, разбира се, да бъдат екранирани.

И тук пак ще кажа: мислете! В някои случаи, например, ако обработвате комбинации от пунктуационни знакове, може да се окаже по-удобно да използвате точно HORIZONTAL ELLIPSIS вместо три последователни точки. Само имайте предвид, че програмите от glotta не го обработват като пунктуационен знак и ще ви трябва известна сръчност, за да го добавите (вижте функцията get_punctuation в gtools.py).

— кратките форми на личното и притежателното местоимение за 3.л. ед.ч. ж.р. в полиграфската ни практика е прието да се отбелязва с ѝ (и с тежко ударение) и такъв символ е предвиден в блока с кирилицата на Unicode (CYRILLIC CAPITAL LETTER I WITH GRAVE, U+0418). Но моя съвет е да го замените навсякъде в текста с й (и с кратка), тоест да се върнете към старата практика от времето на пишещите машини. Има няколко причини за този ми съвет. Първо, символът ѝ не е предвиден нито в старите еднобайтови кодировки, нито в шрифтовете, съобразени с тях. А конзолата в Windows работи твърде зле с кодирането UTF-8 за Unicode. Второ, символът ѝ може да бъде създаден и като комбинация от и и тежко ударение, тоест създава се буквена омография с всичките й неприятни последствия, когато си обработвате текста. Към същата практика (да се представят кратките местоименни форми в ж.р. чрез й) се придържат и сътрудниците на Читанката, а това са хора с много опит в обработката на текстови файлове на български език.

Докато изчиствате буквената омография и намалявате многообразието на пунктуационните знакове, много е полезно да си правите речник на символите в текста. Най-лесно това става в cream с програмката gchardict.py така:

:%!gchardict.py

Може да записвате този речник във файл, а може и да не го записвате — с клавиша u (undo) се връщате обратно към текста да „гоните“ съответния символ.

Допълнителни забележки за пунктуацията и шпациите

В текстове на западноевропейски езици тирето може да бъде представено с два последователни дефиса, че дори и с три (в този случай се прави разлика между средно тире, ndash, и голямо тире, mdash). Понякога съобразно с националната полиграфическа практика не поставят и шпации от двете страни на тези „големи тирета“. Може би е разумно да замените тези комбинации от дефиси с <шпация><дефис><шпация>.

В български текстове, обикновено в „неформалната сфера“, също често се пропущат шпации около тирето, обикновено лявата шпация. Може да намерите тези случаи, например, така:

/[^ ]-[ ]

(Сложил съм шпацията след дефиса в квадратни скоби само за да я направя тук видима.)

Във френски, италиански, руски текстове редовно се използват френските кавички (ёлочки, „елхички“, както ги наричат руснаците) — («) и (»). В текстове на други езици те може и се употребяват разменени, с връхчетата навътре, например в датски. И тук е разумно да се направи замяна с кавичките от английската клавиатура.

Скоби

Много разпространена лоша практика, останала от времето на пишещите машини, е да се използва в текста падаща надясно наклонена черта (англ. slash) вместо скоби. Ако е така във вашия текст, заменете падащата надясно наклонена черта съответно с лява или дясна кръгла скоба. И още нещо — не поставяйте шпация след отварящата скоба или преди затварящата. Това не само отговаря на нашата писмена практика, но ще ви спести и грижи по-нататък при обработките на текста.

Абревиатури, графични съкращения, идеографски символи

Разумно е графичните съкращение „г.“, „и т. н.“, „и пр.“, „ул.“, „пл.“ да се разгръщат в текста. Същото се отнася и за съкращенията (инициалите) при имената, когато е възможно да бъдат възстановени. Ако в текста ви се среща И. Д. Петров и може да установите, че това е Иван Димитров Петров, развийте го така.

Добре е също да развържете и съкращенията за измерителните единици — м (метър), км (километър), с (секунда), квтч (киловатчас) и т. н.

С абревиатурите, както филологът би трябвало да знае, нещата са малко по-сложни, защото различни са начините им на словообразуване и различно ги произнасяме. Общо взето трябва да се ръководите от това, как ги четем. Няма да имате проблеми с БАН или с Росатом, но за БНБ имате няколко решения: Българска народна банка, БеНеБе, БъНъБъ или просто да го оставите неразвързано — това решавате вие в зависимост от стила на текста ви и от целите на изследването ви.

Идеографски символи като № (номер), % (процент), € (евро), $ (долар) и подобни не създават проблеми — това са просто съществителни и ги препишете „с думи“ в съответстваща на контекста форма.

Най-честите идеографски символи в българското писмо обикновено са арабските цифри, с които записваме числа, а и времето — дати и часове. Към тях можем да прибавим и римските цифри, макар употребата им в последните десетилетия да се ограничава, най-вече заради начина, по който изписваме месеците в датите с арабски цифри.

Общият въпрос тук е — какво правим с числителните?

От филологическа гледна точка идеално е да ги препишем „с думи“ — числителните са интересен граматически клас, за който липсват достатъчно количествени изследвания. Част от причините за това е може би чисто техническа: ако ги оставим с арабски цифри, когато попаднат в речник (фреквентен или рангов), в повечето случаи е трудно дори да се определи дали става дума за бройно, или за редно числително. Затова в текста на Арсени Костенцев, който съм приложил тук като илюстрация, съм изписал „с думи“ всички числителни, включително датите и номерацията на главите.

Ако пък числителните представляват специален изследователски интерес за вас, може да пожелаете съставните числителни да се обработват като един израз. Простата техника за това е да замените в текста си шпациите с подчертаващото тире от английската клавиатура; така изразът 1842 г. става хиляда_осемстотин_четиридесет_и_втора година. Хитрината тука е, че програмите ще обработват цялото съставно числително като една „лекса“, а едновременно с това няма пречки за разделянето на текста на килофони. Тази техника е добра и за по-големи числа, представени с арабски цифри, например 20_000. Така няма да се чудите после откъде в речниците ви се е появила група от три нули. Когато сте готови с обработките, винаги може да замените подчертаващото тире отново с шпация.

И пак да кажа, проявявайте находчивост, съобразявайте решенията си с типа текст. Ако обработвате сборник със задачи по математика, може би е безсмислено да преписвате „с думи“ всички числа, записани с арабски цифри. Може би така трябва да редактирате само редните числителни, а бройните да ги оставите с арабски цифри. Например. Щото решението е ваше в зависимост от целта на изследването ви и трябва да може да го защитите.

И като написах този раздел, дадох си сметка, че не съм ви отговорил на основния въпрос. Защо? Защо ви съветвам да разгъвате съкращенията и абревиатурите, защо ви съветвам да изписвате „с думи“ числителните?

Извинявам се, отговорът ми се виждаше толкова очевиден, че го пропуснах — за да си измервате правилно текста в килофони, за да са ви убедителни данните и да не въвеждате „системна грешка“ в тях. Това сигурно изисква да го обяснявам още някъде.

Приемете, че в добре редактирания текст всички тези елементи на писмения текст би трябвало да изглеждат горе-долу така, както бихте ги прочели на глас. Ако се придържате към това правило, няма да сбъркате.

Ама не се чак вманиачавайте, де.

Почти съм сигурен, че Арсени Костенцев би казал хилядо осемстотин четиридесет и втора, пък аз го записвам хиляда. И какво от това? Каква съществена характеристика на текста променям?

А мога ли да съм сигурен как би го произнесъл Арсени Костенцев? Текстът не ми дава отговор.

Какво ще промените, ако развиете числителното 20 като двадесет, или двайсет, или двайсе? Нищо съществено. С една-две монофони ще измените дължината на килофоната, това е в границите на допустимото (вижте Н. В. Котова, М. Янакиев. Глотометрия на фонетичните стойности на буквата а в историята на българския език. В сб.: Изследвания върху историята и диалектите на българския език. Сборник в памет на чл.-кор. Кирил Мирчев. София, 1979, с. 244–249. [djvu] [един файл]).

Разбира се, ако сваляте текст от аудиозапис, положението е малко по друго — там се опитвайте да записвате числителните така, както ги произнася говорещият.

Ударения

В съвременната българска писменост не отбелязваме информация за ударения и интонации. Доста приблизителна информация за интонацията изразяваме чрез завършващите изречението пунктуационни знакове [?], [!]. […] и [.]. Донякъде това е по-добре отразено в испанската пунктуация, където тези символи са поставят и „предварително“, преди израза: [¿] и [¡].

Това — да не се отбелязват ударенията и интонацията — е облекчение за пишещия и затруднение за четящия, особено ако тепърва изучава българския език. (За асиметрията между пишещия и четящия погледнете М. Янакиев. Основы теории орфографии. В сп.: Вопросы языкознания, 1963, № 5, с. 47–57. [pdf])

М. Янакиев разправяше за тази статия следната история. Дал я той на академик Колмогоров за предварителна оценка, преди публикацията. Щото в тази статия има много математическа логика.

Та прочел статията Андрей Николаевич Колмогоров и казал: Ну, ладно… Да слишком громоздко… (Добре, де… Ама много сложно…).

И разправя това Янакиев, и повдига виновно рамене, и прибавя: „Ама аз тогава така си мислех, че трябва…“. И пак виновно повдига рамене.

Сигурно сте чували хубавата арабска поговорка: на умния и комар да му бръмне, ще разбере; на глупавия и със зурна да му свириш, пак няма да разбере.

Та, мисля си, толкова му е трябвало на Янакиев, за да се убеди, че бърка, като не се съобразява със собствената си природа.

Защото на Янакиев „по природа“ му идваше отръки да превръща сложните неща в прости и нагледни. И по-нататък М. Янакиев се мъчи да пише на възможно най-разбираемия за публиката си (за нас, филолозите) език. Но при едно задължително условие — никакви отстъпки от научността.

И кратко пояснение за филолога: А. Н. Колмогоров е универсален математик, но може би, най-известен е с книгата си Grundbegriffe der Wahrscheinlichkeitrechnung, in Ergebnisse der Mathematik. Berlin, 1933, която многократно е преиздавана на английски и руски и в която А. Н. Колмогоров поставя теорията на вероятностите върху аксиоматични основи.

Впрочем, както личи и от статията в уикипедията, А. Н. Колмогоров се е занимавал с какво ли не, дори със стихознание — във Вопросы языкознания, № 1 от 1964 г., където Янакиев печата Теория орфографии и речь [pdf], А. Н. Колмогоров има статия (съвместно с А. В. Прохоров) „О дольнике современной русской поэзий“ (броевете на списанието Вопросы языкознания са достъпни на страницата на Института за руски език и се допълват — така трябва да изглежда науката днес.)

И все пак, макар и рядко, поставяме ударения в българския писмен текст. Пишещият обикновено поставя ударения, когато осъзнае омография, например фóрмата/формáта, и редовно на степенуващата частица по, когато не е пред прилагателни и наречия: пó ми се иска; пó на юг; пó майстор.

В Unicode има блок Combining Diacritical Marks — разгледайте какви символи има там, моля, експериментирайте с тях. Както личи от името на блока, тези символи се комбинират (обикновено) с предишния символ. Слагам „обикновено“ в скоби, защото има и лигатури — те, разбира се, се комбинират с предходния и със следходния символ.

За старобългариста в тази техника няма нищо ново — още от 90-те години точно такава техника се използва в старобългарските шрифтове за въвеждане на надписаните символи, титлите, ударенията, придиханията и прочее.

Но в добре редактирания текст аз ще ви посъветвам — не използвайте „комбинирни символи“. Те ще ви създават проблеми и при търсене, и при заместване, и при сортиране (подреждане по азбучен ред).

В текстовете, които предоставям тук, аз поставям ударението пред ударената гласна — форм`ата, п`о на юг — и препоръчвам тази практика.

Знакът за ударение е на английската клавиатура вляво, горе и е с код 96 (U+0060) и с име GRAVE ACCENT.

Ако сте взели текста някъде от интернет, възможно е вместо знака за ударение да е използван знакът за апостроф (39, U+0027, APOSTROPHE). Това е широко разпространена грешка, редактирайте я.

Във форматираните текстове от Читанката ударението е поставено след гласната. И това е много поучителен пример.

Текстът се редактира не спрямо някакви „абстрактни“ или „абсолютни“ правила, а спрямо някакви цели. В Читанката текстовете се редактират така, че с програмни средства от тях да се генерират файлове във формат HTML, epub, fb2. А тук аз обяснявам как е удобно да си редактираме текста, за да извличаме от него лингвистична информация. Друго е.

Ако „сваляте“ текста от звуков запис, на някакъв етап от обработката му е разумно да поставите не само словните ударения, но и фразовите, както и да въведете информация за интонацията. Но това е достатъчно дълга тема за друг разказ.

Накрая искам да отбележа, че функциите за сравнение, използвани в модула gtools.py, засега не обработват както трябва ударените гласни. Това не е голям проблем засега, но ще трябва да се доработи.

* * *

Записвайте си решенията, които вземате, докато си приготвяте текста, и ги разяснявайте. Тези бележки ще са ви необходими и по-късно, защото човек забравя. А ще са полезни и за други, ако решите (горещо препоръчвам!) да направите изследователския си материал достъпен в интернет или да сътрудничите на glotta.

Когато решите, че текстът ви е готов, направете няколко предварителни обработки: списъчно представяне на текста, речник на символите, рангов речник. Внимателно ги разгледайте — обикновено се откриват още някакви грешчици.

Привикнете с мисълта, че и по-късно, когато си обработвате материала, може да се наложи да се върнете към текста, да промените някое решение, което сте взели при редактирането му, или да добавите ново и да повторите обработките. Тъй де, правите изследване, не карате бързия влак.

И накрая, статистическите обработки по начало допускат, че сте направили някакви грешчици. Та ако откриете единична грешка в късен етап от обработката, не се връщайте да повтаряте всичките обработки.

Първо помислете. Постепенно ще се научите да преценявате до каква степен тази грешка ще се отрази на резултата ви и в каква посока.

Но това не означава, че не трябва да сте колкото е възможно по-прецизни при обработката на материала си.