miryan.org — Четива — Четива за глотометрията — Оценка на извадката от имена на български граждани по характеристиката „пол“

Александър Иванов

Оценка на извадката от имена на български граждани по характеристиката „пол“

Когато публикувах втората редакция на Имена на български граждани (2015), където съм наслагал класификатори за пол — мъж (m) и жена (f), аз написах:

„Няма съмнение, че като съм поставял класификаторите за пол, съм допускал грешки. Причините за това са много. Очевидно е, че тези грешки ще могат да бъдат отстранени, когато антропонимията започне да си сътрудничи с ЕСГРАОН. Засега мога само да ви уверя, че тези грешки не въвеждат значими отклонения в данните. Смятам да напиша и текст, където това ще се обсъжда по-подробно.“

И сега изпълнявам обещанието си.

Ще разкажа, първо, защо грешките са неизбежни. Тази част ще бъде до голяма степен „филологическа“.

Второ, ще разкажа по човешки начин как математическата статистика ни дава увереност, че извадката от български граждани избиратели по характеристиката си „пол“ е „представителна“, тоест, че характеристиката „пол“ в извадката не се различава съществено от характеристиката „пол“ сред всички български граждани (за сравнение ще бъдат използвани актуални данни от Националния статистически институт).

Междувременно ще се обсъждат и разни други практически и теоретични неща, та се надявам текстът да стане познавателен. Тъй де — нали това са учебни четива.

* * *

И така — защо са неизбежни грешките, когато се поставят класификатори за пол към избирателните списъци?

Първо, да припомня малко основни неща: при съществителните имена род е класификационна категория в граматиката и няма много отношение към действителността (например, към пола на живо същество, ако то изобщо притежава пол). Примери за това лесно ще откриете и сами, лесно ще намерите и да прочетете.

Ама вие помислете и по-общо — огромният брой съществителни имена назовават („реферират“) същини, към които биологичната характеристика пол е съвсем неприложима. Нима истина е „по-женствена“ от разум?

Що се отнася до другите имена (прилагателните, числителните) и местоименията, там категорията род има съвършено друг характер — тя е парадигматична (склонитбена) категория, а не класификационна.

А това вече ясно показва, че от логическа гледна точка описанието на „категорията род“ в българската граматика не е никак задоволително.

Лесно е да се покаже още, че дори само при „класификационната“ категория (при съществителните имена) представянето на семиотичната (знаковата, морфемната) същност е противоречиво. Приема се в българската граматика, че съществителните имена от м.р. притежават „нулево окончание“ (за разлика от женски и среден род).

Следователно кост е съществително от мъжки род! Подобно на мост, например…

Примерчето е предимно с дидактичен характер — то трябва да ви подсети нещо, което Мирослав Янакиев изтъква от десетилетия: когато работите с „нулеви морфеми“, може да докажете всичко (погледнете от такава гледна точка „Числото“ в българската глаголна парадигма и морфемният му израз [html] [pdf]).

Всъщност дори по-озадачаващи са примери като баща, слуга, аташе, денди, които в класификационната форма на „категорията род“ се изявяват като съществителни от женски или среден род (и се членуват така) и чак в минимална фраза със съгласувано определение (тоест, като се премине към парадигматичната форма на „категорията“) се изявяват като мъжки род.

Та възниква въпросът: на коя „родова морфема“ трябва да вярваме — при съществителното или при прилагателното? И противоречието в описанието става очевидно.

Затова Котова и Янакиев предлагат такова описание на фактите: „В настоящее время в бг. языке характеристики „мужской род“, „женский род“ и „средний род“ эксплицитно выражены только в полилексах (как минимум дилексах), состоящих из существительного и по меньшей мере одного прилагательного“ (Грамматика болгарского языка для владеющих русским языком. Москва, 2001, с. 411).

Тоест, те предлагат да се откажем от „класификационната“ част на категорията и да я разглеждаме само „парадигматично“ в минимална фраза прилагателно + съществително име. И това изглежда твърде смислено.

Но за да направим това, от нас се изискват още малко усилия. Трябва да се откажем от лингвистично описание (и най-вече — от лингвистичното мислене) „в думи“ и да преминем към морфосинтактика. Което на практика означава да не обръщаме чак толкова внимание на шпацията. Готови ли сте за такава промяна?

За биологичния пол на избирателите в извадката ние можем да съдим само по явно изявени белези на „граматичната категория род“. И тук, разбира се, се срещаме с всички възможни трудности.

За Драгия, за Никола ние може да сме сигурни, че са имена на мъже.

Сигурни сме, само защото не сме ги срещали у жени. И наистина, в извадката няма нито един случаи с тези имена, който да ни накара да се усъмним, че са мъжки имена.

Но за Ани, например, не можем да бъдем толкова сигурни, че е само женско име. В 5806 случая то наистина е име на жена, но в 81 случая е на мъж.

У Стефан Илчев то дори не е регистрирано като мъжко име, но у Николай Ковачев е с 22 регистрации и тези количествени данни (в съпоставка с извадката тук) дават основание да мислим, че макар и рядко име за мъже Ани не проявява тенденция към изчезване.

Дори за Драгана в 8 случая не можем да сме съвсем сигурни, че е име на жена — то се съчетава с фамилно име в мъжки род. Възможно е това да са жени, които са приели фамилно име в мъжки род: още от Възраждането е регистрирана подобна слабо изразена тенденция, която днес се проявява още по-слабо и по-скоро в западните краища на страната. Но точно там е възможно това да са и мъжки имена, подобно на Драгия и Драгиша.

При имената, за които знаем или допускаме, че са от чужд произход, употребата на една и съща форма на личното име и за мъже, и за жени е още по-честа. Например, Никол (949 жени/8 мъже), Маргарит (10 жени/800 мъже), Рони (6 жени/25 мъже) и т. н.

При мюсюлманските имена, разбира се, това също се проявява. Например „типичните“ женски имена Айлин и Айсел все пак се срещат и при мъже: Айлин (2246 жени/91 мъже), Айсел (1861 жени/4 мъже). При това тука е възможно да съм сбъркал — мъжете, носещи тези имена, да са повечко.

В турския език, както е известно, граматическа „категория род“ няма. Та на кой знае каква „морфология“ в собствените имена е трудно да разчитаме. Все пак имена, завършващи на ‑е, ‑ие, ‑иа, ‑ия обикновено се носят от жени; мъжките имена често завършват на ‑и, ‑а, ‑ъ. Но на тези „формални показатели“ много не може да се разчита. За пример ще дам само най-често срещаното име за жена у българските мюсюлмани: Фатме (21 200) и Фатма (2938).

Защото мюсюлманските имена в извадката се отличават със значително разнообразие от графични варианти, които в по-голямата си част, изглежда, са мотивирани от фонетични особености. Например: Мохамед (846), Мохамад (64), Мохамет (5), Мохаммед (4), Мохаммад (3), Моамед (2).

Дайте си сметка, че мюсюлманските имена у нас се използват от общности, чиито майчин език е различен — български, турски, ромски (цигански), арабски. Понякога се виждат умилителни опити фонетичните особености на майчиния език да се пресъздадат със средствата на българския правопис. Тези факти — за формата на антропонимите и връзката им с майчиния език — трябва да бъдат изследвани доста по-подробно. Но пред моята цел сега — да поставя класификатори за пол — те предоставят само допълнителни трудности.

„Триименната“ система за регистрация на български граждани — собствено, бащино, фамилно име — в огромния брой случаи създава онзи необходим „полилексен контекст“, който ни дава възможност със сигурност да решим какъв класификатор за пол да поставим.

Фамилните и бащините имена обикновено са по морфологичната си форма просто притежателни прилагателни имена и когато са образувани с наставка (и окончание) ‑ов/‑ова, ‑ев/‑ева, ‑ски/‑ска, ‑ин/‑ина, ни ориентират достатъчно добре за биологичния пол на избирателя. Много мюсюлмански имена също са изградени по този модел, но при мюсюлманските имена има и доста изключения. Някои наблюдения съм изложил при представянето на материала.

Така че аз първо „филтрирах“ материала с простичка питонска програма (gender.py.zip), която проверява за изброените по-горе „наставки“ (тук е по-точно да говорим за завършеци, не винаги това са наставки), проверява първо бащиното име (ако го има) и после фамилното.

Това ми решение е мотивирано от следните съображения. Първо, има наши фамилни имена, които не отразяват „женски род“, например фамилните имена на ‑ич. Макар и да са редки, има ги. Та по-разумно е да се гледа първо бащиното име. Второ, „интуитивните“ ми наблюдения ме карат да мисля, че при жените по-често в мъжки род е фамилията, отколкото бащиното име. Не съм го проверявал количествено — това предстои.

Така или иначе с програмката бяха наслагани класификатори жена/мъж в над 92% от имената в избирателните списъци. Но… Но не без грешки.

Помислете си как този „алгоритъм“ ще обработва следните случаи: Галина Мин До, Диана Хусеин Мохамед, Леа Йонтов Маджар, Жана Константинов Русович, Ингрид Дървошанов, Ребека Яков Лазар и други подобни.

България не е голяма страна.

Ако си представим, че цялото население на страната ни се засели в един град, този град ще е след тридесет и петото място в списъка на градовете, подредни по население.

Но културното и етническото разнообразие у нас е значително, а това, разбира се, се отразява в антропонимията.

Затова аз минах втори път през материала — така да се каже, „ръчно“.

В съвременния компютърен свят прилагателното „ръчен“ наистина трябва да се поставя в кавички — разбира се, че използвах програмата текстов редактор, разбира се, че използвах нейните възможности за търсене и заместване, за да направя всички Галина, Диана, Леа и пр. жени, а не мъже. Което си е близко до ума.

При това многократно правех фреквентни речници на личните имена — във фреквентния речник е по-лесно да видиш, например, че Ингрид е маркирана като мъж, да се върнеш към основния списък и да го оправиш.

Друга техника, която помага, е да се провери дали дадено неясно лично име се среща като бащино име — това все пак дава възможност да се допусне, че става дума за лично име на мъж.

И най-накрая. Можеш да потърсиш името на даден избирател в интернет. При не чак толкова многобройното население на страната ни често се намира профил във facebook, материал в медиите, съдебно решение или аренден акт и пр. Все допълнителна информация, която може да ви даде възможност да решите какъв е биологическият пол на даден избирател.

Тоест, аз направих още една редакция на списъка с имена на избиратели, вече по личните имена, вече, така да се каже, с по-ситен шев. Само да предупредя — това е работа пипкава и бавна.

И съвсем не изключваща възможностите за грешки.

Пример. Джон (11) би трябвало да е мъжко англосаксонско име и няма да се колебаете при определяне на пола, нали?

А какво ще правите с Джон Чин Лю? Дали не става дума за омография? При това дори не можем да сме сигурни дали става дума за собствено име Джон, или за фамилно — избирателните списъци не ни дават никаква информация за майчиния език на избирателя и не можем да вземем никакво разумно решение.

Това — само като пример колко предпазливи трябва да бъдем, когато правим „масови редакции“ с търсене и заместване.

Всички примери дотук са повече или по-малко редки, „екзотични“. Това ги прави удобни за учебен текст — по-лесно се запомнят. На практика обаче грешки в тези единични случаи надали ще въведат някакви съществени изкривявания в данните.

Другояче обаче стои работата с имената на българските мюсюлмани — те са значителна част от сънародниците ни. А при техните имена (щом бащиното и фамилното име са оформени без прилагателни наставки и родово окончание) са възможни всички, описани дотук грешки. При това грешки масови, тоест грешки, които наистина могат да изкривят данните ни.

Такива бяха моите опасения. И както ще видите в следващата част от текста, те не са били безоснователни.

Ето защо ще повторя: тези грешки ще могат да бъдат отстранени, когато антропонимията започне да си сътрудничи с ЕСГРАОН.

Не че в ЕСГРАОН не стават грешки — съученичка на дъщеря ми беше викана на донаборна комисия, — ама са по-малко.

* * *

Сега ще премина към количествения анализ на данните.

Ще направя съпоставка на даните за пол от извадката с официалните данни на Националния статистически институт за населението на страната по области, общини, местоживеене и пол за края на 2015 г.

(Забележка от 2017 г. На страницата се виждат данните за изминалата година; изтеглете си файла от Динамичен ред: там са събрани данните от 2000-та година насам. Друг вариант е да си направите справка за 2015 г. чрез информационната система Инфостат, ама е малко по-сложно.)

Разбира се, на официалните данни ще гледам като на истински и ще се надявам да не излязат значими различия (от гледище на математическата статистика) с данните от извадката, където класификаторите за биологичен пол съм поставял аз.

Разделението на жителите по градове и села, което е направено в таблицата на НСИ, няма отношение към целта ми сега, затова съпоставката ми ще бъде само с общата част от таблицата.

Да се направи съпоставка на антропонимите между българското градско и българското селско население, вероятно, ще бъде много интересно, но това е просто друго изследване, с други цели. А ще са ви необходими и други данни, например, за възрастта на населението. И тук пак ще повторя — ЕСГРАОН!

Данните, с които ще работя или ще използвам по-нататък за илюстрации и обсъждане, са представени във файла imena_2015_mwzhe_zheni.xls. Изтеглете си го и работете с него.

За глотометриста никак не е лошо да поизучи малко работата с някоя от програмите от типа електронни таблици. Те имат много възможности, имат и статистически функции (ама трябва да се изучават, при това — много внимателно! ако не сте наясно как работи дадена „статистическа функция“, може да направите съвсем грешен извод), а предоставят електронните таблици и най-лесния начин да правите графики.

А вие графики си правете! Графиките много често показват неща, които е трудно да забележите, докато разглеждате числовите (вариационните) редове с данни.

В първата таблица Имена са данните: в първите четири колони (A, B, C и D) са „истинските“ данни от Националния статистически институт; в следващите три колони (E, F и G) са данните, които аз съм извлякъл от извадката с имена на български граждани. В последните две колони (H и I) са представени пресметнатите стойности за математикостатистическия критерий λ² (чете се ламбда-квадрат) по области, отделно за жени и за мъже. За това ще има повече подробности след малко.

Разгледайте последните два реда от таблицата:

Край на таблицата imena_2015_mwzhe_zheni.xls

В последния ред (Контрола:) са сумирани избирателите по класификатора пол. Тези суми аз съм извлякъл от извадката. В предпоследния ред (Общо:) са сумите по общини от съответната колона в таблицата. Близко до ума е, че сумите — съответно за мъже и за жени — трябва да са еднакви, ако не съм допуснал грешка при въвеждане на данните в таблицата. И при мъжете е така, ама при жените някъде съм допуснал грешчица. Запазил съм я в таблицата с дидактична цел — ще се върна върху нея към края.

Разясненията ми в предишния абзац всъщност са практически съвет.

При работа с данни, особено ако са повечко, много е разумно да се проверява някаква контролна стойност — най-често за това се използват сумите. При това, близко е до ума, че двете стойности, които сравнявате, трябва да са получени по различен начин. Иначе рискът да повторите една и съща грешка два пъти е много висок.

Тази техника е полезна и при текстови данни. Ако превърнете текста, който изследвате, в списъчно представен текст, броят на редовете във файла ще отговаря на броя на „думите“ (лексите). Ако направите по-нататък рангов или фреквентен речник от този текст, очевидно е, че сумата на честотите в този речник трябва да е равна на броя на редовете в списъчно представения текст.

Някои идеи как бързо да достигате до тези данни, без дори да излизате от текстовия редактор, аз съм показал в Сума на честотите, дял от раздела cream в режим „експерт“.

Такива не сложни и бързи проверки на данните дават възможност на добросъвестния изследовател да спи донякъде спокойно.

Сега разгледайте внимателно таблицата Имена.

Би трябвало да очакваме, че в избирателните списъци ще са включени по-малко хора, отколкото са регистрирани по местоживеене — най-малко в избирателните списъци не са включени младежите под 18 години и децата. И в много общини е точно така.

Но в много общини не е така — в избирателните списъци са включени повече хора от регистрираните по местоживеене.

Преди да подскочите — Ах, ето ги „мъртвите души“ в избирателните списъци! Ето го изборния туризъм! — малко помислете, оценете данните, с които работим.

Аз вече предупредих, че съм извеждал списъците с имена на български граждани от избирателните списъци за националния референдум. А върху избирателните списъци за референдума няма изискване за шестмесечна „уседналост“, както е в избирателните списъци за общинските избори. Така че нашите данни тук отразяват по-скоро дългогодишни миграционни процеси, отколкото изборни машинации.

Това особено ясно личи в областите с повече мюсюлманско население — вижте, например, област Разград и особено област Кърджали. Това, което виждаме, е просто резултат от „голямата екскурзия“, както цинично наричаха изгонването на няколкостотин хиляди наши сънародници.

Разбира се, икономическата миграция също се отразява тук. А тя също е значителна. На страниците на Националния статистически институт има подробна информация за миграционните процеси.

И практическите препоръки — много внимателно си преглеждайте данните, преди да започнете каквито и да било обработки; задавайте си въпроси, търсете възможните отговорите, записвайте си наблюденията и догадките, но не избързвайте с изводите.

В математическата статистика са разработени множество тестове (критерии). По същината си това са измерителни инструменти. И мерят различни неща. Както с кантарчето е трудно да измериш дължина, а с рулетката — тегло. Та възниква въпросът: защо съм избрал точно критерият λ²?

Ще се опитам това да го обясня с картинки.

Графиките отдолу са построени по данните за мъжкото население на област Кърджали и са взети от таблицата Имена, колона C и F. Със син цвят са отразени данните от колона C, тоест от НСИ по местоживеене. Данните от колона F са с оранжев цвят — това са данните от избирателните списъци, където класификатора за пол (m) съм поставял аз. И където — здравият разум ни кара да мислим така — има грешки.

Първата графика илюстрира онова, което специалистите по математическа статистика биха нарекли емпирични функции на разпределение. Те са „емпирични“, защото са извлечени от нашите емпирични данни в двете извадки — от НСИ по местоживеене и от избирателните списъци.

От графиката ясно се вижда, че двете криви си приличат, но има и различия. Нужен ни е измерителен инструмент, който да оценява приликите и разликите между тези две функции на разпределение, без да надценява иначе очевидния и от табличните данни факт, че в избирателните списъци са включени почти 60% повече хора, отколкото са регистрирани по местоживеене.

Точно математикостатистическият критерий λ² е подходящ за тази цел. Той може да отговори на въпроса: съгласуват ли се данните за пол от избирателните списъци с данните от Националния статистически институт?

Съвсем друг въпрос би било да се запитаме: а различават ли се съществено площите под тези две криви? Вижте графиката отдолу.

В терминологията на математическата статистика въпросът ще изглежда така: различават ли се по плътност двете (емпирични) разпределения?

Критерият λ² не е подходящият измерителен инструмент, с който да отговорим на този въпрос. За това си има по-подходящи инструменти, най-лесно в случая е да използваме критерия χ² (чете се хи-квадрат) на Карл Пирсън — този математикостатистически критерий сравнява именно плътностите на двете разпределения.

Критерият χ² е много полезен в глотометрията, та за него ще трябва да напиша по-подробни разяснения другаде.

Сега само ще кажа — да, двете извадки (по местоживеене от НСИ и от избирателните списъци) са категорично различни по плътност на разпределение.

Това не е изненада, то се вижда още от данните в таблицата. Как няма да се различават, като в избирателните списъци за областта са включени почти 60% повече хора, а в община Джебел даже два пъти и половина повече, отколкото са регистрирани по местоживеене.

Но, нали разбирате? Това не е отговор на въпроса съгласуват ли се добре данните за пол между двете извадки, тоест дали може да се доверите на данните за пол в извадката от избирателните списъци, като имате предвид данните от НСИ. Та затова тук ще използвам и ще разяснявам работата с критерия λ².

В по-старите учебници (руски и български), а в англоезичната литература и сега, критерият λ² определят като „критерий на Колмогоров-Смирнов“.

Днес руските специалисти по математическа статистика не приемат това определение, предпочитат да говорят за „критерии от типа на Колмогоров“, „критерии от типа на Смирнов“, „критерии от типа на омега-квадрат“. Вижте една обзорна статия на А.И. Орлов, в която, струва ми се, добре е представена историята на този тип критерии, накратко са изложени по-нови изследвания и видовете грешки в тази област.

Разясненията ми дотук — повече нагледни, отколкото подробни — имат една цел: да ви покажат, че инструментите на математическата статистика все пак не могат да се използват на сляпо, по предписания и рецепти. Необходимо е да вниквате в същината на това, което правите.

Тоест, филологът, който иска да се специализира в областта на глотометрията, трябва да се учи, да се самообразова. За щастие в днешния компютърен интернетски свят това е лесно, бързо и доставя удоволствие. Дори по най-сложни „теоретични“ въпроси вие лесно ще намерите обяснения в разбираем за вас вид. Ще намерите и обилие от примери.

И — работете! Експериментирайте! Извличайте собствени данни по темата, която ви интересува. Обработвайте ги с различни математикостатистически техники, съпоставяйте резултатите, осмисляйте ги. Днес компютърната техника ви дава възможност бързо да натрупате богат практически опит.

Добре, спирам с поученията и преминавам към примери.

В таблицата отдолу съм показал как се изчислява критерият λ² „ръчно“.

Е, чак ръчно няма да работим, да използваме някоя програма от типа електронна таблица е облекчение: можем да копираме данни, можем да сортираме (подреждаме) по големина. Но подобна таблица може да направите и на лист с молив.

Данните, с които извършвам пресмятанията тук, са същите, по които са направени и графиките по-горе: данни за мъжете в област Кърджали. В първата колона са данните от НСИ, във втората — от избирателните списъци. Аз просто съм ги копирал от общата таблица Имена.

Таблица за изчисляване на ламбда-квадрат.

В третата колона Общо са преписани последователно данните от двете извадки и са подредени по големина (използвайте функцията Sort от електронната таблица).

В колоните f(НСИ) и f(Изб.) са честотите — тук вписваме 1, ако числото на същия ред в колона Общо принадлежи на тази извадка, и 0, ако не принадлежи.

В следващите две колони Суми (НСИ) и Суми (Изб.) са кумулативните суми, тоест суми с натрупване: последователно сумираме единиците от съответната колона с честоти, а ако там има нула, просто преписваме резултата дотук и продължаваме нататък.

И достигаме до последната колона Разлика: тук пресмятаме разликата между кумулативните суми в предишните две колони. Разликите се записват по абсолютна стойност, тоест ако разликата е отрицателно число, записваме я като положително. Нас ни интересува не посоката на отклонението, а стойността му.

И накрая в тази последна колона Разлика просто търсим най-голямото число. Тук то е 4 (оцветил съм в червено съответните клетки). В примера максималната стойност 4 се повтаря два пъти. Ама това е по-скоро изключение — обикновено максималната стойност се появява веднъж.

Тоест, целият зор дотук (не чак толкова голям, нали?) беше, за да открием максимума на разликата между кумулативните суми на честотите D(max) = 4.

Долу вляво са представени несложните пресмятания, които трябва да направим, за да получим стойността на λ². Сигурно може да ги направите на ум. Но по-добре си ги запишете на листче. Винаги е по-добре да можеш да си провериш „сметките“, за да си сигурен, че не си сбъркал нещо.

N1 е размерът на първата извадка (от НСИ), N2 — на втората (от избирателните списъци). Тук двете извадки са с еднакъв размер, но това не е задължително изискване при пресмятане на критерия λ². Двете извадки могат да бъдат и с различен размер — подробно разяснен пример за това може да видите у В.Ю. Урбах. Биометрические методы, с. 256–260 [djvu] [един файл]. Пресмятанията малко се усложняват, ама не много.

У Янакиев (Стилистиката и езиковото обучение, с. 202 и нататък [djvu] [един файл]) има пример, подобен на моя — сравняват се две независими извадки с еднакъв размер. Но е поставен този пример в един много по-широк контекст, като понятията на математическата статистика се разясняват за филолога с (може би) по-познати логически термини. А в по-широкия контекст на книгата става ясно и защо трябва да се занимавате с глотометрия. Впрочем, на с. 211 Янакиев също дава пример как се изчислява критерият с различни по размер извадки.

Бе вие тази книга нали редовно си я препрочитате? Тя е, тъй да се каже, библията на глотометриста.

Което съвсем не означава, че не трябва да следите какво става в областта на математическата статистика напоследък.

Като понатрупате опит, възхищението ви към Мирослав Янакиев сигурно ще нарасне още.

Като използва няколко прости и практически винаги изпълними правила — проби с еднакви размери, извадки с еднакви размери, работа с абсолютните честоти, тоест с цели и не много големи числа — той максимално е облекчил работата на филолога по математическите пресмятания.

А това е област, в която филолозите не сме много силни и опитни.

А вие малко си поиграйте с примерите от Стилистиката и езиковото обучение. Опитайте от таблицата на с. 203 да възстановите двете извадки (за глаголи в хектолекса). Янакиев не е дал данните в „явен вид“, тоест като числови редове.

Вижте и двата примера, които М. Янакиев предлага „за упражнение“ (за съществителни и за прилагателни имена).

Опитайте „ръчно“ (в таблица) да пресметнете, например, и данните тук за област Монтана, където едната община (Чипровци) липсва в избирателните списъци, тоест извадките, които сравнявате, са с различен размер.

Малко подсказвам: след като изградите двете колонки с кумулативните суми на честотите, ще трябва да преминете към относителни честоти. Защото извадките ви са с различен размер. Ще трябва да „претеглите“ всяка кумулативна сума от всяка клетка в колоната спрямо размера на извадката, тоест да разделите сумата в клетката съответно на N1 или на N2 и така получавате относителни стойности за кумулативните суми.

Ма те са относителни точно защото се отнасят към размера на извадката.

Относителните стойности винаги са дробни числа между 0 и 1, а сумата им за цялата извадка, разбира се, трябва да е равна точно на едно.

Когато намерите максималната разлика D(max), тя също е относителна.

Ето защо, когато пресмятате стойността на λ², ще трябва да умножите резултата по размерите на двете извадки (N1 * N2). За да възстановите „метриката“, биха казали по-опитни хора. Нали се сещате — делението и умножението са обратни операции.

В примера на В.Ю. Урбах тези разяснения липсват — човекът сигурно си е мислел, че тези неща ги помните още от училище.

Във файла imena_2015_mwzhe_zheni.xls има таблици Кърджали и charts — там са таблиците и графиките, които показвах дотук.

Пак във файла imena_2015_mwzhe_zheni.xls има и таблица Общо:

Обща таблица: ламбда-квадрат по области за жени и за мъже.

Тук са представени пресметнатите стойности на λ² по области — съответно за жени и за мъже. Столицата София е включена към област София, защото в таблицата от НСИ липсват по-детайлизирани данни за София (град).

И достигаме до най-важния въпрос — как да осмисляме тези резултати.

В горния десен ъгъл, до таблицата, съм показал три „критични“ стойности на λ², които отговарят на три равнища на значимост, както биха се изразили специалистите по математическа статистика.

Тоест, ако изчислената стойност на критерия λ² е точно 1.84 и ние приемем, че функциите на разпределение на двете извадки са съществено различни, вероятността, рискът да сме сбъркали е 5%.

Равнището на значимост обикновено се означава с малка гръцка буква алфа и се представя като вероятност, тоест като дробно число между 0 и 1; така ние вземаме решение при равнище на значимост α = 0.05.

Разбира се, с увеличаване на пресметнатата стойност на λ² рискът да сбъркаме, като приемем двете извадки за различаващи се по функциите си на разпределение, намалява. Така при стойност над 3.80 рискът да сбъркаме е вече под една десета от процента (α < 0.001). Ама в глотометрията и в много други области равнище на значимост от 1% (тоест λ²(0.01) = 2.65) се смята за достатъчно, за да приемем различие между двете извадки по изследвания параметър.

Разгледайте примерите у Янакиев, ако вече не сте го направили.

Вижте, че чрез критерия λ² той търси разлики между двете извадки по изследвания параметър — честоти на глаголи, съществителни, прилагателни, местоимения.

И, да, в глотометрията обикновено търсим различия — ако сте „напипали“ различие по-някакъв параметър между две текстови извадки, открили сте действително стилистична характеристика, която обективно можем да различаваме чрез методите на математическата статистика.

В крайна сметка ние не можем да определяме понятието стил по друг начин освен като набор (сноп) от такива обективни глотометрични характеристики. Това е известно още от 60-те години и не съм срещал предложение, което да е по-разумно.

Добре, де, ама моята задача сега е друга — аз трябва да ви убедя, че може да използвате информацията за пол на избирателите в извадката от избирателните списъци, че данните от извадката добре се съгласуват с даните от НСИ.

Както виждате, в цялата таблица стойностите на λ² са ниски, значително по-ниски от 1.84, от границата, след която би трябвало да почнем да се съмняваме дали разликите не са значими. А това би означавало, че съм направил толкова много грешки, като съм поставял класификатори за пол в извадката, че на тези характеристики не може да се има доверие.

Така че ниските стойности на λ² в таблицата мене ме радват. Те означават добро съгласуване на данните от извадката с данните от НСИ.

След тези обяснения може би няма да се чудите, че едни и същи критерии — например λ² или χ² — в едни текстове по математическа статистика се определят като критерии на различието, а в други — като критерии на съгласието. Тези наименования не са в логическо противоречие, те отразяват просто авторовата гледна точка: кои възможности на критерия той повече цени.

Така тук можем да спрем анализа и да направим извода — може да се доверите на информацията за биологичен пол в извадката от избирателните списъци.

И по-точно — липсват основания да не й се доверявате.

Поне такива са резултатите от изследването ми посредством критерия λ², а той мери приликите и разликите точно в (емпиричните) функции на разпределение между двете извадки.

* * *

И все пак вижте редчето в таблицата за стойностите на критерия λ² за област Кърджали. Аз не случайно ви занимавам досега с тези данни.

Вярно, стойностите са далече от критичната граница λ²(0.05) = 1.84. Ако приемете различие между двете извадки при λ² = 1.143, рискът да сбъркате е по-голям от 20%.

Неприемливо висок за подобно решение.

И все пак тези стойности са с пъти по-големи от „типичните“ за таблицата. Това не ви ли притеснява малко? Защо става така?

Мене това ме притесняваше. Имах две допускания.

Едното беше, че, да, това е област с голямо мюсюлманско население и аз съм направил много грешки, като съм поставял класификаторите за пол към мюсюлманските имена.

Ама защо няма такъв ефект в областите Разград, Шумен, Силистра?

Другото допускане беше, че това е резултат все пак от една очевидна особеност на област Кърджали — избирателите в списъците са с почти 60% повече от регистрираните по местоживеене в областта.

Аз вече казах — критерият λ² не надценява плътността на разпределението (погледнете пак графиките по-горе). Но големите количествени различия променят подредбата (ранжирането) на данните, а това критерият отчита.

Второто допускане обаче е лесно да бъде проверено. Достатъчно е да заменим абсолютните честоти с относителни. Тоест, да „претеглим“ данните, като ги „отнесем“ към сумата на честотите в извадката.

Например данните за мъже от НСИ за община Ардино ще „претеглим“ така: 6238 / 75288, за община Джебел: 4157 / 75288 и т. н.; а данните от избирателните списъци — за община Ардино: 11975 / 128279, за община Джебел: 10698 / 128279. И така — до края на двете извадки.

Относителните честоти, разбира се, са дробни числа между 0 и 1, а сумата им за цялата извадка трябва да бъде равна на единица.

Като направим такова „претегляне“ на даните, вижте как изглежда графиката на функциите на разпределение за двете извадки:

Функции на разпределението по относителни честоти, Кърджали, мъже.

Като ги съпоставите с предишната графика на функциите на разпределение, които построих по абсолютните честоти, ще видите, че кривите са почти същите. Ние просто сме ги „подравнили“, като сме „претеглили“ плътностите на разпределенията. И по този начин сме редуцирали големите количествени разлики между двете извадки, причинени най-вероятно от миграционните процеси. Ама ние с вас сега с миграционните процеси нали не се занимаваме?

Вие тази идея — да се „претеглят“ данните — си я запомнете. Тя се използва много широко — и в теорията, и в практиката. Пък и аз вече за втори път ви я показвам тук.

Когато преминаваме от абсолютни честоти към относителни, ние преминаваме към „безразмерни величини“, както биха се изразили по-опитните. И наистина, никаква измерителна единица, никаква „мярка“ не можеш да съпоставяш на относителните честоти. Но ако ти се налага, например, да съпоставяш височината на орехови дървета (в метри) с теглото на орехите (в грамове), май нямаш друг избор. Пък ако се наложи, винаги можеш да върнеш „метриката“ чрез обратното действие.

В не чак толкова далечно минало, преди появата на компютрите, работата с дробни числа беше трудоемка, отнемаше много време и изобилстваше с възможности за грешки. Днес нещата са силно облекчени, далече по-бързи и с по-малко възможности за грешки в пресмятанията.

Ето как може да използвате конзолата на IPython, за да пресметнете стойността на λ² по относителните честоти.

IPython, Кърджали, мъже – относителни честоти.

И — обясненията.

На ред 3. зареждам в IPython (с import) модула gstat.py от glotta, ама му съкращавам малко името до две букви — често използвана практика в питона. Тази библиотека, този модул, казват в питона, ми е нужен, защото по-късно ще използвам от него функцията (метода) lambda_square().

На редове 4. и 5. създавам списъци data1 и data2 с абсолютните честоти от данните за мъже в област Кърджали. Данните, разбира се, просто копирате от таблицата Имена.

На ред 6. създавам списък rf1 с относителните честоти — префиксът rf‑ трябва да ме подсеща точно това: relative frequencies (’относителни честоти’). В квадратните скоби съм написал една конструкция, която в питона наричат итератор — паметта (променли́вата) i ще премине през всички елементи на списъка data1, тоест през всички абсолютни честоти. А изразът i/sum(data1) ще ги превърне в относителни честоти. Което ни беше и необходимо. Разбира се, даните в rf2 се формират по същия начин.

На ред 8. и 9. просто показвам съдържанието на двата списъка с относителни честоти — по тези данни е изградена и графиката по-горе.

Не се стряскайте от дългите поредици цифри след десетичната точка — нека питонът смята с колкото цифри може, пък резултата вие си го закръглявайте до необходимия ви брой цифри след десетичната точка.

На ред 10. съм пресметнал λ² вече по относителните честоти.

И — виж ти! — пресметнатата така стойност на критерия λ² (0.286) вече не се отличава много от останалите стойности в таблицата. А това отхвърля и опасенията ми, че точно в област Кърджали съм направил повече грешки, като съм поставял класификатори за пол. Не, това не се потвърждава.

Сега внимателният читател ще си каже: „Чакай! Чакай! А не трябва ли да пресметнем всички стойности на λ² по относителните честоти?“.

Ми, да! Направете го. Вече показах как. А ще натрупате и полезен опит.

Ще установите, че при близо половината от областите стойностите на критерия λ² не се променят. И това не е чудно — вие вече нали „усещате“ какво мерим с този критерий?

В повечето други области има някакво намаляване на стойността на критерия, но в три области — Бургаска, Кюстендилска и Ямболска — има и известно увеличение на стойността му.

В Бургаска област е и най-високата стойност на критерия λ² в таблицата, преизчислена по относителните честоти: 0.615.

Само да кажа — сама по себе си тази стойност е достатъчно ниска, за да изключи каквито и да било съмнения за различие между двете извадки по отношение на характеристиката пол. Но критерият λ² все пак е измерителен инструмент.

Затова разгледайте данните за Бургаска област по-внимателно. Ще забележите, че в град Бургас от повече от двеста хиляди души, регистрирани по местоживеене, в избирателните списъци са включени по-малко от половината.

Трябва ли да направим извода, че Бургас е един много млад град, където половината население е под 18 години? Съмнявам се.

По-скоро става дума за значително количество хора, които живеят и работят в Бургас, но гласуват на други места. Картината е донякъде обратната на онази, която видяхме в област Кърджали. Ама това идва само да ни подсети, че миграционните процеси имат две страни. Нали е ясно, че ако в едно селище населението се увеличава, в други селища то трябва да намалява?

Затова вие си поиграйте малко с данните за Бургаска област, направете си графики по абсолютните и по относителните честоти. Ще установите, че си „показват рогцата“ общини като Карнобат и Руен, които с нищо не привличаха вниманието ни до преди малко. Затова можем да допуснем, че при малко по-прецизна работа с данните, критерият λ² „усеща“ и икономическата миграция в областта.

Сигурно ви прави впечатление, че в много области пресметнатите стойности на λ² за мъже и за жени са еднакви. Това не е изненада. Човечеството се състои от приблизително еднакъв брой мъже и жени, а семействата обикновено живеят и гласуват на едни и същи места. (Ако сте прочели някъде, че в България живеят около 200 хиляди жени повече от мъжете, погледнете все пак данните на Националния статистически институт — картинката се очертава доста по-шарена. Всъщност, до към 55-годишна възраст мъжете са повече от жените.)

По-скоро въпроси могат да поставят случаите в областите, където стойностите на критерия λ² са различни за мъже и жени. Но не мога да видя връзката им с антропонимията и ви предлагам да ги оставим за анализ на други специалисти.

И накрая — едно предупреждение.

Изводът, че няма основания да отхвърлим съгласуваност по отношение на характеристиката пол между извадката от избирателните списъци и извадката по местоживеене, е в сила за големи извадки като населението/избирателите в областите, в общините, в по-големите селища.

Бъдете предпазливи, ако работите с малки подизвадки, например селища със стотина души население или следите лично име, което може да се носи от мъж и от жена. Нали е ясно, че ако честотата на такова лично име е ниска, например 10, а аз съм допуснал само две грешки, като съм поставял класификатори за пол, грешката в данните ви ще бъде вече 20%!

* * *

Аз в общи линии изчерпах темата, както съм я определил в заглавието. Ама обещах да ви разкажа за още няколко неща.

Да започнем с грешката в таблицата. Припомням, пропуснал съм някъде две жени, като съм въвеждал данните.

В прекрасния разказ на Карел Чапек Иглата има и следната история: „на времето, когато все още работех в счетоводството и изготвях баланса в края на полугодията, случваше ми се понякога сметката да не излезе: така например веднъж ми липсваха в касата тъкмо три халера. Разбира се, нищо не ми струваше да извадя от джоба си трите халера и да ги сложа в касата, но в такъв случай играта нямаше да бъде чиста; знаете, от счетоводна гледна точка това би било неспортменско; в такъв случай трябва да се намери в кое точно от някакви си там четиринайсет хиляди пера е направена грешката.“.

Е, така трябва да се възприемат нещата, когато се работи с данни. И аз така ги възприех и издирих грешката.

А сега ще ви помоля вие да я издирите. Даже малко ще помогна — тя е в първите сто реда от таблицата Имена.

Как да направите това?

Вие, разбира се, сте си свалили вече извадката от Имена на български граждани (2015). Развързали сте архива в някаква директория, например imena_2015.

Сега си отворете файла imena_2015_mwzhe_zheni.xls в електронната таблица (Excel, ако работите с MSOffce, или Calc, ако използвате LibreOffice или OpenOffice). Стартирайте и терминала, идете в директорията с данните. Подредете си прозорчетата на двете програми по удобен за вас начин, например така:

Съвместна работа с електронна таблица и конзола.

Въвеждате в терминала командата, всъщност, последователност от две команди:

$ grep " f" Bansko/text_all.txt | wc -l

Името на командата (програмката) grep е съкращение от GNU regular expressions — това е програма, която търси текст по шаблон (зададен като текст или като регулярен израз в първа позиция след командата) в текстов файл или в текстови файлове (зададени във втора позиция). Резултатът е списък от текстови редове, които съдържат търсения текст.

Списъкът с намерените редове обикновено се насочва към терминала/конзолата и се печата. Но сега аз го пренасочвам чрез символа (оператора) | към програмата wc (word counter), която брои „букви“, „думи“ и редове. А ключето -l я инструктира да показва само бройката на редовете (това е малка латинска буква „ел“, мнемоника от lines).

Нали това ни трябва?

Тук може малко повече да ви затрудни как да поставите табулатора в шаблона за търсене пред f. Поставете курсора в кавичките пред f, натиснете комбинацията от клавиши Ctrl+v и след това клавиша Tab. Това е общият начин в терминала/конзолата да въвеждате управляващи символи. Ако сте натрупали вече малко опит с редактора cream/vim, ще се сетите, че в командния ред управляващите символи се въвеждат по същия начин.

Е, сега ви остава само да сверите внимателно получената бройка (5811) с числото в електронната таблица.

В терминала/конзолата със стрелка нагоре извиквате предишната команда. Редактирайте името на общината и я въведете с Enter. Нещата почват да вървят бързо. Само не забравяйте — внимателно сверявайте честотите!

И сега — не ме ругайте много! — ще ви кажа: аз малко съм се пошегувал. Тук, в този текст съм включил описание на грешката, та ако искате, може и да „препишете“. Опитайте. Само не знам дали ще спестите време.

След като откриете грешката, преизчислете критерия λ² за съответната област. Колко и в каква посока се променя той?

* * *

Вече, надявам се, сте открили грешката в таблицата и сте изпитали удовлетворение. Ако сте преизчислили и стойността на критерия λ² за съответната област, сигурно сте изпитали и известно разочарование — нищо съществено не се променя.

Ама сега сигурно ще се сетите — когато представях материала във втората редакция на Имена на български граждани (2015), аз предупредих, че не двама, а над двадесет хиляди души от избирателните списъци аз съм оставил без класификатор по отношение на биологичния пол.

Да се отстраняват неясните, съмнителните случаи от материала, преди да преминете към обработката му, е добра практика при всички изследвания, опрени върху математическата статистика, включително при глотометричните.

Ама точно това ви съветват Котова и Янакиев (вижте примера със съставните собствени имена в Глотометрията експлицира основите на съпоставителната лингвистика, с. 4–5 [pdf]), а и аз това ви съветвам (вижте примера с „разполовената“ глаголна форма оплакват в края на раздела Фонометризация и морфологичен анализ на Методиката).

Като размислите малко, ще съобразите, че такава редукция на материала представлява всъщност отстъпка към вашия мислен опонент („песимиста“ казва Янакиев), независимо от това, дали се опитвате да докажете различие или съгласие по характеристиката, която следите между различните извадки.