miryan.org — Мирослав Янакиев. О количественном основании лингвистических классификаций

Мирослав Янакиев

О количественном основании лингвистических классификаций

В сб. Использование математических моделей и электронных вычислительных машин в лингвистике, София, 1976, с. 105–109.

Имплицитно накапливающаяся в сознании лингвиста информация о частоте того или иного явления языка, выражающаяся в оценках типа „редко–часто“ (и отсюда „неважно–важно“), обрабатывается по правилам некоторой пороговой статистики, которая основана на установлении порога ничтожности частоты явления в некоем эталонном стиле. Для обучения по стилистике, которое проходят у нас школьники восьмого класса, принято считать таким стилем стиль непринужденного разговора. К сожалению, для болгарской нормативной грамматики эталонным стилем является стиль болгарской художественной литературы, в которой некоторые явления разговорной речи, в особенности новые, отражаются с весьма заниженной частотой. Грамматик-нормативист все еще смотрит на язык сквозь призму художественной литературы.

В сознании нормативиста ниже порога ничтожности остается ряд фактов, которые не попадают в художественную литературу, потому что они очень привычны для всех, т. е. неинтересны для писателя. Это факты, проникающие в жизнь из школьной науки или из жаргона школьников.

Польский энтузиаст статистического подхода к фактам языка профессор Витольд Манчак в своих последних публикациях очень убедительно говорит о том, что основной причиной появления кризиса, в котором находится современная лингвистика, является отсутствие достаточно большого многообразия объектов для исследования.

Однако трудно убедить коллег нормативистов в важности и значимости этих фактов доводами типа высказывания испанского лексиколога Касареса, который говорил (правда, по несколько иному поводу), что нормативные описания языка не могут служить источником „исчерпывающего научного знания“ языка, „точно так же, как перепись населения, в которую включены только граждане с удостоверением о хорошем поведении, не могла бы служить основой демографических исследований“.

Нужны эксплицитные количественные, статистические данные о распространенности предлагаемых вниманию нормативиста фактов. Когда начинают говорить числа, и боги помалкивают — так выражали древние пифагорейцы силу доказательственности количественных данных. Но обычно мало кто дает себе отчет в том, какие нужно затратить усилия, чтобы заставить числа говорить.

Прошло то время, когда очень актуально звучало предупреждение к энтузиастам количественной лингвистики: прежде чем станете считать, вы должны знать, что считать. Напрашивался ответ: будем считать то, что интересно посчитать, а потом, когда у нас будут результаты подсчетов, мы лучше разберемся, и что считали, и как считали.

Сейчас у нас в Болгарии лингвистов-количественников, прошедших стажировку подсчета болгарских лингвистических объектов, наиболее легких для накопления опыта в таких подсчетах (мы привыкли говорить „глоттометрического опыта“), уже более, чем 500 человек. Все они филологи, преподают в наших средних школах болгарский язык и литературу и являются нашим практически неисчерпаемым людским резервом. Их знания в области математической статистики, в общем, более чем скромные, но достаточные для того, чтобы воздерживать их от поспешных „больших“ выводов. Им ясно, как ясно и нам, глоттометристам на кафедре болгарского языка Софийского университета, что можно и нужно заниматься глоттометрией. Объем текстов, учтенных в нашем глоттометрическом архиве, превысил шесть миллионов текстовых слов. Основной выборкой является массив, состоящий из 20 000 карточек, на каждой из которых выписано учитываемое графическое слово вместе с небольшим контекстом, как правило, из четырех слов, и с адресом слова, позволяющим легко разыскать сколь угодно большой контекст по тексту, из которого выписано слово. Основные выборки объединены по пять случайным образом в выборки, так сказать, второй степени, в 100 000 слов каждая, а тридцать таких выборок второй степени объединены в шесть выборок третьей степени по 500 000 слов каждая.

Давным-давно мы отказались от затеи требовать от студентов указывать на карточках как „основную форму“ лексемы, к которой относится учетное слово, так и его исчерпывающую грамматическую характеристику.

Давным-давно нам стало ясно, что глоттометрическому архиву не быть, если мы будем задавать студентам непосильные задания такого типа. Часто говорят, что ЭВМ не в состоянии автоматически разграничивать омонимы и определять морфологические характеристики текстовых словоформ.

Надо честно признаться — решать эти задачи оказалось не под силу нашим студентам. Неспособность решать эти задачи является дефектом преподаваемого в школе языкознания в целом. Чем поможет работа по составлению глоттометрического архива для преодоления этого дефекта?

Когда преподают грамматику, стараются подобрать примеры „чистенькие“, фразы, в которых „все ясно“. Если во фразе что нибудь „не так“, ею не воспользуются. Таким образом, в средней школе (да и в университетах) у обучаемых создается впечатление, что материя языка полностью подчинена пройденным грамматическим правилам. После экзамена, на котором студенту также предлагается решать задачи, разрешимые в рамках преподававшихся знаний, студент забывает почти все, чему его учили по грамматике, до того времени, пока сам не станет обучать (если такое время наступит). Тогда он тоже выберет себе примеры „почище“, и цикл замкнется.

Работа по составлению глоттометрического архива вынуждает студента корпеть обязательно над каждым словом. Студент, во-первых, видит, сколько еще остается неясного в грамматическом описании болгарского языка и, я надеюсь, будет помнить об этом всю жизнь. Второе, что очень важно с точки зрения воспитательной, студент начинает чувствовать вероятностный (частотный) рельеф языковой материи: чем чаще его мучает один, данный вопрос, тем этот вопрос важнее, тем раньше надо заняться его решением.

Я не скрою, однако, что мало, очень мало студентов отважились продолжать заниматься глоттометрией после защиты дипломных работ. И это неслучайно! Глоттометрический архив кафедры доступен для всех, но для извлечения из него определенной информации требуется много времени. Сколько времени на это уходит, лучше всех знает тот, кто работал по составлению архива. Но архив живет все же очень интенсивной жизнью. Он дает возможность обогащать выводы в новых дипломных работах, пополняется за счет этих новых дипломных работ, растет сам и растит новых глоттометристов.

И главную роль глоттометрического архива кафедры я вижу в том, что студенты, знакомые с ним, работавшие для его обогашения, являются филологами, которые хорошо знают, чего требовать от такого архива. И мешает им пользоваться накопленными в нем данными не отсутствие компетентности в области глоттометрии, а продолжительность времени, необходимого для извлечения из архива нужной информации.

Нельзя думать, что „сдержанность“ глоттометрически „подкованного“ филолога является его недостатком. Наоборот, это его преимущество. Он знает, сколько потребуется ему времени для исследования интересующего его типа фактов. Он сможет оценить вдобавок эффективность своей работы средней частотой исследуемого типа фактов и надежность результатов средним квадратическим отклонением или другими статистическими показателями рассеяния по выборкам.

Если понадобится, то, с помощью данных глоттометрического архива, можно определить также эффективностьи надежность исследования типов языковых фактов, выполненного человеком, не пользовавшимся данными архива для своего исследования.

Аппетит приходит во время еды: наш глоттемотрический архив, поскольку он является архивом словоформ, в принципе дает полную информацию обо всех морфемах, составляющих словоформы, и, следовательно, позволяет преобразовать его в частотный морфемиарий болгарского языка. Первыми шагами в этом направлении являются обратные словари словоформ по выборкам в 20 000 слов каждая.

Эти словари подтвердили для болгарского языка ряд гипотез о связи классификации морфем с частотой их появления в текстах. Намечается очень удобная глоттометрическая опора для разграничения объектов грамматики и объектов лексикологии: грамматика оказывается наукой о сихноморфемах, т. е. о морфемах частых и об их сочетаниях; лексикология, наоборот, изучает спаниоморфемы, т. е. морфемы, редко встречающиеся в текстах, а также все морфемосочетания, в которых участвует по крайней мере одна спаниоморфема.

С точки зрения глоттометрии место науки о словообразовании, промежуточное между грамматикой и лексикологией, также хорошо объясняется: словообразовательные морфемы (суффиксы и префиксы) не так часты, как сихноморфемы (окончания и тематические суффиксы), и не так редки, как спаниоморфемы (корни), причем наблюдается интуитивный учет статистики морфемы теми лингвистами (прошлого и настоящего), которые занимались и занимаются вопросами словообразования. Чем чаще встречается морфема, тем более склонны лингвисты охарактеризовать ее как грамматический объект.

Но интуитивно накапливающий глоттометрическую информацию мозг лингвиста не в состоянии учитывать более тонкие различия статистического поведения морфем. Поэтому можно ожидать, что особенно интересные результаты статистического исследования данных глоттометрического архива будут получены в области морфометрии.

Так, например, с помощью специальной методики были установлены надежные критерии определения иерархии морфемного анализа слов (точнее, полиморфем), удалось доказать существование циркумфиксного класса морфем.

Намечается перспектива развития совершенно нового подхода к классификационным проблемам морфематики — морфометрия (статистика морфем) поможет микроскопировать структуру полиморфемы, показать глубокие аналогии в законах строения материальных частиц и частиц сообщения.