miryan.org — Четива — Четива за глотометрията — cream в режим „expert“ — Разбиване на текста на елементи (англ. tokenization)

Александър Иванов

cream в режим „expert“

Разбиване на текста на елементи (англ. tokenization)

В информатиката и в компютърната лингвистика под token се разбира елементарна (от гледище на някаква цел) единица от текста.

Тоест, ако ви интересува синтаксис, елементарната единица ще е изречение или, по-добре, фраза; ако изследвате словообразуване, може би лексата е достатъчно елементарна единица; ако ви интересува пунктуацията, съчетанията от пунктуационни знакове вероятно ще бъдат вашите единици (tokens). Ама сигурно ще ви е необходим и текстът между групите пунктуационни знакове, нали? И т. н.

Важно е да се разбере, че думата token няма само по себе си съдържание — вие й придавате съдържание в зависимост от целта на обработката.

Очевидно е, че всяко глотометрично изследване върху текста започва с такава „разбивка“. Но преди да я направите, разбира се, трябва добре да редактирате текста си — обсъждане има в раздела Добре редактиран текст.

Не е лоша практика също да записвате файла с друго име, преди да започнете поредната обработка — вижте Методика на глотометричното изследване.

Ще дам няколко примера за възможностите да разбиете текста на „елементарни единици“, без да напускате cream:

а) Списък на символите в текста

б) Списък от изреченията в текста

в) Списък от думи (лекси)

г) Работа с пунктуацията