Александър Иванов
cream в режим „expert“
Разбиване на текста на елементи (англ. tokenization)
В информатиката и в компютърната лингвистика под token се разбира елементарна (от гледище на някаква цел) единица от текста.
Тоест, ако ви интересува синтаксис, елементарната единица ще е изречение или, по-добре, фраза; ако изследвате словообразуване, може би лексата е достатъчно елементарна единица; ако ви интересува пунктуацията, съчетанията от пунктуационни знакове вероятно ще бъдат вашите единици (tokens). Ама сигурно ще ви е необходим и текстът между групите пунктуационни знакове, нали? И т. н.
Важно е да се разбере, че думата token няма само по себе си съдържание — вие й придавате съдържание в зависимост от целта на обработката.
Очевидно е, че всяко глотометрично изследване върху текста започва с такава „разбивка“. Но преди да я направите, разбира се, трябва добре да редактирате текста си — обсъждане има в раздела Добре редактиран текст.
Не е лоша практика също да записвате файла с друго име, преди да започнете поредната обработка — вижте Методика на глотометричното изследване.
Ще дам няколко примера за възможностите да разбиете текста на „елементарни единици“, без да напускате cream:
а) Списък на символите в текста