gchardet.py
Предназначение: програмата chardet не е особено чевръста и при голям текст доста се бави, затова gchardet.py прави случайна извадка от редове от текста без повторение (по подразбиране 100 реда) и анализира само тях. Ако въведете като параметър към програмата число, то сменя размера на извадката. Програмката извежда и информация за BOM (Byte Order Mark).
Технически изисквания: Python 3.x и модулите gtools и chardet.
Параметри:
-h | --help – малко помощна информация;
N – цяло положително число, размер на случайната извадка (по подразбиране 100).
Пример:
$ gchardet.py 1000 < bible.txt
ИЗТЕГЛЯНЕ: gchardet.py.zip.
Какво може да се пре/доработи: в програмката показвам как може да се чете в Python 3 входният поток като поток от байтове (бинарно). Защото Python 3 по подразбиране го прекодира съобразно с настройките на системата. Всякакви други идеи за това са добре дошли.
Програмиране: 2013, 2014, А. Иванов