Лого на страниците (малко).

Заглавна страница > glotta > gchardet.py

 

gchardet.py

Предназначение: програмата chardet не е особено чевръста и при голям текст доста се бави, затова gchardet.py прави случайна извадка от редове от текста без повторение (по подразбиране 100 реда) и анализира само тях. Ако въведете като параметър към програмата число, то сменя размера на извадката. Програмката извежда и информация за BOM (Byte Order Mark).

Технически изисквания: Python 3.x и модулите gtools и chardet.

Параметри:

-h | --help – малко помощна информация;

N – цяло положително число, размер на случайната извадка (по подразбиране 100).

Пример:

$ gchardet.py 1000 < bible.txt

ИЗТЕГЛЯНЕ: gchardet.py.zip.

Какво може да се пре/доработи: в програмката показвам как може да се чете в Python 3 входният поток като поток от байтове (бинарно). Защото Python 3 по подразбиране го прекодира съобразно с настройките на системата. Всякакви други идеи за това са добре дошли.

Програмиране: 2013, 2014, А. Иванов

Страница: А. И.
Електронна поща
Дата на публикуване: 07.VI.2014
Последна редакция: 29.IV.2023
Съобразено с
html5/css3