miryan.org — gstat.py

gstat.py

Предназначение: набор статистически функции.

Технически изисквания: Python 3.x и модулите numpy и scipy.

Методи:

moment(lst, h=1, x=0) — момент;

mean(lst) — средна аритметична величина;

var(lst, bias=False) — дисперсия;

std(lst, bias=False) — средно квадратично отклонение;

sem(lst, bias=False) — стандартна грешка на средната аритметична;

cvar(lst, bias = False) — коефициент на вариацията (в проценти);

asymmetry(lst, bias = False) — асиметрия (skewness);

excess(lst, bias = False) — ексцес (kurtosis);

F_test(list1, list2) — параметричният критерий F за оценка на дисперсиите;

students_t(list1, list2) — параметричният t-критерий на Стюдънт за оценка на средните аритметични;

critical_lambda_square(alpha=0.05) — критични значения за ламбда-квадрат на Колмогоров-Смирнов при дадено равнище на значимост. Ако запомните, че alpha(0.05) = 1.84, alpha(0.01) = 2.65 и alpha(0.001) = 3.8, може тази функция никога да не ви потрябва;

lambda_square(lst1, lst2) — критерий ламбда-квадрат на Колмогоров-Смирнов;

chi_square(*data) — критерий на различието хи-квадрат на К. Пирсън. Функцията изнася доста данни в тип dict;

print_chi_square(data) — печата на конзолата резултатът от функцията chi_square() в четлив вид;

bar_chart(lst) — семпла хистограма в текстов режим. Понеже „стълбчетата“ са разположени хоризонтално, а в английската терминология наричат такава хистограма bar chart, съобразил съм се с това. Вляво от хистограмата функцията извежда групираните данни като двойки стойност/честота, групирани в класове с ширина 1. Кото копирате тези числови данни в редактора, лесно може да си ги пригодите за теста хи-квадрат, например.

Коментар: Направил съм това модулче с две цели: 1) да облекча изчислителната работа на филолога (професионалните статистически библиотеки изискват повече познания); 2) да илюстрирам как се извършват изчисленията в пайтън. Всички параметри са по подразбиране неотместени; данните се въвеждат като списък (list) от числа. Изключение прави само тестът хи-квадрат, където е необходим двумерен списък, например:

>>> gstat.chi_square([[10, 12],[11, 13],[9, 11]])

ИЗТЕГЛЯНЕ: gstat.py.zip.

Какво може да се пре/доработи: не се сещам. Някакви идеи?

Програмиране: 2013–2015, А. Иванов