gstat.py
Предназначение: набор статистически функции.
Технически изисквания: Python 3.x и модулите numpy и scipy.
Методи:
moment(lst, h=1, x=0) — момент;
mean(lst) — средна аритметична величина;
var(lst, bias=False) — дисперсия;
std(lst, bias=False) — средно квадратично отклонение;
sem(lst, bias=False) — стандартна грешка на средната аритметична;
cvar(lst, bias = False) — коефициент на вариацията (в проценти);
asymmetry(lst, bias = False) — асиметрия (skewness);
excess(lst, bias = False) — ексцес (kurtosis);
F_test(list1, list2) — параметричният критерий F за оценка на дисперсиите;
students_t(list1, list2) — параметричният t-критерий на Стюдънт за оценка на средните аритметични;
critical_lambda_square(alpha=0.05) — критични значения за ламбда-квадрат на Колмогоров-Смирнов при дадено равнище на значимост. Ако запомните, че alpha(0.05) = 1.84, alpha(0.01) = 2.65 и alpha(0.001) = 3.8, може тази функция никога да не ви потрябва;
lambda_square(lst1, lst2) — критерий ламбда-квадрат на Колмогоров-Смирнов;
chi_square(*data) — критерий на различието хи-квадрат на К. Пирсън. Функцията изнася доста данни в тип dict;
print_chi_square(data) — печата на конзолата резултатът от функцията chi_square() в четлив вид;
bar_chart(lst) — семпла хистограма в текстов режим. Понеже „стълбчетата“ са разположени хоризонтално, а в английската терминология наричат такава хистограма bar chart, съобразил съм се с това. Вляво от хистограмата функцията извежда групираните данни като двойки стойност/честота, групирани в класове с ширина 1. Кото копирате тези числови данни в редактора, лесно може да си ги пригодите за теста хи-квадрат, например.
Коментар: Направил съм това модулче с две цели: 1) да облекча изчислителната работа на филолога (професионалните статистически библиотеки изискват повече познания); 2) да илюстрирам как се извършват изчисленията в пайтън. Всички параметри са по подразбиране неотместени; данните се въвеждат като списък (list) от числа. Изключение прави само тестът хи-квадрат, където е необходим двумерен списък, например:
>>> gstat.chi_square([[10, 12],[11, 13],[9, 11]])
ИЗТЕГЛЯНЕ: gstat.py.zip.
Какво може да се пре/доработи: не се сещам. Някакви идеи?
Програмиране: 2013–2015, А. Иванов