Проверка на хипотези за вида на разпределението, Критерий на Пирсън или на съгласието
Карл Пирсън - философ и математик
1857-1936
Социалист, изповядващ идеите на социал-дарвинизма и евгениката.
За него Ленин е казал, че е "най-съвестния зложелател на материализма".
Хипотезите, при които вида на разпределението е известен и се оценява параметър на това разпределение се
наричат параметрични.
Но в статистиката се разглеждат и други видове хипотези. Една от тях касае вида на разпределението.
Тя отговаря на въпроса дали генералната съвкупност не се подчинява на определен закон на разпределение и ако е така с
каква вероятност.
Издига се нулевата хипотеза H0 .
H0 : Случайната величина X има функция на разпределение F0(x)
(плътност на разпределение f0(x) и алтернативна хипотеза
H1 : X има функция на разпределение F1(x), различна от
F0(x) (плътност на
разпределение f1(x), различна от f0(x)).
За проверка на тези хипотези се използва критерия на Пирсън, наричан още χ2
(хи-квадрат ) -критерий или критерий на съгласие.
Съставя се таблица, съдържаща наблюдаваните стойности на случайната величина в нарастващ ред и
техните наблюдавани честоти nk както и теоретични им честоти npk.
n е броят на интервалите на стойностите на X ако величината X е непрекъсната.
При дискретна случайна величина n е броят на набюдаваните стойности на X
плюс броят на интервалите, ако има такива.
Не е необходимо те да бъдат с еднаква дължина.
Съседните интервали могат да се обединяват, като при това се променя и n.
Обикновено се предлага обединението да се извърши така, че най-малките теоретични честоти да
бъдат между 1 и 2 и повечето от тях да надвишават 5.
След това се пресмята статистиката:
При избраното ниво на значимост α се определя се квантилът
, където f е броят на степените на свобода.
Той е равен на броя на интервалите минус броя на параметрите на предполагаемото разпределение минус единица:
f = n - r - 1.
Ако
нулевата не се отхвърля.
Ако
нулевата хипотеза се отхвърля и се приема алтернативната с вероятност 1-α.
Пример 1
В телефонна централа е извършено проучване за броя на телефонните заявки за минута, в продължение на 60 минути.
Обемът на извадката е
Математическото очакване и нейната дисперсия са:
и
Изчисляваме и стандартното отклонение:
Поради дискретността на случайната величина и приблизителното равенство на средната стойност и
дисперсията издигаме нулевата хипотеза H0:
Случайната величина X е разпределена по закона на Поасон със средна стойност λ = 2 .
Въпреки, че сме изчислили дисперсията тя не е параметър в разпределението.
Алтернативната хипотеза H1 е:
Случайната величина не е разпределена по закона на Поасон със средна стойност λ = 2
Теоретичните вероятности при λ = 2 се изчисляват по закона на разпределение на Поасон:
.
Попълваме техните стойности в таблицата:
Да забележим, че в последните три колони не е изпълнено условието n.pk >1 ,
поради което обединяваме получените стойности на случайната величина в интервал,
като вероятността за него изчисляваме по формулата:
Изчисляваме теоретичните честоти по формулата:
и попълваме таблицата с тях:
Предмятаме и събираемите, необходими за изчисляване на статистиката хи-квадрат по формулата
и ги нанасяме в таблицата:
По-нататък изчисляваме статистиката по формулата
Броят на параметрите е един - средната стойност λ = 2, следователно
степените на свобода са f = n- r - 1 = 6-1-1 = 4.
От таблицата на хи-квадрат разпределението, открито между другото също от Пирсън намираме
.
.
Следователно нулевата хипотеза не може да бъде отхвърлена.
Пример 2
Инжинер, оценител на качеството батерии, използвайки ниво на доверителност α=0,05
желае да провери хипотезата
дали напрежението на произвежданите батерии се подчинява на нормалния закон на разпределение.
Оценките за средното и стандартното отклонение на извадка с обем 100 са съответно:
.
Приета практика при определянето на интервалите е те да бъдат избрани така, че теоретичните честоти
n.pk да бъдат равни.
Тогава границите на k-тия интервал (ak-1 ; ak ] трябва да бъдат такива, че вероятностите
да бъдат равни.
Ако решим да използваме 8 интервала разделянето на площта под кривата на плътността N(0,1) на стандартното
нормалното разпределение на 8 равни части става чрез интервалите:
[0 ; 0,32), [0,32 ; 0,675), [0,675 ; 1,15), [1,15 ; +∞) и симетричните на тях спрямо 0.
Тези стойности могат да се изчислят чрез
сметалото за обратни функции, намиращо се на адрес:
"http://stancho.roncho.net/HighMath3/Prob/Gamma/GammaFuncCalc.html",
като се използва обратната на функцията на нормалното разпределение за аргументите 0,5+1/8 ; 0,5+2/8 ; 0,5+3/8.
Да отбележим, още сега, че интервалите не са с еднаква дължина.
След като получихме интервалите и симетричните на тях, използваме трансформациата
от разпределението N(0,1) към N(EX, σX) за да получим действителните интервали:
[EX ; EX+0,32.σX), [EX+0,32.σX ; EX+0,675.σX), [EX+0,675.σX ; EX+1,15.σX), [EX+1,15.σX ; +∞)
Да припомним, че EX = 5,04 и че σX = 0,08.
Така получаваме интервалите:
[5,04 ; 5,066), [5,066 ; 5,094), [5,094 ; 5,132), [5,132 ; +∞)
и симетричните на тях, спрямо EX =5,04 .
Нанасяме границите на интервалите и емпиричните честоти в таблица:
Теоретичната вероятност за попадане на случайната величина във всеки от интервалите е 1/8 и понеже
наблюденията са 100 то теоретичните четоти са 100/8=12,5.
Допълваме таблицата с тях:
Ще извършим проверката на нулевата хипотеза в 8 стъпки.
Случайната величина, от която се интересуваме е напрежението във волтове.
Нулевата хипотеза H0, е че нейното разпределение е нормално.
Алтернативната хипотеза H1 е че разпределението не е нормално.
Избраната степен на доверителност е α = 0,05
Статистиката за проверка на хипотезата е
,
където Ek е емпиричната честота, Tk е теоретичната честота и n е
броят на интервалите - в случая 8.
Понеже за определяне на нормалното разпределение са необходими два параметъра то степените на свобода са
f = брой интервали - брой параметри - 1 = 8-2-1 = 5.
Нулевата хипотеза ще бъде отхвърмена, ако изчислената статистика е по-голяма от критичната стойност за избраната степен на
значимост и получените степени на свобода.
Критичната стойност се намира от таблицата или се пресмята чрез споменатия калкулатор:
Изчисляваме статистиката
.
В последната колона на долната таблица е изчислен квадрата на разликата между емпиричната и теоретичната честота,
разделен на теоретичната честота.
Отдолу е сумата на тези събираеми.
От таблицата на хи-квадрат разпределението намираме:
.
. Извод понеже статистиката е по-малка от критичната стойност нулевата хипотеза не може да бъде отхвърлена.
Т.е. разпределението е близко до нормалното.
P-стойността за изчислената статистика е P = 0,9861.
Тя може да се намери и чрез споменатото сметало -
Таблица на критичните стойности на χ2-разпределението