Какво трябва да знаем?

Проверка на хипотези за вида на разпределението, Критерий на Пирсън или на съгласието

Карл Пирсън Karl Pearson
Карл Пирсън - философ и математик
1857-1936
Социалист, изповядващ идеите на социал-дарвинизма и евгениката.
За него Ленин е казал, че е "най-съвестния зложелател на материализма".

    Хипотезите, при които вида на разпределението е известен и се оценява параметър на това разпределение се наричат параметрични. Но в статистиката се разглеждат и други видове хипотези. Една от тях касае вида на разпределението. Тя отговаря на въпроса дали генералната съвкупност не се подчинява на определен закон на разпределение и ако е така с каква вероятност.
    Издига се нулевата хипотеза H0 . H0 : Случайната величина X има функция на разпределение F0(x) (плътност на разпределение f0(x) и алтернативна хипотеза H1 : X има функция на разпределение F1(x), различна от F0(x) (плътност на разпределение f1(x), различна от f0(x)).
    За проверка на тези хипотези се използва критерия на Пирсън, наричан още χ2 (хи-квадрат ) -критерий или критерий на съгласие.
    Съставя се таблица, съдържаща наблюдаваните стойности на случайната величина в нарастващ ред и техните наблюдавани честоти nk както и теоретични им честоти npk. n е броят на интервалите на стойностите на X ако величината X е непрекъсната.
    При дискретна случайна величина n е броят на набюдаваните стойности на X плюс броят на интервалите, ако има такива. Не е необходимо те да бъдат с еднаква дължина. Съседните интервали могат да се обединяват, като при това се променя и n. Обикновено се предлага обединението да се извърши така, че най-малките теоретични честоти да бъдат между 1 и 2 и повечето от тях да надвишават 5.
    След това се пресмята статистиката: хи-квадрат статитика --chi_SqStat1_1 При избраното ниво на значимост α се определя се квантилът хи-квадрат квантил -quant1 , където f е броят на степените на свобода. Той е равен на броя на интервалите минус броя на параметрите на предполагаемото разпределение минус единица: f = n - r - 1.
    Ако Сравняване на изчислената статистика с хи-квадрат квантила -Estim1 нулевата не се отхвърля. Ако Отхвърляне на нулевата хипотеза и приемане на алтернативната -- Reject1 нулевата хипотеза се отхвърля и се приема алтернативната с вероятност 1-α.
    Пример 1 В телефонна централа е извършено проучване за броя на телефонните заявки за минута, в продължение на 60 минути.
Таблица на наблюдаваните честоти --EmpFrTbl1
Обемът на извадката е       Брой случаи при дискретна сл. величина--NumbOfCases1
    Математическото очакване и нейната дисперсия са:
Математическо очакване--MidEst1_1       и
Изчислена дисперсия, която повече не се използва--DispEst1_1
Изчисляваме и стандартното отклонение:     Оценка на стандартното отклонение --StDevEst1_1
    Поради дискретността на случайната величина и приблизителното равенство на средната стойност и дисперсията издигаме нулевата хипотеза H0: Случайната величина X е разпределена по закона на Поасон със средна стойност λ = 2 . Въпреки, че сме изчислили дисперсията тя не е параметър в разпределението. Алтернативната хипотеза H1 е: Случайната величина не е разпределена по закона на Поасон със средна стойност λ = 2
    Теоретичните вероятности при λ = 2 се изчисляват по закона на разпределение на Поасон:     Поасоново разпределение--PoissonDistr1 .     Попълваме техните стойности в таблицата:
Теоретични честоти--TheorFr_1_1
    Да забележим, че в последните три колони не е изпълнено условието n.pk >1   ,   поради което обединяваме получените стойности на случайната величина в интервал, като вероятността за него изчисляваме по формулата:     Теоретичната вероятност за последния интервал TheorPr_1_1
Теоретичните вероятности за стойнотите и за интервала-- TheorPr_1_2
Изчисляваме теоретичните честоти по формулата:   Frm1_1   и попълваме таблицата с тях:
Опитни и теоретичните честоти --TheorFr_1_2
    Предмятаме и събираемите, необходими за изчисляване на статистиката хи-квадрат по формулата Формула за събираемите, необходими за изчислявани на статистиката хи-квадрат. --Summands1_1 и ги нанасяме в таблицата:
Събираемите, необходими за изчислявани на статистиката хи-квадрат -Summands1_1_1
    По-нататък изчисляваме статистиката по формулата Хи-квадрат статистика -Shi_SqrStat1_2
    Броят на параметрите е един - средната стойност λ = 2, следователно степените на свобода са     f = n- r - 1 = 6-1-1 = 4. От таблицата на хи-квадрат разпределението, открито между другото също от Пирсън намираме Квантил--Quant1_2 .     Сравняване на статистиката с квантила -- QuantEst1_2 . Следователно нулевата хипотеза не може да бъде отхвърлена.
Пример 2
    Инжинер, оценител на качеството батерии, използвайки ниво на доверителност α=0,05 желае да провери хипотезата дали напрежението на произвежданите батерии се подчинява на нормалния закон на разпределение. Оценките за средното и стандартното отклонение на извадка с обем 100 са съответно: Емпирично средно и стандартно отклонение --MidStDev2_1. Приета практика при определянето на интервалите е те да бъдат избрани така, че теоретичните честоти n.pk да бъдат равни. Тогава границите на k-тия интервал (ak-1 ; ak ] трябва да бъдат такива, че вероятностите Теоретични вероятности --ThPr2_1 да бъдат равни. Ако решим да използваме 8 интервала разделянето на площта под кривата на плътността N(0,1) на стандартното нормалното разпределение на 8 равни части става чрез интервалите: [0 ; 0,32), [0,32 ; 0,675), [0,675 ; 1,15), [1,15 ; +∞) и симетричните на тях спрямо 0. Тези стойности могат да се изчислят чрез сметалото за обратни функции, намиращо се на адрес: "http://stancho.roncho.net/HighMath3/Prob/Gamma/GammaFuncCalc.html", като се използва обратната на функцията на нормалното разпределение за аргументите 0,5+1/8 ; 0,5+2/8 ; 0,5+3/8.
Калкулатор -- Calc2_1
Да отбележим, още сега, че интервалите не са с еднаква дължина. След като получихме интервалите и симетричните на тях, използваме трансформациата Преход от стандартно нормално разпределение към общо и обратно StNormCommNorm2_1 от разпределението N(0,1) към N(EX, σX) за да получим действителните интервали:
[EX ; EX+0,32.σX), [EX+0,32.σX ; EX+0,675.σX), [EX+0,675.σX ; EX+1,15.σX), [EX+1,15.σX ; +∞) Да припомним, че EX = 5,04 и че σX = 0,08. Така получаваме интервалите:
[5,04 ; 5,066), [5,066 ; 5,094), [5,094 ; 5,132), [5,132 ; +∞) и симетричните на тях, спрямо EX =5,04 . Нанасяме границите на интервалите и емпиричните честоти в таблица:
Опитни честоти -- EmpFrTbl2_1
    Теоретичната вероятност за попадане на случайната величина във всеки от интервалите е 1/8 и понеже наблюденията са 100 то теоретичните четоти са 100/8=12,5. Допълваме таблицата с тях:
Опитни честоти и теоретични честоти -- EmpFrThFrTbl2_1
Ще извършим проверката на нулевата хипотеза в 8 стъпки.
  1. Случайната величина, от която се интересуваме е напрежението във волтове.
  2. Нулевата хипотеза H0, е че нейното разпределение е нормално.
  3. Алтернативната хипотеза H1 е че разпределението не е нормално.
  4. Избраната степен на доверителност е α = 0,05
  5. Статистиката за проверка на хипотезата е хи-квадрат статитика --chi_SqStat2_1, където Ek е емпиричната честота, Tk е теоретичната честота и n е броят на интервалите - в случая 8.
  6. Понеже за определяне на нормалното разпределение са необходими два параметъра то степените на свобода са f = брой интервали - брой параметри - 1 = 8-2-1 = 5. Нулевата хипотеза ще бъде отхвърмена, ако изчислената статистика е по-голяма от критичната стойност за избраната степен на значимост и получените степени на свобода. Критичната стойност се намира от таблицата или се пресмята чрез споменатия калкулатор:
    Квантил--Quant2_2
  7. Изчисляваме статистиката хи-квадрат статитика --chi2_1 . В последната колона на долната таблица е изчислен квадрата на разликата между емпиричната и теоретичната честота, разделен на теоретичната честота. Отдолу е сумата на тези събираеми. хи-квадрат статитика --chi2_2
    Опитни честоти и теоретични честоти -- EmpFrThFrTbl2_2
    От таблицата на хи-квадрат разпределението намираме: Квантил--Quant2_3 . Сравняване на статистиката с квантила -- QuantEst2_2
  8. . Извод понеже статистиката е по-малка от критичната стойност нулевата хипотеза не може да бъде отхвърлена. Т.е. разпределението е близко до нормалното. P-стойността за изчислената статистика е P = 0,9861.
    Тя може да се намери и чрез споменатото сметало - Калкулатор -- Calc2_2

Таблица на критичните стойности на χ2-разпределението

ChiSquareTable.GIF


Какво ще научим: