Какво трябва да знаем:     Смятане Теория на вероятностите и математическа статистика

Сър Роналд Фишер, тест за хомогенност на генералните съвкупности и българската домашна сланина

Българинът си яде сланинката, пуши си цигарката ...
Министър-председателят Бойко Борисов за здравето на народа

Пред двадесетте години на XX век
Роналд Фишер -Fisher
Сър Роналд Фишер
Роден 17 февруари 1890 г. Лондон, Великобритания - Починал 29 юли 1962 г. (72 г.) Аделаида, Австралия

е предизвикал революция в статитиката, проверявайки и осмисляйки направеното дотогава.
    Но той е открил и нови подходи към статитическите изследвания като анализ на вариацията, степените на свобода, факторния анализ и ги е обединил в едно цяло. Разпръснатите знания по статистика, откривани и осмисляни в продължение на 200 години са кристализилали в неговите изследвания в професионални методи, които днес ние изучаваме и използваме.
    Фишер е осъзнал, че методът на оценка само на една генерална съвкупност, използвайки извадка с голям обем е метод, несъответстващ на тогавашните изисквания.
Назряла е необходимостта от съвременни средства и методи на статистическите средства за изследване на явленията и влияещите им фактори.
    Това е обективната причина за появата на две нови статистически методики - χ2 (хи-квадрат) -тестовете и анализа на вариацията.
Първата статия за χ2 -тестовете е публикувана през 1900 г. в непретенционно списание и въпреки това методиките, описани в нея не само са оцелели през годините, но и са претърпели главозамайващо развитие в използването им в производството, науката и неплановия пазар.
    В голяма степен χ2 -тестовете си приличат. Данните се нанасят в таблица на емперичните (наблюдаваните) честоти, която се нарича таблица на спрегнатост. По нея се определят теоретичните честоти и степента на различие между едните и другите.
Целта на теста е да се определи, подобно на регресионно-корелационните изследвания степента на зависимост в която единия фактор (променлива) се влияе от другия.
    Вьпреки приликата, χ2 тестовете се различават в тьлкуването на резултатите. Някои оценяват независимостта на две величини от една генерална съвкупност, други хомогенността на няколко генерални съвкупности (като под хомогенност се разбира еднаквостта на отношението на видовете в различните генерални съвкупности), трети степента на доближаването (пасването на емпиричните (наблюдаваните) честоти с теоретичните.
    Макар, че изследванията на пазара датират от края на XIX в. те не са били повече от информация за вкусовете на купувачите. Истинското приложение на статистиката в меркантилните проучвания е започнало през 30-те години на XX век. В голяма степен научния подход се дьлжи на успехите на статистическата методология, основана на новите извадкови операции, разработени от сьр Роналд Фишер.
    Но (и това е може би по правдоподобно) и на тежкото икономическо положение по това време. Компаниите са били принудени от Голямата Депресия да използуват науката за да изльжат потребителите да купуват.
Hieronymus Bosch Ship of Fools
Детайл от картината на Еронимус Бош "Корабът на глупците"


    Така се е появила ерата на маркетинга.
    Ще разледаме, заедно, пример от нашата нерадостна действителност. Производителите на домашна, българска сланина поръчват на българските статистици статистическо изследване вьрху нагласите на потребителите по отношение на произвеждания от тях продукт - домашна ,бьлгарска сланина. Целта на изследването е да се отговори на въпроса: "Съществува ли различие по отношение на продукта при три групи потребители, определени от поръчителите? Ако такова съществува до каква степен може да му се доверим?"
Генералните сьвкупности са три - група А, група Б и трета група,сьстояща се единствено от Бойко Борисов. От тях са извлечени извадки с различни обеми, които при нашето проучване не са взети предвид. Поради особеностите на извадките, особено третата, резултатите били отчитани в проценти (%).
    Ние - изследователите издигаме нулевата хипотеза H0 - "Групите са хомогенни в предпочитанията си към продукта." Противоположната хипотеза е H1 - " Групите не са хомогенни в предпочитанията си към продукта." Избира се степен на достоверност е α=0,005.
    Ако нулевата хипотеза бъде отхвърлена то противоположната ще бъде вярна в 1- α = 1-0,005 = 0,995 = 99,5% от случаите.
    Процентите за пьрвите две извадки, те са нанесени в таблицата:
    А     Б  
Обичат сланина 10 60
Не обичат сланина 80 20
Нито едното, нито другото 10 20
    При проучване на третата група се оказало,че сьщността на Б.Б. е разделена,по отношение на сланината "пийсе на пийсе". Ето крайните резултати,получени от анкетираните:
    А     Б   Бойко Борисов
Обичат сланина 10 60 50
Не обичат сланина 80 20 50
Нито едното, нито другото 10 20 0
    Стойностите в таблицата се наричат "наблюдавани" или "емпирични честоти". Ще ги означаваме с Fij , където i е номерът на реда а j - номерът на колоната. Броят на редовете ще означим с r а този на стълбовете със c. След това в таблицата се нанасят сумите по редове и колони Тези суми ще означаваме с Ri и Cj .
Определяне на сумите -Sums
    Общата сума на наблюдаваните (емпиричните) честоти ще означим със S.
      Група А         Група Б     Бойко Борисов Сума
Обичат сланина 10 60 50 120
Не обичат сланина 80 50 50 150
Нито едното, нито другото 10 20 0 30
Сума 100 100 100300
    След това, за всяка клетка се изчисляват теоретичните честоти по формулата Изчисляване на теоретичните честоти -Frequences     Te се нанасят в таблицата вдясно и над наблюдаваните честоти: Местата на теоретичните честоти--ThFr
      Група А         Група Б     Бойко Борисов Сума
Обичат сланина
-40
10-
-40
60-
-40
50-
120
Не обичат сланина
-50
80-
-50
20-
-50
50-
150
Нито едното, нито другото
-10
10-
-10
20-
-10
0-
30
Сума100100100300
    По-нататък се определят събираемите за всяка клетка, необходими за изчисляването на статистиката χ2. Те се изчисляват по формулата Изчисляване на събираемите -Summands където Fij е наблюдаваната честота Tij теоретичната честота Sij е изчисляваното събираемо и се нанасят под Tij и вляво на Fij. Местата на събираемите PlOfSummands
      Група А         Група Б     Бойко Борисов Сума
Обичат сланина
-40
1022,5
-40
6010
-40
502,5
120
Не обичат сланина
-50
8018
-50
2018
-50
500
150
Нито едното, нито другото
-10
100
-10
2010
-10
010
30
Сума 100100100300
    Статистиката χ2 се изчислява като сума от деветте събереми Sij (тези в червените полета):
Статистиката хи-квадрат  -Statistics
Броят на степените на свобода f е равен на произведението f = (r-1)(c-1) където c е броят на колоните а r - този на редовете. В нашия случай f = 4.
    От таблицата на критичните стойности за χ2-разпределението намираме, че при избраната степен на доверителност α=0,005 и при четири степени на свобода Критичната стойност CrVal.
Тогава Сравнение м/у статистиката и критечната стойност Estim.
    При изпълнение на такова неравенство Ние, статистиците, смело отхвърляме нулевата хипотеза. Нехомогенността на трите групи се дължи на тяхната специфичност, особено на третата, чийто единствен член ярко се отличава от останалия "матриял".

Таблица на критичните стойности на χ2-разпределението

Таблица на критичните стояности за хи-квадрат разпределението ChiSquareTable

Какво ще научим:         Нулева хипотеза и нейната проверка
Намиране на доверителен интервал на случайна величина, свързана с нормалното разпределение
Теория на вероятностите
Висша математика III част

Намиране на доверителен интервал на случайна величина, свързана с нормалното разпределение