Statistički podaci o dobroj uklapanju. Kriterij sporazuma. Šta ćemo učiniti s primljenim materijalom

Budući da su sve pretpostavke o prirodi ove ili one distribucije hipoteze, a ne kategoričke izjave, one bi, naravno, trebale biti podvrgnute statističkim testiranjima koristeći takozvane testove ispravnosti.

Kriteriji za dobro raspoređivanje, utemeljeni na ustaljenom zakonu distribucije, omogućuju utvrđivanje kada razlike između teorijskih i empirijskih frekvencija trebaju biti prepoznate kao beznačajne (slučajne), a kada - značajne (ne slučajne). Stoga, kriteriji za dobro usklađivanje omogućavaju odbacivanje ili potvrđivanje ispravnosti hipoteza iznesenih prilikom poravnanja niza.

o prirodi distribucije u empirijskom nizu i daju odgovor je li moguće prihvatiti za određenu empirijsku distribuciju model izražen nekim teorijskim zakonom distribucije.

Postoji nekoliko kriterijuma za pristanak. Češće od ostalih koriste se kriteriji Pearsona, Romanovskog i Kolmogorova. Razmotrimo ih.

Pearsonov test ispravnosti fit-a% 2 (chi-kvadrat) jedan je od glavnih testova ispravnosti fitnesa. Kriterij je predložio engleski matematičar Karl Pearson (1857-1936) za procjenu slučajnosti (značaja) odstupanja između frekvencija empirijske i teorijske distribucije. Pearsonov kriterij gdje je k

broj skupina na koje se dijeli empirijska distribucija;

uočena učestalost obilježja u i-toj skupini; teorijska frekvencija izračunata iz pretpostavljene distribucije. Za raspodjelu y) sastavljaju se tablice koje označavaju kritičnu vrijednost kriterija slaganja% 2 za odabranu razinu značaja a i određeni broj stupnjeva slobode V (vidi Dodatak 4).

Razina značaja a je vjerojatnost pogrešnog odbacivanja predložene hipoteze, tj. vjerojatnost da će se ispravna hipoteza odbaciti. U statističkim studijama, ovisno o važnosti i odgovornosti zadataka koji se rješavaju, koriste se sljedeća tri nivoa značaja: 1)

a \u003d 0,10, tada je P \u003d 0,90; 2)

a \u003d 0,05, tada je P \u003d 0,95; 3)

a \u003d 0,01, tada je P \u003d 0,99.

Na primjer, vjerojatnost 0,01 znači da se ispravna hipoteza može odbiti u jednom slučaju u 100. U ekonomskom istraživanju se vjerojatnost pogreške od 0,05 smatra praktički prihvatljivom, tj. u 5 od 100 slučajeva, ispravna hipoteza može se odbiti.

Osim toga, kriterij% 2 određen iz tablice također ovisi o broju stupnjeva slobode. Broj stupnjeva slobode V definira se kao broj grupa u distribucijskoj seriji k minus broj veza sa V

Broj veza podrazumijeva se kao broj pokazatelja empirijskog niza koji se koriste u proračunu teorijskih frekvencija, tj. indikatori koji povezuju empirijsko i teorijsko

frekvencijama

Dakle, u slučaju poravnanja duž normalne krivulje raspodjele postoje tri odnosa:

x ~ x "" SU \u003d a "* x Š \u003d Y

EMF teorija 'EMF TheOr\u003e ^ 1EMF ^ / theor *

Stoga, prilikom poravnanja duž krivulje normalne raspodjele, broj stupnjeva slobode određuje se kao V \u003d k - 3, gdje je k broj grupa u nizu.

U slučaju poravnanja duž Poissonove krivulje, V \u003d k - 2, jer se pri konstrukciji frekvencija koriste dva ograničavajuća ograničenja: x, 1tr /

Da bi se procijenila materijalnost, izračunata vrijednost% 2kalkulirana je uspoređena sa tabelarnim% 2tab.

Ako se teorijska i empirijska raspodjela potpuno podudaraju,% 2 \u003d 0, u suprotnom% 2\u003e 0.

Ako je Xcalc\u003e Xtabl 'T0 ZA danom nivou značaja a i stupnjeva slobode V, odbacujemo hipotezu da su odstupanja beznačajna (slučajna).

Ako je% 2acc ^ X2tabL 'zaključujemo da se empirijski niz dobro podudara s hipotezom pretpostavljene distribucije i s vjerojatnošću (1 - a) može se tvrditi da je odstupanje između teorijske i empirijske frekvencije slučajno.

Koristeći kriterij pristanka? 2, moraju se ispuniti sljedeći uvjeti: 1)

obujam ispitivane populacije trebao bi biti dovoljno velik (UU\u003e 50), dok bi učestalost ili veličina svake skupine trebala biti najmanje 5.

Ako je ovaj uvjet prekršen, prvo je potrebno kombinirati male frekvencije; 2)

empirijska raspodjela treba sastojati od nasumično odabranih podataka, tj. moraju biti neovisni.

Ako je u empirijskom nizu distribucija dana frekvencijama / \\ m.

tada y) treba izračunati formulom

Romanovski kriterij Kp zasnovan je na Pearsonovom kriteriju% 2, tj. već pronađene vrijednosti% 2 i broj stupnjeva slobode v:

Dolazi vrlo korisno kada nema tablica za% 2.

Ako je Cr 3, onda nije slučajno

prema tome, teorijska raspodjela ne može poslužiti kao model za proučenu empirijsku distribuciju.

Kolmogorov kriterij X temelji se na utvrđivanju maksimalne razlike između akumuliranih frekvencija ili frekvencija empirijske i teorijske distribucije:

X \u003d -2 \u003d ili X \u003d, iN

gdje je Dud maksimalna razlika između akumuliranih frekvencija (F - F ") i između akumuliranih

nim frekvencijama (p - p ") empirijskih i teorijskih serija distribucija;

N je broj jedinica u agregatu.

Izračunavši vrijednost X, prema tablici P (k) (vidi Dodatak 6), odredite vjerojatnost s kojom se može tvrditi da su odstupanja empirijskih frekvencija od teorijskih slučajnih. Vjerovatnoća P (k) može varirati od 0 do 1. Kada je P (k) \u003d 1, postoji potpuna koincidencija frekvencija, kad je P (k) \u003d 0 - potpuna divergencija. Ako A, uzima vrijednosti do 0,3, tada je P (k) \u003d 1.

Glavni uvjet korištenja kriterija Kolmogorov je dovoljno velik broj opažanja.

Primjer. Upotreba podataka u tabeli. 5.17, da se provjeri ispravnost hipoteza o distribuciji okružnih regruta prema zakonu normalne raspodjele. Vrijednosti potrebne za izračunavanje kriterija pogodnosti su navedeni u tablici. 5.19.

Tabela 5.19

Izračun količina za određivanje kriterija slaganja Pearsona x2 i Kolmogorova X Visina, cm Frekvencije distribucijske serije (/ n - t ") 2 t" FF "cr, \\ t" A 1 2 3 4 5 6 156-160 8 5 1 , 8 8 5 3 161-165 17 16 0.1 25 21 4 166-170 42 40 0.1 67 61 6 171-175 54 65 1.9 121 126 5 176-180 73 73 0 194 199 5 181-185 57 57 0 251 256 5 186-190 38 30 2.1 289 286 3 191-195 11 11 0 300 297 3 X 300 297 6.0 Prvo izračunajte Pearsonov kriterij

Tada odaberemo razinu značajnosti a \u003d 0,05 i određujemo broj stupnjeva slobode V. U ovoj distribuciji postoji 8 skupina, a broj veza (parametara) je 3, dakle, V \u003d 8 - 3 \u003d 5. Prema tablici u Dodatku 4 nalazimo na 05 i V \u003d 5 Pearsonov test% 2 \u003d 11.07.

Budući da je% 2kalkulirano Provjerimo hipotezu iznesenu koristeći Romanovsky test:

I X2 - V I 16,0 - 5 I 1

cr \u003d] G \u003d ^ \u003d 1 \u003d --r \u003d 0,3.

Budući da kriterij Kp Romanovsky također potvrđuje da su odstupanja između empirijskih i teorijskih frekvencija beznačajna.

Razmotrimo sada primjenu Kolmogorovog kriterija A,. Kao što vidite iz tabele. 5.19, maksimalna razlika između kumulativnih frekvencija je 6, tj. B \u003d šah! / 1 - P "\\ \u003d 6. Prema tome, Kolmogorov kriterij

X \u003d -? \u003d \u003d \u003d 0,35.

Prema tablici u Dodatku 6, nalazimo vrijednost vjerojatnosti na X \u003d 0,35: P (X) \u003d 0,9997. To znači da se s vjerojatnošću bliskom jedinstvu može tvrditi da se hipoteza normalne distribucije ne odbacuje, a odstupanja između empirijske i teorijske distribucije su slučajna.

Sada, nakon što je potvrđena ispravnost hipoteze koja se iznosi koristeći dobro poznate kriterije prikladnosti, moguće je koristiti rezultate distribucije za praktične aktivnosti.

Primjer. Upotreba podataka u tabeli. 5.18, kako bi se ispitala hipoteza da raspodjela broja kvarova u automobilima poštuje Poissonov zakon.

Početni podaci i izračun vrijednosti potrebnih za utvrđivanje kriterija pogodnosti su navedeni u tablici. 5.20.

Izračunajmo vrijednost% 2: 2

Dfasch ^ / 9

(vidi tabelu 5.20). xXtabl \u003d 9\u003e 49

(vidi Dodatak 4).

Budući da je% 2 izračunato, hipoteza o raspodjeli broja kvarova u automobilima prema Poissonovom zakonu se ne odbacuje.

Uvod

Značaj ove teme je da smo tokom proučavanja osnova biostatistike pretpostavili da je poznat zakon distribucije opće populacije. Ali što ako je zakon o distribuciji nepoznat, ali postoji razlog pretpostaviti da ima određeni oblik (nazovimo ga A), tada se ispituje nulta hipoteza: opća populacija se raspodjeljuje u skladu sa zakonom A. Ova se hipoteza testira pomoću posebno odabrane slučajne varijable - testa dobre ispravnosti.

Ispitivanja ispravnosti odgovaraju testovima hipoteza o podudaranju empirijske distribucije teorijskoj distribuciji vjerojatnosti. Takvi kriterijumi spadaju u dvije klase:

  • III Opći kriteriji za primjerenost primjenjuju se na najopćenitiju formulaciju hipoteze, naime na hipotezu da se promatrani rezultati podudaraju s bilo kojom a priori pretpostavljenom raspodjelom vjerojatnosti.
  • III. Specijalni testovi ispravnosti prilagođavanja uključuju posebne nulte hipoteze koje se slažu s određenim oblikom distribucije vjerojatnosti.

Kriterij saglasnosti

Najčešći kriteriji za dobro uklapanje su omega-kvadrat, chi-kvadrat, Kolmogorov i Kolmogorov-Smirnov.

Kolmogorov, Smirnov i omega kvadratni neparametrički testovi dobrote široko se koriste. Međutim, povezane su sa širokim rasprostranjenim pogreškama u primjeni statističkih metoda.

Poanta je u tome da su navedeni kriteriji dizajnirani kako bi se ispitao slaganje sa potpuno poznatom teorijskom raspodjelom. Formule izračunavanja, tablice raspodjele i kritične vrijednosti su rasprostranjene. Glavna ideja Kolmogorovih kriterija, omega kvadrata i sličnih je mjerenje udaljenosti između funkcije empirijske raspodjele i teorijske funkcije raspodjele. Ovi se kriteriji razlikuju u obliku udaljenosti u prostoru distribucijskih funkcija.

Pearsonov test ch2 dobrote za jednostavnu hipotezu

Teorema K. Pearsona odnosi se na neovisna ispitivanja s ograničenim brojem ishoda, tj. na Bernoullijeve testove (u pomalo proširenom smislu). To vam omogućuje da prosudite jesu li opažanja u velikom broju pokusa u skladu s učestalošću ovih ishoda s njihovim pretpostavljenim vjerojatnostima.

U mnogim praktičnim problemima nije poznat tačan zakon distribucije. Stoga se postavlja hipoteza o podudarnosti postojećeg empirijskog zakona, izgrađenog iz opažanja, na neki teorijski. Ova hipoteza zahtijeva statistička ispitivanja, čiji će se rezultati ili potvrditi ili opovrgnuti.

Neka je X slučajna varijabla pod istragom. Potrebno je testirati hipotezu H0 da ova slučajna varijabla poštuje zakon distribucije F (x). Da biste to učinili, potrebno je napraviti uzorak od n neovisnih opažanja i upotrijebiti ga za izgradnju empirijskog zakona raspodjele F "(x). Za usporedbu empirijskih i hipotetičkih zakona koristi se pravilo koje se naziva kriterij dobre ispravnosti. Jedan od najpopularnijih je test dobrote K. Pearsona. statistika hi-kvadrata izračunava se:

gdje je N broj intervala koji se koriste za konstrukciju empirijskog zakona raspodjele (broj stupaca odgovarajućeg histograma), i je broj intervala, pt i je vjerojatnost vrijednosti slučajne varijable koja pada u i-ti interval za teorijski zakon distribucije, pe i je vjerojatnost vrijednosti slučajne varijable u i-tom intervalu za zakon empirijske distribucije. Mora se pridržavati raspodjele hi-kvadrat.

Ako izračunata statistika premaši kvantil khi-kvadratne distribucije s k-p-1 stupnjeva slobode za određeni nivo značajnosti, tada se hipoteza H0 odbacuje. U suprotnom, prihvaćen je na datom nivou značaja. Ovdje je k broj opažanja, p je broj procijenjenih parametara zakona distribucije.

Uzmite u obzir statistiku:

P2 statistika naziva se Pearsonova statistika hi-kvadrata zbog jednostavne hipoteze.

Jasno je da je h2 kvadrat određene udaljenosti između dva r-dimenzionalna vektora: vektor relativnih frekvencija (mi / n,…, mr / n) i vektor vjerojatnosti (pi,…, pr). Ta se udaljenost razlikuje od euklidske udaljenosti samo po tome što različite koordinate u nju ulaze s različitim utezima.

Raspravimo o ponašanju statistike h2 u slučaju kada je hipoteza H istinita i u slučaju kada H nije istinita. Ako je H istina, onda je asimptotsko ponašanje h2 za n\u003e? teorema K. Pearsona ukazuje. Da bismo razumjeli šta se događa s (2.2) kada je N netačan, primijetit ćemo da, prema zakonu velikih brojeva, mi / n\u003e pi za n\u003e?, Za i \u003d 1,…, r. Dakle, za n\u003e ?:

Ova vrijednost je jednaka 0. Dakle, ako je H netočan, onda je h2\u003e? (za n\u003e?).

Iz svega što je rečeno proizlazi da H treba odbiti ako je vrijednost h2 dobivena u eksperimentu prevelika. I ovdje, kao i uvijek, riječi "prevelike" znače da promatrana vrijednost h2 premašuje kritičnu vrijednost, koja se u ovom slučaju može uzeti iz tablice raspodjele chi-kvadrat. Drugim riječima, vjerojatnost P (h2 npi h2) je mala vrijednost i, stoga, malo je vjerojatno da će slučajno dobiti istu kao u eksperimentu, ili čak veća razlika između vektora frekvencije i vektora vjerojatnosti.

Asimptotska priroda teorema K. Pearsona, koja je u osnovi ovog pravila, zahtijeva oprez u svojoj praktičnoj upotrebi. Na njega se može osloniti samo za velike n. Potrebno je prosuditi je li n dovoljno velik uzimajući u obzir vjerojatnosti pi,…, pr. Stoga, na primjer, ne može se reći da će biti dovoljno stotina opažanja, jer ne samo da bi n trebao biti velik, već ni proizvodi npi, ..., npr. (Očekivane frekvencije) ne bi trebali biti mali. Stoga se pokazao problem približavanja h2 (kontinuirana raspodjela) statistici h2, čija je distribucija diskretna. Kombinacija teorijskih i eksperimentalnih argumenata dovela je do uvjerenja da je ta aproksimacija primjenjiva ako su sve očekivane frekvencije npi\u003e 10. ako se broj r (broj različitih ishoda) poveća, ograničenje za se smanjuje (na 5 ili čak na 3 ako je r reda nekoliko desetina). Da bi se ispunili ovi zahtjevi, u praksi je ponekad potrebno kombinirati nekoliko ishoda, tj. prijeđite na shemu Bernoulli s manjim r.

Opisana metoda provjere slaganja može se primijeniti ne samo na Bernoullijeve testove, već i na slučajne uzorke. Prethodno se njihova zapažanja moraju pretvoriti u Bernoullijeva ispitivanja grupisanjem. To se postiže na sljedeći način: promatrački prostor se dijeli na ograničeni broj međusobno povezanih područja, a zatim se promatrana učestalost i hipotetička vjerojatnost izračunavaju za svaku regiju.

U ovom slučaju, prethodno navedenim poteškoćama u približavanju dodaje se još jedna - izbor razumne particije izvornog prostora. Istovremeno se mora voditi računa o tome da je općenito pravilo za testiranje hipoteze o početnoj raspodjeli uzorka dovoljno osjetljivo na moguće alternative. Na kraju, napominjem da statistički testovi temeljeni na redukcijama Bernoullijeve sheme, u pravilu, nisu u skladu s svim alternativama. Dakle, ova metoda provjere pristanka je ograničene vrijednosti.

Kolmogorov - Smirnov test ispravnosti u klasičnom obliku snažniji je od kriterija ch2 i može se koristiti za testiranje hipoteze da empirijska distribucija odgovara bilo kojoj teoretskoj kontinuiranoj distribuciji F (x) s unaprijed poznatim parametrima. Potonja okolnost nameće ograničenja mogućnosti široke praktične primjene ovog kriterija u analizi rezultata mehaničkih ispitivanja, jer se parametri distribucijske funkcije karakteristika mehaničkih svojstava u pravilu procjenjuju iz podataka samog uzorka.

Kriterij Kolmogorov - Smirnov koristi se za grupisane podatke ili za grupisane podatke u slučaju male širine intervala (na primjer, jednake vrijednosti podjele ljestvice mjerača sile, brojača ciklusa opterećenja itd.). Neka rezultat ispitivanja niza uzoraka bude varijacijski niz karakteristika mehaničkih svojstava

x1? x2? ...? xi? ...? xn (3,93)

Potrebno je testirati nultu hipotezu da raspodjela uzorka (3,93) pripada teorijskom zakonu F (x).

Kriterij Kolmogorov - Smirnov zasnovan je na raspodjeli maksimalnog odstupanja akumuliranog posebnog od vrijednosti distribucijske funkcije. Kada se koristi, izračunava se statistika

što je statistika Kolmogorovog testa. Ako nejednakost

Dnvn? čelo (3,97)

za velike veličine uzorka (n\u003e 35) ili

Dn (vn + 0,12 + 0,11 / vn)? čelo (3,98)

za n? 35, ništavna hipoteza se ne odbacuje.

Ako se ne zadovolje nejednakosti (3,97) i (3,98), donosi se alternativna hipoteza da uzorak (3,93) pripada nepoznatoj distribuciji.

Kritične vrijednosti čela su: l0,1 \u003d 1,22; l0,05 \u003d 1,36; l0.01 \u003d 1.63

Ako parametri funkcije F (x) nisu unaprijed poznati, ali su procijenjeni iz podataka uzorka, test Kolmogorov - Smirnov gubi svoju univerzalnost i može se koristiti samo za provjeru podudarnosti eksperimentalnih podataka samo nekim određenim distribucijskim funkcijama.

Kada se koristi kao nulta hipoteza, pripadaju li eksperimentalni podaci normalnoj ili logaritamski normalnoj distribuciji, statistika se izračunava:

gdje je C (zi) vrijednost Laplaceove funkcije

C (zi) \u003d (xi - xsr) / s Kriterij Kolmogorov - Smirnov za bilo koju veličinu uzorka n piše se u obliku

Kritične vrijednosti čela u ovom slučaju su: l0,1 \u003d 0,82; l0.05 \u003d 0.89; l0.01 \u003d 1,04

Ako se provjeri hipoteza o podudarnosti uzorka *** eksponencijalnoj raspodjeli, čiji se parametar procjenjuje na osnovu eksperimentalnih podataka, izračunavaju se slične statistike:

empirijski test vjerojatnosti

i čine kriterij Kolmogorov - Smirnov.

Kritične vrijednosti čela za ovaj slučaj: l0.1 \u003d 0,99; l0.05 \u003d 1,09; l0.01 \u003d 1,31.

Za procjenu nepropusnosti veze koriste se pokazatelji varijacije:

1. Totalna varijanca efektivni atribut - odražava kumulativni uticaj faktora:

2. Faktorska varijanca efektivna osobina - odražava varijaciju samo iz uticaja ispitivanog faktora x:

Karakterizira varijabilnost poravnatih vrijednosti y xod ukupnog proseka.

3. Preostala varijanca prikazuje varijantu efektivne osobine atod svih ostalih, izuzev xfaktori:

Odnos faktorskih i ukupnih odražava stupanj bliskosti odnosa između x i at.

indeks određivanja - udio faktografske varijance u ukupnoj varijanci. Ako je ovaj izraz predstavljen kao, tada Rbiti će indeks korelacije .

Na osnovu pravila dodavanja odstupanja (\u003d + indeks korelacije može se predstaviti kao: ili. Indeks korelacije koristi se za procjenu čvrstoće odnosa za sve oblike komunikacije.

Za mjerenje nepropusnosti linijske veze, koeficijent linearne korelacije:

Kvalitativna procjena bliskosti odnosa između pokazatelja daje se pomoću Chaddockove skale:

Razmotrimo koristeći uslovni primjer primjenu regresijsko-korelacijske analize povezanosti parne korelacije. Postoje selektivne informacije o radu 8 hotela koji imaju različitu prosječnu godišnju popunjenost hotelskih soba i različitu profitabilnost svojih aktivnosti. Kao rezultat regresijsko-korelacijske analize, izuzetno je važno utvrditi postoji li direktna veza između popunjenosti hotelskih soba i, ako postoji, koliko je blizu:

N pp Zauzetost (u %%) x Profitabilnost (u %%) x 2 u 2 hu Izjednačen (teorijski) y x
8,2 7,0 9,3 8,1 9,5 10,5 7,5 6,3 67,24 49,00 86,49 65,61 90,25 110,25 56,25 39,69 492,0 364,0 669,6 526,5 712,5 840,0 420,0 315,0 7,61 6,65 9,05 8,21 9,41 10,01 7,13 6,41
66,4 564,78 4339,6 64,48

Odredimo parametre regresijske jednadžbe linearnog para:

Naša parna regresijska jednadžba izgledat će kao: Zamijenite empirijske vrijednosti x u ovu jednadžbu i izračunajte teorijske vrijednosti 7,61, itd.

Sada utvrdimo bliskost odnosa između popunjenosti hotela i rentabilnosti njihovih aktivnosti:

Kao rezultat analize ustanovljeno je da postoji vrlo visoka direktna veza između popunjenosti hotela i profitabilnosti njihovih aktivnosti.

U praksi je često izuzetno važno procijeniti blizinu empirijskih frekvencija teorijskim. Takva se procjena može izvršiti korištenjem kriterija blizine kriterijumi saglasnosti. U te svrhe se najčešće koriste - pearsonov test ispravnosti (ʼʼHiʼʼ- kvadrat), koji se izračunava formulom:

gde f -empirijske frekvencije,

Teoretske frekvencije.

Procjena blizine empirijskih frekvencija teorijskim određuje se vjerovatnoćom postizanja ova vrijednost R ( ) sa slučajnim odstupanjima frekvencije U slučaju verovatnoće R ( ) značajno se razlikuje od nule (veće od 0,05), tada se odstupanja empirijskih frekvencija od teorijskih mogu smatrati slučajnim. Ako R ( )< 0,05, tada se odstupanja ne mogu smatrati slučajnim, a empirijska i teorijska raspodjela su međusobno u osnovi različite.

Količina ne ovisi samo o odstupanjima stvarnih frekvencija od teorijskih, već i o broju skupina na koje je populacija podijeljena, s tim u vezi, tablicama kritičnih vrijednosti izračunato za različite stupnjeve slobode varijacije empirijskih frekvencija (prilog). Treba reći da je za normalnu distribuciju broj stepeni slobode K \u003d n-3gde n Da li je broj grupa P ( , što značajno prelazi 0,05. To znači da se odstupanja stvarnih frekvencija od empirijskih mogu smatrati slučajnim, a sama distribucija realizacije karata blizu je normalne distribucije.

Prilog 1

Kriteriji za saglasnost - koncept i vrste. Razvrstavanje i karakteristike kategorije „Kriteriji za sporazum“ 2017., 2018.

U ovom ćemo broju razmatrati jedno od pitanja vezanih za ispitivanje vjerojatnosti hipoteza, naime, pitanje dosljednosti teorijskih i statističkih raspodjela.

Pretpostavimo da je data statistička distribucija spljoštena pomoću neke teorijske krivulje f (x)(sl. 7.6.1). Bez obzira na to koliko je teorijska krivulja prikladna, neke su razlike između nje i statističke distribucije neizbježne. Prirodno se postavlja pitanje: jesu li te odstupanja objašnjena samo slučajnim okolnostima povezanim s ograničenim brojem opažanja ili su značajne i povezane s činjenicom da krivulja koju smo ugradili ne daje ravnomjerno navedenu statističku raspodjelu. Za odgovor na ovo pitanje koriste se takozvani "kriteriji za pristanku".

ZAKONI O RAZDELJIVANJU VREDNOSTI RANDOMA



Ideja iza primjene kriterija pristanka je kako slijedi.

Na osnovu ovog statističkog materijala moramo ispitati hipotezu H,koji se sastoji u činjenici da je slučajna varijabla Xse pokorava određenom zakonu distribucije. Ovaj se zakon može odrediti u jednom ili drugom obliku: na primjer, u obliku distribucijske funkcije F (x)ili u obliku gustoće distribucije f (x),ili kao skup vjerojatnosti p t,gde p tje verovatnoća da je količina Xspadaće u neštopražnjenje.

Budući da iz ovih oblika funkcionira distribucijska funkcija F (x)je najopćenitije i definiše bilo koju drugu, formulisaćemo hipotezu H,kao što se sastoji u činjenici da je količina Xima funkciju distribucije ^ (q :).

Da biste prihvatili ili demantirali hipotezu H,uzmite u obzir neku količinu U,karakterizirajući stupanj odstupanja između teorijske i statističke distribucije. Količina Umogu se birati na različite načine; na primjer kao Umožete uzeti zbroj kvadrata odstupanja teorijskih vjerojatnosti p tsa odgovarajućih frekvencija r *ili zbroj tih "* kvadrata s nekim koeficijentima (" težinama "), ili maksimalnim odstupanjem funkcije statističke raspodjele F * (x)iz teorijskog F (x)i sl. Pretpostavimo da je količina Uodabrano na ovaj ili onaj način. Očigledno je da je ovo neko slučajna vrijednost.Zakon distribucije ove slučajne varijable ovisi o zakonu distribucije slučajne varijable X,na kojem su izvođeni eksperimenti i o broju eksperimenata p.Ako hipoteza Hje tacno, tada je zakon raspodjele kolicine Uodređuje se zakonom raspodjele količine X(funkcija F (x))i broj p.

Pretpostavimo da znamo ovaj zakon distribucije. Kao rezultat ove serije eksperimenata, utvrđeno je da je odabrana mjera



KONSENTNI KRITERIJI


odstupanja Upoprimili neku važnost i.Pitanje je može li se to objasniti nasumičnim razlozima ili je li ta odstupanja prevelika i ukazuje na prisutnost značajne razlike između teorijske i statističke distribucije, a samim tim i na neprikladnost hipoteze H?Da biste odgovorili na ovo pitanje, pretpostavite da je hipoteza Hje tačno i pod ovom pretpostavkom izračunajmo vjerojatnost da će zbog slučajnih razloga povezanih s nedovoljnom količinom eksperimentalnog materijala biti mjera odstupanja Uneće biti ništa manje od vrijednosti koju primjećujemo u iskustvu i,to jest, izračunavamo vjerojatnost nekog događaja:

Ako je ova verovatnoća vrlo mala, onda je hipoteza Htreba odbiti kao malo vjerovatno; ako je ta vjerovatnoća značajna, treba priznati da eksperimentalni podaci ne proturječe hipotezi N.

Postavlja se pitanje kako izabrati mjeru odstupanja £ /? Ispada da je za neke metode njegova izbora zakon raspodjele količine Uposjeduje vrlo jednostavna svojstva i za dovoljno velike strpraktički nezavisno od funkcije F (x).Upravo se ove mjere odstupanja koriste u matematičkoj statistici kao kriterij dobre podobnosti.

Razmotrite jedan od najčešće korištenih testova dobrog prilagođavanja, takozvani „test y? "Pearson.

Pretpostavimo da smo izveli hektare nezavisnih eksperimenata, od kojih je svaki slučajna varijabla Xpoprimili određeno značenje. Rezultati eksperimenata sažeti su u kznamenki i formatiraju se kao statistička serija.

Nula (glavni) naziva se hipoteza koja se iznosi o obliku nepoznate distribucije ili o parametrima poznatih distribucija. Takmičenje (alternativno) naziva se hipotezom koja je suprotna nuli.

Na primjer, ako se nulta hipoteza sastoji u pretpostavci da je slučajna varijabla X raspoređuje se po zakonu, tada se suprotstavljena hipoteza može sastojati od pretpostavke da je slučajna varijabla X raspodeljeno prema drugom zakonu.

Statistički kriterij (ili jednostavno kriterij) nazovite neku slučajnu varijablu TO, koji služi za testiranje nulte hipoteze.

Nakon odabira određenog kriterija, na primjer, kriterija, skup svih njegovih mogućih vrijednosti dijeli se na dva različita podskupina: jedan sadrži vrijednosti kriterija za koji je nulta hipoteza odbijena, a drugi za koji je prihvaćen.

Kritično područje naziva se skup vrijednosti kriterija, na kojem se nulta hipoteza odbacuje. Područje prihvaćanja hipoteze naziva se skup vrijednosti kriterija na kojima je hipoteza prihvaćena. Kritične poene su točke koje razdvajaju kritičnu regiju od regije prihvaćanja nulte hipoteze.

U našem primjeru, kada vrijednost, izračunata iz uzorka, odgovara području prihvaćanja hipoteze: slučajna varijabla se distribuira u skladu sa zakonom. Ako je izračunata vrijednost, tada pada u kritičnu regiju, odnosno hipoteza o raspodjeli slučajne varijable prema zakonu se odbacuje.

U slučaju raspodjele, kritična regija je određena nejednakošću, regija prihvaćanja nulte hipoteze određena je nejednakošću.

2.6.3. Kriterij saglasnosti Pearson.

Jedan od zadataka zootehnike i veterinarske genetike je razvoj novih rasa i vrsta sa traženim karakteristikama. Na primjer, povećani imunitet, otpornost na bolest ili promjene boje krzna.

U praksi se prilikom analize rezultata često ispostavi da stvarni rezultati u većoj ili manjoj mjeri odgovaraju nekom teorijskom zakonu distribucije. Potrebno je procijeniti stupanj podudarnosti stvarnih (empirijskih) podataka i teorijskih (hipotetičkih). Za to se izvodi ništavna hipoteza: dobivena populacija se raspodjeljuje u skladu sa zakonom "A". Hipoteza o pretpostavljenom zakonu distribucije testira se pomoću posebno odabrane slučajne varijable - testa ispravnosti.

Kriterij pristankanaziva se kriterijem za testiranje hipoteze o pretpostavljenom zakonu nepoznate distribucije.

Postoji nekoliko kriterijuma za saglasnost: Pearson, Kolmogorov, Smirnov itd. Pearsonov test ispravnosti ugradnje najčešće se koristi.

Razmotrimo primjenu Pearsonovog kriterija na primjeru testiranja hipoteze o normalnoj distribuciji opće populacije. U tu ćemo svrhu usporediti empirijske i teorijske (izračunato u nastavku normalne distribucije) frekvencija.

Obično postoji razlika između teorijskih i empirijskih frekvencija. na primjer:

Empirijske frekvencije 7 15 41 93 113 84 25 13 5

Teoretske frekvencije 5 13 36 89 114 91 29 14 6

Razmotrimo dva slučaja:

Nesklad između teorijskih i empirijskih frekvencija je slučajan (beznačajan), tj. možete dati prijedlog o raspodjeli empirijskih frekvencija prema normalnom zakonu;

Odstupanje između teorijskih i empirijskih frekvencija nije slučajno (značajno), tj. teorijske frekvencije izračunavaju se na temelju pogrešne hipoteze o normalnoj distribuciji opće populacije.

Korištenjem Pearsonovog kriterija pogodnosti, moguće je utvrditi je li odstupanje između teorijskih i empirijskih frekvencija slučajno ili ne, tj. odrediti s danom razinom pouzdanosti je li opća populacija raspoređena u skladu s normalnim zakonom ili ne.

Dakle, neka se dobije empirijska distribucija za uzorak veličine n:

Opcije ... ...

Empirijske frekvencije …….

Pretpostavimo da se teorijske frekvencije računaju pod pretpostavkom normalne distribucije. Na nivou značajnosti potrebno je testirati nultu hipotezu: opća populacija je normalno raspoređena.

Kao kriterij za testiranje nulte hipoteze uzimamo slučajnu varijablu

(*)

Ova je vrijednost slučajna jer u različitim eksperimentima uzima različite, dosad nepoznate vrijednosti. Jasno je da što se manje empirijske i teorijske frekvencije razlikuju, to je manja vrijednost kriterija i stoga u određenoj mjeri karakterizira blizina empirijske i teorijske distribucije.

Dokazano je da na, zakonu distribucije slučajne varijable (*), bez obzira kojem zakonu raspodjele podliježe opća populacija, teže zakon o distribuciji sa stupnjevima slobode. Stoga se nasumična varijabla (*) označava kroz, a sam kriterij naziva se testom dobrog raspoloženja "chi kvadrat".

Označimo vrijednost kriterija izračunatu iz podataka promatranja do. Označene su tabelarne kritične vrijednosti kriterija za određeni nivo značaja i broj stupnjeva slobode. U ovom se slučaju broj stupnjeva slobode određuje iz jednakosti, gdje je broj grupa (djelomičnih intervala) uzorka ili klasa; - broj parametara pretpostavljene distribucije. Normalna raspodjela ima dva parametra - matematičko očekivanje i standardno odstupanje. Stoga se iz stepena nalazi broj stupnjeva slobode za normalnu raspodjelu

Ako izračunata vrijednost i vrijednost tablice zadovoljavaju nejednakost , prihvaćena je nulta hipoteza normalne distribucije opće populacije. Ako , nulta hipoteza se odbacuje i prihvaća se alternativna hipoteza (opća populacija nije raspodijeljena u skladu s normalnim zakonom).

Komentiraj Kada koristite Pearsonov test ispravnosti prilagođenosti, veličina uzorka mora biti najmanje 30. Svaka grupa mora sadržavati najmanje 5 opcija. Ako je u grupi manje od 5 frekvencija, oni se kombiniraju sa susjednim skupinama.

U općem slučaju, broj stupnjeva slobode za hi-kvadratnu distribuciju definira se kao ukupni broj veličina za koje su izračunati odgovarajući pokazatelji, minus broj uvjeta koji povezuju te količine, tj. smanjiti mogućnost varijacije među njima. U najjednostavnijim slučajevima, prilikom izračuna, broj stepeni slobode bit će jednak broju nastave, smanjenom za jedan. Tako se, na primjer, dihibridnim cijepanjem dobivaju 4 klase, ali samo se prva klasa dobiva nepovezana, sljedeće su već povezane s prethodnom. Stoga je za dihidrično cijepanje broj stupnjeva slobode.

Primjer 1. Utvrditi stupanj podudarnosti stvarne raspodjele skupina prema broju krava sa tuberkulozom s teoretski očekivanom, koja je izračunata uzimajući u obzir normalnu raspodjelu. Početni podaci sažeti su u tabeli:

Odluka.

Po razini značajnosti i broju stupnjeva slobode iz tablice kritičnih distribucijskih točaka (vidi Dodatak 4) nalazimo vrijednost ... Ukoliko , može se zaključiti da je razlika između teorijskih i stvarnih frekvencija slučajna. Dakle, stvarna raspodjela grupa prema broju krava sa tuberkulozom odgovara teoretski očekivanoj.

Primjer 2 Teorijska fenotipska raspodjela jedinki dobivenih u drugoj generaciji dihibridnim križanjem zečeva prema Mendelovom zakonu iznosi 9: 3: 3: 1. Potrebno je izračunati podudarnost empirijske raspodjele zečeva od križanja crnih jedinki s normalnom vunom s oborenim životinjama - albinosima. Ukrštanjem u drugoj generaciji dobiveno je 120 potomaka, uključujući 45 crnih sa kratkom dlakom, 30 crnih dlakavih, 25 bijelih sa kratkom dlakom, 20 bijelih zečeva.

Odluka. Teoretski očekivano cijepanje u potomstvu trebalo bi odgovarati omjeru četiri fenotipa (9: 3: 3: 1). Izračunajmo teoretske frekvencije (broj glava) za svaki razred:

9 + 3 + 3 + 1 \u003d 16, tako da možete očekivati \u200b\u200bda će biti crne kratke dlake ; crna donja - ; bijela kratkodlaka - ; bijela donja -.

Empirijska (stvarna) distribucija fenotipa bila je sljedeća: 45; trideset; 25; 20.

Sažmemo sve ove podatke u sljedećoj tablici:

Pomoću Pearsonovog testa pogodnosti, izračunavamo vrednost:

Broj stupnjeva slobode u dihibridnom prelazu. Za nivo značaja pronađite vrijednost ... Ukoliko , može se zaključiti da razlika između teorijskih i stvarnih frekvencija nije slučajna. Slijedom toga, rezultirajuća skupina zečeva odstupa u raspodjeli fenotipa iz Mendelovog zakona u dihibridnom križanju i odražava utjecaj određenih faktora koji mijenjaju vrstu cijepanja fenotipa u drugoj generaciji hibrida.

Pearsonov test s hi-kvadratom fit može se koristiti i za usporedbu dvije homogene empirijske distribucije jedna s drugom, tj. one koji imaju iste klasne granice. Hipoteza o jednakosti dviju nepoznatih funkcija raspodjele prihvaćena je kao nulta hipoteza. Kriterij chi-kvadrata u takvim slučajevima određen je formulom

(**)

gdje su i količine upoređenih distribucija; i - frekvencije pojedinih klasa.

Razmotrite usporedbu dviju empirijskih distribucija u sljedećem primjeru.

Primjer 3. Dužina jaja kukavice izmjerena je u dvije teritorijalne zone. U prvoj zoni ispitan je uzorak od 76 jaja (), u drugoj, od 54 (). Dobijeni su sledeći rezultati:

Dužina (mm)
Frekvencije
Frekvencije - - -

Na nivou značajnosti potrebno je ispitati nultu hipotezu da oba uzorka jaja pripadaju istoj populaciji kukavice.

Podijeli ovo: