Koti - Lattiat
Yksisuuntainen varianssianalyysi. Monimuuttujavarianssianalyysi Varianssianalyysiartikkeli

Varianssianalyysi perustuu kuuluisan matemaatikon työhön R.A. Fisher. Melko pitkästä iästään huolimatta tämä menetelmä on edelleen yksi tärkeimmistä biologian ja maatalouden tutkimuksessa. Varianssianalyysin taustalla olevia ideoita käytetään laajasti monissa muissa kokeellisen datan matemaattisen analyysin menetelmissä sekä biologisten ja maatalouden kokeiden suunnittelussa.

Varianssianalyysin avulla voit:

1) vertaa kahta tai useampaa näytevälinettä;

2) tutkia samanaikaisesti useiden riippumattomien tekijöiden vaikutusta ja on mahdollista määrittää sekä kunkin tekijän vaikutus tutkittavan ominaisuuden vaihteluun että niiden vuorovaikutus;

3) suunnitella tieteellinen koe oikein.

Elävien organismien vaihtelevuus ilmenee yksittäisten ominaisuuksien arvojen hajoamisena tai hajoamisena rajoissa, jotka määräytyvät materiaalin biologisen tasaisuuden asteen ja ympäristöolosuhteiden välisten suhteiden luonteen mukaan. Merkkejä, jotka muuttuvat tiettyjen syiden vaikutuksesta, kutsutaan tehokas.

Tekijät ovat mitä tahansa vaikutteita tai olosuhteita, joiden monimuotoisuus voi tavalla tai toisella vaikuttaa tuloksena olevan ominaisuuden monimuotoisuuteen. Tekijöiden tilastollinen vaikutus varianssianalyysissä ymmärretään tutkimuksessa organisoidun heijastuksena tutkittavien tekijöiden monimuotoisuuden tuloksena olevan attribuutin monimuotoisuudessa.

Monimuotoisuudella tarkoitamme kunkin ominaisuuden eriarvoisten arvojen läsnäoloa eri yksilöissä, jotka on yhdistetty ryhmään. Yksilöryhmän monimuotoisuus tutkittavan piirteen mukaan voi olla eriasteista, mitä yleensä mitataan monimuotoisuuden (tai vaihtelevuuden) indikaattoreilla: raja-arvoilla, keskihajontalla, variaatiokertoimella. Varianssianalyysissä ominaisuuden yksittäisten ja keskiarvojen monimuotoisuuden aste mitataan ja verrataan erityisillä tavoilla, jotka muodostavat tämän yleisen menetelmän erityispiirteet.

Tekijöiden järjestäytyminen on niin, että jokaiselle tutkittavalle tekijälle annetaan useita merkityksiä. Näiden arvojen mukaisesti jokainen tekijä on jaettu useisiin asteikkoihin; Jokaista astetta kohden valitaan useita yksilöitä satunnaisotantaperiaatteen mukaisesti ja tuloksena olevan ominaisuuden arvo mitataan sen jälkeen.

Tutkittavien tekijöiden vaikutuksen asteen ja luotettavuuden selvittämiseksi on tarpeen mitata ja arvioida se osa kokonaisdiversiteetistä, jonka nämä tekijät aiheuttavat.

Tuloksena olevan ominaisuuden vaihteluasteeseen vaikuttavat tekijät jaetaan:

1) säädettävä

2) satunnainen

Säädettävä (systeeminen) tekijät johtuvat kokeessa tutkitun tekijän vaikutuksesta, jonka kokemuksessa on useita asteita. Tekijän asteikko– tämä on sen vaikutuksen aste tuloksena olevaan ominaisuuteen. Ominaisuuden asteikon mukaisesti erotetaan useita kokemuksen muunnelmia vertailua varten. Koska nämä tekijät ovat ennakkoehdollisia, niitä kutsutaan tutkimussäädettäviksi, ts. kokemuksen järjestämisestä riippuen. Näin ollen säädettävät tekijät ovat tekijöitä, joiden toimintaa tutkitaan kokeellisesti, ne määräävät erot eri vaihtoehtojen otoskeskiarvojen välillä. ryhmien välinen (faktoriaalinen) varianssi.

Satunnaiset tekijät määräytyy luonnon biologisten esineiden kaikkien ominaisuuksien luonnollisesta vaihtelusta. Nämä ovat kokeellisesti hallitsemattomia tekijöitä. Niillä on satunnainen vaikutus tehokkaaseen ominaisuuteen, ne aiheuttavat kokeellisia virheitä ja määrittävät ominaisuuden leviämisen (dispersion) kunkin muunnelman sisällä. Tätä leviämistä kutsutaan ryhmän sisäinen (satunnainen) varianssi.

Siten yksittäisten tekijöiden suhteelliselle roolille tuloksena olevan ominaisuuden yleisessä vaihtelussa on tunnusomaista hajonta ja sitä voidaan tutkia käyttämällä varianssianalyysi tai sirontaanalyysi

Varianssianalyysi perustuu ryhmien välisten ja ryhmien sisäisten varianssien vertailu. Jos ryhmien välinen varianssi ei ylitä ryhmän sisäistä varianssia, ryhmien väliset erot ovat satunnaisia. Jos ryhmien välinen dispersio on merkittävästi suurempi kuin ryhmän sisäinen dispersio, on tutkittujen ryhmien (varianttien) välillä tilastollisesti merkitseviä eroja kokeessa tutkitun tekijän vaikutuksesta.

Tästä seuraa, että kun tilastollisesti tutkitaan tehokasta ominaisuutta varianssianalyysin avulla, tulisi määrittää sen vaihtelu muunnelmien välillä, toistot, jäännösvaihtelu näiden ryhmien sisällä ja tehollisen ominaisuuden yleinen vaihtelu kokeessa. Tämän mukaisesti erotetaan kolme tyyppistä dispersiota:

1) Tuloksena olevan ominaisuuden kokonaisvarianssi (S y 2);

2) Intergroup tai yksityinen, näytteiden välillä (S y 2);

3) Ryhmän sisäinen, jäännös (S z 2).

Siten, varianssianalyysitämä on neliöpoikkeamien kokonaissumman ja vapausasteiden kokonaismäärän jakaminen kokeen rakennetta vastaaviin osiin tai komponentteihin sekä tutkittujen tekijöiden toiminnan ja vuorovaikutuksen merkityksen arviointi F-kriteerin avulla. . Samanaikaisesti tutkittavien tekijöiden lukumäärästä riippuen erotetaan kaksi-, kolmi- ja nelitekijävarianssianalyysi.

Prosessoitaessa useista riippumattomista vaihtoehdoista koostuvia kentän yksitekijätilastokomplekseja, tuloksena olevan ominaisuuden kokonaisvaihtelu, mitattuna neliöiden kokonaissummalla (C y), jaetaan kolmeen komponenttiin: vaihtoehtojen (näytteiden) välinen vaihtelu - C V, variaatio toistoista (vaihtoehdot liittyvät toisiinsa yhteisellä kontrolloidulla ehdolla - järjestäytyneiden toistojen läsnäololla) - C p ja vaihtelu vaihtoehtojen C z sisällä. Yleisessä muodossa piirteen vaihtelua edustaa seuraava lauseke:

С y = С V + С p + С z.

Vapausasteiden kokonaismäärä (N -1) on myös jaettu kolmeen osaan:

optioiden vapausasteet (l – 1);

toistojen vapausasteet (n–1);

satunnaisvaihtelu (n – 1) × (l – 1).

Kenttäkoetietojen - tilastollisen kompleksin vaihtoehdoilla - l ja toistoilla - n mukaan neliöityjen poikkeamien summat löytyvät seuraavasti. Määritä ensin alkuperäisen taulukon avulla toistojen summat - Σ P, variantit - Σ V ja kaikkien havaintojen kokonaissumma - Σ X.

Sitten lasketaan seuraavat indikaattorit:

Havaintojen kokonaismäärä N = l × n;

Korjauskerroin (korjaus) C cor = (Σ X 1) 2 / N;

Neliöiden kokonaissumma Cy = Σ X 1 2 – C-ydin;

Toistojen neliöiden summa C p = Σ P 2 / (l –C ydin);

Vaihtoehtojen C V = Σ V 2 / (n – 1) neliöiden summa;

Virheen neliösumma (jäännös) C Z = C y - C p - C V .

Tuloksena saadut neliöiden C V ja C Z summat jaetaan niitä vastaavilla vapausasteilla ja saadaan kaksi keskineliötä (varianssia):

Vaihtoehdot S v 2 = C V / l – 1;

Virheet S Z 2 = C Z / (n – 1)×(l – 1).

Välineiden välisten erojen merkityksen arviointi. Saatuja keskineliöitä käytetään varianssianalyysissä tutkittujen tekijöiden vaikutuksen merkittävyyden arvioimiseen vertaamalla vaihtoehtojen varianssia (S v 2) virhevarianssiin (S Z 2) Fisherin kriteerin mukaisesti (F = S Y). 2 / S Z 2). Vertailuyksikkö on satunnaisvarianssin keskimääräinen neliö, joka määrittää kokeen satunnaisvirheen.

Fisherin testin avulla voimme määrittää merkittävien erojen olemassaolon tai puuttumisen näytekeskiarvojen välillä, mutta se ei osoita erityisiä eroja keskiarvojen välillä.

Testattava hypoteesi on oletus, että kaikki otoskeskiarvot ovat yhden yleisen keskiarvon arvioita ja niiden väliset erot ovat merkityksettömiä. Jos F tosiasia = S Y 2 / S Z 2 ≤ F teoreettinen, silloin nollahypoteesia ei hylätä. Näytteen keskiarvojen välillä ei ole merkittäviä eroja, ja tähän testi päättyy. Nollahypoteesi hylätään, kun F tosiasia = S Y 2 / S Z 2 ≥ F teoreettinen F-testin arvo tutkimuksessa hyväksytylle merkitsevyystasolle löytyy vastaavasta taulukosta ottaen huomioon vaihtoehtojen varianssin ja satunnaisvarianssin vapausasteet. Tyypillisesti käytetään 5 %:n merkitsevyystasoa ja tiukemmalla lähestymistavalla 1 % tai jopa 0,1 %.

Koko n otokselle otoksen varianssi lasketaan otoksen keskiarvosta poikkeamien neliösummana jaettuna n-1(näytteen koko miinus yksi). Siten kiinteän otoskoon n tapauksessa varianssi on neliöiden (poikkeamien) summan funktio, jota merkitään lyhyyden vuoksi, SS (englanniksi Sum of Squares - Sum of squares). Jäljempänä jätämme usein pois sanan näyte, koska tiedämme hyvin, että harkitsemme otosvarianssia tai varianssin estimointia. Varianssianalyysin perusta on varianssin jakaminen osiin tai komponentteihin:

SS-virheet ja SS vaikutus. Ryhmän sisäinen vaihtelu ( SS) kutsutaan yleensä jäännöskomponentiksi tai varianssiksi virheitä. Tämä tarkoittaa, että sitä ei yleensä voida ennustaa tai selittää, kun koe suoritetaan. Toisella puolella, SS vaikutus(tai ryhmien välinen varianssikomponentti) voidaan selittää ryhmien keskiarvojen välisillä eroilla. Toisin sanoen tiettyyn ryhmään kuuluminen selittää ryhmien välinen vaihtelu, koska tiedämme, että näillä ryhmillä on erilaiset keinot.

Varianssianalyysin peruslogiikka. Yhteenvetona voidaan todeta, että ANOVA:n tarkoituksena on testata keskiarvojen (ryhmien tai muuttujien) välisten erojen tilastollista merkitsevyyttä. Tämä tarkistus suoritetaan jakamalla neliöiden summa komponenteiksi, ts. jakamalla kokonaisvarianssi (variaatio) osiin, joista toinen johtuu satunnaisesta virheestä (eli ryhmän sisäisestä vaihtelusta) ja toinen liittyy keskiarvojen eroihin. Viimeistä varianssikomponenttia käytetään sitten analysoimaan keskiarvojen välisen eron tilastollista merkitsevyyttä. Jos tämä on ero merkittävä, nollahypoteesi hylätty ja vaihtoehtoinen hypoteesi, että keinojen välillä on ero, hyväksytään.

Riippuvat ja riippumattomat muuttujat. Kutsutaan muuttujia, joiden arvot määritetään mittauksilla kokeen aikana (esimerkiksi testitulos). riippuvainen muuttujia. Muuttujia, joita voidaan ohjata kokeessa (kuten opetusmenetelmiä tai muita kriteerejä, joiden avulla havainnot voidaan jakaa ryhmiin tai luokitella) kutsutaan ns. tekijät tai riippumaton muuttujia.

Monet tekijät. Maailma on luonteeltaan monimutkainen ja moniulotteinen. Tilanteet, joissa tietty ilmiö kuvataan kokonaan yhdellä muuttujalla, ovat erittäin harvinaisia. Jos esimerkiksi yritämme oppia kasvattamaan suuria tomaatteja, meidän tulee ottaa huomioon kasvin geneettiseen rakenteeseen, maaperän tyyppiin, valoon, lämpötilaan jne. liittyvät tekijät. Siten tyypillistä koetta suoritettaessa on käsiteltävä monia tekijöitä. Pääsyy siihen, miksi ANOVA:n käyttö on parempi kuin kahden näytteen toistuva vertailu eri tekijätasoilla sarjoja käyttäen t- kriteeri on, että varianssianalyysi on huomattavasti enemmän tehokas ja pienille näytteille enemmän informatiivisia.

Johtopäätös. Englantilainen tiedemies R. A. Fisher kehitti varianssianalyysin ja otti sen osaksi maatalous- ja biologian tutkimusta. . Varianssianalyysin ydin koostuu piirteen kokonaismuuttuvuuden ja vapausasteiden kokonaismäärän jakamisesta kenttäkokeen rakennetta vastaaviksi komponenteiksi sekä toimintakertoimen arvioimisesta Fisher-kriteerin avulla.

Missä on ominaisuuden yleinen vaihtelevuus, joka johtuu tutkittavan ongelman vaikutuksesta, maaperän hedelmällisyyden heterogeenisyydestä ja kokeen sattumanvaraisista virheistä.

Satojen vaihtelu kenttäkokeiden toistoissa.

Satojen vaihtelu kokeellisten varianttien mukaan, jotka liittyvät tutkittavan kysymyksen vaikutukseen.

Kokeen satunnaisiin virheisiin liittyvä vaihtelu tuotoissa.

Johtopäätös varianssianalyysi tehdään seuraavien sääntöjen mukaisesti:

1. Kokemuksessa on merkittäviä eroja, jos tosiasiallinen ≥Fteoreettinen. Kokemuksessa ei ole merkittäviä eroja, jos Faktat

2. LSD – Least Significant Difference, käytetään määrittämään vaihtoehtojen välinen ero. Jos ero d≥ NSR, niin erot vaihtoehtojen välillä ovat merkittäviä. Jos d< НСР, то различия между вариантами не существенные.

ryhmät vaihtoehtoja.

1. Jos ero d on merkittävä ja osoittaa tuoton nousua, niin optiot kuuluvat ryhmään 1.

2. Jos ero d ei ole merkittävä, niin optiot kuuluvat ryhmään 2.

3. Jos ero d on merkittävä, mutta viittaa tuoton laskuun, niin optiot kuuluvat ryhmään 3.

Kaavan valinta varianssianalyysi riippuu menetelmistä, joilla vaihtoehtoja asetetaan kokeeseen:

1. Järjestetyille toistoille:

2. Järjestämättömille toistoille.

5.1. Mitä on varianssianalyysi?

Dispersioanalyysin kehitti 1900-luvun 20-luvulla englantilainen matemaatikko ja geneetikko Ronald Fisher. Tiedemiesten keskuudessa tehdyn kyselyn mukaan, jossa selvitettiin, kuka eniten vaikutti 1900-luvun biologiaan, Sir Fisher sai mestaruuden (palveluksestaan ​​hänelle myönnettiin ritarin arvo - yksi Ison-Britannian korkeimmista kunnianosoituksista); Tässä suhteessa Fischer on verrattavissa Charles Darwiniin, joka oli suurin vaikuttaja 1800-luvun biologiaan.

Varianssianalyysi on nyt erillinen tilaston haara. Se perustuu Fisherin löytämään tosiasiaan, että tutkitun suuren vaihtelumitta voidaan jakaa osiin, jotka vastaavat tähän suureen vaikuttavia tekijöitä ja satunnaisia ​​poikkeamia.

Ymmärtääksemme varianssianalyysin olemuksen, teemme samantyyppiset laskelmat kahdesti: "manuaalisesti" (laskimella) ja Statistica-ohjelmalla. Tehtävämme yksinkertaistamiseksi emme työskentele vihreiden sammakoiden monimuotoisuuden todellisen kuvauksen tuloksilla, vaan kuvitteellisella esimerkillä, joka koskee naaras- ja urosten vertailua ihmisissä. Harkitse 12 aikuisen pituuden vaihtelua: 7 naista ja 5 miestä.

Taulukko 5.1.1. Esimerkki yksisuuntaisesta ANOVAsta: tiedot 12 henkilön sukupuolesta ja pituudesta

Tehdään yksisuuntainen varianssianalyysi: vertaa, eroavatko luonnehditun ryhmän miehet ja naiset pituudeltaan tilastollisesti merkitsevästi vai eivät.

5.2. Testaa normaalijakauma

Lisäperustelut perustuvat siihen, että jakauma tarkasteltavassa otoksessa on normaali tai lähellä normaalia. Jos jakauma on kaukana normaalista, dispersio (varianssi) ei ole riittävä mitta sen vaihtelulle. Varianssianalyysi on kuitenkin suhteellisen kestävä jakauman poikkeamia normaalista.

Näiden tietojen normaaliustesti voidaan tehdä kahdella eri tavalla. Ensin: Tilastot / Perustilastot / Taulukot / Kuvaavat tilastot / Normaali-välilehti. Välilehdellä Normaalisuus Voit valita, mitä normaaliustestejä haluat käyttää. Kun napsautat Frequency tables -painiketta, näyttöön tulee taajuustaulukko ja Histogrammit-painike näyttää histogrammin. Taulukko ja histogrammi näyttävät erilaisten testien tulokset.

Toinen menetelmä liittyy asianmukaisten ominaisuuksien käyttöön histogrammeja rakennettaessa. Valitse histogrammien muodostamisikkunassa (Grafit / Histogrammit...) Lisäasetukset-välilehti. Alareunassa on Tilastot-lohko. Merkitään siihen Shapiro-Wilk t est ja Kolmogorov-Smirnov-testi kuvan osoittamalla tavalla.

Riisi. 5.2.1. Tilastolliset testit jakauman normalisoimiseksi histogrammin piirtämisikkunassa

Kuten histogrammista voidaan nähdä, kasvun jakauma näytteessämme poikkeaa normaalista (keskellä on "vika").


Riisi. 5.2.2. Histogrammi, joka on rakennettu edellisessä kuvassa määritellyillä parametreilla

Kaavion otsikon kolmas rivi osoittaa normaalijakauman parametrit, joita havaittu jakauma osoittautui lähimmäksi. Kokonaiskeskiarvo on 173 ja kokonaiskeskihajonta 10,4. Alla olevassa kaaviossa näkyvät normaalyystestien tulokset. D on Kolmogorov-Smirnov-testi ja SW-W on Shapiro-Wilk-testi. Kuten voidaan nähdä, kaikissa käytetyissä testeissä erot korkeusjakauman ja normaalijakauman välillä osoittautuivat tilastollisesti merkityksettömiksi ( s kaikissa tapauksissa suurempi kuin 0,05).

Joten muodollisesti tarkasteltuna normaalijakauman testit eivät "estäneet" käyttämästä parametrista menetelmää, joka perustuu normaalijakauman oletukseen. Kuten jo mainittiin, varianssianalyysi on suhteellisen kestävä poikkeamille normaalista, joten käytämme sitä edelleen.

5.3. Yksisuuntainen varianssianalyysi: manuaaliset laskelmat

Ihmisten pituuden vaihtelun kuvaamiseksi annetussa esimerkissä lasketaan neliöityjen poikkeamien summa (englanniksi SS , Neliöiden summa tai ) yksittäiset arvot keskiarvosta: . Keskimääräinen pituuden arvo yllä olevassa esimerkissä on 173 senttimetriä. Tämän perusteella,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Tuloksena oleva arvo (1192) on koko tietojoukon vaihtelun mitta. Ne koostuvat kuitenkin kahdesta ryhmästä, joista jokaisella voi olla oma keskiarvonsa. Annetuissa tiedoissa naisten keskipituus on 168 cm ja miesten 180 cm.

Lasketaan naisten poikkeamien neliösumma:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Laskemme myös miesten poikkeamien neliösumman:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

Mistä tutkittava arvo riippuu varianssianalyysin logiikan mukaisesti?

Kaksi laskettua arvoa, SS f Ja SS m , kuvaavat ryhmän sisäistä vaihtelua, jota varianssianalyysissä yleensä kutsutaan "virheeksi". Tämän nimen alkuperä liittyy seuraavaan logiikkaan.

Mikä määrittää henkilön pituuden tässä esimerkissä? Ensinnäkin ihmisten keskipituus yleensä sukupuolesta riippumatta. Toiseksi - lattiasta. Jos toisen sukupuolen (mies) ihmiset ovat pidempiä kuin toinen (nainen), tämä voidaan esittää lisäyksenä jonkin arvon "universaaliseen" keskiarvoon, sukupuolivaikutukseen. Lopuksi samaa sukupuolta olevien ihmisten pituus vaihtelee yksilöllisten erojen vuoksi. Mallissa, jossa pituus kuvataan ihmisen keskiarvon ja sukupuolen mukautuksen summana, yksilölliset erot ovat selittämättömiä ja niitä voidaan pitää "virheenä".

Joten varianssianalyysin logiikan mukaisesti tutkittava arvo määritetään seuraavasti: , Missä x ij - tutkitun suuren i. arvo tutkitun tekijän j:nnen arvon kohdalla; - yleinen keskiarvo; Fj - tutkittavan tekijän j:nnen arvon vaikutus; - "virhe", sen kohteen yksilöllisyyden vaikutus, johon arvo viittaax ij .

Ryhmien välinen neliösumma

Niin, SS virheitä = SS f + SS m = 212 + 560 = 772. Tällä arvolla kuvasimme ryhmän sisäistä vaihtelua (kun erotetaan ryhmiä sukupuolen mukaan). Mutta vaihtelussa on toinen osa - ryhmien välinen vaihtelu, jota kutsummeSS vaikutus (koska puhumme vaikutuksesta, joka jakaa tarkasteltavana olevien esineiden kokonaisuuden naisiin ja miehiin).

Kunkin ryhmän keskiarvo eroaa kokonaiskeskiarvosta. Kun lasketaan tämän eron osuutta vaihteluvälin kokonaismittaan, meidän on kerrottava ero ryhmän ja kokonaiskeskiarvon välillä kunkin ryhmän objektien lukumäärällä.

SS vaikutus = = 7 × (168–173) 2 + 5 × (180–173) 2 = 7 × 52 + 5 × 72 = 7 × 25 + 5 × 49 = 175 + 245 = 420.

Tässä ilmeni Fischerin löytämä neliösumman vakion periaate: SS = vaikutus SS + virhe SS , eli tässä esimerkissä 1192 = 440 + 722.

Keskimääräiset neliöt

Vertaamalla esimerkissämme ryhmien välisiä ja ryhmien sisäisiä neliöiden summia, voimme nähdä, että ensimmäinen liittyy kahden ryhmän vaihteluun ja toinen liittyy 12 arvoon 2 ryhmässä. Vapausasteiden lukumäärä ( df ) jollekin parametrille voidaan määritellä erona ryhmän objektien lukumäärän ja näitä suureita yhdistävien riippuvuuksien (yhtälöiden) välillä.

Meidän esimerkissämme df vaikutus = 2–1 = 1, A df-virheet = 12–2 = 10.

Voimme jakaa neliöiden summat niiden vapausasteiden lukumäärällä, jolloin saadaan keskineliöt ( NEITI , Neliön välineet). Kun tämä on tehty, voimme vahvistaa sen NEITI - ei muuta kuin variaatioita ("varianssit", tulos neliösumman jakamisesta vapausasteiden lukumäärällä). Tämän löydön jälkeen voimme ymmärtää ANOVA-taulukon rakenteen. Meidän esimerkissämme se näyttää tältä:

Vaikutus

Virhe

MS-vaikutus Ja MS-virheet ovat arvioita ryhmien välisestä ja ryhmän sisäisestä varianssista, ja siksi niitä voidaan verrata kriteerin mukaanF (Snedecorin kriteeri, nimetty Fischerin mukaan), suunniteltu muunnelmien vertailuun. Tämä kriteeri on yksinkertaisesti jakamalla suurempi vaihtelu pienemmällä. Meidän tapauksessamme se on 420 / 77,2 = 5,440.

Fisherin testin tilastollisen merkitsevyyden määrittäminen taulukoiden avulla

Jos määrittäisimme vaikutuksen tilastollisen merkitsevyyden manuaalisesti taulukoiden avulla, meidän on verrattava tuloksena olevaa kriteerin arvoa F kriittisen arvon kanssa, joka vastaa tiettyä tilastollista merkitsevyystasoa tietyille vapausasteille.


Riisi. 5.3.1. Fragmentti taulukosta kriittisten kriteerien arvoilla F

Kuten näette, tilastollisen merkitsevyyden tasolle p=0,05 kriteerin kriittinen arvo onF on 4,96. Tämä tarkoittaa, että esimerkissämme tutkitun sukupuolen vaikutus kirjattiin tilastollisella merkitsevyystasolla 0,05.

Saatu tulos voidaan tulkita seuraavasti. Nollahypoteesin todennäköisyys, jonka mukaan naisten ja miesten keskipituus on sama ja mitattu pituusero johtuu satunnaisuudesta näytteiden valinnassa, on alle 5 %. Tämä tarkoittaa, että meidän on valittava vaihtoehtoinen hypoteesi, jonka mukaan naisten ja miesten keskipituus on erilainen.

5.4 Yksisuuntainen varianssianalyysi ( ANOVA) Statistica-paketissa

Tapauksissa, joissa laskelmia ei tehdä käsin, vaan sopivilla ohjelmilla (esim. Statistica-paketti), arvo s määritetään automaattisesti. Voit varmistaa, että se on hieman suurempi kuin kriittinen arvo.

Jos haluat analysoida käsiteltävän esimerkin varianssianalyysin yksinkertaisimmalla versiolla, sinun on suoritettava Tilastot / ANOVA-menettely tiedostolle, joka sisältää vastaavat tiedot, ja valittava Yksisuuntainen ANOVA-vaihtoehto Analyysin tyyppi -ikkunassa ja Pikatiedot-valintaikkunassa. vaihtoehto Specification method -ikkunassa .


Riisi. 5.4.1. Dialog General ANOVA/MANOVA (varianssianalyysi)

Avautuvassa pikavalintaikkunassa Muuttujat-kenttään tulee määrittää ne sarakkeet, jotka sisältävät tiedot, joiden vaihtelua tutkimme (riippuvaisten muuttujien luettelo; tässä tapauksessa Kasvu-sarake) sekä sarake, joka sisältää arvoja ​jotka jakavat tutkittavan arvon ryhmiin (kategorinen ennustaja (tekijä); meidän tapauksessamme Sukupuoli-sarake). Tässä analyysiversiossa, toisin kuin monimuuttujaanalyysissä, voidaan ottaa huomioon vain yksi tekijä.


Riisi. 5.4.2. Dialogue One-Way ANOVA (yksisuuntainen varianssianalyysi)

Tekijäkoodit-ikkunassa sinun tulee ilmoittaa ne kyseisen tekijän arvot, jotka on käsiteltävä tämän analyysin aikana. Kaikki käytettävissä olevat arvot voidaan tarkastella zoomauspainikkeella; Jos, kuten esimerkissämme, sinun on otettava huomioon kaikki tekijän arvot (ja sukupuolen kohdalla esimerkissämme on vain kaksi), voit napsauttaa Kaikki-painiketta. Kun käsitellyt sarakkeet ja tekijäkoodit on määritetty, voit napsauttaa OK ja siirtyä pikatulosten analyysiikkunaan: ANOVA Results 1, Quick-välilehteen.

Riisi. 5.4.3. ANOVA-tulosikkunan pikavälilehti

Kaikki tehosteet/kaaviot -painikkeella voit nähdä kahden ryhmän keskiarvojen vertailun. Kaavion yläpuolella näkyy vapausasteiden lukumäärä sekä kyseisen tekijän F- ja p-arvot.


Riisi. 5.4.4. ANOVA-tulosten graafinen näyttö

Kaikki vaikutukset -painikkeella voit saada yllä kuvatun kaltaisen varianssianalyysin (joillakin merkittävillä eroilla).


Riisi. 5.4.5. Taulukko varianssianalyysin tuloksista (vertaa vastaavaan "manuaalisesti" saatuun taulukkoon)

Taulukon alimmalla rivillä näkyy neliöiden summa, vapausasteiden lukumäärä ja virheen keskineliöt (ryhmän sisäinen vaihtelu). Yllä olevalla rivillä on samanlaisia ​​​​indikaattoreita tutkittavalle tekijälle (tässä tapauksessa merkki Sex) sekä kriteeri F (vaikutuksen keskineliöiden suhde virheen keskineliöön) ja sen tilastollisen merkitsevyyden taso. Sen, että tarkasteltavan tekijän vaikutus osoittautui tilastollisesti merkitseväksi, osoittaa punainen väri.

Ja ensimmäisellä rivillä näkyy tiedot "Siirräys"-ilmaisimesta. Tämä Taulukon rivi esittää mysteerin käyttäjille, jotka liittyvät Statisticaan kuudennessa tai uudemmassa versiossa. Leikkausarvo liittyy todennäköisesti kaikkien data-arvojen neliösumman hajotukseen (eli 1862 + 1692 ... = 360340). Sille ilmoitettu F-kriteerin arvo saatiin jakamalla MS Intercept/MS Error = 353220 / 77,2 = 4575,389 ja antaa luonnollisesti erittäin alhaisen arvon s . On mielenkiintoista, että Statistica-5:ssä tätä arvoa ei laskettu ollenkaan, ja paketin myöhempien versioiden käyttöoppaat eivät kommentoi sen käyttöönottoa millään tavalla. Todennäköisesti parasta, mitä Statistica-6:ta tai uudempaa käyttävä biologi voi tehdä, on yksinkertaisesti jättää huomioimatta ANOVA-taulukon Intercept-rivi.

5.5. ANOVA ja Studentin ja Fisherin t-testit: kumpi on parempi?

Kuten olet ehkä huomannut, yksisuuntaisen varianssianalyysin avulla vertaamiamme tietoja voisimme tarkastella myös Studentin ja Fisherin testeillä. Verrataan näitä kahta menetelmää. Tätä varten lasketaan miesten ja naisten pituusero näiden kriteerien avulla. Tätä varten meidän on seurattava polkua Tilastot / Perustilastot / t-testi, riippumaton, ryhmittäin. Luonnollisesti Dependent-muuttujat ovat kasvumuuttuja ja Ryhmittely-muuttuja on sukupuolimuuttuja.


Riisi. 5.5.1. ANOVA:lla käsiteltyjen tietojen vertailu Studentin ja Fisherin testeillä

Kuten näet, tulos on sama kuin käytettäessä ANOVAa. s = 0,041874 molemmissa tapauksissa, kuten kuvasta näkyy. 5.4.5 ja näkyy kuvassa. 5.5.2 (katso itse!).


Riisi. 5.5.2. Analyysin tulokset (tulostaulukon yksityiskohtainen selitys - Opiskelijan kokeelle omistetussa kappaleessa)

On tärkeää korostaa, että vaikka F-kriteeri on matemaattisesti tarkasteltavana olevassa analyysissä Studentin ja Fisherin testien mukaan sama kuin ANOVAssa (ja ilmaisee varianssisuhdetta), sen merkitys on esitetty analyysituloksissa. finaalipöytä on täysin erilainen. Vertailussa Studentin ja Fisherin testeillä näytekeskiarvojen vertailu suoritetaan Studentin testillä ja niiden vaihteluiden vertailu Fisherin testillä. Analyysin tuloksissa ei näy itse varianssia, vaan sen neliöjuurta eli keskihajontaa.

Toisaalta ANOVAssa Fisherin testiä käytetään vertaamaan eri näytteiden keskiarvoja (kuten keskustelimme, tämä tehdään jakamalla neliöiden summa osiin ja vertaamalla ryhmän välistä ja sisäistä neliösummaa vaihtelu).

Yllä oleva ero koskee kuitenkin pikemminkin tilastollisen tutkimuksen tulosten esittämistä kuin sen olemusta. Kuten Glantz (1999, s. 99) huomauttaa, esimerkiksi ryhmien vertailua Studentin t-testillä voidaan pitää kahden näytteen varianssianalyysin erikoistapauksena.

Joten näytteiden vertailulla Studentin ja Fisherin testeillä on yksi tärkeä etu varianssianalyysiin verrattuna: sen avulla voit verrata näytteitä niiden vaihtelun suhteen. Mutta varianssianalyysin edut ovat vieläkin merkittävämpiä. Näitä ovat esimerkiksi mahdollisuus verrata useita näytteitä samanaikaisesti.

Tarkasteltu varianssianalyysikaavio on eriytetty riippuen: a) sen ominaisuuden luonteesta, jolla populaatio jaetaan ryhmiin (otoksiin), b) niiden ominaisuuksien lukumäärästä, joilla populaatio jaetaan ryhmiin (otoksiin); c) näytteenottomenetelmästä.

Ominaisuuden arvot. joka jakaa väestön ryhmiin, voi edustaa yleisväestöä tai kooltaan sitä lähellä olevaa populaatiota. Tässä tapauksessa varianssianalyysin suorittamiskaavio vastaa edellä käsiteltyä. Jos eri ryhmiä muodostavan ominaisuuden arvot edustavat otosta yleisestä populaatiosta, nolla- ja vaihtoehtoisten hypoteesien muotoilu muuttuu. Nollahypoteesi on, että ryhmien välillä on eroja, eli ryhmän keskiarvot osoittavat jonkin verran vaihtelua. Vaihtoehtoinen hypoteesi on, että vaihtelua ei ole. On selvää, että tällaisella hypoteesien muotoilulla ei ole mitään syytä tarkentaa varianssien vertailun tuloksia.

Kun ryhmittelyominaisuuksien lukumäärä kasvaa esimerkiksi 2:een, nolla- ja vastaavasti vaihtoehtoisten hypoteesien määrä kasvaa. Tässä tapauksessa ensimmäinen nollahypoteesi puhuu erojen puuttumisesta ensimmäisen ryhmittelyominaisuuden ryhmien keskiarvojen välillä, toinen nollahypoteesi puhuu erojen puuttumisesta toisen ryhmittelyominaisuuden ryhmien keskiarvoissa ja lopuksi kolmas nollahypoteesi puhuu tekijöiden vuorovaikutuksen niin kutsutun vaikutuksen (ryhmittelyominaisuuksien) puuttumisesta.

Vuorovaikutusvaikutus ymmärretään sellaisen tuloksena olevan ominaisuuden arvon muutoksena, jota ei voida selittää kahden tekijän kokonaisvaikutuksella. Kolmen esitetyn hypoteesiparin testaamiseksi on tarpeen laskea Fisher F -testin kolme todellista arvoa, joka puolestaan ​​​​olettaa seuraavan version variaatioiden kokonaistilavuuden hajottelusta

F-kriteerin saamiseen tarvittavat varianssit saadaan tunnetulla tavalla jakamalla variaatioiden määrät vapausasteiden lukumäärällä.

Kuten tiedät, näytteet voivat olla riippuvaisia ​​ja riippumattomia. Jos näytteet ovat riippuvaisia, niin vaihtelun kokonaismäärässä tulee erottaa ns. toiston vaihtelu
. Jos sitä ei ole eristetty, tämä vaihtelu voi merkittävästi lisätä ryhmän sisäistä vaihtelua (
), mikä voi vääristää varianssianalyysin tuloksia.

Tarkasta kysymykset

17-1. Mikä on varianssianalyysin tulosten erittely?

17-2. Missä tapauksessa Tukeyn Q-testiä käytetään määrittelyyn?

17-3. Mitä eroja on ensimmäisen, toisen ja niin edelleen tilausten välillä?

17-4. Kuinka löytää Tukeyn Q-testin todellinen arvo?

17-5. Mitä hypoteeseja esitetään kustakin erosta?

17-6. Mistä Tukeyn Q-testin taulukkoarvo riippuu?

17-7. Mikä olisi nollahypoteesi, jos ryhmittelyominaisuuden tasot edustavat näytettä?

17-8 Miten vaihtelun kokonaisvolyymi lasketaan, kun tietoja ryhmitellään kahden ominaisuuden mukaan?

17-9. Missä tapauksessa toiston aiheuttama vaihtelu tunnistetaan (
) ?

Yhteenveto

Tarkasteltu mekanismi varianssianalyysin tulosten konkretisoimiseksi antaa meille mahdollisuuden antaa sille viimeistelty muoto. Huomaa Tukeyn Q-testin käytön rajoitukset. Aineisto hahmotteli myös varianssianalyysimallien luokittelun perusperiaatteet. On korostettava, että nämä ovat vain periaatteita. Kunkin mallin ominaisuuksien yksityiskohtainen tutkiminen vaatii erillisen, syvällisen tutkimuksen.

Luennon koetehtävät

Mitä tilastollisia ominaisuuksia oletetaan ANOVAssa?

    Kahden varianssin suhteen

    Suhteessa yhteen keskiarvoon

    Suhteessa useisiin keskiarvoihin

    Suhteessa yhteen varianssiin

Mikä on vaihtoehtoisen hypoteesin sisältö varianssianalyysissä?

    Vertaillut varianssit eivät ole keskenään samanarvoisia

    Kaikki verratut keskiarvot eivät ole keskenään samanarvoisia

    Ainakin kaksi yleistä keinoa eivät ole keskenään samanarvoisia

    Ryhmien välinen varianssi on suurempi kuin ryhmän sisäinen varianssi

Mitä merkitsevyystasoja käytetään yleisimmin varianssianalyysissä?

Jos ryhmän sisäinen vaihtelu on suurempi kuin ryhmien välinen vaihtelu, pitäisikö meidän jatkaa varianssianalyysiä vai hyväksyä heti H0 tai NA?

1. Pitäisikö meidän jatkaa määrittämällä tarvittavat varianssit?

2. Meidän pitäisi olla samaa mieltä H0:n kanssa

3. Sinun tulee olla samaa mieltä NA:n kanssa

Jos ryhmän sisäinen varianssi osoittautuu yhtä suureksi kuin ryhmien välinen varianssi, mihin toimiin varianssianalyysin suorittajan tulisi ryhtyä?

    Hyväksy nollahypoteesi, jonka mukaan yleiset keskiarvot ovat yhtä suuret

    Yhdyn vaihtoehtoiseen hypoteesiin, että on olemassa ainakin pari keinoja, jotka ovat eriarvoisia keskenään

Mikä varianssi pitäisi aina olla osoittajassa Fisherin F-testiä laskettaessa?

    Vain ryhmän sisällä

    Joka tapauksessa ryhmien välinen

    Ryhmänvälinen, jos se on suurempi kuin ryhmän sisäinen

Mikä Fisherin F-testin todellinen arvo pitäisi olla?

    Aina alle 1

    Aina enemmän kuin 1

    Sama tai suurempi kuin 1

Mistä Fisherin F-testin taulukkoarvo riippuu?

1. Hyväksytyltä merkitsevyystasolta

2. Kokonaisvaihtelun vapausasteiden lukumäärästä

3. Ryhmien välisen vaihtelun vapausasteiden lukumäärästä

4. Ryhmän sisäisen vaihtelun vapausasteiden lukumäärästä

5. Fisherin F-testin todellisesta arvosta?

Lisäämällä havaintojen määrää jokaisessa ryhmässä yhtä suurella varianssilla lisää todennäköisyyttä hyväksyä......

1. Nollahypoteesi

2. Vaihtoehtoinen hypoteesi

3.Ei vaikuta sekä nolla- että vaihtoehtoisten hypoteesien hyväksymiseen

Mitä järkeä on tarkentaa varianssianalyysin tuloksia?

    Tarkista, onko varianssilaskelmat suoritettu oikein

    Määritä, mitkä yleisistä keskiarvoista osoittautuivat keskenään yhtäläisiksi

    Määritä, mitkä yleisistä keskiarvoista eivät ole keskenään samanarvoisia

Pitääkö paikkansa väite: "Varianssianalyysin tuloksia tarkennettaessa kaikki yleiset keskiarvot osoittautuivat toistensa vastaaviksi?"

    Voi olla totta tai tarua

    Tämä ei pidä paikkaansa, tämä voi johtua laskuvirheistä

Voidaanko varianssianalyysiä määriteltäessä päätyä siihen johtopäätökseen, että kaikki yleiset keskiarvot eivät ole keskenään samanarvoisia?

1. Täysin mahdollista

2. Mahdollista poikkeustapauksissa

3. Periaatteessa mahdotonta.

4. Mahdollista vain, jos laskelmissa on virheitä

Jos nollahypoteesi hyväksyttiin Fisherin F-testin mukaan, tarvitaanko varianssianalyysiä?

1. Pakollinen

2.Ei vaadita

3. Varianssianalyysin suorittajan harkinnan mukaan

Missä tapauksessa Tukeyn testiä käytetään varianssianalyysin tulosten määrittämiseen?

1. Jos havaintojen määrä ryhmissä (otoksissa) on sama

2. Jos havaintojen määrä ryhmissä (otoksissa) on erilainen

3. Jos näytteitä on sekä yhtä suuria että erisuuruisia,

laiskuus

Mitä NSR edustaa, kun määritellään Tukey-kriteeriin perustuvan varianssianalyysin tuloksia?

1. Keskimääräisen virheen ja kriteerin todellisen arvon tulo

2. Keskimääräisen virheen tulo kriteerin taulukkoarvolla

3. Kunkin näytteen keskiarvon välisen eron suhde

keskimääräinen virhe

4. Ero näytekeskiarvojen välillä

Jos otosjoukko jaetaan ryhmiin 2 ominaisuuden mukaan, kuinka moneen lähteeseen ainakin ominaisuuden kokonaisvariaatio tulisi jakaa?

Jos havainnot näytteistä (ryhmistä) ovat riippuvaisia, kuinka moneen lähteeseen kokonaisvaihtelu tulisi jakaa (yksi ryhmittelyominaisuus)?

Mikä on ryhmien välisen vaihtelun lähde (syy)?

    Onnenpeli

    Onnenpelin ja tekijän yhteisvaikutus

    Tekijän (tekijöiden) vaikutus

    Se selviää ANOVA:n jälkeen

Mikä on ryhmän sisäisen vaihtelun lähde (syy)?

1. Onnenpeli

2. Onnenpelin ja tekijän yhdistetty toiminta

3. Tekijän (tekijöiden) toiminta

4. Se selviää varianssianalyysin suorittamisen jälkeen

Mitä menetelmää lähdetietojen muuntamiseen käytetään, jos tunnusarvot ilmaistaan ​​osuuksina?

    Logaritmi

    Juuren louhinta

    Phi muunnos

Luento 8 Korrelaatio

huomautus

Tärkein menetelmä ominaisuuksien välisen suhteen tutkimiseksi on korrelaatiomenetelmä. Tämä luento paljastaa tämän menetelmän sisällön, lähestymistapoja tämän yhteyden analyyttiseen ilmaisuun. Erityistä huomiota kiinnitetään sellaisiin erityisindikaattoreihin, kuten viestinnän läheisyyden indikaattoreihin

Avainsanat

Korrelaatio. Pienimmän neliön menetelmä. Regressiokerroin. Determinaatio- ja korrelaatiokertoimet.

Käsitellyt ongelmat

    Toiminnallinen ja korrelaatioyhteys

    Korrelaatiokommunikaatioyhtälön rakentamisen vaiheet. Yhtälökertoimien tulkinta

    Yhteyden läheisyyden indikaattorit

    Valittujen yhteysilmaisimien arviointi

Modulaarinen yksikkö 1 Korrelaation ydin. Korrelaatiokommunikaatioyhtälön rakentamisen vaiheet, yhtälökertoimien tulkinta.

Moduuliyksikön 1 opiskelun tarkoitus ja tavoitteet koostuu korrelaatiosuhteen piirteiden ymmärtämisestä. kommunikaatioyhtälön muodostamisalgoritmin hallitseminen, yhtälön kertoimien sisällön ymmärtäminen.

      Korrelaation ydin

Luonnon- ja sosiaalisissa ilmiöissä on kahdenlaisia ​​yhteyksiä - toiminnallisia yhteyksiä ja korrelaatioyhteyksiä. Toiminnallisessa yhteydessä jokainen argumenttiarvo vastaa tiukasti määriteltyä (yksi tai useampia) funktioarvoja. Esimerkki toiminnallisesta suhteesta on kehän ja säteen välinen suhde, joka ilmaistaan ​​yhtälöllä
. Jokainen säteen arvo r vastaa yhtä kehän arvoa L . Korrelaatiosuhteessa jokainen tekijäominaisuuden arvo vastaa useita ei täysin määriteltyjä tuloksena olevan ominaisuuden arvoja. Esimerkkejä korrelaatiosuhteesta ovat henkilön painon (resultatiivisen ominaisuuden) ja pituuden (factorial ominaisuus) välinen suhde, levitetyn lannoitemäärän ja tuottavuuden välinen suhde sekä tarjottujen tavaroiden hinnan ja määrän välinen suhde. Korrelaation syntymisen lähde on se, että pääsääntöisesti tosielämässä vaikuttavan attribuutin arvo riippuu monista tekijöistä, mukaan lukien satunnaisesti muuttuvista tekijöistä. Esimerkiksi ihmisen sama paino riippuu iästä, sukupuolesta, ravinnosta, ammatista ja monista muista tekijöistä. Mutta samalla on selvää, että yleisesti ottaen kasvu on ratkaiseva tekijä. Nämä olosuhteet huomioon ottaen korrelaatiolinkki on määriteltävä epätäydelliseksi yhteydeksi, joka voidaan määrittää ja arvioida vain, jos havaintoja on keskimäärin paljon.

1.2 Korrelaatiokommunikaatioyhtälön rakentamisen vaiheet.

Kuten toiminnallinen yhteys, korrelaatioyhteys ilmaistaan ​​yhteysyhtälöllä. Sen rakentamiseksi sinun on suoritettava seuraavat vaiheet (vaiheet) peräkkäin.

Ensinnäkin sinun tulee ymmärtää syy-seuraus-suhteet, selvittää merkkien alisteisuus eli mitkä niistä ovat syitä (tekijämerkit) ja mitkä seuraus (resultatiiviset merkit). Ominaisuuksien väliset syy-seuraussuhteet määritellään sen kohteen teorialla, jossa korrelaatiomenetelmää käytetään. Esimerkiksi "ihmisen anatomian" tiede antaa meille mahdollisuuden sanoa, mikä on painon ja pituuden välisen suhteen lähde, mikä näistä merkeistä on tekijä, mikä on seurausta, "taloustiede" paljastaa sen logiikan. hinnan ja tarjonnan välinen suhde määrittää, mikä ja missä vaiheessa on syy ja mikä on seuraus. Ilman tällaista alustavaa teoreettista perustetta lisätulosten tulkinta on vaikeaa ja voi joskus johtaa absurdeihin johtopäätöksiin.

Kun syy-seuraus-suhteiden olemassaolo on todettu, nämä suhteet tulee sitten formalisoida, eli ilmaista kommunikaatioyhtälön avulla, ja ensin on valittava yhtälön tyyppi. Yhtälön tyypin valitsemiseksi voidaan suositella useita tekniikoita. Voit kääntyä sen kohteen teoriaan, jossa korrelaatiomenetelmää käytetään, sanotaan, että "maatalouskemian" tiede on saattanut jo saada vastauksen kysymykseen, millä yhtälöllä suhdetta pitäisi käyttää: sato - lannoitteet. Jos tällaista vastausta ei ole, yhtälön valitsemiseksi sinun tulee käyttää empiirisiä tietoja ja käsitellä niitä vastaavasti. On heti sanottava, että kun yhtälötyyppi on valittu empiiristen tietojen perusteella, on ymmärrettävä selvästi, että tämän tyyppistä yhtälöä voidaan käyttää kuvaamaan käytettyjen tietojen suhdetta. Pääasiallinen menetelmä näiden tietojen käsittelyssä on graafien rakentaminen, jossa kerroinominaisuuden arvot piirretään abskissa-akselille ja tuloksena olevan ominaisuuden mahdolliset arvot piirretään ordinaatta-akselille. Koska määritelmän mukaan sama tekijäattribuutin arvo vastaa monia tuloksena olevan attribuutin epävarmoja arvoja, yllä olevien toimien tuloksena saamme tietyn pistejoukon, jota kutsutaan korrelaatiokentällä. Korrelaatiokentän yleisilme mahdollistaa useissa tapauksissa oletuksen tekemisen yhtälön mahdollisesta muodosta.Tietokonetekniikan nykyaikaisen kehityksen myötä yksi tärkeimmistä menetelmistä yhtälön valinnassa on erityyppisten yhtälöiden luetteleminen. ja paras valitaan se, joka tarjoaa korkeimman determinaatiokertoimen, puhe, jota käsitellään jäljempänä. Ennen kuin siirrytään laskelmiin, on tarpeen tarkistaa, kuinka paljon yhtälön muodostamiseen käytetty empiirinen data täyttää tietyt vaatimukset. Vaatimukset koskevat tekijän ominaisuuksia ja tietojen kokonaisuutta. Tekijäominaisuuksien, jos niitä on useita, on oltava toisistaan ​​riippumattomia. Mitä tulee kokonaisuuteen, sen on ensin oltava homogeeninen

(homogeenisuuden käsitettä käsiteltiin aiemmin), ja toiseksi se on melko suuri. Jokaisella tekijäominaisuudella on oltava vähintään 8-10 havaintoa.

Kun yhtälö on valittu, seuraava vaihe on laskea yhtälön kertoimet. Yhtälökertoimien laskenta suoritetaan useimmiten pienimmän neliösumman menetelmällä. Korrelaation näkökulmasta pienimmän neliösumman menetelmän käyttäminen koostuu yhtälön kertoimien hankkimisesta siten, että
=min eli siten, että tuloksena olevan ominaisuuden todellisten arvojen neliöityjen poikkeamien summa ( ) yhtälöllä lasketuista ( ) oli vähimmäisarvo. Tämä vaatimus toteutetaan rakentamalla ja ratkaisemalla hyvin tunnettu ns. normaaliyhtälöjärjestelmä. Jos yhtälönä väliselle korrelaatiolle y Ja x valitaan suoran yhtälö
, jossa normaaliyhtälöjärjestelmä, kuten tiedetään, on seuraava:

Tämän järjestelmän ratkaiseminen a Ja b , saamme tarvittavat kertoimien arvot. Kertoimien laskennan oikeellisuus tarkistetaan tasa-arvolla

Mihin varianssianalyysiä käytetään? Varianssianalyysin tarkoituksena on tutkia minkä tahansa laadullisen tai kvantitatiivisen tekijän merkittävän vaikutuksen olemassaoloa tai puuttumista tutkittavan tuloksena olevan ominaisuuden muutoksiin. Tätä varten tekijä, jolla uskotaan vaikuttavan tai jolla ei ole merkittävää vaikutusta, jaetaan asteikkoluokkiin (eli ryhmiin) ja selvitetään, onko tekijän vaikutus sama, tarkastelemalla välineiden välistä merkitystä. tekijän asteikkoja vastaavissa tietosarjoissa. Esimerkkejä: tutkitaan yrityksen voiton riippuvuutta käytetyn raaka-aineen tyypistä (silloin gradaatioluokat ovat raaka-ainetyyppejä), tuotantoyksikkökohtaisen tuotantokustannusten riippuvuutta yrityksen divisioonan koosta (siis asteikkoluokat ovat divisioonan koon ominaisuuksia: iso, keskikokoinen, pieni).

Jatkoluokkien (ryhmien) vähimmäismäärä on kaksi. Valmistumiskurssit voivat olla laadullisia tai määrällisiä.

Miksi varianssianalyysiä kutsutaan varianssianalyysiksi? Varianssianalyysi tutkii kahden varianssin välistä suhdetta. Dispersio, kuten tiedämme, on ominaisuus tietojen hajoamiselle keskiarvon ympärillä. Ensimmäinen on tekijän vaikutuksella selitetty hajonta, joka luonnehtii arvojen hajoamista tekijän (ryhmien) asteikkojen välillä kaikkien tietojen keskiarvon ympärillä. Toinen on selittämätön varianssi, joka luonnehtii tietojen hajoamista asteittain (ryhmissä) ryhmien itsensä keskiarvojen ympärillä. Ensimmäistä varianssia voidaan kutsua ryhmien väliseksi ja toista ryhmien sisäiseksi. Näiden varianssien suhdetta kutsutaan todelliseksi Fisher-suhteeksi ja sitä verrataan Fisher-suhteen kriittiseen arvoon. Jos todellinen Fisher-suhde on suurempi kuin kriittinen, niin gradaatioluokkien keskiarvot eroavat toisistaan ​​ja tutkittava tekijä vaikuttaa merkittävästi aineiston muutokseen. Jos se on pienempi, keskimääräiset asteikkoluokat eivät eroa toisistaan ​​eikä tekijällä ole merkittävää vaikutusta.

Miten hypoteesit muotoillaan, hyväksytään ja hylätään ANOVAssa? Varianssianalyysissä määritetään yhden tai useamman tekijän kokonaisvaikutuksen ominaispaino. Tekijän vaikutuksen merkitys määritetään testaamalla hypoteeseja:

  • H0 : μ 1 = μ 2 = ... = μ a, Missä a- asteikkoluokkien lukumäärä - kaikilla asteikkoluokilla on sama keskiarvo,
  • H1 : Ei kaikki μ i yhtä suuri - kaikilla asteikkoluokilla ei ole samaa keskiarvoa.

Jos tekijän vaikutus ei ole merkittävä, niin myös tämän tekijän gradaatioluokkien välinen ero on merkityksetön ja varianssianalyysin aikana nollahypoteesi H0 ei ole hylätty. Jos tekijän vaikutus on merkittävä, niin nollahypoteesi H0 hylätty: kaikilla asteikkoluokilla ei ole samaa keskiarvoa, eli mahdollisista asteikkoluokkien välisistä eroista yksi tai useampi on merkitsevä.

Muutamia muita varianssianalyysin käsitteitä. Tilastollinen kompleksi varianssianalyysissä on empiiristen tietojen taulukko. Jos kaikilla asteikkoluokilla on sama määrä vaihtoehtoja, niin tilastollista kompleksia kutsutaan homogeeniseksi (homogeeniseksi), jos vaihtoehtojen lukumäärä on erilainen - heterogeeniseksi (heterogeeniseksi).

Arvioitavien tekijöiden lukumäärästä riippuen erotetaan yksi-, kaksi- ja monitekijävarianssianalyysi.

Yksitekijävarianssianalyysi: menetelmän ydin, kaavat, esimerkit

Menetelmän ydin, kaava

perustuu siihen, että tilastollisen kompleksin neliöpoikkeamien summa voidaan jakaa komponentteihin:

SS = SS a+ SS e,

SS

SSa a neliöityjen poikkeamien summa,

SSe- selittämätön neliöpoikkeamien summa tai neliöityjen virhepoikkeamien summa.

Jos läpi ni ilmoittaa vaihtoehtojen lukumäärä kussakin asteikkoluokassa (ryhmässä) ja a on tekijän (ryhmien) asteiden kokonaismäärä, sitten on havaintojen kokonaismäärä ja voidaan saada seuraavat kaavat:

neliöityjen poikkeamien kokonaismäärä: ,

selittyy tekijän vaikutuksella a neliöityjen poikkeamien summa: ,

selittämätön neliöpoikkeamien summa tai neliöityjen virhepoikkeamien summa: ,

- havaintojen yleinen keskiarvo,

(ryhmä).

Sitä paitsi,

missä on tekijän (ryhmän) asteikon varianssi.

Jotta voit tehdä yksisuuntaisen tilastollisen kompleksin tietojen varianssianalyysin, sinun on löydettävä todellinen Fisher-suhde - tekijän vaikutuksella selitetyn varianssin (ryhmien välinen) ja selittämättömän varianssin (ryhmän sisäinen) suhde:

ja vertaa sitä Fisherin kriittiseen arvoon.

Varianssit lasketaan seuraavasti:

selitetty varianssi,

Selittämätön varianssi

va = a − 1 - selitetyn varianssin vapausasteiden lukumäärä,

ve = na - selittämättömän varianssin vapausasteiden lukumäärä,

v = n

Fisher-suhteen kriittinen arvo tietyillä merkitsevyystason ja vapausasteiden arvoilla löytyy tilastotaulukoista tai laskettuna MS Excelin F.OBR-funktiolla (alla oleva kuva suurentaaksesi sitä napsauttamalla sitä painikkeella hiiren vasen painike).


Toiminto edellyttää, että syötät seuraavat tiedot:

Todennäköisyys - merkitystaso α ,

Vapausasteet1 - selitetyn varianssin vapausasteiden lukumäärä va,

Vapausasteet2 - selittämättömän varianssin vapausasteiden lukumäärä ve.

Jos Fisher-suhteen todellinen arvo on suurempi kuin kriittinen arvo (), nollahypoteesi hylätään merkitsevyystasolla α . Tämä tarkoittaa, että tekijä vaikuttaa merkittävästi datan muutokseen ja data on tekijästä riippuvainen todennäköisyydellä P = 1 − α .

Jos Fisher-suhteen todellinen arvo on pienempi kuin kriittinen arvo (), nollahypoteesia ei voida hylätä merkitsevyystasolla α . Tämä tarkoittaa, että tekijä ei todennäköisyydellä merkittävästi vaikuta dataan P = 1 − α .

Yksisuuntainen ANOVA: Esimerkkejä

Esimerkki 1. On tarpeen selvittää, vaikuttaako käytettyjen raaka-aineiden tyyppi yrityksen tulokseen. Tekijän kuudessa asteikkoluokassa (ryhmässä) (1. tyyppi, 2. tyyppi jne.) kerätään tietoja 1000 tuoteyksikön tuotannon voitoista miljoonina ruplina 4 vuoden aikana.

Raaka-ainetyyppi2014 2015 2016 2017
17,21 7,55 7,29 7,6
27,89 8,27 7,39 8,18
37,25 7,01 7,37 7,53
47,75 7,41 7,27 7,42
57,7 8,28 8,55 8,6
67,56 8,05 8,07 7,84
Keskiverto
Dispersio
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

a= 6 ja jokaisessa luokassa (ryhmässä) ni = 4 havainnot. Havaintojen kokonaismäärä n = 24 .

Vapausasteiden lukumäärä:

va = a − 1 = 6 − 1 = 5 ,

ve = na = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

Lasketaan varianssit:

.

.

Koska todellinen Fischer-suhde on suurempi kuin kriittinen:

merkitystasolla α = 0,05 päättelemme, että yrityksen voitto vaihtelee huomattavasti tuotannossa käytetyn raaka-aineen tyypistä riippuen.

Tai mikä on sama asia, hylkäämme päähypoteesin keskiarvojen yhtäläisyydestä kaikissa tekijäasteikkoluokissa (ryhmissä).

Juuri tarkasteltavassa esimerkissä jokaisella tekijäporrasluokalla oli sama määrä vaihtoehtoja. Mutta kuten johdannossa mainittiin, vaihtoehtojen määrä voi vaihdella. Ja tämä ei millään tavalla vaikeuta varianssianalyysimenettelyä. Tämä on seuraava esimerkki.

Esimerkki 2. On selvitettävä, onko tuotantokustannuksilla tuotantoyksikköä kohti riippuvainen yritysjaon koosta. Tekijä (yksikkökoko) on jaettu kolmeen asteikkoluokkaan (ryhmään): pieni, keskikokoinen, suuri. Näitä ryhmiä vastaavat tiedot samantyyppisen tuotteen yksikön tuotantokustannuksista tietyltä ajanjaksolta kootaan yhteen.

pienikeskivertoiso
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Keskiverto58,6 54,0 51,0
Dispersio128,25 65,00 107,60

Tekijäasteikkoluokkien (ryhmät) lukumäärä a= 3, havaintojen lukumäärä luokissa (ryhmissä) n1 = 4 , n2 = 7 , n3 = 6 . Havaintojen kokonaismäärä n = 17 .

Vapausasteiden lukumäärä:

va = a − 1 = 2 ,

ve = na = 17 − 3 = 14 ,

v = n − 1 = 16 .

Lasketaan poikkeamien neliösumma:

Lasketaan varianssit:

,

.

Lasketaan todellinen Fisher-suhde:

.

Fisher-suhteen kriittinen arvo:

Koska Fisher-suhteen todellinen arvo on pienempi kuin kriittinen: , päätämme, että yritysjaon koolla ei ole merkittävää vaikutusta tuotantokustannuksiin.

Tai mikä on sama, 95% todennäköisyydellä hyväksymme pääolettaman, että saman tuotteen yksikön keskimääräiset tuotantokustannukset yrityksen pienissä, keskisuurissa ja suurissa yksiköissä eivät eroa merkittävästi.

Yksisuuntainen ANOVA MS Excelissä

Yksisuuntainen varianssianalyysi voidaan suorittaa MS Excel -proseduurilla Yksisuuntainen ANOVA. Sen avulla analysoimme tietoja käytetyn raaka-aineen tyypin ja yrityksen voiton välisestä suhteesta esimerkistä 1.

Palvelu/Data-analyysi ja valitse analyysityökalu Yksisuuntainen ANOVA.

Ikkunassa Syöttöväli ilmoittaa tietoalue (tässä tapauksessa se on $A$2:$E$7). Osoitamme, kuinka tekijä on ryhmitelty - sarakkeiden tai rivien mukaan (tässä tapauksessa riveillä). Jos ensimmäinen sarake sisältää tekijäluokkien nimet, merkitse ruutu Etiketit ensimmäisessä sarakkeessa. Ikkunassa Alpha osoittavat tärkeystason α = 0,05 .

Toinen taulukko - Varianssianalyysi - sisältää tiedot tekijän arvoista ryhmien välillä ja ryhmien sisällä sekä kokonaissummat. Tämä on neliöityjen poikkeamien (SS), vapausasteiden lukumäärän (df), dispersion (MS) summa. Kolme viimeistä saraketta sisältävät Fisher-suhteen todellisen arvon (F), p-tason (P-arvo) ja Fisher-suhteen kriittisen arvon (F crit).

NEITI F P-arvo F krit
0,58585 6,891119 0,000936 2,77285
0,085017

Koska Fisher-suhteen todellinen arvo (6,89) on suurempi kuin kriittinen (2,77), hylkäämme 95 %:n todennäköisyydellä nollahypoteesin keskimääräisen tuottavuuden yhtäläisyydestä kaikentyyppisiä raaka-aineita käytettäessä. päätellä, että käytettyjen raaka-aineiden tyyppi vaikuttaa voittoa tavoitteleviin yrityksiin.

Kaksitekijäinen varianssianalyysi ilman toistoa: menetelmän ydin, kaavat, esimerkki

Kaksitekijäisellä varianssianalyysillä tarkistetaan tuloksena olevan ominaisuuden mahdollinen riippuvuus kahdesta tekijästä - A Ja B. Sitten a- tekijäportaiden määrä A Ja b- tekijäportaiden määrä B. Tilastollisessa kompleksissa residuaalien neliösumma on jaettu kolmeen osaan:

SS = SS a+ SS b+ SS e,

- neliöityjen poikkeamien kokonaissumma,

- selittyy tekijän vaikutuksella A neliöityjen poikkeamien summa,

- selittyy tekijän vaikutuksella B neliöityjen poikkeamien summa,

- havaintojen yleinen keskiarvo,

Havaintojen keskiarvo kussakin tekijäporrastuksessa A ,

B .

A ,

Varianssi selittyy tekijän vaikutuksella B ,

va = a − 1 A ,

vb = b − 1 - dispersion vapausasteiden lukumäärä, joka selittyy tekijän vaikutuksella B ,

ve = ( a − 1)(b − 1)

v = ab− 1 - vapausasteiden kokonaismäärä.

Jos tekijät eivät ole riippuvaisia ​​toisistaan, tekijöiden merkittävyyden määrittämiseksi esitetään kaksi nollahypoteesia ja niitä vastaavat vaihtoehtoiset hypoteesit:

tekijää varten A :

H0 : μ 1A = μ 2A = ... = μ aA,

H1 : Ei kaikki μ iA yhtä suuri;

tekijää varten B :

H0 : μ 1B = μ 2B = ... = μ aB,

H1 : Ei kaikki μ iB ovat tasa-arvoisia.

A

Tekijän vaikutuksen määrittäminen B, sinun on verrattava todellista Fischer-asennetta kriittiseen Fischer-asenteeseen.

α P = 1 − α .

α P = 1 − α .

Kaksisuuntainen ANOVA ilman toistoja: esimerkki

Esimerkki 3. Tiedot annetaan keskimääräisestä polttoaineenkulutuksesta 100 kilometriä kohti litroina moottorin koosta ja polttoainetyypistä riippuen.

On tarpeen tarkistaa, riippuuko polttoaineenkulutus moottorin koosta ja polttoainetyypistä.

Ratkaisu. Tekijäksi A asteittaisten luokkien määrä a= 3, tekijälle B asteittaisten luokkien määrä b = 3 .

Laskemme poikkeamien neliösumman:

,

,

,

.

Vastaavat varianssit:

,

,

.

A . Koska todellinen Fisher-suhde on pienempi kuin kriittinen, hyväksymme 95 %:n todennäköisyydellä hypoteesin, että moottorin koko ei vaikuta polttoaineenkulutukseen. Kuitenkin, jos valitsemme merkitsevyystason α = 0,1, sitten Fisher-suhteen todellinen arvo ja sitten 95% todennäköisyydellä voidaan hyväksyä, että moottorin tilavuus vaikuttaa polttoaineenkulutukseen.

Fisherin todellinen suhde kertoimeen B , Fisher-suhteen kriittinen arvo: . Koska todellinen Fisher-suhde on suurempi kuin Fisher-suhteen kriittinen arvo, hyväksymme 95 %:n todennäköisyydellä, että polttoainetyyppi vaikuttaa kulutukseen.

Kaksisuuntainen ANOVA ilman toistoja MS Excelissä

Kaksitekijäinen varianssianalyysi ilman toistoja voidaan suorittaa MS Excel -proseduurilla. Sen avulla analysoimme esimerkin 3 tietoja polttoainetyypin ja sen kulutuksen välisestä suhteesta.

Suorita komento MS Excel -valikossa Palvelu/Data-analyysi ja valitse analyysityökalu Kaksisuuntainen ANOVA ilman toistoja.

Täytämme tiedot samalla tavalla kuin yksisuuntaisen varianssianalyysin tapauksessa.


Toimenpiteen tuloksena näyttöön tulee kaksi taulukkoa. Ensimmäinen taulukko on Totals. Se sisältää tiedot kaikista tekijäasteikkoluokista: havaintojen määrä, kokonaisarvo, keskiarvo ja varianssi.

Toinen taulukko - Varianssianalyysi - sisältää tiedot vaihtelun lähteistä: dispersio rivien välillä, hajonta sarakkeiden välillä, virhedispersio, kokonaisdispersio, neliöpoikkeamien summa (SS), vapausasteet (df), dispersio (MS). Kolme viimeistä saraketta sisältävät Fisher-suhteen todellisen arvon (F), p-tason (P-arvo) ja Fisher-suhteen kriittisen arvon (F crit).

NEITI F P-arvo F krit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Tekijä A(moottorin iskutilavuus) on ryhmitelty riveihin. Koska todellinen Fisher-suhde 5,28 on pienempi kuin kriittinen 6,94, hyväksymme 95 %:n todennäköisyydellä, että polttoaineenkulutus ei riipu moottorin koosta.

Tekijä B(polttoainetyyppi) on ryhmitelty sarakkeisiin. Todellinen Fisher-suhde 13,56 on suurempi kuin kriittinen suhde 6,94, joten hyväksymme 95 %:n todennäköisyydellä, että polttoaineenkulutus riippuu sen tyypistä.

Kaksitekijäinen varianssianalyysi toistoilla: menetelmän ydin, kaavat, esimerkki

Kaksifaktorista varianssianalyysiä toistojen kanssa käytetään paitsi tuloksena olevan ominaisuuden mahdollisen riippuvuuden tarkistamiseen kahdesta tekijästä - A Ja B mutta myös tekijöiden mahdollista vuorovaikutusta A Ja B. Sitten a- tekijäportaiden määrä A Ja b- tekijäportaiden määrä B, r- toistojen määrä. Tilastollisessa kompleksissa residuaalien neliösumma on jaettu neljään osaan:

SS = SS a+ SS b+ SS ab + SS e,

- neliöityjen poikkeamien kokonaissumma,

- selittyy tekijän vaikutuksella A neliöityjen poikkeamien summa,

- selittyy tekijän vaikutuksella B neliöityjen poikkeamien summa,

- selittyy tekijöiden vuorovaikutuksen vaikutuksella A Ja B neliöityjen poikkeamien summa,

- selittämätön neliöpoikkeamien summa tai neliöityjen virhepoikkeamien summa,

- havaintojen yleinen keskiarvo,

- havaintojen keskiarvo kussakin tekijäporrastuksessa A ,

- keskimääräinen havaintojen lukumäärä kussakin tekijäporrastuksessa B ,

Keskimääräinen havaintojen lukumäärä kussakin tekijäasteikkoyhdistelmässä A Ja B ,

n = abr- havaintojen kokonaismäärä.

Varianssit lasketaan seuraavasti:

Varianssi selittyy tekijän vaikutuksella A ,

Varianssi selittyy tekijän vaikutuksella B ,

- varianssi selittyy tekijöiden vuorovaikutuksella A Ja B ,

- selittämätön varianssi tai virhevarianssi,

va = a − 1 - dispersion vapausasteiden lukumäärä, joka selittyy tekijän vaikutuksella A ,

vb = b − 1 - dispersion vapausasteiden lukumäärä, joka selittyy tekijän vaikutuksella B ,

vab = ( a − 1)(b − 1) - tekijöiden vuorovaikutuksella selitetyn varianssin vapausasteiden lukumäärä A Ja B ,

ve = ab(r − 1) - selittämättömän varianssin tai virhevarianssin vapausasteiden lukumäärä,

v = abr− 1 - vapausasteiden kokonaismäärä.

Jos tekijät eivät ole riippuvaisia ​​toisistaan, niin tekijöiden merkittävyyden määrittämiseksi esitetään kolme nollahypoteesia ja niitä vastaavat vaihtoehtoiset hypoteesit:

tekijää varten A :

H0 : μ 1A = μ 2A = ... = μ aA,

H1 : Ei kaikki μ iA yhtä suuri;

tekijää varten B :

Selvittää tekijöiden vuorovaikutuksen vaikutus A Ja B, sinun on verrattava todellista Fischer-asennetta kriittiseen Fischer-asenteeseen.

Jos todellinen Fisher-suhde on suurempi kuin kriittinen Fisher-suhde, nollahypoteesi tulee hylätä merkitsevyystasolla α . Tämä tarkoittaa, että tekijä vaikuttaa merkittävästi dataan: data riippuu tekijästä todennäköisyydellä P = 1 − α .

Jos todellinen Fisher-suhde on pienempi kuin kriittinen Fisher-suhde, nollahypoteesi tulee hyväksyä merkitsevyystasolla α . Tämä tarkoittaa, että tekijä ei todennäköisyydellä merkittävästi vaikuta dataan P = 1 − α .

Kaksisuuntainen ANOVA toistoilla: esimerkki

tekijöiden vuorovaikutuksesta A Ja B: Fisherin todellinen suhde on pienempi kuin kriittinen, joten mainoskampanjan ja tietyn kaupan vuorovaikutus ei ole merkittävää.

Kaksisuuntainen ANOVA toistoilla MS Excelissä

Kaksisuuntainen varianssianalyysi replikaattien kanssa voidaan suorittaa käyttämällä MS Excel -menettelyä. Sen avulla analysoimme tietoja myymälätulojen ja tietyn myymälän valinnan sekä mainoskampanjan välisestä suhteesta esimerkistä 4.

Suorita komento MS Excel -valikossa Palvelu/Data-analyysi ja valitse analyysityökalu Kaksisuuntainen ANOVA toistoilla.

Täytämme tiedot samalla tavalla kuin kaksitekijäisessä varianssianalyysissä ilman toistoja, lisäyksellä, että näyteikkunan rivien lukumäärässä on syötettävä toistojen määrä.

Toimenpiteen tuloksena näyttöön tulee kaksi taulukkoa. Ensimmäinen taulukko koostuu kolmesta osasta: kaksi ensimmäistä vastaavat kumpaakin mainoskampanjaa, kolmas sisältää tiedot molemmista mainoskampanjoista. Taulukon sarakkeet sisältävät tiedot kaikista toisen tekijän – varaston – gradaatioluokista: havaintojen määrä, kokonaisarvo, keskiarvo ja hajonta.

Toisessa taulukossa on tiedot neliöpoikkeamien summasta (SS), vapausasteiden lukumäärästä (df), dispersiosta (MS), Fisher-suhteen todellisesta arvosta (F), p-tasosta (P-arvo) ja Fisher-suhteen (F-kriteeri) kriittinen arvo eri vaihtelulähteille: kaksi tekijää, jotka annetaan riveinä (otos) ja sarakkeina, tekijöiden vuorovaikutus, virhe (sisäinen) ja kokonaisindikaattorit (yhteensä).

NEITI F P-arvo F krit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

Tekijäksi B Todellinen Fisher-suhde on suurempi kuin kriittinen suhde, joten on 95 %:n todennäköisyys, että liikevaihdot vaihtelevat merkittävästi myymälöiden välillä.

Tekijöiden vuorovaikutukselle A Ja B Fisherin todellinen suhde on pienempi kuin kriittinen, joten 95 %:n todennäköisyydellä mainoskampanjan ja tietyn kaupan vuorovaikutus ei ole merkittävää.

Kaikki aiheesta "Matemaattinen tilasto"

Varianssianalyysi(latinasta Dispersio - dispersio / englanniksi Analysis Of Variance - ANOVA) käytetään tutkimaan yhden tai useamman kvalitatiivisen muuttujan (tekijän) vaikutusta yhteen riippuvaan kvantitatiiviseen muuttujaan (vasteeseen).

Varianssianalyysin perustana on oletus, että joitain muuttujia voidaan pitää syinä (tekijät, riippumattomat muuttujat): , ja toiset seurauksina (riippuvaiset muuttujat). Riippumattomia muuttujia kutsutaan joskus säädettäviksi tekijöiksi juuri siksi, että tutkijalla on kokeessa mahdollisuus muunnella niitä ja analysoida saatua tulosta.

Päätavoite varianssianalyysi(ANOVA) on tutkimus keskiarvojen välisten erojen merkittävyydestä käyttämällä varianssien vertailua (analyysiä). Kokonaisvarianssin jakaminen useisiin lähteisiin mahdollistaa ryhmien välisistä eroista johtuvan varianssin vertaamisen ryhmän sisäisestä vaihtelusta johtuvaan varianssiin. Jos nollahypoteesi (että keskiarvot ovat samat useissa populaatiosta valituissa havaintoryhmissä) pitää paikkansa, ryhmän sisäiseen vaihteluun liittyvän varianssin estimaatin tulisi olla lähellä ryhmien välisen varianssin estimaattia. Jos vertaat vain kahden näytteen keskiarvoja, ANOVA antaa saman tuloksen kuin tavallinen riippumattomien näytteiden t-testi (jos vertaillaan kahta riippumatonta ryhmää tutkimushenkilöitä tai havaintoja) tai riippuvaisten näytteiden t-testi (jos verrataan kahta muuttujaa samalla tavalla). ja samat esineet tai havainnot).

Varianssianalyysin ydin on jakaa tutkittavan piirteen kokonaisvarianssi yksittäisten tekijöiden vaikutuksen määräämiin komponentteihin ja testata hypoteeseja näiden tekijöiden vaikutuksen merkityksestä tutkittavaan ominaisuuteen. Vertaamalla varianssikomponentteja keskenään Fisherin F-testillä voidaan määrittää, mikä osuus tuloksena olevan attribuutin kokonaisvaihtelusta johtuu ohjattujen tekijöiden vaikutuksesta.

Varianssianalyysin lähdemateriaalina on kolmen tai useamman otoksen tutkimuksen data: , jotka voivat olla joko yhtä suuria tai erisuuruisia, sekä toisiinsa liittyviä että epäkoherentteja. Tunnistettujen säänneltyjen tekijöiden lukumäärän mukaan varianssianalyysi voi olla yksitekijä(tässä tapauksessa tutkitaan yhden tekijän vaikutusta kokeen tuloksiin), kaksitekijäinen(kun tutkitaan kahden tekijän vaikutusta) ja monitekijäinen(antaa sinun arvioida paitsi kunkin tekijän vaikutusta erikseen, myös niiden vuorovaikutusta).

Varianssianalyysi kuuluu parametristen menetelmien ryhmään ja siksi sitä tulisi käyttää vain silloin, kun on todistettu, että jakauma on normaali.

Varianssianalyysiä käytetään, jos riippuva muuttuja mitataan suhde-, intervalli- tai järjestysasteikolla ja vaikuttavat muuttujat ovat luonteeltaan ei-numeerisia (nimiasteikko).

Esimerkki ongelmia

Varianssianalyysillä ratkaistavissa ongelmissa on numeerinen vastaus, johon vaikuttavat useat nimellisluonteiset muuttujat. Esimerkiksi useat erityyppiset lihotusannokset tai kaksi tapaa pitää niitä jne.

Esimerkki 1: Kolmella eri paikkakunnalla toimi viikon aikana useita apteekkikioskeja. Tulevaisuudessa voimme jättää vain yhden. On selvitettävä, onko kioskien huumemyynnin volyymien välillä tilastollisesti merkitsevää eroa. Jos kyllä, valitsemme kioskin, jolla on suurin keskimääräinen päivämyynti. Jos myyntivolyymien ero osoittautuu tilastollisesti merkityksettömäksi, tulee kioskin valinnan perustana käyttää muita indikaattoreita.

Esimerkki 2: Ryhmäkeskiarvojen kontrastien vertailu. Seitsemän poliittista suuntausta on jaoteltu äärimmäisen liberaaleista äärimmäisen konservatiivisiin, ja lineaarista kontrastia käytetään testaamaan, onko ryhmän tulojen nousutrendi nollasta poikkeava - eli onko keski-iässä merkittävä lineaarinen nousu, kun tarkastellaan ryhmien järjestystä. liberaalista konservatiiviseen suuntaan.

Esimerkki 3: Kaksitekijäinen varianssianalyysi. Tuotteen myyntimääriin vaikuttaa myymälän koon lisäksi usein myös tuotteen hyllyjen sijainti. Tämä esimerkki sisältää viikoittaiset myyntiluvut neljälle hyllyasettelulle ja kolmelle kauppakoolle. Analyysin tulokset osoittavat, että molemmat tekijät - tavarahyllyjen sijainti ja myymälän koko - vaikuttavat myynnin määrään, mutta niiden vuorovaikutus ei ole merkittävää.

Esimerkki 4: Yksimuuttuja ANOVA: Satunnaistettu täyslohkosuunnittelu kahdella hoidolla. Kolmen rasvan ja kolmen taikinan nostatusaineen kaikkien mahdollisten yhdistelmien vaikutusta leivän paistamiseen tutkitaan. Lohkotekijänä toimi neljä neljästä eri lähteestä otettua jauhonäytettä, joissa rasva-ripper-vuorovaikutuksen merkitys on selvitettävä. Tämän jälkeen tunnistaa erilaisia ​​kontrastien valintamahdollisuuksia, joiden avulla voit selvittää, mitkä tekijätasojen yhdistelmät eroavat toisistaan.

Esimerkki 5: Hierarkkinen (klusteroitu) sekaefektien suunnittelumalli. Tutkitaan neljän satunnaisesti valitun koneeseen asennetun pään vaikutusta valmistettujen lasikatodipitimien muodonmuutokseen. (Päät on rakennettu koneeseen, joten samaa päätä ei voi käyttää eri koneissa.) Päävaikutusta käsitellään satunnaisena tekijänä. ANOVA-tilastot osoittavat, että koneiden välillä ei ole merkittäviä eroja, mutta on viitteitä siitä, että päät voivat vaihdella. Kaikkien koneiden välinen ero ei ole merkittävä, mutta kahdella niistä ero päätyyppien välillä on merkittävä.

Esimerkki 6: Yksimuuttuja toistuvien mittausten analyysi käyttämällä jaetun kaavion suunnittelua. Tämä koe suoritettiin yksilöllisten ahdistuneisuusluokitusten vaikutuksen määrittämiseksi kokeen suoritukseen neljän peräkkäisen yrityksen aikana. Tiedot on järjestetty siten, että niitä voidaan tarkastella koko tietojoukon osajoukkojen ryhminä ("koko diagrammi"). Ahdistuksen vaikutus oli merkityksetön, mutta yrityksen vaikutus oli merkittävä.

Luettelo menetelmistä

  • Faktoriaaliset kokeilumallit. Esimerkkejä: matemaattisten ongelmien ratkaisun onnistumiseen vaikuttavat tekijät; myyntimääriin vaikuttavat tekijät.

Aineisto koostuu useista havaintojen (prosessien) sarjoista, joita pidetään toisistaan ​​riippumattomina näytteiden realisoinneina. Alkuhypoteesi väittää, että hoidoissa ei ole eroa, ts. oletetaan, että kaikkia havaintoja voidaan pitää yhtenä otoksena kokonaisväestöstä:

  • Yksitekijäparametrinen malli: Scheffen menetelmä.
  • Yksitekijäinen ei-parametrinen malli [Lagutin M.B., 237]: Kruskal-Wallis-testi [Hollender M., Wolf D.A., 131], Jonckheere-kriteeri [Lagutin M.B., 245].
  • Vakiotekijöiden mallin yleinen tapaus, Cochranin lause [Afifi A., Eisen S., 234].

Tiedot edustavat päällekkäisiä havaintoja:

  • Kaksitekijäinen ei-parametrinen malli: Friedmanin kriteeri [Lapach, 203], Page-kriteeri [Lagutin M.B., 263]. Esimerkkejä: tuotantomenetelmien tehokkuuden vertailu, maatalouskäytännöt.
  • Kaksitekijäinen ei-parametrinen malli epätäydellisille tiedoille

Tarina

Mistä nimi tuli varianssianalyysi? Saattaa tuntua oudolta, että keskiarvojen vertailua kutsutaan varianssianalyysiksi. Todellisuudessa tämä johtuu siitä, että kun tarkastelemme kahden (tai useamman) ryhmän keskiarvojen välisen eron tilastollista merkitsevyyttä, vertaamme (analysoimme) otosvariansseja. Varianssianalyysin peruskäsitettä ehdotetaan Fischer vuonna 1920. Ehkä luonnollisempi termi olisi neliösummaanalyysi tai variaatioanalyysi, mutta perinteestä johtuen käytetään termiä varianssianalyysi. Aluksi varianssianalyysi kehitettiin erityisesti suunniteltujen kokeiden aikana saatujen tietojen käsittelyyn, ja sitä pidettiin ainoana menetelmänä, joka tarkasti syy-yhteydet. Menetelmää on käytetty kasvintuotannon kokeiden arvioinnissa. Myöhemmin tuli selväksi varianssianalyysin yleinen tieteellinen merkitys psykologian, pedagogiikan, lääketieteen jne. kokeille.

Kirjallisuus

  1. Sheffe G. Varianssianalyysi. - M., 1980.
  2. Ahrens H. Leuter Yu. Monimuuttuja varianssianalyysi.
  3. Kobzar A.I. Sovellettu matemaattinen tilasto. - M.: Fizmatlit, 2006.
  4. Lapach S. N., Chubenko A. V., Babich P. N. Tilastot tieteessä ja liiketoiminnassa. - Kiova: Morion, 2002.
  5. Lagutin M.B. Visuaalinen matemaattinen tilasto. Kahdessa osassa. - M.: P-keskus, 2003.
  6. Afifi A., Eisen S. Tilastollinen analyysi: Tietokonelähestymistapa.
  7. Hollender M., Wolf D.A. Ei-parametriset tilaston menetelmät.

Linkit

  • Varianssianalyysi - Sähköinen oppikirja StatSoft.


 


Lukea:



Tarot-korttipaholaisen tulkinta ihmissuhteissa Mitä lassopaholainen tarkoittaa

Tarot-korttipaholaisen tulkinta ihmissuhteissa Mitä lassopaholainen tarkoittaa

Tarot-kortit antavat sinun löytää vastauksen jännittävään kysymykseen. He voivat myös ehdottaa oikeaa ratkaisua vaikeaan tilanteeseen. Oppimista riittää...

Kesäleirin ympäristöskenaariot Kesäleirien tietokilpailut

Kesäleirin ympäristöskenaariot Kesäleirien tietokilpailut

Tietovisa saduista 1. Kuka lähetti tämän sähkeen: "Pelasta minut! Auta! Harmaa susi söi meidät! Mikä on tämän sadun nimi? (Lapset, "Susi ja...

Yhteisprojekti "Työ on elämän perusta"

Kollektiivinen projekti

A. Marshallin määritelmän mukaan työ on "mitä tahansa henkistä ja fyysistä ponnistelua, joka tehdään osittain tai kokonaan tarkoituksena saavuttaa...

Tee-se-itse lintujen syöttölaite: valikoima ideoita Lintujen ruokinta kenkälaatikosta

Tee-se-itse lintujen syöttölaite: valikoima ideoita Lintujen ruokinta kenkälaatikosta

Oman lintujen syöttölaitteen tekeminen ei ole vaikeaa. Talvella linnut ovat suuressa vaarassa, niitä on ruokittava. Siksi ihmiset...

syöte-kuva RSS