У дома - Подове
Еднопосочен анализ на дисперсията. Многовариантен анализ на дисперсията Анализ на вариацията на статията

ANOVAвъз основа на произведенията на известния математик Р. А. Фишър... Въпреки доста солидната „възраст“, ​​този метод все още остава един от основните в биологичните и селскостопанските изследвания. Идеите, лежащи в основата на анализа на дисперсията, са широко използвани в много други методи за математически анализ на експериментални данни, както и при планирането на биологични и селскостопански експерименти.

Анализът на дисперсията ви позволява да:

1) сравнете две или повече примерни средства;

2) едновременно проучване на действието на няколко независими фактора, като е възможно да се определи както ефекта на всеки фактор в променливостта на изследваната черта, така и тяхното взаимодействие;

3) правилно планирайте научен експеримент.

Променливостта на живите организми се проявява под формата на разсейване или разпръскване на стойностите на отделните черти в границите, които се определят от степента на биологична равномерност на материала и естеството на връзката с условията на околната среда. Признаци, които се променят под въздействието на определени причини, се наричат ефективен.

Факторите са всякакви влияния или условия, чието разнообразие може по някакъв начин да повлияе на разнообразието на ефективната черта. Статистическото влияние на факторите при анализ на дисперсията се разбира като отражението в разнообразието на ефективния индикатор за разнообразието на изследваните фактори, което е организирано в изследването.

Под разнообразие имаме предвид наличието на неравностойни стойности на всяка черта при различни индивиди, обединени в група. Разнообразието на група индивиди според изследваната черта може да има различна степен, която обикновено се измерва с показатели за разнообразие (или променливост): граници, стандартно отклонение, коефициент на вариация. При анализ на дисперсията степента на разнообразие на индивидуалните и средните стойности на даден признак се измерва и сравнява по специални начини, които съставляват спецификата на този общ метод.

Организацията на факторите е, че на всеки изследван фактор се присвояват няколко стойности. В съответствие с тези стойности всеки фактор е разделен на няколко градации; за всяка степенуване се избират няколко индивида според принципа на случайната извадка, при която впоследствие се измерва стойността на ефективната черта.

За да се установи степента и надеждността на влиянието на изследваните фактори, е необходимо да се измери и оцени онази част от общото разнообразие, която е причинена от тези фактори.

Факторите, влияещи върху степента на вариация на ефективната черта, се делят на:

1) регулируем

2) случаен

Регулиран (систематичен)факторите са причинени от действието на фактора, изследван в експеримента, който има няколко градации в експеримента. Факторна градация- това е степента на неговото въздействие върху ефективната характеристика. В съответствие с градацията на атрибута, няколко варианта на експеримента са подчертани за сравнение. Тъй като тези фактори са предварително обусловени, те се наричат ​​регулирани в изследванията, т.е. дадено, в зависимост от организацията на експеримента. Следователно регулируемите фактори са фактори, чието действие се изучава от опит, именно те определят разликите между примерните средства за различни опции - междугрупова (факториална) вариация.

Случайни факторисе определят от естественото изменение на всички признаци на биологични обекти в природата. Това са фактори извън контрола на опита. Те имат случаен ефект върху ефективната черта, причиняват експериментални грешки и определят разсейването (дисперсията) на чертата във всеки вариант. Това разпространение се нарича вътрешногрупова (случайна) вариация.

По този начин относителната роля на отделните фактори в общата променливост на ефективната черта се характеризира с вариация и може да бъде изследвана с помощта на анализ на вариации или анализ на разсейване

ANOVA се основава на сравнение на междугруповите и вътрешногруповите вариации... Ако междугруповата вариация не надвишава вътрешногруповата, тогава разликите между групите са случайни. Ако междугруповата дисперсия е значително по -висока от вътрегрупповата, тогава между изследваните групи (варианти) има статистически значими разлики, дължащи се на ефекта на фактора, изследван в експеримента.

От това следва, че при статистическото изследване на ефективната черта, използвайки анализ на дисперсията, е необходимо да се определи нейната вариация във варианти, повторения, остатъчна вариация в рамките на тези групи и общата вариация на ефективната черта в експеримента. В съответствие с това се разграничават три типа дисперсии:

1) Общата дисперсия на ефективната черта (S y 2);

2) Междугрупови или частни, между проби (S y 2);

3) Вътрешна група, остатъчна (S z 2).

Следователно, анализ на дисперсиятатова е разделянето на общата сума на квадратите на отклоненията и общия брой степени на свобода на части или компоненти, съответстващи на структурата на експеримента, и оценката на значимостта на действието и взаимодействието на изследваните фактори по F-критерия. В зависимост от броя на едновременно изучаваните фактори се разграничава дву-, три-, четирифакторният анализ на дисперсията.

При обработка на полеви еднофакторни статистически комплекси, състоящи се от няколко независими опции, общата променливост на ефективната черта, измерена от общата сума на квадратите (C y), се разделя на три компонента: вариацията между опциите (извадки) - CV , вариацията на повторенията (опциите са свързани помежду си чрез общо контролирано условие - наличието на организирани повторения) - C p и вариация в рамките на опциите C z. В общ вид променливостта на една черта е представена от следния израз:

C y = C V + C p + C z.

Общият брой степени на свобода (N -1) също е разделен на три части:

степени на свобода за опции (l - 1);

степени на свобода за повторения (n- 1);

случайна вариация (n - 1) × (l - 1).

Сумите от квадрати на отклонения, според полеви експеримент - статистически комплекс с опции - l и повторения - n, се намират, както следва. Първо, използвайки началната таблица, се определят сумите за повторения - Σ P, за варианти - Σ V и общата сума на всички наблюдения - Σ X.

След това се изчисляват следните показатели:

Общият брой наблюдения N = l × n;

Корекционен коефициент (изменение) C cor = (Σ X 1) 2 / N;

Общата сума на квадратите Cy = Σ X 1 2 - C cor;

Сумата от квадрати за повторения C p = Σ P 2 / (l –C cor);

Сумата от квадрати за опции C V = Σ V 2 / (n - 1);

Сумата от квадрати за грешката (остатък) C Z = C y - C p - C V.

Получените суми от квадрати C V и C Z се разделят на съответните им степени на свобода и се получават два средни квадрата (отклонения):

Варианти S v 2 = C V / l - 1;

Грешки S Z 2 = C Z / (n - 1) × (l - 1).

Оценка на значимостта на разликите между средствата.Получените средни квадрати се използват при анализ на дисперсията за оценка на значимостта на действието на изследваните фактори чрез сравняване на вариацията на опциите (S v 2) с вариацията на грешката (SZ 2) според критерия на Фишер (F = SY 2 / SZ 2). Единицата за сравнение е средният квадрат на случайната дисперсия, който определя случайната грешка на експеримента.

Използването на теста на Фишър позволява да се установи наличието или отсъствието на значителни разлики между пробните средства, но не посочва специфични разлики между средните.

Тестваната H o - хипотеза е предположението, че всички извадки са оценки на една обща средна стойност и разликите между тях са незначителни. Ако F факт = S Y 2 / S Z 2 ≤ F теорема, тогава нулевата хипотеза не се отхвърля. Няма значителни разлики между пробите и тук тестът приключва. Нулевата хипотеза се отхвърля за F факт = S Y 2 / S Z 2 ≥ F теорСтойността на F-критерия за нивото на значимост, възприето в изследването, се намира в съответната таблица, като се вземат предвид степента на свобода за вариацията на вариантите и случайната вариация. Обикновено те използват 5% ниво на значимост, а при по -строг подход 1% - и дори 0,1%.

За извадка с размер n, дисперсията на извадката се изчислява като сумата от квадратните отклонения от средната за пробата, разделена на n-1(размер на извадката минус един). По този начин, за фиксиран размер на извадката, дисперсията е функция от сумата от квадрати (отклонения), означени за краткост, SS (от английския Sum of Squares - Сума от квадрати). Освен това често пропускаме думата извадка, знаейки добре, че се взема предвид извадката или оценката на вариацията. Анализът на дисперсията се основава на разделяне на вариацията на части или компоненти.:

SS грешки и SSефект.Променливост в групата ( SS) обикновено се нарича остатъчен компонент или дисперсия грешки.Това означава, че обикновено в експеримент не може да се предскаже или обясни. От друга страна, SS ефект(или компонентът на дисперсията между групите) може да се обясни с разликата между средните стойности в групите. С други думи, принадлежащи към определена група обяснявамеждугруповата променливост, тъй като знаем, че тези групи имат различни средни стойности.

Основна логика на анализ на дисперсиятаОбобщавайки, можем да кажем, че целта на ANOVA е да тества статистическата значимост на разликата между средните стойности (за групи или променливи). Тази проверка се извършва чрез разделяне на сумата от квадрати на компоненти, т.е. чрез разделяне на общата вариация (вариация) на части, едната от които се дължи на случайна грешка (тоест вътрешногрупова променливост), а втората е свързана с разликата в средните стойности. Последният компонент на дисперсията след това се използва за анализ на статистическата значимост на разликата между средните стойности. Ако това е разликата смислено, нулева хипотеза отхвърлени се приема алтернативна хипотеза за съществуването на разлика между средствата.

Зависими и независими променливи.Извикват се променливи, чиито стойности са определени с помощта на измервания по време на експеримента (например резултатът, получен по време на тестването) зависимпроменливи. Променливите, които могат да бъдат контролирани в експеримента (например методи на преподаване или други критерии, които ви позволяват да разделяте наблюденията на групи или да класифицирате) се наричат факториили независимипроменливи.

Много фактори.Светът по своята същност е сложен и многоизмерен. Ситуациите, когато дадено явление е напълно описано от една променлива, са изключително редки. Например, ако се опитваме да научим как да отглеждаме големи домати, трябва да се вземат предвид фактори, свързани с генетичната структура на растенията, вида на почвата, светлината, температурата и т.н. По този начин има много фактори, с които трябва да се справите в типичен експеримент. Основната причина, поради която използването на анализ на дисперсията е за предпочитане пред многократното сравнение на две проби при различни нива на фактори, използвайки серии T-Критерият е, че анализът на дисперсията е значително по -голям ефективниа за малки проби е по -информативна.

Изход.Анализът на дисперсията е разработен и въведен в практиката на селскостопански и биологични изследвания от английския учен Р. А. Фишър . Същността на анализа на дисперсията се състои в разлагането на общата променливост на характеристиката и общия брой степени на свобода на съставни части, съответстващи на структурата на полевия експеримент, както и в оценката на действащия фактор според критерия на Фишър.

Къде е общата променливост на характеристиката, поради действието на изследвания въпрос, хетерогенността на почвеното плодородие и случайните грешки в експеримента.

Променливи добиви въз основа на повторения на полевия експеримент.

Вариации в добивите по варианти на опит, свързани с действието на изследвания въпрос.

Вариации в добивите, свързани със случайни грешки в опита.

Изходанализът на дисперсията се извършва съгласно следните правила:

1. Съществуват значителни разлики в опита, ако Фактически ≥Феоретичен. Няма значителни разлики в опита, ако F е действителното

2. NDS - Най -малката значителна разлика, използвана за определяне на разликата между опциите. Ако разликата d ≥ NSR, тогава разликите между опциите са значителни. Ако d< НСР, то различия между вариантами не существенные.

Групинастроики.

1. Ако разликата d е значителна и показва увеличение на добива, тогава опциите се отнасят до група 1.

2. Ако разликата d– не е значителна, тогава опциите се отнасят до група 2.

3. Ако разликата d е значителна, но показва намаляване на добива, тогава опциите се отнасят до група 3.

Избор на формула ANOVA зависи от методите за поставяне на опции в експеримента:

1. За организирани повторения:

2. За неорганизирани повторения.

5.1. Какво е ANOVA?

Анализът на дисперсията е разработен през 20 -те години на миналия век от английския математик и генетик Роналд Фишър. Според проучване сред учените, където е установено кой е повлиял най -много върху биологията на 20 -ти век, именно сър Фишър е спечелил първенството (за своите заслуги е награден с рицарско звание - едно от най -високите отличия във Великобритания); в това отношение Фишер е сравним с Чарлз Дарвин, който имаше най -голямо влияние върху биологията през 19 век.

Анализът на дисперсията вече е отделен клон на статистиката. Въз основа на открития от Фишър факт, че мярката за променливост на изследваното количество може да се разложи на части, съответстващи на факторите, влияещи върху тази величина, и случайни отклонения.

За да разберем същността на анализа на дисперсията, ще извършим един и същи тип изчисления два пъти: „ръчно“ (с калкулатор) и използвайки програмата Statistica. За да опростим задачата си, няма да работим с резултатите от действително описание на разнообразието от зелени жаби, а с измислен пример, свързан със сравнението на жените и мъжете при хората.Помислете за разликата във височината на 12 възрастни: 7 жени и 5 мъже.

Таблица 5.1.1. Пример за еднопосочна ANOVA: данни за пол и ръст за 12 души

Нека направим еднопосочен анализ на дисперсията: нека сравним дали мъжете и жените в описаната група се различават по отношение на ръста статистически значими или не.

5.2. Тест за нормалност

Допълнителните разсъждения се основават на факта, че разпределението в разглежданата извадка е нормално или близко до нормалното. Ако разпределението е далеч от нормалното, дисперсията (дисперсията) не е адекватна мярка за нейната променливост. Въпреки това, ANOVA е относително устойчив на отклонения на разпределението от нормалността.

Тези данни могат да бъдат тествани за нормалност по два различни начина. Първо: Статистика / Основна статистика / Таблици / Описателна статистика / раздел Нормалност. В разделаНормалност можете да изберете тестовете, използвани за нормалността на разпространението. Когато щракнете върху бутона Честотни таблици, ще се появи таблица с честоти, а бутоните Хистограми - хистограма. Таблицата и графиката ще показват резултатите от различни тестове.

Вторият метод е свързан с използването на подходящия възможен при конструирането на хистограми. В диалоговия прозорец за изграждане на хистограми (Графове / Хистограми ...) изберете раздела Разширени. В долната част има статистически блок. Нека отбележим Shapiro-Wilk върху него T est и Колмогоров-Смирнов тест, както е показано на фигурата.

Ориз. 5.2.1. Статистически тестове за нормалност на разпределението в диалоговия прозорец за изграждане на хистограми

Както се вижда от хистограмата, разпределението на растежа в нашата извадка се различава от нормалното (в средата - „провал“).


Ориз. 5.2.2. Хистограма, начертана с параметрите, посочени в предишната фигура

Третият ред в заглавието на графиката показва параметрите на нормалното разпределение, до което наблюдаваното разпределение е най -близко. Общата средна стойност е 173, общото стандартно отклонение е 10,4. По -долу в страничната лента на графиката са резултатите от тестовете за нормалност. D е тестът на Колмогоров-Смирнов, а SW-W е тестът на Шапиро-Вилк. Както може да се види, за всички използвани тестове разликите между разпределението по височина и нормалното разпределение се оказаха статистически незначителни ( стр във всички случаи повече от 0,05).

Така че, официално казано, тестовете за съответствие на разпределение с нормално разпределение не ни „забраняват“ да използваме параметричен метод, основан на предположението за нормално разпределение. Както вече споменахме, анализът на дисперсията е относително устойчив на отклонения от нормалното, така че все пак ще го използваме.

5.3. Еднопосочна ANOVA: ръчни изчисления

За да характеризираме променливостта на ръста на хората в дадения пример, изчисляваме сумата от квадратите на отклоненията (на английски език се означава като SS , Сума от квадрати или) отделни стойности от средната стойност: ... Средната стойност за височина в този пример е 173 сантиметра. Въз основа на това,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Получената стойност (1192) е мярка за променливостта на целия набор от данни. Те обаче се състоят от две групи, за всяка от които може да се разграничи своя собствена средна стойност. В дадените данни средният ръст на жените е 168 см, а на мъжете - 180 см.

Нека изчислим сумата от квадратите на отклоненията за жените:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Ние също така изчисляваме сумата от квадратите на отклоненията за мъжете:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

От какво зависи изследваната стойност в съответствие с анализа на логиката на дисперсията?

Две изчислени стойности, SS f и SS m , характеризират вътрешногруповата вариация, която при анализа на дисперсията обикновено се нарича "грешка". Произходът на това име е свързан със следната логика.

Какво определя растежа на човек в този пример? На първо място, от средния ръст на хората като цяло, независимо от техния пол. Второ - от пода. Ако хората от един пол (мъжки) са по -високи от другия (женски), това може да бъде представено под формата на допълнение към „обикновената човешка“ средна стойност с някакъв размер, ефекта на пола. И накрая, хората от един и същи пол се различават по височина поради индивидуални различия. В модел, който описва височината като сума от средната стойност за човека и корекцията на пола, индивидуалните различия са необясними и могат да се считат за „грешка“.

Така че, в съответствие с логиката на анализ на дисперсията, изследваната стойност се определя, както следва: , където x ij -i-та стойност на изследваната стойност при j-та стойност на изследвания фактор; - обща средна стойност; F j - влиянието на j-тата стойност на изследвания фактор; - "грешка", приносът на индивидуалността на обекта, към който принадлежи количествотоx ij .

Междугрупова сума от квадрати

Така, SS грешки = SS f + SS m = 212 + 560 = 772. С тази стойност описахме вътрешногруповата променливост (когато групите бяха идентифицирани по пол). Но има и втора част от променливостта - междугрупова, която ще наречемSS ефект (тъй като говорим за ефекта от разделянето на разглеждания набор от обекти на жени и мъже).

Средната стойност за всяка група е различна от общата средна стойност. Изчислявайки приноса на тази разлика към общата мярка на променливостта, трябва да умножим разликата между групата и общата средна стойност по броя обекти във всяка група.

SS ефект = = 7 × (168–173) 2 + 5 × (180–173) 2 = 7 × 52 + 5 × 72 = 7 × 25 + 5 × 49 = 175 + 245 = 420.

Тук се проявява принципът на постоянството на сумата от квадрати, открит от Фишер: SS = SS ефект + SS грешка , т.е. за този пример 1192 = 440 + 722.

Средни квадрати

Сравнявайки в нашия пример междугруповите и вътрешногруповите суми от квадрати, можем да видим, че първата е свързана с вариацията на две групи, а втората - 12 стойности в 2 групи. Броят степени на свобода ( df ) за някой параметър може да се определи като разликата между броя обекти в групата и броя на зависимостите (уравнения), които свързват тези стойности.

В нашия пример df ефект = 2–1 = 1, а df грешки = 12–2 = 10.

Можем да разделим сумите на квадратите по броя на техните степени на свобода, получавайки средните квадрати ( ГОСПОЖИЦА , Средства на квадрати). След като направим това, можем да установим това ГОСПОЖИЦА - нищо друго освен вариация ("вариация", резултат от разделянето на сумата от квадрати на броя на степента на свобода). След това откритие можем да разберем структурата на таблицата ANOVA. За нашия пример ще изглежда така.

ефектът

Грешка

MS ефект и MS грешки са оценки на междугруповата и вътрешногруповата дисперсия и следователно могат да бъдат сравнени според критерияF (Критерият на Snedecor, кръстен на Фишър), предназначен да сравнява отклоненията. Този критерий е просто коефициентът на разделяне на по -голямата дисперсия на по -малката. В нашия случай това е 420 / 77.2 = 5.440.

Определяне на статистическата значимост на теста на Фишър с помощта на таблици

Ако трябваше да определим статистически значимостта на ефекта ръчно, използвайки таблици, ще трябва да сравним получената стойност на критерия F с критична, съответстваща на определено ниво на статистическа значимост за дадени степени на свобода.


Ориз. 5.3.1. Фрагмент от таблицата с критични стойности на критерия F

Както можете да видите, за нивото на статистическа значимост p = 0,05, критичната стойност на критерияF е 4,96. Това означава, че в нашия пример действието на изследвания пол е записано със ниво на статистическа значимост 0,05.

Резултатът може да се тълкува по следния начин. Вероятността за нулевата хипотеза, според която средният ръст на жените и мъжете е еднакъв, а записаната разлика във височината им е свързана със случайността при формирането на извадки, е по -малка от 5%. Това означава, че трябва да изберем алтернативна хипотеза, че средният ръст на жените и мъжете е различен.

5.4. Еднопосочен анализ на дисперсията ( ANOVA) в пакета Statistica

В случаите, когато изчисленията не се правят ръчно, а с помощта на подходящи програми (например пакета Statistica), стойността стр се определя автоматично. Можете да се уверите, че е малко по -висока от критичната стойност.

За да анализирате обсъждания пример, използвайки най-простия вариант на анализ на дисперсията, трябва да изпълните процедурата Статистика / ANOVA за файла със съответните данни и да изберете опцията Еднопосочна ANOVA в прозореца Тип на анализа и диалоговия прозорец Бързи спецификации опция в прозореца Метод на спецификацията ...


Ориз. 5.4.1. Общ диалог ANOVA / MANOVA

В отворения прозорец за бърз диалог, в полето Променливи, трябва да посочите тези колони, които съдържат данните, чиято променливост изучаваме (Списък на зависимите променливи; в нашия случай колоната Growth), както и колоната, съдържаща стойности които разделят изследваната стойност на групи (Катигоричен предиктор (фактор); в нашия случай колоната Пол). В тази версия на анализа, за разлика от многовариантния анализ, може да се вземе предвид само един фактор.


Ориз. 5.4.2. Еднопосочен диалог ANOVA

В прозореца Кодове на фактори трябва да посочите стойностите на разглеждания фактор, които трябва да бъдат обработени в хода на този анализ. Всички налични стойности могат да се видят с помощта на бутона Zoom; ако, както в нашия пример, трябва да вземете предвид всички стойности на фактора (а за пола в нашия пример има само две от тях), можете да щракнете върху бутона Всички. Когато колоните за обработка и кодовете на факторите са зададени, можете да щракнете върху бутона OK и да преминете към бързия анализ на резултатите: ANOVA Резултати 1, към раздела Бързо.

Ориз. 5.4.3. Разделът Бърз в прозореца с резултати от ANOVA

Бутонът Всички ефекти / Графики ви позволява да видите как се сравняват средните стойности на двете групи. Над графиката е посочен броят на степени на свобода, както и стойностите на F и p за разглеждания фактор.


Ориз. 5.4.4. Графично показване на резултатите от ANOVA

Бутонът Всички ефекти ви позволява да получите таблица с анализ на дисперсията, подобна на описаната по -горе (с някои значителни разлики).


Ориз. 5.4.5. Таблица ANOVA (сравнете с подобна таблица, получена на ръка)

Долният ред на таблицата показва сумата от квадрати, броя на степента на свобода и средните квадрати за грешката (вътрешногрупова променливост). Един ред по -горе - подобни показатели за изследвания фактор (в този случай знакът пол), както и критерия F (съотношението на средните квадрати на ефекта към средните квадрати на грешката) и нивото на неговата статистическа значимост. Фактът, че ефектът на въпросния фактор се оказа статистически значим, се показва от маркирането в червено.

Първият ред съдържа данни за индикатора „Прихващане“. Това редът в таблицата представя загадка за потребителите, които са нови за Statistica в нейната 6 -та или по -нова версия. Стойността на прихващане вероятно е свързана с разлагането на сумата от квадрати на всички стойности на данните (т.е. 1862 + 1692 ... = 360340). Стойността на критерий F, посочена за него, се получава чрез разделяне MS прихващане / MS грешка = 353220 / 77.2 = 4575.389 и естествено дава много ниска стойност стр ... Интересното е, че в Statistica-5 тази стойност изобщо не е изчислена и ръководствата за използване на по-късни версии на пакета не коментират въвеждането му по никакъв начин. Вероятно най-доброто нещо, което един биолог, работещ със Statistica-6 и по-късно, може да направи, е просто да игнорира реда Intercept в таблицата ANOVA.

5.5. ANOVA и студентски и фишър тестове: кое е по -добре?

Както може би сте забелязали, данните, които сравнихме, използвайки еднопосочен анализ на дисперсията, бихме могли да изследваме и с помощта на тестовете на Стюдент и Фишър. Нека сравним тези два метода. За да направите това, изчислете разликата във височината между мъжете и жените, като използвате тези критерии. За да направим това, ще трябва да преминем по пътя Статистика / Основна статистика / t-тест, независим, по групи. Естествено, зависимите променливи са променливата Growth, а променливата Grouping е променливата пол.


Ориз. 5.5.1. Сравнение на данните, обработени с ANOVA, според тестовете на Студент и Фишър

Както можете да видите, резултатът е същият като при ANOVA. стр = 0,041874 и в двата случая, както е показано на фиг. 5 и показано на фиг. 5.5.2 (вижте сами!).


Ориз. 5.5.2. Резултати от анализа (подробно обяснение на таблицата с резултати - в параграфа за критерия на студента)

Важно е да се подчертае, че въпреки че критерият F от математическа гледна точка в анализирания анализ според критериите на Студент и Фишър е същият като в ANOVA (и изразява коефициента на дисперсия), значението му в резултатите от анализа, представени в финалната маса е напълно различна. При сравняване по критериите на Студент и Фишър, сравнението на средните стойности на пробите се извършва според критерия на Студент, а сравнението на тяхната променливост се извършва според критерия на Фишър. В резултатите от анализа не се показва самата дисперсия, а нейният квадратен корен - стандартното отклонение.

В ANOVA, за разлика от това, тестът на Фишър се използва за сравняване на средствата на различни проби (както обсъдихме, това става чрез разделяне на сумата от квадрати на части и сравняване на средната сума от квадрати, съответстваща на променливостта между и в групата) .

Горната разлика обаче се отнася по -скоро до представянето на резултатите от статистическо проучване, отколкото до неговата същност. Както беше посочено, например, от Glantz (1999, стр. 99), сравнението на групите по теста на Стюдент може да се разглежда като специален случай на анализ на дисперсията за две извадки.

Така че, сравняването на проби според тестовете на Стюдент и Фишър има едно важно предимство пред анализа на дисперсията: може да сравнява пробите по отношение на тяхната променливост. Но ползите от анализа на дисперсията са все още по -значими. Те включват например възможността за сравняване на няколко проби едновременно.

Разглежданата схема за анализ на дисперсията се диференцира в зависимост от: а) от естеството на характеристиката, чрез която популацията е разделена на групи (извадки;); б) от броя на признаците, по които популацията се подразделя на групи (извадки ); в) относно метода на вземане на проби.

Характерни ценности. която разделя населението на групи, може да представлява общата популация или близка до нея популация. В този случай схемата ANOVA съответства на описаната по -горе. Ако стойностите на характеристика, която формира различни групи, представляват извадка от общата популация, тогава формулировката на нулевата и алтернативната хипотеза се променя. Като нулева хипотеза се предполага, че има разлики между групите, тоест средствата за група показват някои вариации. Като алтернативна хипотеза се предполага, че няма трептене. Очевидно при такава формулировка на хипотези няма причина да се конкретизират резултатите от сравнението на отклоненията.

С увеличаване на броя на функциите за групиране например до 2, първо, броят на нулата и съответно алтернативните хипотези се увеличава. В този случай първата нулева хипотеза говори за липсата на различия между средните стойности за групите на първата групова черта, втората нулева хипотеза говори за липсата на различия в средните за групите на втората черта на групиране и накрая третата нулева хипотеза показва липсата на така наречения ефект на взаимодействие на факторите (характеристики на групиране).

Ефектът на взаимодействие се разбира като такава промяна в стойността на ефективен атрибут, която не може да се обясни с общото действие на два фактора. За да се тестват трите предложени двойки хипотези, е необходимо да се изчислят три действителни стойности на критерия F-Fisher, което от своя страна предполага следния вариант на разлагане на общия обем на вариация

Дисперсиите, необходими за получаване на F-критерия, се получават по известен начин чрез разделяне на обемите на вариация на броя на степента на свобода.

Както знаете, пробите могат да бъдат зависими и независими. Ако пробите са зависими, тогава в общия размер на вариацията трябва да се разграничат така наречените вариации по повторения.
... Ако не е подчертано, тогава това изменение може значително да увеличи вътрешногруповото изменение (
), което може да изкриви резултатите от анализа на дисперсията.

Въпроси за преглед

17-1.Каква е спецификацията на резултатите от анализа на дисперсията?

17-2. Кога се използва критерият Q-Tukey за конкретизиране?

17-3. Какви са разликите между първата, втората и т.н. поръчки?

17-4. Как да се намери действителната стойност на Q тест на Tukey?

17-5. Какви хипотези са изложени за всяка разлика?

17-6. От какво зависи табличната стойност на критерия Tukey Q?

17-7. Каква е нулевата хипотеза, ако нивата на атрибута за групиране са извадка?

17-8. Как се разлага общата сума на вариацията, когато данните са групирани по два критерия?

17-9. В този случай се подчертава промяната в повторенията (
) ?

Резюме

Разглежданият механизъм за уточняване на резултатите от анализа на дисперсията ви позволява да му придадете пълен вид. Трябва да се обърне внимание на ограниченията, когато се използва Q тест на Tukey. Материалът очерта и основните принципи за класификация на моделите ANOVA. Трябва да се подчертае, че това са само принципи. Подробно проучване на характеристиките на всеки модел изисква отделно по -задълбочено проучване.

Тестови задачи за лекцията

За какви статистически характеристики се използват хипотези при анализа на дисперсията?

    Относно две вариации

    Спрямо една средна стойност

    Спрямо няколко средни стойности

    Спрямо една вариация

Какво е съдържанието на алтернативната хипотеза в анализа на дисперсията?

    Сравнените отклонения не са равни помежду си

    Всички сравнени средни стойности не са равни.

    Най -малко две общи средни стойности не са равни

    Междугруповата дисперсия е по -голяма от вътрешногруповата

Кои са най -често използваните нива на значимост при анализ на дисперсията?

Ако вариацията в рамките на групата е по-голяма от вариацията между групите, трябва ли ANOVA да продължи или веднага да се съгласи с H0 или с AN?

1. Трябва ли да продължите с необходимите отклонения?

2. Човек трябва да се съгласи с H0

3. Съгласете се с ON

Ако се установи, че вътрешногруповата дисперсия е равна на междугруповата, какво трябва да бъде последвано от анализа на дисперсията?

    Съгласен с нулевата хипотеза за равенство на общите средства

    Съгласен с алтернативната хипотеза за наличието на поне двойка средства, неравни помежду си

Каква дисперсия винаги трябва да има в числителя при изчисляване на теста F-Fisher?

    Само вътрешногрупови

    Във всеки случай междугрупа

    Междугрупово, ако е по -вътрешногрупово

Каква трябва да бъде действителната стойност на критерия F-Fisher?

    Винаги по -малко от 1

    Винаги по -голямо от 1

    Равно или по -голямо от 1

От какво зависи табличната стойност на критерия F-Fisher?

1. От приетото ниво на значимост

2. От броя на степента на свобода на общата вариация

3. От броя на степента на свобода на междугруповата вариация

4. За броя на степента на свобода на вътрешногруповите вариации

5. От стойността на действителната стойност на критерия F-Fisher?

Увеличаването на броя на наблюденията във всяка група с равни отклонения увеличава вероятността за приемане .......

1 нулева хипотеза

2. Алтернативна хипотеза

3. Не засяга приемането както на нулева, така и на алтернативна хипотеза

Какъв е смисълът от уточняване на резултатите от анализа на дисперсията?

    За да се изясни дали изчисленията на отклоненията са извършени правилно

    Установете коя от общите средни стойности се оказа равна помежду си

    Изяснете кои от общите средни стойности не са равни една на друга

Вярно ли е твърдението: „При уточняване на резултатите от анализа на дисперсията всички общи средни стойности се оказаха равни една на друга“

    Може да е правилно и грешно

    Не е вярно, това може да се дължи на грешки в изчисленията

Възможно ли е, когато се уточнява анализът на дисперсията, да се стигне до заключението, че всички общи средни стойности не са равни една на друга?

1. Възможно е

2. Евентуално в изключителни случаи

3. По принцип е невъзможно.

4. Възможно е само ако направите грешки в изчисленията

Ако нулевата хипотеза е приета според критерия F-Fisher, необходимо ли е да се уточни анализът на дисперсията?

1. Задължително

2. Не се изисква

3. По преценка на анализатора на ANOVA

В какъв случай тестът на Tukey се използва за конкретизиране на резултатите от анализа на дисперсията?

1. Ако броят на наблюденията по групи (проби) е един и същ

2. Ако броят на наблюденията по групи (проби) е различен

3. Ако има проби с еднакви и неравни числа

мързел

Какво е NDS, когато се посочват резултатите от анализа на дисперсията въз основа на теста на Tukey?

1. Изчислете средната грешка по действителната стойност на критерия

2. Произведението на средната грешка по табличната стойност на критерия

3. Съотношението на всяка разлика между пробата означава

средна грешка

4. Разлика между примерните средства

Ако извадката е разделена на групи според 2 характеристики, колко източника трябва поне да бъдат разделени на общата вариация на характеристиката?

Ако наблюденията по проби (групи) са зависими, на колко източника трябва да се раздели общото изменение (атрибут на групиране един)?

Какъв е източникът (причината) за междугруповите вариации?

    Хазартна игра

    Комбинирано действие на играта на случайността и фактора

    Фактор (и) действие

    Разберете след анализ на дисперсията

Какъв е източникът (причината) за вътрешногруповите вариации?

1 игра на шанс

2. Комбинирано действие на играта на случайността и фактора

3. Действието на фактора (ите)

4. Това ще бъде установено след анализа на дисперсията

Какъв метод за преобразуване на изходните данни се използва, ако характеристичните стойности са изразени в дроби?

    Логаритъм

    Извличане на корена

    Транс трансформация

Лекция 8 Корелация

анотация

Най -важният метод за изследване на връзката между знаците е методът на корелация. Тази лекция разкрива съдържанието на този метод, подходи към аналитичното изразяване на тази връзка. Особено внимание се обръща на такива специфични показатели като индикатори за стегнатост на комуникацията

Ключови думи

Корелация. Метод на най -малкия квадрат. Коефициент на регресия. Коефициенти на детерминация и корелация.

Разгледани проблеми

    Функционална и корелационна връзка

    Етапи на изграждане на корелационното уравнение на комуникацията. Тълкуване на коефициентите на уравнението

    Показатели за плътност

    Оценка на избрани комуникационни показатели

Модулна единица 1 Същността на корелацията. Етапи на изграждане на корелационното уравнение на комуникацията, интерпретация на коефициентите на уравнението.

Целта и задачите на изучаването на модулна единица 1се състоят в разбиране на характеристиките на корелацията. овладяване на алгоритъма за изграждане на уравнението на комуникацията, разбиране на съдържанието на коефициентите на уравнението.

      Същността на корелацията

В природните и социалните явления има два вида връзки - функционална връзка и корелационна връзка. Във функционална връзка всяка стойност на аргумента съответства на строго определени (една или повече) стойности на функцията. Пример за функционална връзка е връзката между обиколката и радиуса, която се изразява с уравнението
... Към всяка стойност на радиуса rсъответства на единична стойност за обиколката L . В случай на корелация, всяка стойност на атрибута фактор съответства на няколко не съвсем определени стойности на ефективния атрибут. Примери за корелации са връзката между теглото на човек (ефективна черта) и височината му (факториална черта), връзката между количеството на внасяния тор и добива, между цената и количеството на предлагания продукт. Източникът на възникване на корелация е фактът, че по правило в реалния живот стойността на ефективния атрибут зависи от много фактори, включително тези, които имат случаен характер на тяхната промяна. Например, едно и също тегло на човек зависи от възрастта, пола., Диетата, професията и много други фактори. Но в същото време е очевидно, че растежът е решаващият фактор като цяло. С оглед на тези обстоятелства корелацията трябва да се определи като непълна връзка, която може да бъде установена и оценена само ако има средно голям брой наблюдения.

1.2 Етапи на изграждане на корелационното уравнение на комуникацията.

Подобно на функционалната връзка, корелацията се изразява чрез уравнение на връзката. За да го изградите, трябва последователно да преминавате през следните стъпки (етапи).

Първо, трябва да се разберат причинно-следствените връзки, да се установи подчинеността на знаците, тоест кои от тях са причините (факторните знаци) и кои са последствията (ефективните знаци). Причинно -следствените връзки между признаците се установяват от теорията на субекта, където се използва методът на корелация. Например науката за „човешката анатомия“ ви позволява да кажете какъв е източникът на връзката между теглото и ръста, кой от тези знаци е фактор, в резултат на което науката за „икономиката“ разкрива логиката на връзката между цена и предлагане, установява какво и на какъв етап е причината и какъв е ефектът ... Без такава предварителна теоретична обосновка интерпретацията на получените резултати в бъдеще е трудна и понякога може да доведе до абсурдни заключения.

След като е установено наличието на причинно-следствени връзки, тогава тези отношения трябва да бъдат формализирани, тоест изразени с помощта на комуникационното уравнение, като първо се избере видът на уравнението. Могат да се препоръчат редица техники за избор на типа уравнение. Можете да се обърнете към теорията на предмета, където се използва корелационният метод, например науката за „агрохимия“ може би вече е получила отговор на въпроса кое уравнение трябва да се използва за изразяване на връзката: добив - торове. Ако няма такъв отговор, тогава за да изберете уравнение, трябва да използвате някои емпирични данни, като ги обработите по подходящ начин. Веднага трябва да се каже, че като е избрано типа уравнение въз основа на емпирични данни, трябва ясно да се разбере, че този тип уравнение може да се използва за описване на връзката на използваните данни. Основната техника за обработка на тези данни е изграждането на графики, когато стойностите на атрибута фактор се нанасят върху оста на абсцисата, а възможните стойности на ефективния атрибут се нанасят върху оста на ординатите. Тъй като по дефиниция същата стойност на атрибута фактор съответства на набор от неопределени стойности на ефективния атрибут, в резултат на горните действия ще получим определен набор от точки, който се нарича корелационно поле. Общият изглед на корелационното поле позволява в редица случаи да се направи предположение за възможната форма на уравнението .. С модерното развитие на компютърните технологии един от основните методи за избор на уравнение е да се изброят различни типове уравнения , докато най -доброто уравнение е това, което осигурява най -високия коефициент на детерминация, реч, която ще бъде разгледана по -долу. Преди да се пристъпи към изчисленията, е необходимо да се провери до каква степен емпиричните данни, използвани за изграждане на уравнението, отговарят на определени изисквания. Изискванията са свързани с факториални характеристики и с набора от данни. Факторните знаци, ако има няколко от тях, трябва да са независими един от друг. Що се отнася до съвкупността, тя трябва да бъде, първо, хомогенна

(концепцията за хомогенност беше разгледана по -рано), и второ, доста голяма. Всяка факториална черта трябва да отчита най-малко 8-10 наблюдения.

След като изберете уравнение, следващата стъпка е да се изчислят коефициентите на уравнението. Коефициентите на уравнение най -често се изчисляват по метода на най -малките квадрати. От гледна точка на корелацията, използването на метода на най -малките квадрати се състои в получаване на такива коефициенти на уравнението, така че
= min, тоест, че сумата от квадратите на отклоненията на действителните стойности на ефективния индикатор ( ) от изчислените според уравнението ( ) беше минималната стойност. Това изискване се реализира чрез изграждане и решаване на добре позната система от т. Нар. Нормални уравнения. Ако като уравнение на корелацията между yи хсе избира уравнението на права линия
, където системата от нормални уравнения, както знаете, ще бъде следната:

Решаването на тази система по отношение на аи б , получаваме необходимите стойности на коефициентите. Коректността на изчисляването на коефициентите се проверява чрез равенството

За какво се използва анализът на дисперсията? Целта на анализа на дисперсията е да се изследва наличието или отсъствието на значителен ефект на всеки качествен или количествен фактор върху промените в изследваната ефективна черта. За това фактор, който вероятно има или няма значително влияние, е разделен на класове на градация (с други думи, групи) и се определя дали влиянието на фактора е едно и също чрез изучаване на значимостта между средните стойности в наборите от данни, съответстващи към факторните градации. Примери: изследва се зависимостта на печалбата на предприятието от вида на използваните суровини (тогава класовете на градация са видовете суровини), зависимостта на производствените разходи на единица продукция от размера на подразделението на предприятието (тогава класовете на градация са характеристиките на размера на дивизията: голям, среден, малък).

Минималният брой класове (групи) за оценяване е два. Класовете за дипломиране могат да бъдат качествени или количествени.

Защо анализът на дисперсията се нарича анализ на дисперсията? Анализът на дисперсията изследва съотношението на две отклонения. Както знаем, вариацията е характеристика на разпръскването на данни около средната стойност. Първият е вариацията, обяснена с влиянието на фактора, който характеризира разпръскването на стойностите между градациите на фактора (групите) около средната стойност на всички данни. Второто е необяснима вариация, която характеризира разпръскването на данните в рамките на градации (групи) около средствата на самите групи. Първата вариация може да се нарече междугрупова, а втората вътрешногрупова. Съотношението на тези отклонения се нарича действително съотношение на Фишър и се сравнява с критичната стойност на съотношението на Фишер. Ако действителното съотношение на Фишър е по -голямо от критичното, тогава средните степени на градация се различават един от друг и изследваният фактор влияе значително върху промяната в данните. Ако са по -малки, тогава средните степени на степенуване не се различават един от друг и факторът няма значително влияние.

Как са формулирани, приети и отхвърлени хипотези в ANOVA? При анализа на дисперсията се определя специфичното тегло на общото въздействие на един или повече фактори. Значението на влиянието на фактора се определя чрез тестване на хипотезите:

  • З0 : μ 1 = μ 2 = ... = μ а, където а- брой класове на градация - всички класове на градация имат една средна стойност,
  • З1 : Не всички μ iравни - не всички класове на градация имат еднаква средна стойност.

Ако влиянието на даден фактор не е значително, тогава разликата между степенуващите класове на този фактор също е незначителна и в хода на анализа на дисперсията нулевата хипотеза З0 не се отхвърля. Ако влиянието на фактора е значително, тогава нулевата хипотеза З0 отхвърлени: не всички класове на градация имат еднакво средно значение, тоест сред възможните разлики между класовете на градация един или повече са значителни.

Още някои концепции за анализ на дисперсията. Статистически комплекс в ANOVA е таблица с емпирични данни. Ако всички класове на градации имат еднакъв брой опции, тогава статистическият комплекс се нарича хомогенен (хомогенен), ако броят на вариантите е различен - хетерогенен (хетерогенен).

В зависимост от броя на оценяваните фактори се разграничават еднопосочният, двупосочният и многовариантният анализ на дисперсията.

Еднопосочен анализ на вариацията: същността на метода, формули, примери

Същността на метода, формулите

въз основа на факта, че сумата от квадратите на отклоненията на статистическия комплекс може да бъде разделена на компоненти:

SS = SSа + SSд,

SS

SSа асума от квадрати на отклонения,

SSд- необяснима сума от квадрати на отклонения или сума от квадрати на отклонения на грешката.

Ако през нiопределя броя на опциите във всеки клас на степенуване (група) и ае общият брой градации на фактора (групи), тогава е общият брой наблюдения и могат да се получат следните формули:

общ брой квадрати на отклонения: ,

приписван на фактор асума от квадрати на отклонения: ,

необяснима сума от квадрати на отклонения или сума от квадрати на отклонения на грешката: ,

- общата средна стойност на наблюденията,

(група).

Освен това,

където е вариацията на градацията на фактора (групата).

За да се извърши еднопосочен анализ на дисперсията за данните от статистически комплекс, е необходимо да се намери действителното съотношение на Фишър - съотношението на дисперсията, обяснено с влиянието на фактора (междугрупа), и необяснимата вариация (вътрешногрупова) ):

и го сравнете с критичната стойност на Фишър.

Дисперсиите се изчисляват, както следва:

Вариансът обясни,

Необяснима вариация

vа = а − 1 - броя на степента на свобода на обяснената вариация,

ve = на - броя на степента на свобода на необяснима вариация,

v = н

Критичната стойност на съотношението на Фишър с определени стойности на нивото на значимост и степента на свобода може да бъде намерена в статистически таблици или изчислена с помощта на функцията OB Excel на MS Excel F (фигурата по -долу, за да я увеличите, щракнете върху нея с лявата страна бутон на мишката).


Функцията изисква въвеждане на следните данни:

Вероятност - ниво на значимост α ,

Degrees_freedom1 е броят на степента на свобода на обяснената вариация vа,

Degrees_freedom2 е броят на степента на свобода на необяснима вариация vд.

Ако действителната стойност на съотношението на Фишер е по -голяма от критичната (), тогава нулевата хипотеза се отхвърля с ниво на значимост α ... Това означава, че факторът влияе значително върху промяната в данните и данните зависят от фактора с вероятност P = 1 − α .

Ако действителната стойност на съотношението на Фишър е по -малка от критичната (), тогава нулевата хипотеза не може да бъде отхвърлена с ниво на значимост α ... Това означава, че факторът не влияе значително на данните с вероятност P = 1 − α .

Еднопосочен анализ на вариацията: Примери

Пример 1.Изисква се да се установи дали видът на използваните суровини влияе върху печалбата на предприятието. В шест класа градации (групи) на фактора (1 -ви тип, 2 -ри тип и т.н.) се събират данни за печалбата от производството на 1000 единици продукти в милиони рубли за 4 години.

Тип суровина2014 2015 2016 2017
1 -ви7,21 7,55 7,29 7,6
2 -ри7,89 8,27 7,39 8,18
3 -ти7,25 7,01 7,37 7,53
4 -ти7,75 7,41 7,27 7,42
5 -ти7,7 8,28 8,55 8,6
6 -ти7,56 8,05 8,07 7,84
Средното
Дисперсия
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

а= 6 и във всеки клас (група) нi = 4наблюдение. Общ брой наблюдения н = 24 .

Брой степени на свобода:

vа = а − 1 = 6 − 1 = 5 ,

ve = на = 24 − 6 = 18 ,

v = н − 1 = 24 − 1 = 23 .

Нека изчислим отклоненията:

.

.

Тъй като действителното отношение на Фишер е по -критично:

с ниво на значимост α = 0,05, заключаваме, че печалбата на предприятието, в зависимост от вида на използваните суровини в производството, се различава значително.

Или, което е същото, отхвърляме основната хипотеза за равенство на средствата във всички класове на факторна градация (групи).

В току -що разгледания пример, всеки клас на фактор имаше същия брой опции. Но, както бе споменато във въведението, броят на опциите може да бъде различен. И това по никакъв начин не усложнява процедурата ANOVA. Това е следващият пример.

Пример 2.Изисква се да се установи дали има зависимост от производствените разходи на единица продукция от размера на подразделението на предприятието. Факторът (размер на единицата) е разделен на три степени (групи): малък, среден, голям. Обобщени данни, съответстващи на тези групи, за производствените разходи за единица от същия вид продукт за определен период.

малъксредно аритметичноголям
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Средното58,6 54,0 51,0
Дисперсия128,25 65,00 107,60

Брой класове на степенуване на фактори (групи) а= 3, брой наблюдения в класове (групи) н1 = 4 , н2 = 7 , н3 = 6 ... Общ брой наблюдения н = 17 .

Брой степени на свобода:

vа = а − 1 = 2 ,

ve = на = 17 − 3 = 14 ,

v = н − 1 = 16 .

Нека изчислим сумата от квадратите на отклоненията:

Нека изчислим отклоненията:

,

.

Нека изчислим действителното съотношение на Фишър:

.

Критичното съотношение на Фишер:

Тъй като действителната стойност на съотношението на Фишър е по -малка от критичната :, заключаваме, че размерът на подразделението на предприятието не влияе значително върху себестойността на производството.

Или, което е същото, с вероятност 95%, ние приемаме основната хипотеза, че средната производствена цена на единица от един и същ продукт в малки, средни и големи подразделения на предприятие не се различава значително.

Еднопосочна ANOVA в MS Excel

Еднопосочен анализ на дисперсията може да се извърши с помощта на процедурата MS Excel Еднопосочна ANOVA... Използваме го за анализ на данните за връзката между вида на използваните суровини и печалбата на предприятието от пример 1.

Услуга / Анализ на даннии изберете инструмент за анализ Еднопосочна ANOVA.

В прозореца Интервал на въвежданепосочваме областта с данни (в нашия случай това е $ A $ 2: $ E $ 7). Показваме как е групиран коефициентът - по колони или по редове (в нашия случай по редове). Ако първата колона съдържа имената на класовете фактори, поставете отметка в квадратчето Етикети на първата колона... В прозореца Алфапосочва нивото на значимост α = 0,05 .

Втората таблица - Анализ на вариацията - съдържа данни за стойностите за коефициента между групите и в рамките на групите и общите суми. Това са сумата от квадратни отклонения (SS), броят на степени на свобода (df), дисперсия (MS). Последните три колони съдържат действителната стойност на съотношението на Фишер (F), р-нивото (Р-стойност) и критичната стойност на съотношението на Фишер (критерий F).

ГОСПОЖИЦА F P-стойност F крит
0,58585 6,891119 0,000936 2,77285
0,085017

Тъй като действителната стойност на съотношението на Фишер (6.89) е по -голяма от критичната стойност (2.77), с вероятност 95% отхвърляме нулевата хипотеза за равенството на средната производителност при използване на всички видове суровини, т.е. заключаваме, че видът на използваните суровини влияе върху предприятията с печалба.

Двупосочен анализ на дисперсията без повторения: същността на метода, формули, пример

Двупосочният анализ на дисперсията се използва за проверка на възможна зависимост на ефективна черта от два фактора - Аи Б... Тогава а- броя на градациите на фактора Аи б- броя на градациите на фактора Б... В статистическия комплекс сумата от квадратите на остатъците е разделена на три компонента:

SS = SSа + SS b + SSд,

- общата сума на квадратите на отклоненията,

- обяснява се с влиянието на фактор Асума от квадрати на отклонения,

- обяснява се с влиянието на фактор Бсума от квадрати на отклонения,

- общата средна стойност на наблюденията,

Средна стойност на наблюденията във всяка градация на фактора А ,

Б .

А ,

Дисперсията се обяснява с влиянието на фактора Б ,

vа = а − 1 А ,

vb = б − 1 - броят на степента на свобода на дисперсията, обяснена с влиянието на фактора Б ,

ve = ( а − 1)(б − 1)

v = ab- 1 - общият брой степени на свобода.

Ако факторите не зависят един от друг, тогава се предлагат две нулеви хипотези и съответните алтернативни хипотези, за да се определи значимостта на факторите:

за фактор А :

З0 : μ 1А = μ 2А = ... = μ aA,

З1 : Не всички μ iAса равни;

за фактор Б :

З0 : μ 1В = μ 2B = ... = μ aB,

З1 : Не всички μ iBса равни.

А

За да се определи влиянието на даден фактор Б, действителното отношение на Фишер трябва да бъде сравнено с критичното отношение на Фишер.

α P = 1 − α .

α P = 1 − α .

Двупосочен анализ на дисперсията без повторения: пример

Пример 3.Дадена е информация за средния разход на гориво на 100 километра в литри, в зависимост от обема на двигателя и вида на горивото.

Необходимо е да се провери дали разходът на гориво зависи от размера на двигателя и вида на горивото.

Решение. За фактор Аброй класове за оценяване а= 3, за коефициента Бброй класове за оценяване б = 3 .

Изчисляваме сумата от квадратите на отклоненията:

,

,

,

.

Съответстващи отклонения:

,

,

.

А ... Тъй като действителното съотношение на Фишер е по -малко от критичното, приемаме хипотезата, че работният обем на двигателя не влияе на разхода на гориво с вероятност 95%. Ако обаче изберем нивото на значимост α = 0,1, тогава действителната стойност на съотношението на Фишер и след това с вероятност 95% можем да приемем, че работният обем на двигателя влияе върху разхода на гориво.

Действителното съотношение на Фишер за фактор Б , критичната стойност на съотношението на Фишер: ... Тъй като действителното съотношение на Фишер е по -голямо от критичната стойност на съотношението на Фишер, ние приемаме с 95% вероятност видът гориво да повлияе на неговия разход.

Двупосочен анализ на дисперсията без повторения в MS Excel

Двупосочен анализ на дисперсията без повторения може да се извърши с помощта на процедурата MS Excel. Използваме го за анализ на данни за връзката между вида на горивото и неговия разход от пример 3.

В менюто на MS Excel изпълнете командата Услуга / Анализ на даннии изберете инструмент за анализ Двупосочен анализ на дисперсията без повторения.

Попълваме данните по същия начин, както в случай на еднопосочен анализ на дисперсията.


В резултат на процедурата се показват две таблици. Първата таблица е Общо. Той съдържа данни за всички класове на факторна градация: брой наблюдения, обща стойност, средна стойност и вариация.

Втората таблица - Анализ на вариацията - съдържа данни за източниците на вариация: разсейване между редовете, разпръскване между колони, разсейване на грешки, общо разсейване, сума от квадратни отклонения (SS), брой степени на свобода (df), дисперсия (MS ). Последните три колони съдържат действителната стойност на съотношението на Фишер (F), р-нивото (Р-стойност) и критичната стойност на съотношението на Фишер (критерий F).

ГОСПОЖИЦА F P-стойност F крит
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Фактор А(работен обем на двигателя) е групиран в редове. Тъй като действителното съотношение на Фишер от 5,28 е по -малко от критичното 6,94, ние приемаме с 95% вероятност разходът на гориво да не зависи от размера на двигателя.

Фактор Б(вид гориво) е групирано в колони. Действителното съотношение на Фишер от 13,56 е по -голямо от критичното 6,94, следователно с 95% вероятност приемаме, че разходът на гориво зависи от неговия тип.

Двупосочен анализ на дисперсията с повторения: същността на метода, формули, пример

Използва се двупосочен анализ на дисперсията с повторения, за да се провери не само възможната зависимост на ефективната черта от два фактора - Аи Б, но и възможното взаимодействие на фактори Аи Б... Тогава а- броя на градациите на фактора Аи б- броя на градациите на фактора Б, r- броя на повторенията. В статистическия комплекс сумата от квадратите на остатъците е разделена на четири компонента:

SS = SSа + SS b + SS ab + SSд,

- общата сума на квадратите на отклоненията,

- обяснява се с влиянието на фактор Асума от квадрати на отклонения,

- обяснява се с влиянието на фактор Бсума от квадрати на отклонения,

- обяснява се с влиянието на взаимодействието на факторите Аи Бсума от квадрати на отклонения,

- необяснима сума от квадрати на отклонения или сума от квадрати на отклонения на грешката,

- общата средна стойност на наблюденията,

- средна стойност на наблюденията във всяка градация на фактора А ,

- средният брой наблюдения във всяка градация на фактора Б ,

Среден брой наблюдения във всяка комбинация от факторни градации Аи Б ,

н = абр- общият брой наблюдения.

Дисперсиите се изчисляват, както следва:

Дисперсията се обяснява с влиянието на фактора А ,

Дисперсията се обяснява с влиянието на фактора Б ,

- дисперсия, обяснена с взаимодействието на факторите Аи Б ,

- необяснима вариация или вариация на грешката,

vа = а − 1 - броят на степента на свобода на дисперсията, обяснена с влиянието на фактора А ,

vb = б − 1 - броят на степента на свобода на дисперсията, обяснена с влиянието на фактора Б ,

vab = ( а − 1)(б − 1) - броят на степента на свобода на вариацията, обяснена с взаимодействието на факторите Аи Б ,

ve = ab(r − 1) - броя на степента на свобода на необяснимата вариация или вариация на грешката,

v = абр- 1 - общият брой степени на свобода.

Ако факторите са независими един от друг, тогава се излагат три нулеви хипотези и съответни алтернативни хипотези, за да се определи значимостта на факторите:

за фактор А :

З0 : μ 1А = μ 2А = ... = μ aA,

З1 : Не всички μ iAса равни;

за фактор Б :

Да се ​​определи влиянието на взаимодействието на факторите Аи Б, действителното отношение на Фишер трябва да бъде сравнено с критичното отношение на Фишер.

Ако действителното съотношение на Фишер е по -голямо от критичното съотношение на Фишер, тогава нулевата хипотеза трябва да бъде отхвърлена с ниво на значимост α ... Това означава, че факторът влияе значително върху данните: данните зависят от фактора с вероятност P = 1 − α .

Ако действителното съотношение на Фишер е по -малко от критичното съотношение на Фишер, тогава нулевата хипотеза трябва да бъде приета с ниво на значимост α ... Това означава, че факторът не влияе значително на данните с вероятност P = 1 − α .

Двупосочно повторение ANOVA: Пример

относно взаимодействието на факторите Аи Б: Действителното отношение на Fischer е по -малко от критично, следователно взаимодействието между рекламната кампания и конкретен магазин не е от съществено значение.

Двупосочен анализ на дисперсията с повторения в MS Excel

Двупосочен анализ на дисперсията с повторения може да се извърши с помощта на процедурата MS Excel. Използваме го за анализ на данни за връзката между приходите от магазина и избора на конкретен магазин и рекламната кампания от Пример 4.

В менюто на MS Excel изпълнете командата Услуга / Анализ на даннии изберете инструмент за анализ Двупосочен анализ на дисперсията с повторения.

Попълваме данните по същия начин, както в случай на двупосочен анализ на дисперсията без повторения, с добавка, че броят на повторенията трябва да бъде въведен в броя редове за прозореца за избор.

В резултат на процедурата се показват две таблици. Първата таблица се състои от три части: първите две съответстват на всяка от двете рекламни кампании, третата съдържа данни за двете рекламни кампании. Колоните на таблицата съдържат информация за всички класове на градация на втория фактор - магазина: броя на наблюденията, общата стойност, средната стойност и дисперсията.

Втората таблица съдържа данни за сумата от квадратни отклонения (SS), броя на степента на свобода (df), дисперсията (MS), действителната стойност на съотношението на Фишер (F), р-ниво (P-стойност) и критичната стойност на съотношението на Фишер (F критерий) за различни източници на вариация: два фактора, дадени в редове (извадка) и колони, взаимодействие на фактори, грешки (вътре) и общи показатели (общо).

ГОСПОЖИЦА F P-стойност F крит
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

За фактор БДействителното съотношение на Fischer е по -голямо от критичното, следователно, с вероятност от 95%, приходите се различават значително между магазините.

За взаимодействието на фактори Аи БДействителното отношение на Фишер е по -малко от критичното, поради което с 95% вероятност взаимодействието между рекламната кампания и конкретен магазин не е значително.

Всички свързани теми "Математическа статистика"

ANOVA(от латински Dispersio - дисперсия / на английски Analysis Of Variance - ANOVA) се използва за изследване влиянието на една или повече качествени променливи (фактори) върху една зависима количествена променлива (отговор).

Анализът на дисперсията се основава на предположението, че някои променливи могат да се разглеждат като причини (фактори, независими променливи) :, а други като последствия (зависими променливи). Независимите променливи понякога се наричат ​​регулируеми фактори именно защото в експеримента изследователят има способността да ги променя и анализира получения резултат.

Основната цел анализ на дисперсията(ANOVA) е изследване на значимостта на разликите между средните средства чрез сравняване (анализиране) на отклоненията. Чрез разделяне на общата дисперсия на множество източници е възможно да се сравни дисперсията, причинена от разликата между групите, с вариацията, причинена от променливостта в рамките на групата. Ако нулевата хипотеза е вярна (за равенството на средните стойности в няколко групи наблюдения, избрани от общата популация), оценката на дисперсията, свързана с вътрешногруповата променливост, трябва да бъде близка до оценката на дисперсията между групите. Ако просто сравнявате средствата в две проби, ANOVA ще даде същия резултат като обичайния t-тест за независими проби (ако сравнявате две независими групи обекти или наблюдения) или t-тест за зависими проби (ако сравнявате две променливи за един и същ набор от обекти или наблюдения).

Същността на анализа на дисперсията е да се разбие общата дисперсия на изследваната черта на отделни компоненти, дължаща се на влиянието на специфични фактори, и да се проверят хипотези за значимостта на влиянието на тези фактори върху изследваната черта. Сравнявайки компонентите на дисперсията помежду си, използвайки F-теста на Фишер, е възможно да се определи каква част от общата променливост на ефективната черта се дължи на действието на регулираните фактори.

Изходният материал за анализа на дисперсията са данните от изследването на три или повече проби: които могат да бъдат еднакви или неравномерни по брой, както свързани, така и некохерентни. По броя на откритите контролирани фактори може да се направи анализ на дисперсията едномерно(в този случай се изследва влиянието на един фактор върху резултатите от експеримента), двуфакторен(при изучаване влиянието на два фактора) и многофакторен(позволява да се оцени не само влиянието на всеки от факторите поотделно, но и тяхното взаимодействие).

ANOVA принадлежи към групата на параметричните методи и следователно трябва да се използва само когато е доказано, че разпределението е нормално.

ANOVA се използва, когато зависимата променлива се измерва по отношение на съотношения, интервали или ред, а влияещите променливи са с нечиселен характер (скала за именуване).

Примери за задачи

При проблеми, които се решават чрез анализ на дисперсията, има отговор с числово естество, който се влияе от няколко променливи с номинален характер. Например, няколко вида диети за хранене на говеда или два начина за тяхното отглеждане и т.н.

Пример 1:Няколко аптечни павилиона работеха на три различни места през седмицата. В бъдеще можем да оставим само един. Необходимо е да се определи дали има статистически значима разлика между обемите на продажби на лекарства в павилиони. Ако е така, ще изберем павилиона с най -висок среден дневен обем на продажбите. Ако разликата в обема на продажбите се окаже статистически незначителна, тогава други показатели трябва да бъдат основа за избора на павилион.

Пример 2:Сравнение на контрастите на груповите средства. Седем политически пристрастия са класирани от изключително либерални до силно консервативни и се използва линеен контраст, за да се провери дали има ненулева тенденция към по-високи средни стойности на групата- тоест дали има значително линейно увеличение на средната възраст при разглеждане на групите наредени в посока от либерална към консервативна.

Пример 3:Двупосочен анализ на дисперсията. В допълнение към размера на магазина, броят на продажбите на продукти често се влияе от местоположението на рафтовете с продукта. Този пример съдържа седмични данни за продажбите за четири оформления на рафтове и три размера на магазина. Резултатите от анализа показват, че и двата фактора - разположението на рафтовете с продукта и големината на магазина - влияят върху броя на продажбите, но тяхното взаимодействие не е значително.

Пример 4:Едноизмерна ANOVA: Рандомизиран пълен блок дизайн с две обработки. Изследва се ефектът на всички възможни комбинации от три мазнини и три рипера върху хляба. Четири проби от брашно от четири различни източника служат като блокиращи фактори. Трябва да се определи значимостта на взаимодействието на разхлабване на мазнините. След това определете различните възможности за избор на контрасти, които дават възможност да се установи кои комбинации от факторни нива се различават.

Пример 5:Йерархичен (вложен) модел на план със смесени ефекти. Изследва се влиянието на четири произволно избрани глави, инсталирани в машина, върху деформацията на произведените катодни държачи от стъклен катод. (Главите са вградени в машината, така че една и съща глава не може да се използва на различни машини). Ефектът на главата се третира като случаен фактор. Статистическите данни на ANOVA показват, че няма значителни разлики между машините, но има индикации, че главите могат да се различават. Разликата между всички машини не е значителна, но за две от тях разликата между типовете глави е значителна.

Пример 6:Едноизмерен анализ на многократни измервания с помощта на разделен графичен план. Този експеримент е проведен, за да се определи ефектът от индивидуалната оценка на тревожността върху изпита при четири поредни опита. Данните са организирани така, че да могат да се разглеждат като група от подмножества на целия набор от данни („цял график“). Ефектът от тревожността е незначителен, докато ефектът от опитите е значителен.

Списък на методите

  • Модели на факторни експерименти. Примери: фактори, влияещи върху успеха на решаването на математически задачи; фактори, влияещи върху обема на продажбите.

Данните се състоят от няколко серии наблюдения (обработка), които се разглеждат като реализации на независими проби. Първоначалната хипотеза казва, че няма разлика в лечението, т.е. се приема, че всички наблюдения могат да се разглеждат като една извадка от общата популация:

  • Еднофакторен параметричен модел: метод на Scheffe.
  • Еднофакторен непараметричен модел [Lagutin MB, 237]: Критерий на Крускал-Уолис [Hollender M., Wolf DA, 131], критерий на Jonkhier [Lagutin MB, 245].
  • Общ случай на модел с постоянни фактори, теоремата на Кокран [Afifi A., Eisen S., 234].

Данните са дублирани наблюдения:

  • Двуфакторен непараметричен модел: критерий на Фридман [Лапач, 203], критерий на Пейдж [Лагутин М.Б., 263]. Примери: сравнение на ефективността на производствените методи, селскостопанските техники.
  • Двуфакторен непараметричен модел за непълни данни

История

Откъде идва името анализ на дисперсията? Може да изглежда странно, че процедурата за сравняване на средства се нарича анализ на дисперсията. Всъщност това се дължи на факта, че когато изследваме статистическата значимост на разликата между средните стойности на две (или повече) групи, ние всъщност сравняваме (анализираме) вариациите на извадката. Предложена е основната концепция за анализ на дисперсията Фишърпрез 1920 г. Може би по -естественият термин би бил сума от квадрати или анализ на вариациите, но традиционно се използва терминът ANOVA. Първоначално ANOVA е разработена за обработка на данни, получени от специално проектирани експерименти, и се счита за единствения метод, който правилно изследва причинно -следствените връзки. Методът беше използван за оценка на експериментите в растениевъдството. По -късно общото научно значение на анализа на дисперсията за експерименти в психологията, педагогиката, медицината и др.

Литература

  1. Шефи Г.Анализ на дисперсията - М., 1980.
  2. Аренс Х. Leuter Yu.Многовариантният анализ на дисперсията.
  3. А. И. КобзарПриложна математическа статистика. - М.: Физматлит, 2006.
  4. Лапач С.Н., Чубенко А.В., Бабич П.Н.Статистика в науката и бизнеса. - Киев: Морион, 2002.
  5. Лагутин М. Б.Визуална математическа статистика. В два тома. - М.: П-център, 2003.
  6. Афифи А., Айзен С.Статистически анализ: компютърно базиран подход.
  7. Hollender M., Wolfe D.A.Непараметрични методи на статистика.

Връзки

  • Анализ на дисперсията - електронен учебник StatSoft.


 


Прочети:



Икона от четири части, икони на Божията Майка Омекотяване на злите сърца (Ченстохова), Успокояване на моите скърби, Избавяне на страданията от беди, Възстановяване на изгубените

Икона от четири части, икони на Божията Майка Омекотяване на злите сърца (Ченстохова), Успокояване на моите скърби, Избавяне на страданията от беди, Възстановяване на изгубените

Към тази икона е приложен документ - изпит на Националния изследователски институт за изследване и оценка на обекти от историята и културата ...

Изборът на цвят не е лесна задача Черното винаги е актуално

Изборът на цвят не е лесна задача Черното винаги е актуално

iPhone 6 далеч не е новост, но търсенето за него дори не мисли да падне, по -скоро ще се задържи в топ смартфоните още няколко години, като постепенно ще поевтинява ...

Бебето хълца всеки ден

Бебето хълца всеки ден

Когато бебето хълца, звучи сладко и сладко, но вие се притеснявате за това. Когато мама влезе в позиция, бебето й вече хълцаше. Всичко ...

Как да изберем икона по име и дата на раждане Икони за мъже на име Сергей

Как да изберем икона по име и дата на раждане Икони за мъже на име Сергей

Най -важните небесни покровители на Сергеев са основателят на Троице -Сергиевата лавра, Сергий Радонежки - един от най -обичаните и ...

feed-image Rss