Головна - Підлоги
Однофакторний дисперсійний аналіз. Багатофакторний дисперсійний аналіз Дисперсійний аналіз стаття

Дисперсійний аналіззаснований на роботах знаменитого математика Р.А.Фішера. Незважаючи на досить солідний «вік», цей метод досі залишається одним із основних при проведенні біологічних та сільськогосподарських досліджень. Ідеї, покладені основою дисперсійного аналізу, широко застосовують у багатьох інших методах математичного аналізу експериментальних даних, і навіть під час планування біологічних і сільськогосподарських експериментів.

Дисперсійний аналіз дозволяє:

1) порівнювати дві чи кілька вибіркових середніх;

2) одночасно вивчати дію кількох незалежних факторів, при цьому можна визначити як ефект кожного фактора в мінливості ознаки, що вивчається, так і їх взаємодія;

3) правильно планувати науковий експеримент.

Мінливість живих організмів проявляється у вигляді розкиду чи розсіювання значень окремих ознак у межах, що визначаються ступенем біологічної вирівняності матеріалу та характером взаємозв'язків з умовами середовища. Ознаки, що змінюються під впливом тих чи інших причин, називають результативними.

Чинники це будь-які впливу чи стану, розмаїтість яких може однак позначатися на розмаїтті результативного ознаки. Під статистичним впливом факторів у дисперсійному аналізі розуміється відображення у різноманітності результативної ознаки того розмаїття факторів, що вивчаються, яке організоване в дослідженні.

Під розмаїттям будемо розуміти наявність неоднакових значень кожної ознаки у різних особин, об'єднаних у групу. Різноманітність групи особин за ознакою, що вивчається, може мати різний ступінь, який зазвичай вимірюється показниками різноманітності (або мінливості): лімітами, середнім квадратичним відхиленням, коефіцієнтом варіації. У дисперсійному аналізі ступінь різноманітності індивідуальних та середніх значень ознаки вимірюється та порівнюється особливими способами, що становлять специфіку цього загального методу.

Організація факторів полягає в тому, що кожному фактору, що вивчається, надається кілька значень. Відповідно до цих значень кожен фактор розбивається на кілька градацій; кожної градації підбирається за принципом випадкової вибірки кілька особин, які мають згодом і вимірюється величина результативного ознаки.

Для того, щоб з'ясувати ступінь і достовірність впливу факторів, що досліджуються, треба виміряти і оцінити ту частину загального розмаїття, яка викликається цими факторами.

Чинники, що впливають на ступінь варіювання результативної ознаки, поділяються на:

1)регульовані

2) випадкові

Регульовані (систематичні)фактори викликаються дією фактора, що вивчається в експерименті, який має в досвіді кілька градацій. Градація фактора– це ступінь його на результативний ознака. Відповідно до градацій ознаки виділяється кілька варіантів досвіду для порівняння. Оскільки ці чинники попередньо обумовлені, їх називають регульованими дослідженнях, тобто. заданими, які від організації досвіду. Отже, регульовані фактори – фактори, дія яких вивчається у досвіді, саме вони й зумовлюють різницю між середніми вибірковими різних варіантів– міжгрупову (факторіальну) дисперсію

Випадкові факторивизначаються природним варіюванням всіх ознак біологічних об'єктів у природі. Це неконтрольовані у досвіді фактори. Вони надають випадкове впливом геть результативний ознака, зумовлюють експериментальні помилки і визначають усередині кожного варіанта розкид (розсіяння) ознаки. Цей розкид має назву внутрішньогрупової (випадкової) дисперсії.

Таким чином, відносна роль окремих факторів у загальній мінливості результативної ознаки характеризується дисперсією та може бути вивчена за допомогою дисперсійного аналізу або аналізу розсіювання

Дисперсійний аналіз заснований на порівнянні міжгрупової та внутрішньогрупової дисперсій. Якщо міжгрупова дисперсія вбирається у внутрішньогрупову, отже, різницю між групами мають випадковий характер. Якщо міжгрупова дисперсія істотно вище, ніж внутрішньогрупова, то між групами, що вивчаються (варіантами) існують статистично значущі відмінності, обумовлені дією досліджуваного в досвіді фактора.

З цього випливає, що з статистичному вивченні результативного ознаки з допомогою дисперсійного аналізу слід визначити його варіювання за варіантами, повторенням, залишкове варіювання усередині цих груп і загальне варіювання результативного ознаки досвіді. Відповідно до цього розрізняють три види дисперсій:

1) Загальну дисперсію результативної ознаки (S y 2);

2) Міжгрупову, або приватну між вибірками (S y 2);

3) Внутрішньогрупову, залишкову (S z 2).

Отже, дисперсійний аналізце розчленування загальної суми квадратів відхилень і загального числа ступенів свободи на частини або компоненти, що відповідають структурі експерименту, та оцінка значущості дії та взаємодії факторів, що вивчаються за F-критерієм. Залежно від кількості одночасно досліджуваних факторів розрізняють дво-, три-, чотирифакторний дисперсійний аналіз.

При обробці польових однофакторних статистичних комплексів, що складаються з декількох незалежних варіантів, загальна мінливість результативної ознаки, що вимірюється загальною сумою квадратів (С y), розчленовується на три компоненти: варіювання між варіантами (вибірками) – С V , варіювання повторень (варіанти пов'язані між собою) контрольованою умовою - наявністю організованих повторень) - С p і варіювання всередині варіантів С z . У загальній формі мінливість ознаки представлена ​​таким виразом:

З y = З V + З p + З z.

Загальна кількість ступенів свободи (N-1) також розчленовується на три частини:

ступеня свободи варіантів (l – 1);

ступеня свободи для повторень (n - 1);

випадкового варіювання (n - 1) × (l - 1).

Суми квадратів відхилень, за даними польового досвіду – статистичного комплексу з варіантами – l та повтореннями – n, знаходять так. Спочатку за допомогою вихідної таблиці визначають суми за повтореннями - Σ P, варіантами - Σ V і загальну суму всіх спостережень - Σ X.

Потім обчислюють такі показники:

Загальна кількість спостережень N = l × n;

Коригуючий фактор (поправку) З кор = (Σ X 1) 2/N;

Загальну суму квадратів Cy = X 1 2 - C кор;

Суму квадратів для повторень C p = P 2 / (l -C кор);

Суму квадратів для варіантів C V = V 2 / (n - 1);

Суму квадратів для помилки (залишок) C Z = C y - C p - C V .

Отримані суми квадратів C V і C Z поділяють на відповідні їм ступені свободи і одержують два середні квадрати (дисперсії):

Варіантів S v 2 = C V / l - 1;

Помилки S Z 2 = C Z / (n - 1) × (l - 1).

Оцінка суттєвості різниць між середніми.Отримані середні квадрати використовують у дисперсійному аналізі для оцінки значущості дії факторів, що вивчаються шляхом порівняння дисперсії варіантів (S v 2) з дисперсією помилки (S Z 2) за критерієм Фішера (F = S Y 2 / S Z 2). За одиницю порівняння приймають середній квадрат випадкової дисперсії, що визначає випадкову помилку експерименту.

Застосування критерію Фішера дозволяє встановити наявність або відсутність істотних відмінностей між середніми вибірковими, але не вказує конкретних відмінностей між середніми.

Перевірюваною H o - гіпотезою є припущення - всі вибіркові середні є оцінками однієї генеральної середньої і різницю між ними несуттєві. Якщо F факт = S Y 2 / S Z 2 ≤ F теор, То нульова гіпотеза не відкидається. Між вибірковими середніми немає суттєвих відмінностей, і на цьому перевірка закінчується. Нульова гіпотеза відкидається при F факт = S Y 2 / S Z 2 ≥ F теорЗначення F-критерію для прийнятого у дослідженні рівня значущості знаходять у відповідній таблиці з урахуванням ступенів свободи для дисперсії варіантів та випадкової дисперсії. Зазвичай користуються 5% рівнем значимості, а при більш строгому підході 1% - ним і навіть 0,1%-ним.

Для вибірки обсягу n вибіркова дисперсія обчислюється як сума квадратів відхилень від вибіркового середнього, поділена на n-1(Обсяг вибірки мінус одиниця). Таким чином, при фіксованому обсязі вибірки n дисперсія є функція суми квадратів (відхилень), що позначається для стислості, SS (від англійської Sum of Squares - Сума квадратів). Далі слово вибіркова ми часто опускаємо, чудово розуміючи, що розглядається вибіркова дисперсія чи оцінка дисперсії. В основі дисперсійного аналізу лежить поділ дисперсії на частини або компоненти.

SS помилок та SSефект.Внутрішньогрупова мінливість ( SS) зазвичай називається залишковою компонентою або дисперсією помилки.Це означає, що зазвичай під час проведення експерименту вона може бути передбачена чи пояснена. З іншого боку, SS ефекту(або компонент дисперсії між групами) можна пояснити різницею між середніми значеннями в групах. Іншими словами, приналежність до певної групи пояснюєміжгрупову мінливість, т.к. нам відомо, що ці групи мають різні середні значення.

Основна логіка дисперсійного аналізу.Підсумовуючи, можна сказати, що метою дисперсійного аналізу є перевірка статистичної значущості різницю між середніми (для груп чи змінних). Ця перевірка проводиться з допомогою розбиття суми квадратів компоненти, тобто. за допомогою розбиття загальної дисперсії (варіації) на частини, одна з яких обумовлена ​​випадковою помилкою (тобто внутрішньогруповою мінливістю), а друга пов'язана з різницею середніх значень. Остання компонент дисперсії потім використовується для аналізу статистичної значущості відмінності між середніми значеннями. Якщо це відмінність значимонульова гіпотеза відкидаєтьсяі приймається альтернативна гіпотеза існування різниці між середніми.

Залежні та незалежні змінні.Змінні, значення яких визначається за допомогою вимірювань у ході експерименту (наприклад, бал, набраний під час тестування), називаються залежнимизмінними. Змінні, якими можна керувати під час проведення експерименту (наприклад, методи навчання чи інші критерії, що дозволяють розділити спостереження групи чи класифікувати) називаються факторамиабо незалежнимизмінними.

Безліч факторів.Світ за своєю природою складний і багатовимірний. Ситуації, коли деяке явище повністю описується однією змінною, надзвичайно рідкісні. Наприклад, якщо ми намагаємося навчитися вирощувати великі помідори, слід розглядати фактори, пов'язані з генетичною структурою рослин, типом ґрунту, освітленістю, температурою тощо. Таким чином, при проведенні типового експерименту доводиться мати справу з великою кількістю факторів. Основна причина, через яку використання дисперсійного аналізу краще повторного порівняння двох вибірок при різних рівнях факторів за допомогою серій t-критерію, у тому, що дисперсійний аналіз значно більше ефективнийі для малих вибірок, більш інформативний.

Висновок.Дисперсійний аналіз розроблено та введено в практику сільськогосподарських та біологічних досліджень англійським ученим Р. А. Фішером . Сутність дисперсійного аналізу полягає, у розкладанні загальної мінливості ознаки та загальної кількості ступенів свободи на складові частини, відповідні структурі польового досвіду, а також в оцінці фактора, що діє, за критерієм Фішера.

Де Загальна мінливість ознаки, обумовлена ​​дією питання, що вивчається, неоднорідністю грунтової родючості і випадковими помилками в досвіді.

Варіювання врожаїв за повтореннями польового досвіду.

Варіювання врожаїв за варіантами досвіду, пов'язане з дією досліджуваного питання.

Варіювання врожаїв, пов'язане з випадковими помилками у досвіді.

Висновоку дисперсійному аналізі робиться відповідно до таких правил:

1. У досвіді є суттєві відмінності, якщо Fфактична ≥Fтеоритична. У досвіді немає істотних відмінностей, якщо F

2. НСР – Найменша істотна різниця, використовується визначення різниці між варіантами. Якщо різниця d НСР, то відмінності між варіантами суттєві. Якщо d< НСР, то различия между вариантами не существенные.

Групиваріантів.

1. Якщо різниця d-суттєва, і вказує на підвищення врожайності, то варіанти відносяться до 1 групи.

2. Якщо різниця d-не істотна, то варіанти відносяться до 2 групи.

3. Якщо різниця d-суттєва, але вказує на зниження врожайності, то варіанти відносяться до 3 групи.

Вибір формулидисперсійного аналізу залежить від методів розміщення варіантів у досвіді:

1. Для організованих повторень:

2. Для неорганізованих повторень.

5.1. Що таке дисперсійний аналіз?

Дисперсійний аналіз розроблений у 20-х роках XX століття англійським математиком та генетиком Рональдом Фішером. За даними опитування серед учених, де з'ясовувалося, хто найсильніше вплинув на біологію XX століття, першість отримав саме сер Фішер (за свої заслуги він був нагороджений лицарським званням - однією з найвищих відмінностей у Великій Британії); у цьому плані Фішер порівняємо з Чарльзом Дарвіном, який надав найбільше впливом геть біологію ХІХ століття.

Дисперсійний аналіз (Analis of variance) є окремою галуззю статистики. Він заснований на відкритому Фішером факті, що міру мінливості досліджуваної величини можна розкласти на частини, що відповідають факторам, що впливають на цю величину, і випадковим відхиленням.

Щоб зрозуміти суть дисперсійного аналізу, ми виконаємо однотипні розрахунки двічі: «вручну» (з калькулятором) та за допомогою програми Statistica. Для спрощення нашого завдання ми працюватимемо не з результатами дійсного опису різноманітності зелених жаб, а з вигаданим прикладом, який стосується порівняння жінок та чоловіків у людей.Розглянемо різноманітність зростання 12 дорослих осіб: 7 жінок та 5 чоловіків.

Таблиця 5.1.1. Приклад для однофакторного дисперсійного аналізу: дані про поле та зростання 12 людей

Проведемо однофакторний дисперсійний аналіз: порівняємо, статистично значимо чи ні чи відрізняються чоловіки і жінки в охарактеризованій групі зростання.

5.2. Тест на нормальність розподілу

Подальші міркування ґрунтуються на тому, що розподіл у вибірці, що розглядається, нормальний або близький до нормального. Якщо розподіл далеко від нормального, дисперсія (варіансу) не є адекватним заходом його мінливості. Втім, дисперсійний аналіз щодо стійкий до відхилень розподілу від нормальності.

Тест цих даних на нормальність можна провести двома різними способами. Перший: Statistics/Basic Statistics/Tables/Descriptive statistics/Вкладка Normality. У вкладці Normality можна вибрати тести нормальності розподілу. При натисканні на кнопку Frequency tables з'явиться частотна таблиця, а кнопки Histograms – гістограма. На таблиці та гістограмі будуть наведені результати різних тестів.

Другий спосіб пов'язаний з використанням відповідних можливостей при побудові гістограм. У діалозі побудови гістограм (Grafs/Histograms...) слід вибрати вкладку Advanced. У її нижній частині є блок Statistics. Відзначимо на ній Shapiro-Wilk t est і Kolmogorov-Smirnov test, як показано на малюнку.

Мал. 5.2.1. Статистичні тести на нормальність розподілу у діалозі побудови гістограм

Як видно з гістограми, розподіл зростання у нашій вибірці відрізняється від нормального (у середині – «провал»).


Мал. 5.2.2. Гістограма, побудована з параметрами, вказаними на попередньому малюнку

Третій рядок у заголовку графіка вказує параметри нормального розподілу, до якого виявився найближчий розподіл. Генеральне середнє становить 173, генеральне стандартне відхилення – 10,4. Внизу у врізанні на графіку вказані результати тестів на нормальність. D – це критерій Колмогорова-Смирнова, а SW-W – Шапіро-Вилка. Як видно, для всіх використаних тестів відмінності розподілу за зростанням від нормального розподілу виявилися статистично незначними ( p у всіх випадках більше ніж 0,05).

Отже, формально кажучи, тести на відповідність розподілу нормальному не заборонили нам використовувати параметричний метод, заснований на припущенні про нормальний розподіл. Як уже сказано, дисперсійний аналіз щодо стійкий до відхилень від нормальності, тому ми ним таки скористаємося.

5.3. Однофакторний дисперсійний аналіз: обчислення «вручну»

Для характеристики мінливості зростання людей у ​​наведеному прикладі обчислимо суму квадратів відхилень (англійською позначається як SS , Sum of Squares або ) окремих значень від середнього: . Середнє значення для зростання у наведеному прикладі становить 173 сантиметри. Виходячи з цього,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Отримана величина (1192) - міра мінливості всієї сукупності даних. Однак вони складаються із двох груп, для кожної з яких можна виділити свою середню. У наведених даних середнє зростання жінок – 168 см, а чоловіків – 180 см.

Обчислимо суму квадратів відхилень для жінок:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Також обчислимо суму квадратів відхилень для чоловіків:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

Від чого залежить досліджувана величина відповідно до логіки дисперсійного аналізу?

Дві обчислені величини, SS f і SS m , характеризують внутрішньогрупову варіансу, яку дисперсійному аналізі прийнято називати «помилкою». Походження цієї назви пов'язане з наступною логікою.

Від чого залежить зростання людини в цьому прикладі? Насамперед, від середнього зростання людей взагалі, незалежно від їхньої статі. У другу чергу – від статі. Якщо люди однієї статі (чоловічої) вище, ніж іншої (жіночої), це можна уявити у вигляді додавання із «загальнолюдської» середньої якоїсь величини, ефекту статі. Нарешті, люди однієї статі відрізняються зростанням через індивідуальні відмінності. У рамках моделі, що описує зростання як суму загальнолюдської середньої та поправки на підлогу, індивідуальні відмінності незрозумілі, і їх можна розглядати як помилку.

Отже, відповідно до логіки дисперсійного аналізу, досліджувана величина визначається наступним чином: , де x ij - i-те значення величини, що вивчається при j-тому значенні досліджуваного фактора; - генеральне середнє; F j - Вплив j-того значення досліджуваного фактора; - «помилка», вклад індивідуальності об'єкта, до якого належить величинаx ij .

Міжгрупова сума квадратів

Отже, SS помилки = SS f + SS m = 212 + 560 = 772. Цією величиною ми описали внутрішньогрупову мінливість (при виділенні груп за статтю). Але є й друга частина мінливості – міжгрупова, яку ми назвемоSS ефекту (оскільки йдеться про ефект поділу сукупності об'єктів, що розглядаються на жінок і чоловіків).

Середнє кожної групи відрізняється від загальної середньої. Обчислюючи внесок цієї відмінності в загальну міру мінливості, ми повинні помножити відмінність групової та загальної середньої кількості об'єктів у кожній групі.

SS ефекту = 7×(168–173) 2 + 5×(180–173) 2 = 7×52 + 5×72 = 7×25 + 5×49 = 175 + 245 = 420.

Тут виявився відкритий Фішером принцип сталості суми квадратів: SS = SS ефект + SS помилки , тобто. для цього прикладу, 1192 = 440 + 722.

Середні квадрати

Порівнюючи в нашому прикладі міжгрупову та внутрішньогрупову суми квадратів, ми можемо побачити, що перша пов'язана з варіюванням двох груп, а друга - 12 величин у 2 групах. Кількість ступенів свободи ( df ) для якогось параметра може бути визначено як різницю кількості об'єктів у групі та кількості залежностей (рівнянь), що пов'язує ці величини.

У нашому прикладі df ефекту = 2–1 = 1, а df помилки = 12–2 = 10.

Ми можемо поділити суми квадратів на число їх ступенів свободи, отримавши середні квадрати ( MS , Means of Squares). Зробивши це, ми можемо встановити, що MS - ні що інше, як варіанси («дисперсії», результат розподілу суми квадратів на ступінь свободи). Після цього ми можемо зрозуміти структуру таблиці дисперсійного аналізу. Для нашого прикладу вона матиме такий вигляд.

Ефект

Помилка

МS ефекту і МS помилки є оцінками міжгрупової та внутрішньогрупової варіанси, і, отже, їх можна порівняти за критеріємF (Критерію Снедекору, названому на честь Фішера), призначеному для порівняння варіанс. Цей критерій є просто приватним від поділу більшої варіанси на меншу. У нашому випадку це 420/77,2 = 5,440.

Визначення статистичної значущості критерію Фішера за таблицями

Якби ми визначали статистичну значущість ефекту вручну, за таблицями, нам необхідно було б порівняти отримане значення критерію F з критичним, який відповідає певному рівню статистичної значущості при заданих ступенях свободи.


Мал. 5.3.1. Фрагмент таблиці з критичними значеннями критерію F

Як можна переконатися, рівня статистичної значимості p=0,05 критичне значення критеріюF складає 4,96. Це означає, що в нашому прикладі дія статі, що вивчалася, зареєстрована з рівнем статистичної значущості 0,05.

Отриманий результат можна інтерпретувати так. Імовірність нульової гіпотези, згідно з якою середнє зростання жінок і чоловіків однакове, а зареєстрована різниця в їхньому зростанні пов'язана з випадковістю при формуванні вибірок, становить менше 5%. Це означає, що ми повинні вибрати альтернативну гіпотезу, яка полягає в тому, що середнє зростання жінок і чоловіків відрізняється.

5.4. Однофакторний дисперсійний аналіз ( ANOVA) у пакеті Statistica

У тих випадках, коли розрахунки здійснюються не вручну, а за допомогою відповідних програм (наприклад, пакета Statistica) p визначається автоматично. Можна переконатися, що вона дещо вища за критичне значення.

Щоб проаналізувати обговорюваний приклад за допомогою найпростішого варіанта дисперсійного аналізу, потрібно запустити для файлу з відповідними даними процедуру Statistics/ANOVA і вибрати у вікні Type of analysis варіант One-way ANOVA (однофакторний дисперсійний аналіз), а у вікні Specification method – варіант Qui .


Мал. 5.4.1. Діалог General ANOVA/MANOVA (Дисперсійний аналіз)

У вікні швидкого діалогу, що відкрилося, в полі Variables потрібно вказати ті стовпці, які містять дані, мінливість яких ми вивчаємо (Dependent variable list; у нашому випадку - стовпець Growth), а також стовпець, що містять значення, що розбивають досліджувану величину на групи (Catigorical predictor ( factor); у нашому випадку – стовпець Sex). У цьому варіанті аналізу, на відміну багатофакторного аналізу, може розглядатися лише одне чинник.


Мал. 5.4.2. Діалог One-Way ANOVA (Однофакторний дисперсійний аналіз)

У вікні Factor codes слід вказати ті значення фактора, що розглядається, які потрібно обробляти в ході даного аналізу. Усі наявні значення можна переглянути за допомогою кнопки Zoom; якщо, як і нашому прикладі, потрібно розглядати все значення чинника (а статі у прикладі їх лише два), можна натиснути кнопку All. Коли задані стовпці, що обробляються, і коди фактора, можна натиснути кнопку OK і перейти у вікно швидкого аналізу результатів: ANOVA Results 1, у вкладку Quick.

Мал. 5.4.3. Вкладка Quick вікна результатів дисперсійного аналізу

Кнопка All effects/Graphs дозволяє побачити, як співвідносяться середні дві групи. Над графіком вказується число ступенів свободи, а також значення F і p для фактора, що розглядається.


Мал. 5.4.4. Графічне відображення результатів дисперсійного аналізу

Кнопка All effects дозволяє отримати таблицю дисперсійного аналізу, аналогічну до описаної вище (з деякими суттєвими відмінностями).


Мал. 5.4.5. Таблиця з результатами дисперсійного аналізу (порівняйте з аналогічною табличкою, отриманою "вручну")

У нижньому рядку таблиці вказано суму квадратів, кількість ступенів свободи та середні квадрати для помилки (внутрішньогрупової мінливості). На рядок вище – аналогічні показники для досліджуваного фактора (у даному випадку – ознаки Sex), а також критерій F (Ставлення середніх квадратів ефекту до середніх квадратів помилки), і рівень його статистичної значущості. Те, що дію аналізованого чинника виявилося статистично значущим, свідчить про виділення червоним кольором.

А в першому рядку наведено дані за показником Intercept. Ця рядок таблиці представляє загадку для користувачів, що долучаються до пакета Statistica у його 6-й або пізнішій версії. Розмір Intercept (перетин, перехоплення), мабуть, пов'язані з розкладанням суми квадратів всіх значень даних (тобто. 1862 + 1692 … = 360340). Вказане для неї значення критерію F отримано шляхом розподілу MS Intercept/MS Error = 353220/77,2 = 4575,389 і, природно, дає дуже низьке значення p . Цікаво, що в Statistica-5 ця величина взагалі не обчислювалася, а посібники з використання пізніших версій пакета ніяк не коментують її введення. Найкраще, що може зробити біолог, що працює з пакетом Statistica-6 та наступних версій, це просто ігнорувати рядок Intercept у таблиці дисперсійного аналізу.

5.5. ANOVA та критерії Стьюдента та Фішера: що краще?

Як ви могли помітити, ті дані, які ми порівнювали за допомогою дисперсійного однофакторного аналізу, ми могли досліджувати і за допомогою критеріїв Стьюдента і Фішера. Порівняємо ці два методи. Для цього обчислимо різницю у зростанні чоловіків та жінок з використанням цих критеріїв. Для цього нам доведеться пройти шляхом Statistics / Basic Statistics / t-test, independent, by groups. Природно, Dependent variables – це змінна Growth, а Grouping variable – змінна Sex.


Мал. 5.5.1. Порівняння даних, оброблених за допомогою ANOVA, за критеріями Стьюдента та Фішера

Як можна переконатися, результат той самий, що і під час використання ANOVA. p = 0,041874 в обох випадках, як показано на рис. 5.4.5, і показаному на рис. 5.5.2 (переконайтеся у цьому самі!).


Мал. 5.5.2. Результати аналізу (докладна розшифровка таблиці результатів - у пункті, присвяченому критерію Стьюдента)

Важливо підкреслити, що хоча критерій F з математичної точки зору в аналізованому аналізі за критеріями Стьюдента і Фішера той самий, що в ANOVA (і виражає відношення варіанс), зміст його в результатах аналізу, що представляються підсумковою таблицею, зовсім інший. При порівнянні за критеріями Стьюдента і Фішера порівняння середніх значень вибірок проводиться за критерієм Стьюдента і порівняння їх мінливості проводиться за критерієм Фішера. У результатах аналізу виводиться не сама варіансу, а її квадратний корінь – стандартне відхилення.

У дисперсійному аналізі, навпаки, критерій Фішера використовується для порівняння середніх різних вибірок (як ми обговорили, це здійснюється за допомогою поділу суми квадратів на частини та порівняння середньої суми квадратів, що відповідає між- та внутрішньогруповій мінливості).

Втім, наведена відмінність стосується радше подання результатів статистичного дослідження, ніж його суті. Як зазначає, наприклад, Гланц (1999, з. 99), порівняння груп за критерієм Стьюдента можна як окремий випадок дисперсійного аналізу для двох вибірок.

Отже, порівняння вибірок за критеріями Стьюдента і Фішера має одну важливу перевагу перед дисперсійним аналізом: у ньому можна порівняти вибірки з погляду їхньої мінливості. Але переваги дисперсійного аналізу все одно вагоміші. До них, наприклад, відноситься можливість одночасного порівняння кількох вибірок.

Розглянута схема дисперсійного аналізу диференціюється в залежності: а) від характеру ознаки, за яким сукупність підрозділена на групи (вибірки;); б) від числа ознак, за якими сукупність підрозділяється на групи (вибірки); в) від способу формування вибірок.

Значення ознаки. який підрозділяє сукупність групи можуть бути генеральну чи близьку до неї за чисельністю сукупність. І тут схема проведення дисперсійного аналізу відповідає вище розглянутої.

При збільшенні числа групувальних ознак, наприклад, до 2-х зростає число нульових і відповідно альтернативних гіпотез. У цьому випадку перша нульова гіпотеза говорить про відсутність відмінностей між середніми за групами першої групувальної ознаки, друга нульова гіпотеза говорить про відсутність відмінностей у середніх за групами другої групувальної ознаки і нарешті третя нульова гіпотеза говорить про відсутність так званого ефекту взаємодії факторів (групових).

За ефектом взаємодії розуміється така зміна значення результативної ознаки, яка може бути пояснена сумарною дією двох факторів.

Для перевірки трьох висунутих пар гіпотез необхідний розрахунок трьох фактичних значень критерію F-Фішера, що передбачає наступний варіант розкладання загального обсягу варіації

Необхідні для отримання F-критерію дисперсії отримують відомим способом поділивши обсяги варіації на кількість ступенів свободи.
Як відомо, вибірки можуть бути незалежними залежними. Якщо вибірки залежні, то загальному обсязі варіації слід виділити так звану варіацію по повторностям
. Якщо її не виділити, то ця варіація може істотно збільшити внутрішньогрупову варіацію (

), що може спотворити результати дисперсійного аналізу.

Запитання для повторення

17-1.У чому полягає конкретизація результатів дисперсійного аналізу?

17-2.

У якому разі для конкретизації використовується критерій Q-Тьюкі?

17-3.Что є різниці першого, другого тощо порядків?

17-4.

Як знайти фактичне значення критерію Q-Тьюкі?

17-5. Які гіпотези висувається щодо кожної різниці?

17-6.
) ?

Від чого залежить табличне значення критерію Q-Тьюкі?

17-7. Яка буде нульова гіпотеза, якщо рівні групувального ознаки є вибіркою?

17-8.Як розкладається загальний обсяг варіації при групуванні даних за двома ознаками?

Щодо яких статистичних характеристик висуваються гіпотези при дисперсійному аналізі?

    Щодо двох дисперсій

    Щодо однієї середньої

    Щодо кількох середніх

    Щодо однієї дисперсії

У чому зміст альтернативної гіпотези при дисперсійному аналізі?

    Порівнювані дисперсії не рівні між собою

    Усі середні середні не рівні між собою

    Хоча б дві генеральні середні не рівні між собою

    Міжгрупова дисперсія більше дисперсія внутрішньогрупова

Які рівні значущості найчастіше використовуються при дисперсійному аналізі

Якщо внутрішньогрупова варіація більша від варіації міжгрупової, чи слід продовжувати дисперсійний аналіз або відразу погодитися з Н0 або НА?

1. Чи слід продовжити, визначивши необхідні дисперсії?

2. Слід погодитись з Н0

3. Слід погодитись з НА

Якщо внутрішньогрупова дисперсія виявилася рівною міжгруповою, які мають бути дії, що проводить дисперсійний аналіз?

    Погодитися з нульовою гіпотезою про рівність генеральних середніх

    Погодитись з альтернативною гіпотезою про наявність хоча б пари середніх нерівних між собою

Яка дисперсія завжди має бути в чисельнику при розрахунку критерію F-фішера?

    Тільки внутрішньогрупова

    У будь-якому випадку міжгрупова

    Міжгрупова, якщо вона більша за внутрішньогрупову

Яким має бути фактичне значення критерію F-фішера?

    Завжди менше 1

    Завжди більше

    Рівним чи більше 1

Від чого залежить табличне значення критерію F-фішера?

1.Від прийнятого рівня значимості

2. Від числа ступенів свободи загальної варіації

3. Від числа ступенів свободи міжгрупової варіації

4. Від числа ступенів свободи внутрішньогрупової варіації

5. Від величини фактичного значення критерію F-фішера?

Збільшення числа спостережень у кожній групі за рівності дисперсій підвищує ймовірність прийняття ……

1.Нульової гіпотези

2.Альтернативна гіпотеза

3.Не впливає на прийняття як нульової, так і альтернативної гіпотези

У чому сенс конкретизації результатів дисперсійного аналізу?

    Уточнити чи правильно проведено розрахунки дисперсій

    Встановити які з генеральних середніх виявились рівними між собою

    Уточнити які із генеральних середніх не рівні між собою

Чи правильний вислів: «При конкретизації результатів дисперсійного аналізу всі середні генеральні виявилися рівними між собою»

    Може бути вірним та невірним

    Не вірно, це може мати місце внаслідок допущених помилок у розрахунках

Чи можна при конкретизації дисперсійного аналізу зробити висновок, що всі генеральні середні не рівні між собою?

1. Цілком можливо

2. Можливо у виняткових випадках

3. Неможливо у принципі.

4. Можливо тільки при допущенні помилок у розрахунках

Якщо за критерієм F-Фішера була прийнята нульова гіпотеза, чи потрібна конкретизація дисперсійного аналізу?

1. Потрібно

2.Не потрібно

3.На розсуд проводить дисперсійний аналіз

У якому разі конкретизації результатів дисперсійного аналізу використовується критерій Тьюки.?

1. Якщо кількість спостережень за групами (виборками) однакова

2. Якщо кількість спостережень за групами (вибірками) різна

3.Якщо є вибірки як з рівними, так і з нерівними чис-

лінностями

Що являє собою НРС при конкретизації результатів дисперсійного аналізу на основі критерію Тьюкі?

1.Твори середньої помилки на фактичне значення критерію

2. Добуток середньої помилки на табличне значення критерію

3. Відношення кожної різниці між вибірковими середніми

середньої помилки

4. Різниця між вибірковими середніми

Якщо вибіркова сукупність розбита на групи за 2 ознаками на скільки джерел як мінімум повинна бути розбита загальна варіація ознаки?

Якщо спостереження щодо вибірок (груп) є залежними, на скільки джерел має бути розбита загальна варіація (групувальна ознака одна)?

Яким є джерело (причина) міжгрупової варіації?

    Гра випадку

    Спільна дія гри випадку та фактора

    Дія фактора (чинників)

    З'ясується після проведення дисперсійного аналізу

Яким є джерело (причина) внутрішньогрупової варіації?

1.Гра випадку

2.Спільна дія гри випадку та фактора

3. Дія фактора (факторів)

4. З'ясується після проведення дисперсійного аналізу

Який спосіб перетворення вихідних даних використовується, якщо значення ознаки виражені у частках?

    Логарифмування

    Вилучення кореня

    Фі-перетворення

Лекція 8 Кореляція

Анотація

Найважливішим методом вивчення зв'язку між ознаками є метод кореляції. У цій лекції розкривається зміст цього методу, підходи до аналітичного вираження зв'язку. Особлива увага приділяється таким специфічним показникам, як показники тісноти зв'язку

Ключові слова

Кореляція.

Метод найменших квадратів. Коефіцієнт регресії. Коефіцієнти детермінації та кореляції.

    Розглянуті питання

    Етапи побудови кореляційного рівняння зв'язку. Інтерпретація коефіцієнтів рівняння

    Показники тісноти зв'язку

    Оцінка вибіркових показників зв'язку

Модульна одиниця 1. Сутність кореляційного зв'язку. Етапи побудови кореляційного рівняння зв'язку, інтерпретація коефіцієнтів рівняння.

Мета та завдання вивчення модульної одиниці 1полягають у з'ясуванні особливостей кореляційного зв'язку. освоєння алгоритму побудови рівняння зв'язку, з'ясування змісту коефіцієнтів рівняння.

      Сутність кореляційного зв'язку

У природних та суспільних явищах мають місце два типи зв'язків – зв'язок функціональний та зв'язок кореляційний.
При функціональному зв'язку кожному значенню аргументу відповідають строго певні (одне або кілька) значень функції. Прикладом функціонального зв'язку може бути зв'язок між довжиною кола і радіусом, який виражається рівнянням .Кожному значенню радіусу r . відповідає єдине значення довжини кола

1.2 L.

При кореляційному зв'язку кожному значенню факторного ознаки відповідає кілька недостатньо певних значень результативного ознаки.

Спочатку слід усвідомити причинно-наслідкові зв'язки, з'ясувати супідрядність ознак, тобто які є причинами (факторними ознаками) , які слідством (ознаками результативними). Причинно-наслідкові відносини між ознаками встановлюються теорією предмета, де використовується метод кореляції.

Встановивши наявність причинно- слідчих відносин, далі слід ці відносини формалізувати, тобто висловити з допомогою рівняння зв'язку, у своїй спочатку треба вибрати вид рівняння.

Для вибору виду рівняння можна рекомендувати низку прийомів. Можна звернутися до теорії того предмета, де використовується метод кореляції, скажімо, наука «агрохімія» можливо вже отримала відповідь на питання яким рівнянням слід висловити зв'язок: урожайність – добрива. Якщо такої відповіді немає, то вибору рівняння слід скористатися деякими емпіричними даними відповідним чином їх обробивши. Відразу слід сказати, що вибравши вид рівняння на основі емпіричних даних, треба ясно уявляти, що цей вид рівняння можна використовувати для опису зв'язку використаних даних. Основним прийомом обробки цих даних є побудова графіків, коли осі абсцис відкладаються значення факторного ознаки, але в осі ординат можливі значення ознаки результативного. Оскільки за визначенням тому самому значенню факторного ознаки відповідає безліч невизначених значень ознаки результативного, в результаті зазначених вище дій ми отримаємо деяку сукупність точок, що отримала назву кореляційного поля. Загальний вид кореляційного поля дозволяє в ряді випадків висловити припущення про можливий вид рівняння. про який піде нижче. Перш ніж перейти до розрахунків треба перевірити наскільки емпіричні дані, що залучаються для побудови рівняння, задовольняють деяким вимогам.

Після вибору рівняння наступним кроком є ​​розрахунок коефіцієнтів рівняння.
Розрахунок коефіцієнтів рівняння найчастіше проводиться з урахуванням методу найменших квадратів. З погляду кореляції використання методу найменших квадратів полягає в отриманні таких коефіцієнтів рівняння, щоб =min, тобто щоб сума квадратів відхилень фактичних значень результативної ознаки ( ) від розрахункових за рівнянням ( ) була величиною мінімальною. Ця вимога реалізується побудовою та рішенням відомої системи про нормальних рівнянь. Якщо як рівняння кореляційного зв'язку між y і x
вибрано рівняння прямої

, де система нормальних рівнянь, як відомо, буде такою: Вирішуючи цю систему щодоі a , b

отримаємо необхідні значення коефіцієнтів. Правильність розрахунку коефіцієнтів перевіряється рівністю

Навіщо застосовується дисперсійний аналіз?

Мета дисперсійного аналізу - дослідження наявності чи відсутності істотного впливу будь-якого якісного чи кількісного чинника зміни досліджуваного результативного ознаки. Для цього фактор, який, ймовірно, має або не має істотного впливу, поділяють на класи градації (інакше кажучи, групи) і з'ясовують, чи однаковий вплив фактора шляхом дослідження значущості між середніми в наборах даних, відповідних градаціям фактора. Приклади: досліджується залежність прибутку підприємства від типу використовуваної сировини (тоді класи градації - типи сировини), залежність собівартості випуску одиниці виробленої продукції від величини підрозділу підприємства (тоді класи градації - характеристики величини підрозділу: великий, середній, малий). При дисперсійному аналізі досліджується відношення двох дисперсій. Дисперсія, як знаємо - характеристика розсіювання даних навколо середнього значення. Перша - дисперсія, пояснена впливом фактора, яка характеризує розсіювання значень між градаціями фактора (групами) навколо всіх середніх даних. Друга - непояснена дисперсія, яка характеризує розсіювання даних усередині градацій (груп) навколо середніх значень самих груп. Першу дисперсію можна назвати міжгруповою, а другу – внутрішньогруповою. Відношення цих дисперсій називається фактичним ставленням Фішера та порівнюється з критичним значенням відношення Фішера. Якщо фактичне ставлення Фішера більше критичного, то середні класи градації відрізняються один від одного і досліджуваний фактор істотно впливає на зміну даних. Якщо менше, то середні класи градації не відрізняються один від одного і фактор не має істотного впливу.

Як формулюються, приймаються та відкидаються гіпотези при дисперсійному аналізі? При дисперсійному аналізі визначають питому вагу сумарного впливу однієї чи кількох чинників. Істотність впливу фактора визначається шляхом перевірки гіпотез:

  • H0 : μ 1 = μ 2 = ... = μ a, де Вирішуючи цю систему щодо- Число класів градації - всі класи градації мають одне значення середніх,
  • H1 : не всі μ iрівні - в повному обсязі класи градації мають одне значення середніх.

Якщо вплив фактора не суттєво, то несуттєва і різниця між класами градації цього фактора та у ході дисперсійного аналізу нульова гіпотеза H0 не відкидається. Якщо вплив фактора суттєвий, то нульова гіпотеза H0 відкидається: не всі класи градації мають те саме середнє значення, тобто серед можливих різниць між класами градації одна або кілька є суттєвими.

Ще деякі поняття дисперсійного аналізу. Статистичним комплексом у дисперсійному аналізі називається таблиця емпіричних даних. Якщо переважають у всіх класах градацій однакове число варіантів, то статистичний комплекс називається однорідним (гомогенным), якщо число варіантів різне - різнорідним (гетерогенним).

Залежно від кількості оцінюваних факторів розрізняють однофакторний, двофакторний та багатофакторний дисперсійний аналіз.

Однофакторний дисперсійний аналіз: суть методу, формули, приклади

Суть методу, формули

заснований на тому, що суму квадратів відхилень статистичного комплексу можна поділити на компоненти:

SS = SS a + SS e,

SS

SSa Вирішуючи цю систему щодосума квадратів відхилень,

SSe- непояснена сума квадратів відхилень або сума квадратів відхилень помилки.

Якщо через niпозначити кількість варіантів у кожному класі градації (групі) та Вирішуючи цю систему щодо- загальна кількість градацій фактора (груп), то - загальна кількість спостережень і можна отримати такі формули:

загальна кількість квадратів відхилень: ,

пояснена впливом фактора Вирішуючи цю систему щодосума квадратів відхилень: ,

непояснена сума квадратів відхилень або сума квадратів відхилень помилки: ,

- загальне середнє спостережень,

(групі).

Крім того,

де – дисперсія градації фактора (групи).

Щоб провести однофакторний дисперсійний аналіз даних статистичного комплексу, потрібно знайти фактичне відношення Фішера - відношення дисперсії, поясненої впливом фактора (міжрупової), та непоясненої дисперсії (внутрішньогрупової):

і порівняти його з критичним значенням Фішера.

Дисперсії розраховуються так:

Пояснена дисперсія,

Непояснена дисперсія,

va = Вирішуючи цю систему щодо − 1 - Число ступенів свободи поясненої дисперсії,

ve = nВирішуючи цю систему щодо - число ступенів свободи непоясненої дисперсії,

v = n

Критичне значення відносини Фішера з певними значеннями рівня значущості та ступенів свободи можна знайти у статистичних таблицях або розрахувати за допомогою функції MS Excel F.ОБР (рисунок нижче, для його збільшення клацнути по ньому лівою кнопкою миші).


Функція вимагає ввести такі дані:

Імовірність – рівень значущості α ,

Ступені_свободи1 - число ступенів свободи поясненої дисперсії va,

Ступені_свободи2 - число ступенів свободи непоясненої дисперсії ve.

Якщо фактичне значення відносини Фішера більше критичного (), то нульова гіпотеза відхиляється з рівнем значимості α . Це означає, що фактор суттєво впливає на зміну даних та дані залежні від фактора з ймовірністю P = 1 − α .

Якщо фактичне значення відносини Фішера менше критичного (), то нульова гіпотеза може бути відхилена з рівнем значимості α . Це означає, що фактор не істотно впливає на дані з ймовірністю P = 1 − α .

Однофакторний дисперсійний аналіз: приклади

приклад 1.Потрібно з'ясувати, чи впливає тип використовуваної сировини на прибуток підприємства. У шести класах градації (групах) фактора (1-й тип, 2-й тип і т.д.) зібрані дані про прибуток від виробництва 1000 одиниць продукції в мільйонах рублів на протязі 4 років.

Тип сировини2014 2015 2016 2017
1-й7,21 7,55 7,29 7,6
2-й7,89 8,27 7,39 8,18
3-й7,25 7,01 7,37 7,53
4-й7,75 7,41 7,27 7,42
5-й7,7 8,28 8,55 8,6
6-й7,56 8,05 8,07 7,84
Середнє
Дисперсія
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

Вирішуючи цю систему щодо= 6 та у кожному класі (групі) ni = 4спостереження. Загальна кількість спостережень n = 24 .

Числа ступенів свободи:

va = Вирішуючи цю систему щодо − 1 = 6 − 1 = 5 ,

ve = nВирішуючи цю систему щодо = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

Обчислимо дисперсії:

.

.

Оскільки фактичне ставлення Фішера більше критичного:

з рівнем значимості α = 0,05 робимо висновок, що прибуток підприємства залежно від виду сировини, використаної у виробництві, суттєво відрізняється.

Або те ж саме, відкидаємо основну гіпотезу про рівність середніх у всіх класах градації фактора (групах).

У щойно розглянутому прикладі у кожному класі градації фактора було однакове число варіантів. Але, як говорилося у вступній частині, кількість варіантів може бути різним. І це жодною мірою не ускладнює процедуру дисперсійного аналізу. Такий такий приклад.

приклад 2.Потрібно з'ясувати, чи існує залежність собівартості випуску одиниці виробленої продукції від величини підрозділи підприємства. Фактор (величина підрозділу) ділиться втричі класу градації (групи): малі, середні, великі. Узагальнено відповідні цим групам дані про собівартість випуску одиниці одного й того виду продукції за певний період.

малийсереднійвеликий
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Середнє58,6 54,0 51,0
Дисперсія128,25 65,00 107,60

Число класів градації фактора (груп) Вирішуючи цю систему щодо= 3 число спостережень у класах (групах) n1 = 4 , n2 = 7 , n3 = 6 . Загальна кількість спостережень n = 17 .

Числа ступенів свободи:

va = Вирішуючи цю систему щодо − 1 = 2 ,

ve = nВирішуючи цю систему щодо = 17 − 3 = 14 ,

v = n − 1 = 16 .

Обчислимо суми квадратів відхилень:

Обчислимо дисперсії:

,

.

Обчислимо фактичне ставлення Фішера:

.

Критичне значення відносини Фішера:

Так як фактичне значення відносини Фішера менше критичного: , робимо висновок, що розмір підрозділу підприємства не істотно впливає на собівартість випуску продукції.

Або, що саме, з ймовірністю 95% приймаємо основну гіпотезу у тому, що середня собівартість випуску одиниці однієї й тієї ж продукції малих, середніх і великих підрозділах підприємства істотно не відрізняється.

Однофакторний дисперсійний аналіз у MS Excel

Однофакторний дисперсійний аналіз можна провести за допомогою процедури MS Excel Однофакторний дисперсійний аналіз. Використовуємо його для аналізу даних зв'язку типу використовуваної сировини та прибутку підприємства з прикладу 1.

Сервіс/Аналіз данихі вибираємо засіб аналізу Однофакторний дисперсійний аналіз.

У віконці Вхідний інтервалвказуємо область даних (у разі це $A$2:$E$7). Вказуємо, як згрупований фактор - по стовпцям або рядкам (у нашому випадку по рядках). Якщо перший стовпець містить назви класів фактора, позначаємо галочкою вікно Мітки у першому стовпці. У вікні Альфавказуємо рівень значущості α = 0,05 .

У другій таблиці - Дисперсійний аналіз - містяться дані про величини для фактора між групами і всередині груп та підсумкових. Це сума квадратів відхилень (SS), кількість ступенів свободи (df), дисперсія (MS). В останніх трьох стовпцях - фактичне значення відношення Фішера (F), p-рівень (P-value) та критичне значення відношення Фішера (F crit).

MS F P-value F crit
0,58585 6,891119 0,000936 2,77285
0,085017

Так як фактичне значення відношення Фішера (6,89) більше критичного (2,77), з ймовірністю 95% відхиляємо нульову гіпотезу про рівність середніх продуктивності при використанні всіх типів сировини, тобто робимо висновок про те, що тип сировини, що використовується, впливає на прибуток підприємства.

Двофакторний дисперсійний аналіз без повторень: суть методу, формули, приклад

Двофакторний дисперсійний аналіз застосовується для того, щоб перевірити можливу залежність результативної ознаки від двох факторів. Aі B. Тоді Вирішуючи цю систему щодо- Число градацій фактора Aі a- Число градацій фактора B. У статистичному комплексі сума квадратів залишків поділяється на три компоненти:

SS = SS a + SS b + SS e,

- загальна сума квадратів відхилень,

- Пояснена впливом фактора Aсума квадратів відхилень,

- Пояснена впливом фактора Bсума квадратів відхилень,

- загальне середнє спостережень,

Середнє спостережень у кожній градації фактора A ,

B .

A ,

Дисперсія, пояснена впливом фактора B ,

va = Вирішуючи цю систему щодо − 1 A ,

vb = a − 1 - Число ступенів свободи дисперсії, поясненої впливом фактора B ,

ve = ( Вирішуючи цю систему щодо − 1)(a − 1)

v = ab− 1 – загальна кількість ступенів свободи.

Якщо фактори не залежать один від одного, то для визначення суттєвості факторів висуваються дві нульові гіпотези та відповідні альтернативні гіпотези:

для фактора A :

H0 : μ 1A = μ 2A = ... = μ aA,

H1 : не всі μ iAрівні;

для фактора B :

H0 : μ 1B = μ 2B = ... = μ aB,

H1 : не всі μ iBрівні.

A

Щоб визначити вплив фактора Bпотрібно фактичне ставлення Фішера порівняти з критичним ставленням Фішера.

α P = 1 − α .

α P = 1 − α .

Двофакторний дисперсійний аналіз без повторень: приклад

приклад 3.Дано інформацію про середнє споживання палива на 100 кілометрів у літрах залежно від обсягу двигуна та виду палива.

Потрібно перевірити, чи залежить споживання палива від об'єму двигуна та виду палива.

Рішення. Для фактора Aкількість класів градації Вирішуючи цю систему щодо= 3 для фактора Bкількість класів градації a = 3 .

Обчислюємо суми квадратів відхилень:

,

,

,

.

Відповідні дисперсії:

,

,

.

A . Оскільки фактичне ставлення Фішера менше критичного, з ймовірністю 95% приймаємо гіпотезу у тому, що обсяг двигуна впливає споживання палива. Однак якщо ми обираємо рівень значущості α = 0,1, то фактичне значення відношення Фішера і тоді з ймовірністю 95% можемо прийняти, що об'єм двигуна впливає споживання палива.

Фактичне ставлення Фішера до фактору B , критичне значення відносини Фішера: . Так як фактичне ставлення Фішера більше критичного значення відношення Фішера, з ймовірністю 95% приймаємо, що вид палива впливає його споживання.

Двофакторний дисперсійний аналіз без повторень у MS Excel

Двофакторний дисперсійний аналіз без повторень можна провести за допомогою процедури MS Excel. Використовуємо його для аналізу даних зв'язку типу виду палива та його споживання з прикладу 3.

У меню MS Excel виконуємо команду Сервіс/Аналіз данихі вибираємо засіб аналізу Двофакторний дисперсійний аналіз без повторень.

Заповнюємо дані так само, як і у випадку з однофакторним дисперсійним аналізом.


Внаслідок дії процедури виводяться дві таблиці. Перша таблиця – Підсумки. У ній містяться дані про всі класи градації фактора: кількість спостережень, сумарне значення, середнє значення та дисперсія.

У другій таблиці - Дисперсійний аналіз - містяться дані про джерела варіації: розсіювання між рядками, розсіювання між стовпцями, розсіювання помилки, загальне розсіювання, сума квадратів відхилень (SS), число ступенів свободи (df), дисперсія (MS). В останніх трьох стовпцях - фактичне значення відношення Фішера (F), p-рівень (P-value) та критичне значення відношення Фішера (F crit).

MS F P-value F crit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Чинник A(Обсяг двигуна) згурпований у рядках. Так як фактичне відношення Фішера 5,28 менше критичного 6,94, з ймовірністю 95% приймаємо, що споживання палива не залежить від обсягу двигуна.

Чинник B(вид палива) згрупований у стовпцях. Фактичне відношення Фішера 13,56 більше критичного 6,94 тому з ймовірністю 95% приймаємо, що споживання палива залежить від його виду.

Двофакторний дисперсійний аналіз із повтореннями: суть методу, формули, приклад

Двофакторний дисперсійний аналіз із повтореннями застосовується для того, щоб перевірити не тільки можливу залежність результативної ознаки від двох факторів. Aі B, але й можлива взаємодія факторів Aі B. Тоді Вирішуючи цю систему щодо- Число градацій фактора Aі a- Число градацій фактора B, .- Число повторень. У статистичному комплексі сума квадратів залишків поділяється на чотири компоненти:

SS = SS a + SS b + SS ab + SS e,

- загальна сума квадратів відхилень,

- Пояснена впливом фактора Aсума квадратів відхилень,

- Пояснена впливом фактора Bсума квадратів відхилень,

- Пояснена впливом взаємодії факторів A y Bсума квадратів відхилень,

- непояснена сума квадратів відхилень або сума квадратів відхилень помилки,

- загальне середнє спостережень,

- середнє спостережень у кожній градації фактора A ,

- середня кількість спостережень у кожній градації фактора B ,

Середня кількість спостережень у кожній комбінації градацій факторів Aі B ,

n = abr- загальна кількість спостережень.

Дисперсії обчислюються таким чином:

Дисперсія, пояснена впливом фактора A ,

Дисперсія, пояснена впливом фактора B ,

- дисперсія, пояснена взаємодією факторів A y B ,

- непояснена дисперсія або дисперсія помилки,

va = Вирішуючи цю систему щодо − 1 - Число ступенів свободи дисперсії, поясненої впливом фактора A ,

vb = a − 1 - Число ступенів свободи дисперсії, поясненої впливом фактора B ,

vab = ( Вирішуючи цю систему щодо − 1)(a − 1) - число ступенів свободи дисперсії, поясненої взаємодією факторів A y B ,

ve = ab(. − 1) - число ступенів свободи непоясненої дисперсії або дисперсії помилки,

v = abr− 1 – загальна кількість ступенів свободи.

Якщо фактори не залежать один від одного, то для визначення суттєвості факторів висуваються три нульові гіпотези та відповідні альтернативні гіпотези:

для фактора A :

H0 : μ 1A = μ 2A = ... = μ aA,

H1 : не всі μ iAрівні;

для фактора B :

Щоб визначити вплив взаємодії факторів Aі Bпотрібно фактичне ставлення Фішера порівняти з критичним ставленням Фішера.

Якщо фактичне ставлення Фішера більше критичного відношення Фішера, слід відхилити нульову гіпотезу з рівнем значимості α . Це означає, що фактор суттєво впливає на дані: дані залежать від фактора з ймовірністю P = 1 − α .

Якщо фактичне ставлення Фішера менше критичного ставлення Фішера, слід прийняти нульову гіпотезу з рівнем значимості α . Це означає, що фактор не істотно впливає на дані з ймовірністю P = 1 − α .

Двофакторний дисперсійний аналіз із повтореннями: приклад

про взаємодію факторів A y B: фактичне ставлення Фішера менше критичного, отже, взаємодія рекламної кампанії та конкретного магазину не суттєво.

Двофакторний дисперсійний аналіз із повтореннями в MS Excel

Двофакторний дисперсійний аналіз із повтореннями можна провести за допомогою процедури MS Excel. Використовуємо його для аналізу даних про зв'язок доходів магазину з вибором конкретного магазину та рекламною кампанією на прикладі 4.

У меню MS Excel виконуємо команду Сервіс/Аналіз данихі вибираємо засіб аналізу Двофакторний дисперсійний аналіз із повтореннями.

Заповнюємо дані так само, як і у випадку з двофакторним дисперсійним аналізом без повторень, з тим доповненням, що у вікні число рядків для вибірки потрібно ввести число повторень.

Внаслідок дії процедури виводяться дві таблиці. Перша таблиця складається з трьох частин: дві перші відповідають кожній із двох рекламних кампаній, третя містить дані про обидві рекламні кампанії. У стовпцях таблиці міститься інформація про всі класи градації другого фактора – магазину: кількість спостережень, сумарне значення, середнє значення та дисперсія.

У другій таблиці - дані про суму квадратів відхилень (SS), число ступенів свободи (df), дисперсію (MS), фактичне значення відношення Фішера(F), p-рівень (P-value) та критичне значення відношення Фішера (F crit) для різних джерелах варіації: двох факторах, які дано у рядках (вибірка) та стовпцях, взаємодії факторів, помилки (всередині) та сумарних показниках (разом).

MS F P-value F crit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

Для фактора Bфактичне ставлення Фішера більше критичного, отже, з ймовірністю 95% доходів суттєво різняться між магазинами.

Для взаємодії факторів A y Bфактичне ставлення Фішера менше критичного, отже, з ймовірністю 95% взаємодія рекламної кампанії та конкретного магазину не суттєво.

Все на тему "Математична статистика"

Дисперсійний аналіз(Від латинського Dispersio - розсіювання / англійською Analysis Of Variance - ANOVA) застосовується для дослідження впливу однієї або декількох якісних змінних (факторів) на одну залежну кількісну змінну (відгук).

В основі дисперсійного аналізу лежить припущення про те, що одні змінні можуть розглядатися як причини (чинники, незалежні змінні): інші, як наслідки (залежні змінні). Незалежні змінні називають іноді регульованими факторами саме тому, що в експерименті дослідник має можливість варіювати ними і аналізувати результат, що виходить.

Основною метою дисперсійного аналізу(ANOVA) є дослідження значущості різниці між середніми за допомогою порівняння (аналізу) дисперсій. Розподіл загальної дисперсії на кілька джерел дозволяє порівняти дисперсію, викликану різницею між групами, з дисперсією, викликаною внутрішньогруповою мінливістю. При істинності нульової гіпотези (про рівність середніх у кількох групах спостережень, вибраних з генеральної сукупності), оцінка дисперсії, пов'язаної із внутрішньогруповою мінливістю, має бути близька до оцінки міжгрупової дисперсії. Якщо ви просто порівнюєте середні у двох вибірках, дисперсійний аналіз дасть той же результат, що і звичайний t-критерій для незалежних вибірок (якщо порівнюються дві незалежні групи об'єктів або спостережень) або t-критерій для залежних вибірок (якщо порівнюються дві змінні на одному і тому ж безлічі об'єктів або спостережень).

Сутність дисперсійного аналізу полягає в розчленуванні загальної дисперсії ознаки, що вивчається, на окремі компоненти, зумовлені впливом конкретних факторів, і перевірці гіпотез про значущість впливу цих факторів на досліджувану ознаку. Порівнюючи компоненти дисперсії один з одним за допомогою F-критерію Фішера можна визначити, яка частка загальної варіативності результативної ознаки обумовлена ​​дією регульованих факторів.

Вихідним матеріалом для дисперсійного аналізу служать дані дослідження трьох і більше вибірок : , які можуть бути як рівними, і нерівними за чисельністю, як зв'язковими, і несвязными. За кількістю регульованих факторів, що виявляються, дисперсійний аналіз може бути однофакторним(при цьому вивчається вплив одного фактора на результати експерименту), двофакторним(при вивченні впливу двох факторів) та багатофакторним(дозволяє оцінити як вплив кожного з чинників окремо, а й їх взаємодія).

Дисперсійний аналіз відноситься до групи параметричних методів і тому його слід застосовувати лише тоді, коли доведено, що розподіл є нормальним.

Дисперсійний аналіз використовують, якщо залежна змінна вимірюється в шкалі відносин, інтервалів або порядку, а змінні, що впливають, мають нечислову природу (шкала найменувань).

Приклади завдань

У завданнях, які вирішуються дисперсійним аналізом, присутній відгук числової природи, який впливає кілька змінних, мають номінальну природу. Наприклад, кілька видів раціонів відгодівлі худоби або два способи їх утримання тощо.

Приклад 1:Протягом тижня у трьох різних місцях працювало кілька аптечних кіосків. Надалі ми можемо залишити лише один. Необхідно визначити, чи існує статистично значуща відмінність між обсягами реалізації препаратів у кіосках. Якщо так, ми виберемо кіоск із найбільшим середньодобовим обсягом реалізації. Якщо ж різниця обсягу реалізації виявиться статистично незначною, то основою вибору кіоску мають бути інші показники.

Приклад 2:Порівняння контрастів групових середніх. Сім політичних уподобань упорядковані від вкрай ліберальні до вкрай консервативні, і лінійний контраст використовується для перевірки того, чи є відмінна від нуля тенденція до зростання середніх значень за групами - тобто чи є значуще лінійне збільшення середнього віку при розгляді груп, упорядкованих у напрямку від ліберальних до консервативних.

Приклад 3:Двофакторний дисперсійний аналіз. Кількість продажів товару, крім розмірів магазину, часто впливає розташування полиць з товаром. Даний приклад містить показники тижневих продажів, що характеризуються чотирма типами розташування полиць та трьома розмірами магазинів. Результати аналізу показують, що обидва фактори - розташування полиць з товаром і розмір магазину - впливають на кількість продажів, проте їх взаємодія значущою не є.

Приклад 4:Одномірний ANOVA: Рандомізований повноблоковий план із двома обробками. Досліджується вплив на припік хліба всіх можливих комбінацій трьох жирів та трьох розпушувачів тіста. Чотири зразки борошна, взяті з чотирьох різних джерел, служили як блокові фактори. Необхідно виявити значущість взаємодії жир-розпушувач. Після цього визначити різні можливості вибору контрастів, що дозволяють з'ясувати, які комбінації рівнів факторів різняться.

Приклад 5:Модель ієрархічного (гніздового) плану із змішаними ефектами. Вивчається вплив чотирьох випадково вибраних головок, вмонтованих у верстат, на деформацію скляних тримачів катодів, що виробляються. (Головки вмонтовані в верстат, так що та сама голівка не може використовуватися на різних верстатах). Ефект голівки обробляється як випадковий фактор. Статистики ANOVA показують, що між верстатами немає значних відмінностей, але є ознаки того, що головки можуть відрізнятися. Відмінність між усіма верстатами не значуща, але для двох їх різниця між типами головок значуща.

Приклад 6:Одновимірний аналіз повторних вимірів з використанням плану розщеплених ділянок. Цей експеримент проводився визначення впливу індивідуального рейтингу тривожності на складання іспиту у чотирьох послідовних спробах. Дані організовані так, щоб їх можна було розглядати як групи підмножин усієї множини даних ("усієї ділянки"). Ефект тривожності виявився незначним, а ефект спроби – значущий.

Список методів

  • Моделі факторного експерименту. Приклади: фактори, що впливають на успішність розв'язання математичних завдань; фактори, що впливають на обсяги продажів.

Дані складаються з кількох рядів спостережень (обробок), що розглядаються як реалізації незалежних між собою вибірок. Вихідна гіпотеза свідчить про відсутність розбіжності у обробках, тобто. передбачається, що це спостереження вважатимуться однією вибіркою із загальної сукупності:

  • Однофакторна параметрична модель: метод Шеффе.
  • Однофакторна непараметрична модель [Лагутін М.Б., 237]: критерій Краскела-Уолліса [Холлендер М., Вульф Д.А., 131], критерій Джонкхієра [Лагутін М.Б., 245].
  • Загальний випадок моделі із постійними факторами, теорема Кокрена [Афіфі А., Ейзен С., 234].

Дані являють собою дворазові повторні спостереження:

  • Двофакторна непараметрична модель: критерій Фрідмана [Лапач, 203], критерій Пейджа [Лагутін М.Б., 263]. Приклади: Порівняння ефективності методів виробництва, агротехнічних прийомів.
  • Двофакторна непараметрична модель для неповних даних

Історія

Звідки походить назва дисперсійний аналіз? Може здатися дивним, що порівняння середніх називається дисперсійним аналізом. Насправді це пов'язано з тим, що при дослідженні статистичної значущості відмінності між середніми двома (або кількома) групами, ми насправді порівнюємо (аналізуємо) вибіркові дисперсії. Фундаментальну концепцію дисперсійного аналізу запропоновано Фішером 1920 року. Можливо, природнішим був термін аналіз суми квадратів чи аналіз варіації, але з традиції використовується термін дисперсійний аналіз. Спочатку дисперсійний аналіз був розроблений для обробки даних, отриманих в ході спеціально поставлених експериментів, і вважався єдиним методом, що коректно досліджує причинні зв'язки. Метод застосовувався з метою оцінки експериментів у рослинництві. Надалі з'ясувалась загальнонаукова значущість дисперсійного аналізу для експериментів у психології, педагогіці, медицині та ін.

Література

  1. Шеффе Г.Дисперсійний аналіз. – М., 1980.
  2. Аренс Х. Лейтер Ю.Багатовимірний дисперсійний аналіз.
  3. Кобзар А. І.Прикладна математична статистика. - М: Фізматліт, 2006.
  4. Лапач С. Н., Чубенко О. В., Бабіч П. М.Статистика в науці та бізнесі. – Київ: Моріон, 2002.
  5. Лагутін М. Б.Наочна математична статистика. У двох томах. - М: П-центр, 2003.
  6. Афіфі А., Ейзен.Статистичний аналіз: Підхід із використанням ЕОМ.
  7. Холлендер М., Вульф Д.А.Непараметричні методи статистики.

Посилання

  • Дисперсійний аналіз – Електронний підручник StatSoft.


 


Читайте:



Сирники з сиру на сковороді - класичні рецепти пишних сирників Сирників з 500 г сиру

Сирники з сиру на сковороді - класичні рецепти пишних сирників Сирників з 500 г сиру

Інгредієнти: (4 порції) 500 гр. сиру 1/2 склянки борошна 1 яйце 3 ст. л. цукру 50 гр. ізюму (за бажанням) щіпка солі харчова сода на...

Салат "чорні перли" з чорносливом Салат чорна перлина з чорносливом

Салат

Доброго часу доби всім, хто прагне різноманітності щоденного раціону. Якщо вам набридли однакові страви, і ви хочете порадувати.

Лічо з томатною пастою рецепти

Лічо з томатною пастою рецепти

Дуже смачне лечо з томатною пастою, як болгарське лечо, заготівля на зиму. Ми у сім'ї так переробляємо (і з'їдаємо!) 1 мішок перцю. І кого б я...

Афоризми та цитати про суїцид

Афоризми та цитати про суїцид

Перед вами - цитати, афоризми та дотепні висловлювання про суїцид. Це досить цікава і неординарна добірка справжнісіньких «перлин...

feed-image RSS