Главная - Полы
Однофакторный дисперсионный анализ. Многофакторный дисперсионный анализ Дисперсионный анализ статья

Дисперсионный анализ основан на работах знаменитого математика Р.А.Фишера . Несмотря на достаточно солидный «возраст», данный метод до сих пор остается одним из основных при проведении биологических и сельскохозяйственных исследований. Идеи, положенные в основу дисперсионного анализа, широко используются во многих других методах математического анализа экспериментальных данных, а также при планировании биологических и сельскохозяйственных экспериментов.

Дисперсионный анализ позволяет:

1) сравнивать две или несколько выборочных средних;

2) одновременно изучать действие нескольких независимых факторов, при этом можно определить как эффект каждого фактора в изменчивости изучаемого признака, так и их взаимодействие;

3) правильно планировать научный эксперимент.

Изменчивость живых организмов проявляется в виде разброса или рассеяния значений отдельных признаков в пределах, которые определяются степенью биологической выравненности материала и характером взаимосвязей с условиями среды. Признаки, изменяющиеся под воздействием тех или иных причин, называют результативными .

Факторы это любые воздействия или состояния, разнообразие которых может так или иначе отражаться на разнообразии результативного признака. Под статистическим влиянием факторов в дисперсионном анализе понимается отражение в разнообразии результативного признака того разнообразия изучаемых факторов, которое организовано в исследовании.

Под разнообразием будем понимать наличие неодинаковых значений каждого признака у разных особей, объединенных в группу. Разнообразие группы особей по изучаемому признаку может иметь разную степень, которая обычно измеряется показателями разнообразия (или изменчивости): лимитами, средним квадратическим отклонением, коэффициентом вариации. В дисперсионном анализе степень разнообразия индивидуальных и средних значений признака измеряется и сравнивается особыми способами, составляющими специфику этого общего метода.

Организация факторов заключается в том, что каждому изучаемому фактору придается несколько значений. В соответствии с этими значениями каждый фактор разбивается на несколько градаций; для каждой градации подбирается по принципу случайной выборки несколько особей, у которых впоследствии и измеряется величина результативного признака.

Для того, чтобы выяснить степень и достоверность влияния изучаемых факторов, надо измерить и оценить ту часть общего разнообразия, которая вызывается этими факторами.

Факторы, влияющие на степень варьирования результативного признака, делятся на:

1)регулируемые

2) случайные

Регулируемые (систематические) факторы вызываются действием изучаемого в эксперименте фактора, который имеет в опыте несколько градаций. Градация фактора – это степень его воздействия на результативный признак. В соответствии с градациями признака выделяется несколько вариантов опыта для сравнения. Поскольку эти факторы предварительно обусловлены, их называют регулируемыми в исследованиях, т.е. заданными, зависящими от организации опыта. Следовательно, регулируемые факторы – факторы, действие которых изучается в опыте, именно они и обусловливают различия между средними выборочными разных вариантов–межгрупповую (факториальную) дисперсию.

Случайные факторы определяются естественным варьированием всех признаков биологических объектов в природе. Это неконтролируемые в опыте факторы. Они оказывают случайное влияние на результативный признак, обусловливают экспериментальные ошибки и определяют внутри каждого варианта разброс (рассеяние) признака. Этот разброс носит название внутригрупповой (случайной) дисперсии .

Таким образом, относительная роль отдельных факторов в общей изменчивости результативного признака характеризуется дисперсией и может быть изучена с помощью дисперсионного анализа или анализа рассеяния

Дисперсионный анализ основан на сравнении межгрупповой и внутригрупповой дисперсий . Если межгрупповая дисперсия не превышает внутригрупповую, значит, различия между группами имеют случайный характер. Если межгрупповая дисперсия существенно выше, чем внутригрупповая, то между изучаемыми группами (вариантами) существуют статистически значимые различия, обусловленные действием изучаемого в опыте фактора.

Из этого следует, что при статистическом изучении результативного признака при помощи дисперсионного анализа следует определить его варьирование по вариантам, повторениям, остаточное варьирование внутри этих групп и общее варьирование результативного признака в опыте. В соответствии с этим различают три вида дисперсий :

1) Общую дисперсию результативного признака (S y 2);

2) Межгрупповую, или частную, между выборками (S y 2);

3) Внутригрупповую, остаточную (S z 2).

Следовательно, дисперсионный анализ это расчленение общей суммы квадратов отклонений и общего числа степеней свободы на части или компоненты, соответствующие структуре эксперимента, и оценка значимости действия и взаимодействия изучаемых факторов по F-критерию. В зависимости от числа одновременно исследуемых факторов различают двух-, трех-, четырехфакторный дисперсионный анализ.

При обработке полевых однофакторных статистических комплексов, состоящих из нескольких независимых вариантов, общая изменчивость результативного признака, измеряемая общей суммой квадратов (С y), расчленяется на три компонента: варьирование между вариантами (выборками) – С V , варьирование повторений (варианты связаны между собой общим контролируемым условием – наличием организованных повторений) – С p и варьирование внутри вариантов С z . В общей форме изменчивость признака представлена следующим выражением:

С y = С V +С p + С z .

Общее число степеней свободы (N -1) также расчленяется на три части:

степени свободы для вариантов (l – 1);

степени свободы для повторений (n – 1);

случайного варьирования (n – 1) × (l – 1).

Суммы квадратов отклонений, по данным полевого опыта – статистического комплекса с вариантами – l и повторениями – n, находят следующим образом. Сначала с помощью исходной таблицы определяют суммы по повторениям – Σ P , вариантам – Σ V и общую сумму всех наблюдений - Σ X.

Затем вычисляют следующие показатели:

Общее число наблюдений N = l × n;

Корректирующий фактор (поправку) С кор = (Σ X 1) 2 / N;

Общую сумму квадратов Cy = Σ X 1 2 – C кор;

Сумму квадратов для повторений C p = Σ P 2 / (l –C кор);

Сумму квадратов для вариантов C V = Σ V 2 / (n – 1);

Сумму квадратов для ошибки (остаток) C Z = C y - C p - C V .

Полученные суммы квадратов C V и C Z делят на соответствующие им степени свободы и получают два средних квадрата (дисперсии):

Вариантов S v 2 = C V / l – 1;

Ошибки S Z 2 = C Z / (n – 1)×(l – 1).

Оценка существенности разностей между средними. Полученные средние квадраты используют в дисперсионном анализе для оценки значимости действия изучаемых факторов путем сравнения дисперсии вариантов (S v 2) с дисперсией ошибки (S Z 2) по критерию Фишера (F = S Y 2 / S Z 2). За единицу сравнения принимают средний квадрат случайной дисперсии, который определяет случайную ошибку эксперимента.

Применение критерия Фишера позволяет установить наличие или отсутствие существенных различий между выборочными средними, но не указывает конкретных различий между средними.

Проверяемой H o – гипотезой является предположение - все выборочные средние являются оценками одной генеральной средней и различия между ними несущественны. Если F факт = S Y 2 / S Z 2 ≤ F теор , то нулевая гипотеза не отвергается. Между выборочными средними нет существенных различий, и на этом проверка заканчивается. Нулевая гипотеза отвергается при F факт = S Y 2 / S Z 2 ≥ F теор Значение F- критерия для принятого в исследовании уровня значимости находят в соответствующей таблице с учетом степеней свободы для дисперсии вариантов и случайной дисперсии. Обычно пользуются 5%-ным уровнем значимости, а при более строгом подходе 1% - ным и даже 0,1%-ным.

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS(от английского Sum of Squares – Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты.:

SS ошибок и SS эффекта. Внутригрупповая изменчивость (SS ) обычно называется остаточной компонентой или дисперсией ошибки. Это означает, что обычно при проведении эксперимента она не может быть предсказана или объяснена. С другой стороны, SS эффекта (или компоненту дисперсии между группами) можно объяснить различием между средними значениями в группах. Иными словами, принадлежность к некоторой группе объясняет межгрупповую изменчивость, т.к. нам известно, что эти группы обладают разными средними значениями.

Основная логика дисперсионного анализа. Подводя итоги, можно сказать, что целью дисперсионного анализа является проверка статистической значимости различия между средними (для групп или переменных). Эта проверка проводится с помощью разбиения суммы квадратов на компоненты, т.е. с помощью разбиения общей дисперсии (вариации) на части, одна из которых обусловлена случайной ошибкой (то есть внутригрупповой изменчивостью), а вторая связана с различием средних значений. Последняя компонента дисперсии затем используется для анализа статистической значимости различия между средними значениями. Если это различие значимо , нулевая гипотеза отвергается и принимается альтернативная гипотеза о существовании различия между средними.

Зависимые и независимые переменные. Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными.

Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t- критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен.

Вывод. Дисперсионный анализ разработан и введен в практику сельскохозяйственных и биологических исследований английским ученым Р. А. Фишером. Сущность дисперсионного анализа заключается, в разложении общей изменчивости признака и общего числа степеней свободы на составляющие части, соответствующие структуре полевого опыта, также в оценке действующего фактора по критерию Фишера.

Где Общая изменчивость признака, обусловленная действием изучаемого вопроса, неоднородностью почвенного плодородия и случайными ошибками в опыте.

Варьирование урожаев по повторениям полевого опыта.

Варьирование урожаев по вариантам опыта, связанное с действием изучаемого вопроса.

Варьирование урожаев, связанное со случайными ошибками в опыте.

Вывод в дисперсионном анализе делается согласно следующим правилам:

1. В опыте есть существенные различия, если Fфактическое ≥Fтеоритическое. В опыте нет существенных различий, если Fфактическое

2. НСР – Наименьшая существенная разность, используестся для определения разности между вариантами. Если разность d≥ НСР, то различия между вариантами существенные. Если d< НСР, то различия между вариантами не существенные.

Группы вариантов.

1. Если разница d– существенная, и указывает на повышение урожайности, то варианты относятся к 1 группе.

2. Если разница d– не существенная, то варианты относятся ко 2 группе.

3. Если разница d– существенная, но указывает на снижение урожайности, то варианты относятся к 3 группе.

Выбор формулы дисперсионного анализа зависит от методов размещения вариантов в опыте:

1. Для организованных повторений:

2. Для неорганизованных повторений.

5.1. Что такое дисперсионный анализ?

Дисперсионный анализ разработан в 20-х годах XX века английским математиком и генетиком Рональдом Фишером. По данным опроса среди ученых, где выяснялось, кто сильнее всего повлиял на биологию XX века, первенство получил именно сэр Фишер (за свои заслуги он был награжден рыцарским званием - одним из высших отличий в Великобритании); в этом отношении Фишер сравним с Чарльзом Дарвином, оказавшим наибольшее влияние на биологию XIX века.

Дисперсионный анализ (Analis of variance) является сейчас отдельной отраслью статистики. Он основан на открытом Фишером факте, что меру изменчивости изучаемой величины можно разложить на части, соответствующие влияющим на эту величину факторам и случайным отклонениям.

Чтобы понять суть дисперсионного анализа, мы выполним однотипные расчеты дважды: «вручную» (с калькулятором) и с помощью программы Statistica. Для упрощения нашей задачи мы будем работать не с результатами действительного описания разнообразия зеленых лягушек, а с вымышленным примером, который касается сравнения женщин и мужчин у людей. Рассмотрим разнообразие роста 12 взрослых человек: 7 женщин и 5 мужчин.

Таблица 5.1.1. Пример для однофакторного дисперсионного анализа: данные о поле и росте 12 людей

Проведем однофакторный дисперсионный анализ: сравним, статистически значимо или нет отличаются ли мужчины и женщины в охарактеризованной группе по росту.

5.2. Тест на нормальность распределения

Дальнейшие рассуждения основываются на том, что распределение в рассматриваемой выборке нормальное или близкое к нормальному. Если распределение далеко от нормального, дисперсия (варианса) не является адекватной мерой его его изменчивости. Впрочем, дисперсионный анализ относительно устойчив к отклонениям распределения от нормальности.

Тест этих данных на нормальность можно провести двумя разными способами. Первый: Statistics / Basic Statistics/Tables / Descriptive statistics / Вкладка Normality. Во вкладке Normality можно выбрать используемые тесты нормальности распределения. При нажатии на кнопку Frequency tables появится частотная таблица, а кнопки Histograms - гистограмма. На таблице и гистограмме будут приведены результаты различных тестов.

Второй способ связан с использованием соответствующих возможнойтсей при построении гистограмм. В диалоге построения гистограмм (Grafs / Histograms...) следует выбрать вкладку Advanced. В ее нижней части есть блок Statistics. Отметим на ней Shapiro-Wilk test и Kolmogorov-Smirnov test, как это показано на рисунке.

Рис. 5.2.1. Статистические тесты на нормальность распределения в диалоге построения гистограмм

Как видно по гистограмме, распределение роста в нашей выборке отличается от нормального (в середине - «провал»).


Рис. 5.2.2. Гистограмма, построенная с параметрами, указанными на предыдущем рисунке

Третья строка в заголовке графика указывает параметры нормального распределения, к которому оказалось ближе всего наблюдаемое распределение. Генеральное среднее составляет 173, генеральное стандартное отклонение - 10,4. Внизу во врезке на графике указаны результаты тестов на нормальность. D - это критерий Колмогорова-Смирнова, а SW-W - Шапиро-Вилка. Как видно, для всех использованных тестов отличия распределения по росту от нормального распределения оказались статистически незначимыми (p во всех случаях больше, чем 0,05).

Итак, формально говоря, тесты на соответствие распределения нормальному не «запретили» нам использовать параметрический метод, основанный на предположении о нормальном распределении. Как уже сказано, дисперсионный анализ относительно устойчив к отклонениям от нормальности, поэтому мы им все-таки воспользуемся.

5.3. Однофакторный дисперсионный анализ: вычисления «вручную»

Для характеристики изменчивости роста людей в приведенном примере вычислим сумму квадратов отклонений (в английском обозначается как SS , Sum of Squares или ) отдельных значений от среднего: . Среднее значение для роста в приведенном примере составляет 173 сантиметра. Исходя из этого,

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

Полученная величина (1192) - мера изменчивости всей совокупности данных. Однако они состоят из двух групп, для каждой из которых можно выделить свою среднюю. В приведенных данных средний рост женщин - 168 см, а мужчин - 180 см.

Вычислим сумму квадратов отклонений для женщин:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

Также вычислим сумму квадратов отклонений для мужчин:

SS m = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

SS m = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

От чего зависит исследуемая величина в соответствии с логикой дисперсионного анализа?

Две вычисленные величины, SS f и SS m , характеризуют внутригрупповую вариансу, которую в дисперсионном анализе принято называть «ошибкой». Происхождение этого названия связано со следующей логикой.

От чего зависит рост человека в рассматриваемом примере? Прежде всего, от среднего роста людей вообще, вне зависимости от их пола. Во вторую очередь - от пола. Если люди одного пола (мужского) выше, чем другого (женского), это можно представить в виде сложения с «общечеловеческой» средней какой-то величины, эффекта пола. Наконец, люди одного пола отличаются по росту в силу индивидуальных отличий. В рамках модели, описывающей рост как сумму общечеловеческой средней и поправки на пол, индивидуальные отличия необъяснимы, и их можно рассматривать как «ошибку».

Итак, в соответствии с логикой дисперсионного анализа, исследуемая величина определяется следующим образом: , где x ij - i-тое значение изучаемой величины при j-том значении изучаемого фактора; - генеральное среднее; F j - влияние j-того значения изучаемого фактора; - «ошибка», вклад индивидуальности объекта, к которому относится величина x ij .

Межгрупповая сумма квадратов

Итак, SS ошибки = SS f + SS m = 212 + 560 = 772. Этой величиной мы описали внутригрупповую изменчивость (при выделении групп по полу). Но есть и вторая часть изменчивости - межгрупповая, которую мы назовем SS эффекта (поскольку речь идет об эффекте разделения совокупности рассматриваемых объектов на женщин и мужчин).

Среднее каждой группы отличается от общей средней. Вычисляя вклад этого отличия в общую меру изменчивости, мы должны умножить отличие групповой и общей средней на число объектов в каждой группе.

SS эффекта = = 7×(168–173) 2 + 5×(180–173) 2 = 7×52 + 5×72 = 7×25 + 5×49 = 175 + 245 = 420.

Здесь проявился открытый Фишером принцип постоянства суммы квадратов: SS = SS эффекта + SS ошибки , т.е. для данного примера, 1192 = 440 + 722.

Средние квадраты

Сравнивая в нашем примере межгрупповую и внутригрупповую суммы квадратов, мы можем увидеть, что первая связана с варьированием двух групп, а вторая - 12 величин в 2 группах. Количество степеней свободы (df ) для какого-то параметра может быть определено как разность количества объектов в группе и количества зависимостей (уравнений), которое связывает эти величины.

В нашем примере df эффекта = 2–1 = 1, а df ошибки = 12–2 = 10.

Мы можем разделить суммы квадратов на число их степеней свободы, получив средние квадраты (MS , Means of Squares). Сделав это, мы можем установить, что MS - ни что иное, как вариансы («дисперсии», результат деления суммы квадратов на число степеней свободы). После этого открытия мы можем понять структуру таблицы дисперсионного анализа. Для нашего примера она будет иметь следующий вид.

Эффект

Ошибка

МS эффекта и МS ошибки являются оценками межгрупповой и внутригрупповой вариансы, и, значит, их можно сравнить по критерию F (критерию Снедекора, названному в честь Фишера), предназначенному для сравнения варианс. Этот критерий представляет собой просто частное от деления большей вариансы на меньшую. В нашем случае это 420 / 77,2 = 5,440.

Определение статистической значимости критерия Фишера по таблицам

Если бы мы определяли статистическую значимость эффекта вручную, по таблицам, нам было бы необходимо сравнить полученное значение критерия F с критическим, соответствующим определенному уровню статистической значимости при заданных степенях свободы.


Рис. 5.3.1. Фрагмент таблицы с критическими значениями критерия F

Как можно убедиться, для уровня статистической значимости p=0,05 критическое значение критерия F составляет 4,96. Это означает, что в нашем примере действие изучавшегося пола зарегистрировано с уровнем статистической значимости 0,05.

Полученный результат можно интерпретировать так. Вероятность нулевой гипотезы, согласно которой средний рост женщин и мужчин одинаков, а зарегистрированная разница в их росте связана со случайностью при формировании выборок, составляет менее 5%. Это означает, что мы должны выбрать альтернативную гипотезу, заключающуюся в том, что средний рост женщин и мужчин отличается.

5.4. Однофакторный дисперсионный анализ (ANOVA) в пакете Statistica

В тех случаях, когда расчеты производятся не вручную, а с помощью соответствующих программ (например, пакета Statistica) величина p определяется автоматически. Можно убедиться, что она несколько выше критического значения.

Чтобы проанализировать обсуждаемый пример с помощью простейшего варианта дисперсионного анализа, нужно запустить для файла с соответствующими данными процедуру Statistics / ANOVA и выбрать в окне Type of analysis вариант One-way ANOVA (однофакторный дисперсионный анализ), а в окне Specification method - вариант Quick specs dialog.


Рис. 5.4.1. Диалог General ANOVA/MANOVA (Дисперсионный анализ)

В открывшемся окне быстрого диалога в поле Variables нужно указать те столбцы, которые содержат данные, изменчивость которых мы изучаем (Dependent variable list; в нашем случае - столбец Growth), а также столбец, содержащие значения, разбивающие изучаемую величину на группы (Catigorical predictor (factor); в нашем случае - столбец Sex). В данном варианте анализа, в отличие от многофакторного анализа, может рассматриваться только один фактор.


Рис. 5.4.2. Диалог One-Way ANOVA (Однофакторный дисперсионный анализ)

В окне Factor codes следует указать те значения рассматриваемого фактора, которые нужно обрабатывать в ходе данного анализа. Все имеющиеся значения можно посмотреть с помощью кнопки Zoom; если, как в нашем примере, нужно рассматривать все значения фактора (а для пола в нашем примере их всего два), можно нажать кнопку All. Когда заданы обрабатываемые столбцы и коды фактора, можно нажать кнопку OK и перейти в окно быстрого анализа результатов: ANOVA Results 1, во вкладку Quick.

Рис. 5.4.3. Вкладка Quick окна результатов дисперсионного анализа

Кнопка All effects/Graphs позволяет увидеть, как соотносятся средние двух групп. Над графиком указывается число степеней свободы, а также значения F и p для рассматриваемого фактора.


Рис. 5.4.4. Графическое отображение результатов дисперсионного анализа

Кнопка All effects позволяет получить таблицу дисперсионного анализа, аналогичную описанной выше (с некоторыми существенными отличиями).


Рис. 5.4.5. Таблица с результатами дисперсионного анализа (сравните с аналогичной табличей, полученной "вручную")

В нижней строке таблицы указана сумма квадратов, количество степеней свободы и средние квадраты для ошибки (внутригрупповой изменчивости). На строку выше - аналогичные показатели для исследуемого фактора (в данном случае - признака Sex), a также критерий F (отношение средних квадратов эффекта к средним квадратам ошибки), и уровень его статистической значимости. То, что действие рассматриваемого фактора оказалось статистически значимым, показывает выделение красным цветом.

А в первой строке приведены данные по показателю «Intercept». Эта строка таблицы представляет загадку для пользователей, приобщающихся к пакету Statistica в его 6-й или более поздней версии. Величина Intercept (пересечение, перехват), вероятно, связана с разложением суммы квадратов всех значений данных (т.е. 1862 + 1692 … = 360340). Указанное для нее значение критерия F получено путем деления MS Intercept /MS Error = 353220 / 77,2 = 4575,389 и, естественно, дает очень низкое значение p . Интересно, что в Statistica-5 эта величина вообще не вычислялась, а руководства по использованию более поздних версий пакета никак не комментируют ее введение. Вероятно, лучшее, что может сделать биолог, работающий с пакетом Statistica-6 и последующих версий, это попросту игнорировать строку Intercept в таблице дисперсионного анализа.

5.5. ANOVA и критерии Стьюдента и Фишера: что лучше?

Как вы могли заметить, те данные, которые мы сравнивали с помощью однофакторного дисперсионного анализа, мы могли исследовать и с помощью критериев Стьюдента и Фишера. Сравним эти два метода. Для этого вычислим разницу в росте мужчин и женщин с использованием этих критериев. Для этого нам придется пройти по пути Statistics / Basic Statistics / t-test, independent, by groups. Естественно, Dependent variables - это переменная Growth, а Grouping variable - переменная Sex.


Рис. 5.5.1. Сравнение данных, обработанных с помощью ANOVA, по критериям Стьюдента и Фишера

Как можно убедиться, результат тот же самый, что и при использовании ANOVA. p = 0,041874 в обоих случаях, как показанном на рис. 5.4.5, так и показанном на рис. 5.5.2 (убедитесь в этом сами!).


Рис. 5.5.2. Результаты анализа (подробная расшифровка таблицы результатов - в пункте, посвященном критерию Стьюдента)

Важно подчеркнуть, что хотя критерий F с математической точки зрения в рассматриваемом анализе по критериям Стьюдента и Фишера тот же самый, что в ANOVA (и выражает отношение варианс), смысл его в результатах анализа, представляемых итоговой таблицей, совсем иной. При сравнении по критериям Стьюдента и Фишера сравнение средних значений выборок проводится по критерию Стьюдента, и сравнение их изменчивости проводится по критерию Фишера. В результатах анализа выводится не сама варианса, а ее квадратный корень - стандартное отклонение.

В дисперсионном анализе, напротив, критерий Фишера используется для сравнения средних разных выборок (как мы обсудили, это осуществляется с помощью разделения суммы квадратов на части и сравнения средней суммы квадратов, соответствующей меж- и внутригрупповой изменчивости).

Впрочем, приведенное отличие касается скорее представления результатов статистического исследования, чем его сути. Как указывает, например, Гланц (1999, с. 99), сравнение групп по критерию Стьюдента можно рассматривать как частный случай дисперсионного анализа для двух выборок.

Итак, сравнение выборок по критериям Стьюдента и Фишера имеет одно важное преимущество перед дисперсионным анализом: в нем можно сравнить выборки с точки зрения их изменчивости. Но преимущества дисперсионного анализа все равно весомее. К их числу, например, относится возможность одновременного сравнения нескольких выборок.

Рассмотренная схема дисперсионного анализа дифференцируется в зависимости: а) от характера признака, по которому совокупность подразделена на группы (выборки;) ;б) от числа признаков, по которым совокупность подразделяется на группы (выборки) ; в) от способа формирования выборок.

Значения признака. который подразделяет совокупность на группы могут представлять собой генеральную или близкую к ней по численности совокупность. В этом случае схема проведения дисперсионного анализа соответствует выше рассмотренной. Если же значения признака, который формирует разные группы представляют собой выборку из генеральной совокупности, то меняется постановка нулевой и альтернативной гипотез. В качестве нулевой гипотезы выдвигается предположение, что между группами присутствуют различия, то есть групповые средние обнаруживают некоторую вариацию. В качестве альтернативной гипотезы выдвигается предположение, что колеблемость отсутствует. Очевидно, что при такой постановке гипотез нет оснований проводить конкретизацию результатов сопоставления дисперсий.

При увеличении числа группировочных признаков, например, до 2-х во- первых возрастает число нулевых и соответственно альтернативных гипотез. В этом случае первая нулевая гипотеза говорит об отсутствии различий между средними по группам первого группировочного признака, вторая нулевая гипотеза говорит об отсутствии различий в средних по группам второго группировочного признака и наконец третья нулевая гипотеза говорит об отсутствии так называемого эффекта взаимодействия факторов (группировочных признаков).

По эффектом взаимодействия понимается такое изменение значения результативного признака, которое не может быть объяснено суммарным действием двух факторов. Для проверки трех выдвинутых пар гипотез необходим расчет трех фактических значений критерия F- Фишера, что в свою очередь предполагает следующий вариант разложения общего объема вариации

Необходимые для получения F- критерия дисперсии получают известным способом поделив объемы вариации на число степеней свободы.

Как известно, выборки могут быть зависимыми независимыми. Если выборки зависимые, то в общем объеме вариации следует выделить так называемую вариацию по повторностям
. Если ее не выделить, то эта вариация может существенно увеличить вариацию внутригрупповую (
), что может исказить результаты дисперсионного анализа.

Вопросы для повторения

17-1.В чем состоит конкретизация результатов дисперсионного анализа?

17-2. В каком случае для конкретизации используется критерий Q-Тьюки?

17-3.Что представляют собой разницы первого, второго и так далее порядков?

17-4. Как найти фактическое значение критерия Q-Тьюки?

17-5.Какие гипотезы выдвигается относительно каждой разницы?

17-6. От чего зависит табличное значение критерия Q-Тьюки?

17-7. Какова будет нулевая гипотеза, если уровни группировочного признака представляют собой выборку?

17-8.Как раскладывается общий объем вариации при группировке данных по двум признакам?

17-9. В каком случае выделяется вариация по повторностям (
) ?

Резюме

Рассмотренный механизм конкретизации результатов дисперсионного анализа позволяет придать ему законченный вид. Следует обратить внимание на ограничения при использовании критерия Q-Тьюки. В материале были изложены также основные принципы классификации моделей дисперсионного анализа. Необходимо подчеркнуть, что это всего лишь принципы. Детальное изучение особенностей каждой модели требует отдельного более глубокого изучения.

Тестовые задания к лекции

Относительно каких статистических характеристик выдвигаются гипотезы при дисперсионном анализе?

    Относительно двух дисперсий

    Относительно одной средней

    Относительно нескольких средних

    Относительно одной дисперсии

В чем состоит содержание альтернативной гипотезы при дисперсионном анализе?

    Сравниваемые дисперсии не равны между собой

    Все сравниваемые средние не равны между собой

    Хотя бы две генеральные средние не равны между собой

    Межгрупповая дисперсии больше дисперсии внутригрупповой

Какие уровни значимости наиболее часто используемы при дисперсионном анализе

Если внутригрупповая вариация больше вариации межгрупповой, следует ли продолжать дисперсионный анализ или сразу согласиться с Н0 либо с НА?

1. Следует продолжить, определив необходимые дисперсии?

2. Следует согласиться с Н0

3. Следует согласиться с НА

Если внутригрупповая дисперсия оказалась равной межгрупповой, каковы должны последовать действия, проводящего дисперсионный анализ?

    Согласиться с нулевой гипотезой о равенстве генеральных средних

    Согласиться с альтернативной гипотезой о наличии хотя бы пары средних неравных между собой

Какая дисперсия всегда должна быть в числителе при расчете критерия F-Фишера?

    Только внутригрупповая

    В любом случае межгрупповая

    Межгрупповая, если она больше внутригрупповой

Каково должно быть фактическое значение критерия F-Фишера?

    Всегда меньше 1

    Всегда больше 1

    Равным или больше 1

От чего зависит табличное значение критерия F-Фишера?

1.От принятого уровня значимости

2. От числа степеней свободы общей вариации

3. От числа степеней свободы межгрупповой вариации

4. От числа степеней свободы внутригрупповой вариации

5. От величины фактического значения критерия F-Фишера?

Увеличение числа наблюдений в каждой группе при равенстве дисперсий повышает вероятность принятия ……

1.Нулевой гипотезы

2.Альтернативной гипотезы

3.Не влияет на принятие как нулевой,так и альтернативной гипотезы

В чем смысл конкретизации результатов дисперсионного анализа?

    Уточнить верно ли проведены расчеты дисперсий

    Установить какие из генеральных средних оказались равными между собой

    Уточнить какие из генеральных средних не равны между собой

Верно ли высказывание: « При конкретизации результатов дисперсионного анализа все средние генеральные оказались равными между собой»

    Может быть верным и неверным

    Не верно, это может иметь место вследствие допущенных ошибок в расчетах

Можно ли при конкретизации дисперсионного анализа прийти к выводу, что все генеральные средние не равны между собой?

1. Вполне возможно

2. Возможно в исключительных случаях

3. Невозможно в принципе.

4. Возможно только при допущении ошибок в расчетах

Если по критерию F-Фишера была принята нулевая гипотеза требуется ли конкретизация дисперсионного анализа?

1.Требуется

2.Не требуется

3.По усмотрению проводящего дисперсионный анализ

В каком случае для конкретизации результатов дисперсионного анализа используется критерий Тьюки.?

1. Если число наблюдений по группам (выборкам) одинаково

2. Если число наблюдений по группам (выборкам) разное

3.Если имеются выборки как с равными,так и с неравными чис-

ленностями

Что представляет собой НСР при конкретизации результатов дисперсионного анализа на основе критерия Тьюки?

1.Произведение средней ошибки на фактическое значение критерия

2. Произведение средней ошибки на табличное значение критерия

3. Отношение каждой разницы между выборочными средними к

средней ошибке

4. Разность между выборочными средними

Если выборочная совокупность разбита на группы по 2- признакам на сколько источников как минимум должна быть разбита общая вариация признака?

Если наблюдения по выборкам (группам) являются зависимыми, на сколько источников должна быть разбита общая вариация (группировочный признак один) ?

Каков источник (причина) межгрупповой вариации?

    Игра случая

    Совместное действие игры случая и фактора

    Действие фактора (факторов)

    Выяснится после проведения дисперсионного анализа

Каков источник (причина) внутригрупповой вариации?

1.Игра случая

2.Совместное действие игры случая и фактора

3.Действие фактора (факторов)

4. Выяснится после проведения дисперсионного анализа

Какой способ преобразования исходных данных используется, если значения признака выражены в долях?

    Логарифмирование

    Извлечение корня

    Фи- преобразование

Лекция 8 Корреляция

Аннотация

Важнейшим методом изучения связи между признаками является метод корреляции. В данной лекции раскрывается содержание этого метода, подходы к аналитическому выражению этой связи. Особое внимание уделяется таким специфическим показателям, как показатели тесноты связи

Ключевые слова

Корреляция. Метод наименьших квадратов. Коэффициент регрессии. Коэффициенты детерминации и корреляции.

Рассматриваемые вопросы

    Связь функциональная и корреляционная

    Этапы построения корреляционного уравнения связи. Интерпретация коэффициентов уравнения

    Показатели тесноты связи

    Оценка выборочных показателей связи

Модульная единица 1 Сущность корреляционной связи. Этапы построения корреляционного уравнения связи, интерпретация коэффициентов уравнения.

Цель и задачи изучения модульной единицы 1 состоят в уяснении особенностей корреляционной связи. освоении алгоритма построения уравнения связи, уяснении содержания коэффициентов уравнения.

      Сущность корреляционной связи

В природных и общественных явлениях имеют место два типа связей – связь функциональная и связь корреляционная. При функциональной связи каждому значению аргумента соответствуют строго определенные (одно или несколько) значений функции. Примером функциональной связи может служить связь между длиной окружности и радиусом, которая выражается уравнением
. Каждому значению радиусаr соответствует единственное значение длины окружности L . При корреляционной связи каждому значению факторного признака соответствует несколько не вполне определенных значений результативного признака. Примерами корреляционной связи может служить связь между весом человека (результативный признак) и его ростом (признак факторный), связь между количеством внесенных удобрений и урожайностью, между ценой и количеством предлагаемого товара. Источником возникновения корреляционной связи является то обстоятельство, что,как правило, в реальной жизни значение результативного признака зависит от множества факторов, в том числе имеющих случайный характер своего изменения. Например, тот же вес человека зависит от возраста, пола., питания, рода занятий и множества других факторов. Но вместе с тем, очевидно, что в целом решающим фактором является именно рост. Ввиду указанных обстоятельств корреляционную связь следует определить как связь неполную, которую можно установить и оценить только при наличии большого числа наблюдений, в среднем.

1.2 Этапы построения корреляционного уравнения связи .

Как и функциональная связь, корреляционная связь выражается уравнением связи. Для его построения необходимо последовательно пройти следующие шаги (этапы).

Вначале следует уяснить причинно-следственные связи, выяснить соподчиненность признаков, то есть какие из них являются причинами (факторными признаками) , а какие следствием (признаками результативными). Причинно- следственные отношения между признаками устанавливаются теорией того предмета, где используется метод корреляции. Например, наука «анатомия человека» позволяет сказать каков источник взаимосвязи между весом и ростом, какой из этих признаков является фактором, какой результатом, наука «экономика» раскрывает логику взаимосвязи цены и предложения, устанавливает что и на каком этапе является причиной, а что следствием. Без такого предварительного теоретического обоснования интерпретация полученных в дальнейшем результатов затруднена, а иногда может привести к абсурдным выводам.

Установив наличие причинно- следственных отношений, далее следует эти отношения формализовать, то есть выразить с помощью уравнения связи, при этом сначала надо выбрать вид уравнения. Для выбора вида уравнения можно рекомендовать ряд приемов. Можно обратиться к теории того предмета, где используется метод корреляции, скажем наука «агрохимия» возможно уже получила ответ на вопрос каким уравнением следует выразить связь: урожайность – удобрения. Если такого ответа нет, то для выбора уравнения следует воспользоваться некими эмпирическими данными соответствующим образом их обработав. Сразу следует сказать, что выбрав вид уравнения на основе эмпирических данных, надо ясно представлять, что этот вид уравнения может быть использован для описания связи использованных данных. Основным приемом обработки этих данных является построение графиков, когда на оси абсцисс откладываются значения факторного признака, а на оси ординат возможные значения признака результативного. Поскольку по определению одному и тому же значению факторного признака соответствует множество неопределенных значений признака результативного, в результате указанных выше действий мы получим некоторую совокупность точек которая получила название корреляционного поля. Общий вид корреляционного поля позволяет в ряде случаев высказать предположение о возможном виде уравнения.. При современном развитии вычислительной техники одним из основных приемов выбора уравнения является перебор различных видов уравнений, при этом в качестве наилучшего выбирают то уравнение, которое обеспечивает самый высокий коэффициент детерминации, речь о котором пойдет ниже. Прежде чем перейти к расчетам надо проверить насколько привлекаемые для построения уравнения эмпирические данные удовлетворяют неким требованиям. Требования относятся к факторным признакам и к совокупности данных. Факторные признаки, если их несколько, должны быть независимыми друг от друга. Что касается совокупности то она должна быть во- первых однородна

(понятие однородности рассматривалось ранее), а во- вторых достаточно большой. На каждый факторный признак должно приходится не менее чем 8-10 наблюдений.

После выбора уравнения следующим шагом является расчет коэффициентов уравнения. Расчет коэффициентов уравнения чаще всего производится на основе метода наименьших квадратов. С точки зрения корреляции использование метода наименьших квадратов состоит в получении таких коэффициентов уравнения, чтобы
=min, то есть чтобы сумма квадратов отклонений фактических значений результативного признака () от расчетных по уравнению () была величиной минимальной. Это требование реализуется построением и решением известной системы так называемых нормальных уравнений. Если в качестве уравнения корреляционной связи междуy и x выбрано уравнение прямой
, где система нормальных уравнений, как известно будет такой:

Решая эту систему относительно a и b , получим необходимые значения коэффициентов. Правильность расчета коэффициентов проверяется равенством

Для чего применяется дисперсионный анализ? Цель дисперсионного анализа - исследование наличия или отсутствия существенного влияния какого-либо качественного или количественного фактора на изменения исследуемого результативного признака. Для этого фактор, предположительно имеющий или не имеющий существенного влияния, разделяют на классы градации (говоря иначе, группы) и выясняют, одинаково ли влияние фактора путём исследования значимости между средними в наборах данных, соответствующих градациям фактора. Примеры: исследуется зависимость прибыли предприятия от типа используемого сырья (тогда классы градации - типы сырья), зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия (тогда классы градации - характеристики величины подразделения: большой, средний, малый).

Минимальное число классов градации (групп) - два. Классы градации могут быть качественными либо количественными.

Почему дисперсионный анализ называется дисперсионным? При дисперсионном анализе исследуется отношение двух дисперсий. Дисперсия, как мы знаем - характеристика рассеивания данных вокруг среднего значения. Первая - дисперсия, объяснённая влиянием фактора, которая характеризует рассеивание значений между градациями фактора (группами) вокруг средней всех данных. Вторая - необъяснённая дисперсия, которая характеризует рассеивание данных внутри градаций (групп) вокруг средних значений самих групп. Первую дисперсию можно назвать межгрупповой, а вторую - внутригрупповой. Отношение этих дисперсий называется фактическим отношением Фишера и сравнивается с критическим значением отношения Фишера. Если фактическое отношение Фишера больше критического, то средние классов градации отличаются друг от друга и исследуемый фактор существенно влияет на изменение данных. Если меньше, то средние классов градации не отличаются друг от друга и фактор не имеет существенного влияния.

Как формулируются, принимаются и отвергаются гипотезы при дисперсионном анализе? При дисперсионном анализе определяют удельный вес суммарного воздействия одного или нескольких факторов. Существенность влияния фактора определяется путём проверки гипотез:

  • H 0 : μ 1 = μ 2 = ... = μ a , где a - число классов градации - все классы градации имеют одно значение средних,
  • H 1 : не все μ i равны - не все классы градации имеют одно значение средних.

Если влияние фактора не существенно, то несущественна и разница между классами градации этого фактора и в ходе дисперсионного анализа нулевая гипотеза H 0 не отвергается. Если влияние фактора существенно, то нулевая гипотеза H 0 отвергается: не все классы градации имеют одно и то же среднее значение, то есть среди возможных разниц между классами градации одна или несколько являются существенными.

Ещё некоторые понятия дисперсионного анализа. Статистическим комплексом в дисперсионном анализе называется таблица эмпирических данных. Если во всех классах градаций одинаковое число вариантов, то статистический комплекс называется однородным (гомогенным), если число вариантов разное - разнородным (гетерогенным).

В зависимости от числа оцениваемых факторов различают однофакторный, двухфакторый и многофакторный дисперсионный анализ.

Однофакторный дисперсионный анализ: суть метода, формулы, примеры

Суть метода, формулы

основан на том, что сумму квадратов отклонений статистического комплекса возможно разделить на компоненты:

SS = SS a + SS e ,

SS

SS a a сумма квадратов отклонений,

SS e - необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки.

Если через n i обозначить число вариантов в каждом классе градации (группе) и a - общее число градаций фактора (групп), то - общее число наблюдений и можно получить следующие формулы:

общее число квадратов отклонений: ,

объяснённая влиянием фактора a сумма квадратов отклонений: ,

необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки: ,

- общее среднее наблюдений,

(группе).

Кроме того,

где - дисперсия градации фактора (группы).

Чтобы провести однофакторный дисперсионный анализ данных статистического комплекса, нужно найти фактическое отношение Фишера - отношение дисперсии, объяснённой влиянием фактора (межрупповой), и необъяснённой дисперсии (внутригрупповой):

и сравнить его с критическим значением Фишера .

Дисперсии рассчитываются следующим образом:

Объяснённая дисперсия,

Необъяснённая дисперсия,

v a = a − 1 - число степеней свободы объяснённой дисперсии,

v e = n a - число степеней свободы необъяснённой дисперсии,

v = n

Критическое значение отношения Фишера с определёнными значениями уровня значимости и степеней свободы можно найти в статистических таблицах или рассчитать с помощью функции MS Excel F.ОБР (рисунок ниже, для его увеличения щёлкнуть по нему левой кнопкой мыши).


Функция требует ввести следующие данные:

Вероятность - уровень значимости α ,

Степени_свободы1 - число степеней свободы объяснённой дисперсии v a ,

Степени_свободы2 - число степеней свободы необъяснённой дисперсии v e .

Если фактическое значение отношения Фишера больше критического (), то нулевая гипотеза отклоняется с уровнем значимости α . Это означает, что фактор существенно влияет на изменение данных и данные зависимы от фактора с вероятностью P = 1 − α .

Если фактическое значение отношения Фишера меньше критического (), то нулевая гипотеза не может быть отклонена с уровнем значимости α . Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α .

Однофакторный дисперсионный анализ: примеры

Пример 1. Требуется выяснить, влияет ли тип используемого сырья на прибыль предприятия. В шести классах градации (группах) фактора (1-й тип, 2-й тип и т.д.) собраны данные о прибыли от производства 1000 единиц продукции в миллионах рублей в течении 4 лет.

Тип сырья 2014 2015 2016 2017
1-й 7,21 7,55 7,29 7,6
2-й 7,89 8,27 7,39 8,18
3-й 7,25 7,01 7,37 7,53
4-й 7,75 7,41 7,27 7,42
5-й 7,7 8,28 8,55 8,6
6-й 7,56 8,05 8,07 7,84
Среднее
Дисперсия
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

a = 6 и в каждом классе (группе) n i = 4 наблюдения. Общее число наблюдений n = 24 .

Числа степеней свободы:

v a = a − 1 = 6 − 1 = 5 ,

v e = n a = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

Вычислим дисперсии:

.

.

Так как фактическое отношение Фишера больше критического:

с уровнем значимости α = 0,05 делаем вывод, что прибыль предприятия в зависимости от вида сырья, использованного в производстве, существенно отличается.

Или, что то же самое, отвергаем основную гипотезу о равенстве средних во всех классах градации фактора (группах).

В только что рассмотренном примере в каждом классе градации фактора было одинаковое число вариантов. Но, как говорилось во вступительной части, число вариантов может быть и разным. И это ни в коей мере не усложняет процедуру дисперсионного анализа. Таков следующий пример.

Пример 2. Требуется выяснить, существует ли зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия. Фактор (величина подразделения) делится на три класса градации (группы): малые, средние, большие. Обобщены соответствующие этим группам данные о себестоимости выпуска единицы одного и того же вида продукции за некоторый период.

малый средний большой
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
Среднее 58,6 54,0 51,0
Дисперсия 128,25 65,00 107,60

Число классов градации фактора (групп) a = 3 , число наблюдений в классах (группах) n 1 = 4 , n 2 = 7 , n 3 = 6 . Общее число наблюдений n = 17 .

Числа степеней свободы:

v a = a − 1 = 2 ,

v e = n a = 17 − 3 = 14 ,

v = n − 1 = 16 .

Вычислим суммы квадратов отклонений:

Вычислим дисперсии:

,

.

Вычислим фактическое отношение Фишера:

.

Критическое значение отношения Фишера:

Так как фактическое значение отношения Фишера меньше критического: , делаем вывод, что размер подразделения предприятия не оказывает существенного влияния на себестоимость выпуска продукции.

Или, что то же самое, с вероятностью 95% принимаем основную гипотезу о том, что средняя себестоимость выпуска единицы одной и той же продукции в малых, средних и крупных подразделениях предприятия существенно не различается.

Однофакторный дисперсионный анализа в MS Excel

Однофакторный дисперсионный анализ можно провести с помощью процедуры MS Excel Однофакторный дисперсионный анализ . Используем его для анализа данных о связи типа используемого сырья и прибыли предприятия из примера 1.

Сервис/Анализ данных и выбираем средство анализа Однофакторный дисперсионный анализ .

В окошке Входной интервал указываем область данных (в нашем случае это $A$2:$E$7). Указываем, как сгруппирован фактор - по столбцам или по строкам (в нашем случае по строкам). Если первый столбец содержит названия классов фактора, помечаем галочкой окно Метки в первом столбце . В окне Альфа указываем уровень значимости α = 0,05 .

Во второй таблице - Дисперсионный анализ - содержатся данные о величинах для фактора между группами и внутри групп и итоговых. Это сумма квадратов отклонений (SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах - фактическое значение отношения Фишера(F), p-уровень (P-value) и критическое значение отношения Фишера (F crit).

MS F P-value F crit
0,58585 6,891119 0,000936 2,77285
0,085017

Так как фактическое значение отношения Фишера (6,89) больше критического (2,77), с вероятностью 95% отклоняем нулевую гипотезу о равенстве средних производительности при использовании всех типов сырья, то есть делаем вывод о том, что тип используемого сырья влияет на прибыль предприятия.

Двухфакторный дисперсионный анализ без повторений: суть метода, формулы, пример

Двухфакторный дисперсионный анализ применяется для того, чтобы проверить возможную зависимость результативного признака от двух факторов - A и B . Тогда a - число градаций фактора A и b - число градаций фактора B . В статистическом комплексе сумма квадратов остатков разделяется на три компоненты:

SS = SS a + SS b + SS e ,

- общая сумма квадратов отклонений,

- объяснённая влиянием фактора A сумма квадратов отклонений,

- объяснённая влиянием фактора B сумма квадратов отклонений,

- общее среднее наблюдений,

Среднее наблюдений в каждой градации фактора A ,

B .

A ,

Дисперсия, объяснённая влиянием фактора B ,

v a = a − 1 A ,

v b = b − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора B ,

v e = (a − 1)(b − 1)

v = ab − 1 - общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов выдвигаются две нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора A :

H 0 : μ 1A = μ 2A = ... = μ aA ,

H 1 : не все μ iA равны;

для фактора B :

H 0 : μ 1B = μ 2B = ... = μ aB ,

H 1 : не все μ iB равны.

A

Чтобы определить влияние фактора B , нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

α P = 1 − α .

α P = 1 − α .

Двухфакторный дисперсионный анализ без повторений: пример

Пример 3. Дана информация о среднем потреблении топлива на 100 километров в литрах в зависимости от объёма двигателя и вида топлива.

Требуется проверить, зависит ли потребление топлива от объёма двигателя и вида топлива.

Решение. Для фактора A число классов градации a = 3 , для фактора B число классов градации b = 3 .

Вычисляем суммы квадратов отклонений:

,

,

,

.

Соответствующие дисперсии:

,

,

.

A . Так как фактическое отношение Фишера меньше критического, с вероятностью 95% принимаем гипотезу о том, что объём двигателя не влияет на потребление топлива. Однако, если мы выбираем уровень значимости α = 0,1 , то фактическое значение отношения Фишера и тогда с вероятностью 95% можем принять, что объём двигателя влияет на потребление топлива.

Фактическое отношение Фишера для фактора B , критическое значение отношения Фишера: . Так как фактическое отношение Фишера больше критического значения отношения Фишера, с вероятностью 95% принимаем, что вид топлива влияет на его потребление.

Двухфакторный дисперсионный анализ без повторений в MS Excel

Двухфакторный дисперсионный анализ без повторений можно провести с помощью процедуры MS Excel . Используем его для анализа данных о связи типа вида топлива и его потребления из примера 3.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Двухфакторный дисперсионный анализ без повторений .

Заполняем данные также, как и в случае с однофакторным дисперсионным анализом.


В результате действия процедуры выводятся две таблицы. Первая таблица - Итоги. В ней содержатся данные обо всех классах градации фактора: число наблюдений, суммарное значение, среднее значение и дисперсия.

Во второй таблице - Дисперсионный анализ - содержатся данные об источниках вариации: рассеивании между строками, рассеивании между столбцами, рассеивании ошибки, общем рассеивании, сумма квадратов отклонений (SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах - фактическое значение отношения Фишера(F), p-уровень (P-value) и критическое значение отношения Фишера (F crit).

MS F P-value F crit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

Фактор A (объём двигателя) сгурппирован в строках. Так как фактическое отношение Фишера 5,28 меньше критического 6,94, с вероятностью 95% принимаем, что потребление топлива не зависит от объёма двигателя.

Фактор B (вид топлива) сгруппирован в столбцах. Фактическое отношение Фишера 13,56 больше критического 6,94, поэтому с вероятностью 95% принимаем, что потребление топлива зависит от его вида.

Двухфакторный дисперсионный анализ с повторениями: суть метода, формулы, пример

Двухфакторный дисперсионный анализ с повторениями применяется для того, чтобы проверить не только возможную зависимость результативного признака от двух факторов - A и B , но и возможное взаимодействие факторов A и B . Тогда a - число градаций фактора A и b - число градаций фактора B , r - число повторений. В статистическом комплексе сумма квадратов остатков разделяется на четыре компоненты:

SS = SS a + SS b + SS ab + SS e ,

- общая сумма квадратов отклонений,

- объяснённая влиянием фактора A сумма квадратов отклонений,

- объяснённая влиянием фактора B сумма квадратов отклонений,

- объяснённая влиянием взаимодействия факторов A и B сумма квадратов отклонений,

- необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки,

- общее среднее наблюдений,

- среднее наблюдений в каждой градации фактора A ,

- среднее число наблюдений в каждой градации фактора B ,

Среднее число наблюдений в каждой комбинации градаций факторов A и B ,

n = abr - общее число наблюдений.

Дисперсии вычисляются следующим образом:

Дисперсия, объяснённая влиянием фактора A ,

Дисперсия, объяснённая влиянием фактора B ,

- дисперсия, объяснённая взаимодействием факторов A и B ,

- необъяснённая дисперсия или дисперсия ошибки,

v a = a − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора A ,

v b = b − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора B ,

v ab = (a − 1)(b − 1) - число степеней свободы дисперсии, объяснённой взаимодействием факторов A и B ,

v e = ab (r − 1) - число степеней свободы необъяснённой дисперсии или дисперсии ошибки,

v = abr − 1 - общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов выдвигаются три нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора A :

H 0 : μ 1A = μ 2A = ... = μ aA ,

H 1 : не все μ iA равны;

для фактора B :

Чтобы определить влияние взаимодействия факторов A и B , нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Если фактическое отношение Фишера больше критического отношения Фишера, то следует отклонить нулевую гипотезу с уровнем значимости α . Это означает, что фактор существенно влияет на данные: данные зависят от фактора с вероятностью P = 1 − α .

Если фактическое отношение Фишера меньше критического отношения Фишера, то следует принять нулевую гипотезу с уровнем значимости α . Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α .

Двухфакторный дисперсионный анализ с повторениями: пример

о взаимодействии факторов A и B : фактическое отношение Фишера меньше критического, следовательно, взаимодействие рекламной кампании и конкретного магазина не существенно.

Двухфакторный дисперсионный анализ с повторениями в MS Excel

Двухфакторный дисперсионный анализ с повторениями можно провести с помощью процедуры MS Excel . Используем его для анализа данных о связи доходов магазина с выбором конкретного магазина и рекламной кампанией из примера 4.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Двухфакторный дисперсионный анализ с повторениями .

Заполняем данные также, как и в случае с двухфакторным дисперсионным анализом без повторений, с тем дополнением, что в окне число строк для выборки нужно ввести число повторений.

В результате действия процедуры выводятся две таблицы. Первая таблица состоит из трёх частей: две первые соответствуют каждой из двух рекламных кампаний, третья содержит данные об обеих рекламных кампаниях. В столбцах таблицы содержится информация обо всех классах градации второго фактора - магазина: число наблюдений, суммарное значение, среднее значение и дисперсия.

Во второй таблице - данные о сумме квадратов отклонений (SS), числе степеней свободы (df), дисперсии (MS), фактическом значение отношения Фишера(F), p-уровне (P-value) и критическом значении отношения Фишера (F crit) для различных источниках вариации: двух факторах, которые даны в строках (выборка) и столбцах, взаимодействии факторов, ошибки (внутри) и суммарных показателях (итого).

MS F P-value F crit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

Для фактора B фактическое отношение Фишера больше критического, следовательно, с вероятностью 95% доходы существенно различаются между магазинами.

Для взаимодействия факторов A и B фактическое отношение Фишера меньше критического, следовательно, с вероятностью 95% взаимодействие рекламной кампании и конкретного магазина не существенно.

Всё по теме "Математическая статистика"

Дисперсионный анализ (от латинского Dispersio – рассеивание / на английском Analysis Of Variance - ANOVA) применяется для исследования влияния одной или нескольких качественных переменных (факторов) на одну зависимую количественную переменную (отклик).

В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): , а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.

Основной целью дисперсионного анализа (ANOVA) является исследование значимости различия между средними с помощью сравнения (анализа) дисперсий. Разделение общей дисперсии на несколько источников, позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если вы просто сравниваете средние в двух выборках , дисперсионный анализ даст тот же результат, что и обычный t-критерий для независимых выборок (если сравниваются две независимые группы объектов или наблюдений) или t-критерий для зависимых выборок (если сравниваются две переменные на одном и том же множестве объектов или наблюдений).

Сущность дисперсионного анализа заключается в расчленении общей дисперсии изучаемого признака на отдельные компо­ненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Сравнивая компоненты дисперсии друг с другом посредством F-критерия Фишера , можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.

Исходным материалом для дисперсионного анализа служат данные исследования трех и более выборок : , которые могут быть как равными, так и неравными по численности, как связными, так и несвязными. По количеству выявляемых регулируемых факторов дисперсионный анализ может быть однофакторным (при этом изучается влияние одного фактора на результаты эксперимента), двухфакторным (при изучении влияния двух факторов) и многофакторным (позволяет оценить не только влияние каждого из факторов в отдельности, но и их взаимодействие).

Дисперсионный анализ относится к группе параметрических методов и поэтому его следует применять только тогда, когда доказано, что распределение является нормальным .

Дисперсионный анализ используют, если зависимая переменная измеряется в шкале отношений, интервалов или порядка, а влияющие переменные имеют нечисловую природу (шкала наименований).

Примеры задач

В задачах, которые решаются дисперсионным анализом, присутствует отклик числовой природы, на который воздействует несколько переменных, имеющих номинальную природу. Например, несколько видов рационов откорма скота или два способа их содержания и т.п.

Пример 1: В течение недели в трех разных местах работало несколько аптечных киосков. В дальнейшем мы можем оставить только один. Необходимо определить, существует ли статистически значимое отличие между объемами реализации препаратов в киосках. Если да, мы выберем киоск с наибольшим среднесуточным объемом реализации. Если же разница объема реализации окажется статистически незначимой, то основанием для выбора киоска должны быть другие показатели.

Пример 2: Cравнение контрастов групповых средних. Семь политических пристрастий упорядочены от крайне либеральные до крайне консервативные, и линейный контраст используется для проверки того, есть ли отличная от нуля тенденция к возрастанию средних значений по группам - т. е. есть ли значимое линейное увеличение среднего возраста при рассмотрении групп, упорядоченных в направлении от либеральных до консервативных.

Пример 3: Двухфакторный дисперсионный анализ. На количество продаж товара, помимо размеров магазина, часто влияет расположение полок с товаром. Данный пример содержит показатели недельных продаж, характеризуемые четырьмя типами расположения полок и тремя размерами магазинов. Результаты анализа показывают, что оба фактора - расположение полок с товаром и размер магазина -влияют на количество продаж, однако их взаимодействие значимым не является.

Пример 4: Одномерный ANOVA: Рандомизированный полноблочный план с двумя обработками. Исследуется влияние на припек хлеба всех возможных комбинаций трех жиров и трех рыхлителей теста. Четыре образца муки, взятые из четырех разных источников, служили в качестве блоковых факторов.Необходимо выявить значимость взаимодействия жир-рыхлитель. После этого определить различные возможности выбора контрастов, позволяющих выяснить, какие именно комбинации уровней факторов различаются.

Пример 5: Модель иерархического (гнездового) плана с смешанными эффектами. Изучается влияние четырех случайно выбранных головок, вмонтированных в станок, на деформацию производимых стеклянных держателей катодов. (Головки вмонтированы в станок, так что одна и та же головка не может использоваться на разных станках). Эффект головки обрабатывается как случайный фактор. Статистики ANOVA показывают, что между станками нет значимых различий, но есть признаки того, что головки могут различаться. Различие между всеми станками не значимо, но для двух из них различие между типами головок значимо.

Пример 6: Одномерный анализ повторных измерений с использованием плана расщепленных делянок. Этот эксперимент проводился для определения влияния индивидуального рейтинга тревожности на сдачу экзамена в четырех последовательных попытках. Данные организованы так, чтобы их можно было рассматривать как группы подмножеств всего множества данных ("всей делянки"). Эффект тревожности оказался незначимым, а эффект попытки - значим.

Перечень методов

  • Модели факторного эксперимента. Примеры: факторы, влияющие на успешность решения математических задач ; факторы, влияющие на объёмы продаж .

Данные состоят из нескольких рядов наблюдений (обработок), которые рассматриваются как реализации независимых между собой выборок. Исходная гипотеза говорит об отсутствии различия в обработках, т.е. предполагается, что все наблюдения можно считать одной выборкой из общей совокупности:

  • Однофакторная параметрическая модель : метод Шеффе .
  • Однофакторная непараметрическая модель [Лагутин М.Б., 237]: критерий Краскела-Уоллиса [Холлендер М., Вульф Д.А., 131], критерий Джонкхиера [Лагутин М.Б., 245].
  • Общий случай модели с постоянными факторами, теорема Кокрена [Афифи А., Эйзен С., 234].

Данные представляют собой двухкратные повторные наблюдения:

  • Двухфакторная непараметрическая модель : критерий Фридмана [Лапач, 203], критерий Пейджа [Лагутин М.Б., 263]. Примеры: сравнение эффективности методов производства, агротехнических приёмов.
  • Двухфакторная непараметрическая модель для неполных данных

История

Откуда произошло название дисперсионный анализ ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (анализируем) выборочные дисперсии. Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ. Первоначально дисперсионный анализ был разработан для обработки данных, полученных в ходе специально поставленных экспериментов, и считался единственным методом, корректно исследующим причинные связи. Метод применялся для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Литература

  1. Шеффе Г. Дисперсионный анализ. - М., 1980.
  2. Аренс Х. Лёйтер Ю. Многомерный дисперсионный анализ.
  3. Кобзарь А. И. Прикладная математическая статистика. - М.: Физматлит, 2006.
  4. Лапач С. Н. , Чубенко А. В., Бабич П. Н. Статистика в науке и бизнесе. - Киев: Морион, 2002.
  5. Лагутин М. Б. Наглядная математическая статистика. В двух томах. - М.: П-центр, 2003.
  6. Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ.
  7. Холлендер М., Вульф Д.А. Непараметрические методы статистики.

Ссылки

  • Дисперсионный анализ - Электронный учебник StatSoft.


 


Читайте:



Сырники из творога на сковороде — классические рецепты пышных сырников Сырников из 500 г творога

Сырники из творога на сковороде — классические рецепты пышных сырников Сырников из 500 г творога

Ингредиенты: (4 порции) 500 гр. творога 1/2 стакана муки 1 яйцо 3 ст. л. сахара 50 гр. изюма (по желанию) щепотка соли пищевая сода на...

Салат "черный жемчуг" с черносливом Салат черная жемчужина с черносливом

Салат

Доброго времени суток всем тем, кто стремится к разнообразию каждодневного рациона. Если вам надоели однообразные блюда, и вы хотите порадовать...

Лечо с томатной пастой рецепты

Лечо с томатной пастой рецепты

Очень вкусное лечо с томатной пастой, как болгарское лечо, заготовка на зиму. Мы в семье так перерабатываем (и съедаем!) 1 мешок перца. И кого бы я...

Афоризмы и цитаты про суицид

Афоризмы и цитаты про суицид

Перед вами - цитаты, афоризмы и остроумные высказывания про суицид . Это достаточно интересная и неординарная подборка самых настоящих «жемчужин...

feed-image RSS