خانه - طبقه
تحلیل واریانس یک طرفه. مقاله تحلیل واریانس چند متغیره تحلیل واریانس

ANOVAبر اساس آثار ریاضیدان معروف R.A. Fisher... با وجود "سن" نسبتاً جامد، این روش هنوز یکی از اصلی ترین روش ها در تحقیقات بیولوژیکی و کشاورزی است. ایده های تجزیه و تحلیل واریانس به طور گسترده در بسیاری از روشهای دیگر تجزیه و تحلیل ریاضی داده های تجربی و همچنین در برنامه ریزی آزمایش های بیولوژیکی و کشاورزی استفاده می شود.

تجزیه و تحلیل واریانس به شما امکان می دهد:

1) دو یا چند میانگین نمونه را مقایسه کنید.

2) به طور همزمان عمل چندین عامل مستقل را مطالعه کنید، در حالی که می توان هم تأثیر هر عامل در تغییرپذیری صفت مورد مطالعه و هم تأثیر متقابل آنها را تعیین کرد.

3) یک آزمایش علمی را به درستی برنامه ریزی کنید.

تنوع موجودات زنده به صورت پراکندگی یا پراکندگی مقادیر صفات فردی در محدوده هایی که با درجه یکنواختی بیولوژیکی مواد و ماهیت رابطه با شرایط محیطی تعیین می شود آشکار می شود. علائمی که تحت تأثیر دلایل خاصی تغییر می کنند نامیده می شوند تاثير گذار.

عوامل عبارتند از هرگونه تأثیر یا شرایطی که تنوع آنها به نحوی می تواند بر تنوع ویژگی م affectثر تأثیر بگذارد. تأثیر آماری عوامل در تحلیل واریانس به عنوان بازتاب در تنوع شاخص مؤثر تنوع عوامل مورد مطالعه درک می شود که در مطالعه سازماندهی شده است.

منظور از تنوع، وجود مقادیر نابرابر هر صفت در افراد مختلف در یک گروه است. تنوع گروهی از افراد با توجه به صفت مورد مطالعه می تواند درجه متفاوتی داشته باشد که معمولاً با شاخص های تنوع (یا تغییرپذیری) اندازه گیری می شود: محدودیت ها، انحراف معیار، ضریب تغییرات. در تحلیل واریانس، درجه تنوع مقادیر فردی و میانگین یک صفت به روش‌های خاصی اندازه‌گیری و مقایسه می‌شود که ویژگی‌های این روش کلی را تشکیل می‌دهد.

سازماندهی عوامل به این صورت است که به هر عامل مورد مطالعه چندین مقدار اختصاص داده می شود. مطابق با این مقادیر، هر عامل به چندین درجه بندی تقسیم می شود. برای هر درجه بندی ، چندین نفر با توجه به اصل نمونه گیری تصادفی انتخاب می شوند ، که در آن ارزش صفت موثر پس از آن اندازه گیری می شود.

برای پی بردن به میزان و پایایی تأثیر عوامل مورد مطالعه، لازم است آن قسمت از تنوع کل که ناشی از این عوامل است اندازه گیری و ارزیابی شود.

عوامل مؤثر بر درجه تنوع صفت مؤثر به دو دسته تقسیم می شوند:

1) قابل تنظیم

2) تصادفی

تنظیم شده (سیستماتیک)عوامل ناشی از عمل عامل مورد مطالعه در آزمایش است که دارای چندین درجه بندی در آزمایش است. درجه بندی عاملی- این میزان تأثیر آن بر ویژگی م effectiveثر است. مطابق با درجه بندی ویژگی، چندین نوع آزمایش برای مقایسه برجسته شده است. از آنجایی که این عوامل از پیش شرط شده اند، در تحقیق به آنها تنظیم شده می گویند، یعنی. بسته به سازماندهی آزمایش داده شده است. در نتیجه، عوامل قابل تنظیم عواملی هستند که عملکرد آنها در تجربه مورد مطالعه قرار می گیرد، آنها هستند که تفاوت بین میانگین نمونه گزینه های مختلف را تعیین می کنند - واریانس بین گروهی (عاملی).

عوامل تصادفیبا تنوع طبیعی همه نشانه های اشیاء بیولوژیکی در طبیعت تعیین می شوند. اینها عواملی هستند که خارج از کنترل تجربه هستند. آنها اثر تصادفی بر روی صفت مؤثر دارند، باعث خطاهای آزمایشی می شوند و پراکندگی (پراکندگی) صفت را در هر متغیر تعیین می کنند. این گسترش نامیده می شود واریانس درون گروهی (تصادفی)..

بنابراین، نقش نسبی عوامل فردی در تغییرپذیری کلی صفت مؤثر با واریانس مشخص می شود و می توان با استفاده از آن مطالعه کرد. تجزیه و تحلیل واریانس یا تجزیه و تحلیل پراکندگی

ANOVA بر اساس مقایسه واریانس های بین گروهی و درون گروهی... اگر واریانس بین گروهی از واریانس درون گروهی تجاوز نکند، تفاوت بین گروه ها تصادفی است. اگر واریانس بین گروهی به طور معنی داری بیشتر از واریانس درون گروهی باشد، بین گروه های مورد مطالعه (گزینه ها) تفاوت های آماری معنی داری به دلیل تأثیر عامل مورد مطالعه در آزمایش وجود دارد.

از اینجا نتیجه می گیرد که در بررسی آماری صفت مؤثر با استفاده از تحلیل واریانس، لازم است تغییرات آن در واریانت ها، تکرارها، تغییرات باقیمانده در این گروه ها و تنوع کلی صفت مؤثر در آزمایش مشخص شود. مطابق با این، سه نوع پراکندگی متمایز می شود:

1) واریانس کلی صفت مؤثر (S y 2).

2) بین گروهی یا خصوصی بین نمونه ها (S y 2).

3) درون گروهی ، باقی مانده (S z 2).

از این رو، تحلیل واریانساین تقسیم مجموع مجذورات انحرافات و تعداد کل درجات آزادی به قطعات یا اجزای مربوط به ساختار آزمایش و ارزیابی اهمیت عمل و اثر متقابل عوامل مورد مطالعه است. با توجه به معیار F. بسته به تعداد عوامل مورد مطالعه همزمان، تجزیه و تحلیل واریانس دو، سه، چهار عاملی متمایز می شود.

هنگام پردازش مجتمع های آماری تک عاملی میدان متشکل از چندین گزینه مستقل، تنوع کل صفت مؤثر که با مجموع مجذورات (C y) اندازه گیری می شود، به سه جزء تقسیم می شود: تغییر بین گزینه ها (نمونه ها) - CV. ، تنوع تکرارها (گزینه ها با یک شرایط کنترل شده مشترک با یکدیگر مرتبط هستند - وجود تکرارهای سازمان یافته) - C p و تنوع در گزینه های C z. به طور کلی، تغییرپذیری یک صفت با عبارت زیر نشان داده می شود:

C y = C V + C p + C z.

مجموع درجات آزادی (N -1) نیز به سه قسمت تقسیم می شود:

درجه آزادی برای گزینه ها (l - 1)؛

درجه آزادی برای تکرارها (n- 1) ؛

تغییرات تصادفی (n - 1) × (l - 1).

مجموع مجذور انحرافات، بر اساس یک آزمایش میدانی - یک مجموعه آماری با گزینه - l و تکرار - n، به شرح زیر یافت می شود. ابتدا ، با استفاده از جدول اصلی ، مبالغ برای تکرارها - Σ P ، برای انواع - Σ V و مجموع کل همه مشاهدات - Σ X تعیین می شود.

سپس شاخص های زیر محاسبه می شود:

تعداد کل مشاهدات N = l × n;

ضریب تصحیح (اصلاح) C cor = (Σ X 1) 2 / N;

مجموع مجموع مربعات Cy = Σ X 1 2 - C cor;

مجموع مربع ها برای تکرارها C p = Σ P 2 / (l –C cor);

مجموع مربع ها برای گزینه های C V = Σ V 2 / (n - 1)؛

مجموع مربع های خطا (باقیمانده) C Z = C y - C p - C V.

مجموع حاصل از مربعات C V و C Z بر درجات آزادی مربوط به آنها تقسیم می شود و دو مربع میانگین (واریانس) بدست می آید:

انواع S v 2 = C V / l - 1;

خطاهای S Z 2 = C Z / (n - 1) × (l - 1).

ارزیابی اهمیت تفاوت بین میانگین ها.میانگین مربعات به دست آمده در تحلیل واریانس برای ارزیابی اهمیت عملکرد عوامل مورد مطالعه با مقایسه واریانس گزینه ها (S v 2) با واریانس خطا (SZ 2) با توجه به معیار فیشر (F = F) استفاده می شود. SY 2 / SZ 2). واحد مقایسه ، میانگین مربع واریانس تصادفی است که خطای تصادفی آزمایش را تعیین می کند.

استفاده از آزمون فیشر به فرد اجازه می دهد تا وجود یا عدم وجود تفاوت های قابل توجه بین میانگین های نمونه را مشخص کند، اما تفاوت های خاصی را بین میانگین ها نشان نمی دهد.

فرضیه H o - مورد آزمایش این فرض است که همه میانگین نمونه برآورد یک میانگین کلی است و تفاوت بین آنها ناچیز است. اگر F fact = S Y 2 / S Z 2 ≤ F theor، پس فرضیه صفر رد نمی شود. تفاوت معنی داری بین میانگین نمونه وجود ندارد و این همان جایی است که آزمون به پایان می رسد. فرضیه صفر رد می شود F واقعیت = S Y 2 / S Z 2 ≥ F نظریهمقدار معیار F برای سطح اهمیت پذیرفته شده در مطالعه در جدول مربوطه با در نظر گرفتن درجات آزادی برای واریانس متغیرها و واریانس تصادفی آمده است. معمولاً از سطح معناداری 5% و با رویکرد دقیق تر از 1% - و حتی 0.1% استفاده می کنند.

برای نمونه ای با اندازه n، واریانس نمونه به صورت مجذور انحرافات از میانگین نمونه، تقسیم بر n-1(حجم نمونه منهای یک). بنابراین، برای اندازه نمونه ثابت n، واریانس تابعی از مجموع مربع ها (انحرافات) است که برای اختصار نشان داده می شود. SS (از انگلیسی Sum of Squares - Sum of Squares). علاوه بر این، ما اغلب کلمه نمونه را حذف می کنیم، زیرا به خوبی می دانیم که واریانس نمونه یا برآورد واریانس در نظر گرفته شده است. تجزیه و تحلیل واریانس بر اساس تقسیم واریانس به قطعات یا اجزا است.

خطاهای SS و SSاثرتنوع درون گروهی ( SS) معمولاً جزء یا واریانس باقیمانده نامیده می شود خطاهااین بدان معنی است که معمولاً در یک آزمایش نمی توان آن را پیش بینی یا توضیح داد. از طرف دیگر، افکت SS(یا مولفه واریانس بین گروه ها) را می توان با تفاوت بین میانگین ها در گروه ها توضیح داد. به عبارت دیگر تعلق به یک گروه خاص توضیح می دهدتنوع بین گروهی ، زیرا می دانیم که این گروه ها مقادیر میانگین متفاوتی دارند.

منطق اساسی تجزیه واریانس.به طور خلاصه می توان گفت که هدف آنالیز واریانس آزمون معناداری آماری تفاوت بین میانگین ها (برای گروه ها یا متغیرها) است. این بررسی با تقسیم مجموع مربع ها به اجزاء انجام می شود، یعنی. با تقسیم واریانس کل (تغییر) به بخش هایی که یکی از آنها به دلیل خطای تصادفی (یعنی تغییرپذیری درون گروهی) است و دومی با تفاوت در مقادیر میانگین همراه است. سپس آخرین مؤلفه واریانس برای تحلیل اهمیت آماری تفاوت بین میانگین ها استفاده می شود. اگر این تفاوت است معنی دار، فرضیه صفر رد شدو یک فرضیه جایگزین در مورد وجود تفاوت بین ابزارها پذیرفته می شود.

متغیرهای وابسته و مستقلمتغیرهایی که مقادیر آنها با اندازه گیری در طول آزمایش تعیین می شود (به عنوان مثال، امتیاز کسب شده در طول آزمایش) نامیده می شوند. وابستهمتغیرها متغیرهایی که می توانند در آزمایش کنترل شوند (به عنوان مثال، روش های آموزشی یا معیارهای دیگری که به شما امکان می دهد مشاهدات را به گروه ها تقسیم کنید یا طبقه بندی کنید) نامیده می شوند. عواملیا مستقلمتغیرها

عوامل زیادیجهان ذاتاً پیچیده و چند بعدی است. موقعیت هایی که یک پدیده خاص به طور کامل توسط یک متغیر توصیف می شود بسیار نادر است. به عنوان مثال، اگر در تلاش هستیم تا نحوه پرورش گوجه فرنگی درشت را بیاموزیم، باید عوامل مربوط به ساختار ژنتیکی گیاه، نوع خاک، نور، دما و ... را در نظر گرفت. بنابراین ، عوامل زیادی برای بررسی در یک آزمایش معمولی وجود دارد. دلیل اصلی ترجیح استفاده از تحلیل واریانس بر مقایسه مکرر دو نمونه در سطوح مختلف عوامل با استفاده از سری t-معیار این است که تجزیه واریانس به طور قابل توجهی بیشتر است کارآمدو برای نمونه های کوچک، آموزنده تر است.

خروجیتجزیه و تحلیل واریانس توسط دانشمند انگلیسی R.A. Fisher توسعه داده شد و در تحقیقات کشاورزی و بیولوژیکی معرفی شد. . ماهیت تحلیل واریانس شامل تجزیه تنوع کلی ویژگی و تعداد کل درجات آزادی به اجزای سازنده مربوط به ساختار آزمایش میدانی است ، همچنین در ارزیابی عامل بر اساس معیار فیشر.

با توجه به عملكرد س questionال مورد مطالعه ، ناهمگوني باروري خاك و خطاهاي تصادفي در آزمايش ، تنوع عمومي صفت كجاست.

بازده متغیر بر اساس تکرار آزمایش مزرعه.

تغییرات در بازده توسط انواع تجربه در ارتباط با عمل سوال مورد مطالعه.

تغییرات در بازده مرتبط با خطاهای تصادفی در تجربه.

خروجیتجزیه و تحلیل واریانس بر اساس قوانین زیر انجام می شود:

1. تفاوت های قابل توجهی در تجربه وجود دارد اگر واقعی ≥نظری. اگر F واقعی باشد، تفاوت قابل توجهی در تجربه وجود ندارد

2. NDS - کوچکترین تفاوت معنی دار که برای تعیین تفاوت بین گزینه ها استفاده می شود. اگر تفاوت d ≥ NSR باشد ، تفاوت بین گزینه ها قابل توجه است. اگر د< НСР, то различия между вариантами не существенные.

گروه هاگزینه ها.

1. اگر تفاوت d معنی دار باشد و نشان دهنده افزایش بازده باشد، گزینه ها به گروه 1 اشاره می کنند.

2. اگر تفاوت d– معنی دار نباشد ، گزینه ها به گروه 2 اشاره می کنند.

3. اگر تفاوت d معنی دار است، اما نشان دهنده کاهش بازده است، گزینه ها به گروه 3 مراجعه می کنند.

انتخاب فرمول ANOVA به روش های قرار دادن گزینه ها در آزمایش بستگی دارد:

1. برای تکرارهای سازمان یافته:

2. برای تکرارهای سازماندهی نشده.

5.1 ANOVA چیست؟

آنالیز واریانس در دهه 1920 توسط رونالد فیشر ریاضیدان و ژنتیک شناس انگلیسی توسعه یافت. طبق یک نظرسنجی در بین دانشمندان، جایی که مشخص شد چه کسی بیشترین تأثیر را بر زیست شناسی قرن بیستم داشته است، این سر فیشر بود که برنده این عنوان قهرمانی شد (برای خدماتش به او نشان شوالیه - یکی از بالاترین ممتازها در بریتانیای کبیر) اهدا شد. از این نظر، فیشر با چارلز داروین قابل مقایسه است که بیشترین تأثیر را بر زیست شناسی در قرن نوزدهم داشت.

آنالیز واریانس اکنون شاخه ای جداگانه از آمار است. بر اساس این واقعیت کشف شده توسط فیشر است که اندازه گیری تغییرپذیری کمیت مورد مطالعه را می توان به بخش های مربوط به عوامل مؤثر بر این کمیت و انحرافات تصادفی تجزیه کرد.

برای درک ماهیت تحلیل واریانس، ما یک نوع محاسبات را دو بار انجام می دهیم: "دستی" (با ماشین حساب) و با استفاده از برنامه Statistica. برای ساده‌تر کردن کارمان، با نتایج توصیف واقعی تنوع قورباغه‌های سبز کار نمی‌کنیم، بلکه با یک مثال خیالی که به مقایسه زن و مرد در انسان مربوط می‌شود، کار خواهیم کرد.تنوع قد 12 بزرگسال را در نظر بگیرید: 7 زن و 5 مرد.

جدول 5.1.1. نمونه ای برای ANOVA یک طرفه: داده های جنسیت و قد برای 12 نفر

بیایید یک آنالیز واریانس یک طرفه انجام دهیم: ما مقایسه خواهیم کرد که آیا مردان و زنان در گروه توصیف شده از نظر قد از نظر آماری معنی دار هستند یا نه.

5.2. تست نرمال بودن

استدلال بیشتر بر این واقعیت استوار است که توزیع در نمونه در نظر گرفته شده نرمال یا نزدیک به نرمال است. اگر توزیع از نرمال دور باشد، واریانس (واریانس) معیار مناسبی برای تغییرپذیری آن نیست. با این حال، ANOVA نسبت به انحرافات توزیع از نرمال بودن نسبتاً قوی است.

تست نرمال بودن این داده ها به دو روش مختلف قابل انجام است. اول: آمار / آمار پایه / جداول / آمار توصیفی / برگه نرمال. در برگهعادی بودن شما می توانید تست های مورد استفاده برای نرمال بودن توزیع را انتخاب کنید. وقتی روی دکمه جداول فرکانس کلیک می کنید ، یک جدول فرکانس ظاهر می شود و دکمه های Histograms - یک هیستوگرام. جدول و نمودار میله ای نتایج تست های مختلف را نشان می دهد.

روش دوم مربوط به استفاده از امکان مناسب در هنگام ساخت هیستوگرام است. در گفتگوی ساخت هیستوگرام (Grafs / Histograms ...)، زبانه Advanced را انتخاب کنید. در پایین آن یک بلوک Statistics وجود دارد. بیایید Shapiro-Wilk را روی آن علامت گذاری کنیمتی est و آزمون Kolmogorov-Smirnov ، همانطور که در شکل نشان داده شده است.

برنج. 5.2.1 تست های آماری برای نرمال بودن توزیع در گفتگو برای ساخت هیستوگرام

همانطور که از هیستوگرام مشاهده می شود، توزیع رشد در نمونه ما با طبیعی متفاوت است (در وسط - "شکست").


برنج. 5.2.2 هیستوگرام با پارامترهای مشخص شده در شکل قبل ترسیم شده است

خط سوم در عنوان نمودار پارامترهای توزیع نرمال را نشان می دهد که توزیع مشاهده شده به آن نزدیکتر است. میانگین کلی 173 و انحراف معیار کلی 10.4 است. در زیر در نوار کناری در نمودار نتایج آزمایشات نرمال بودن آمده است. D آزمون کولموگروف-اسمیرنوف و SW-W تست شاپیرو-ویلک است. همانطور که مشاهده می شود، برای تمام آزمون های مورد استفاده، تفاوت بین توزیع ارتفاع و توزیع نرمال از نظر آماری ناچیز بود. پ در همه موارد بیش از 0.05).

بنابراین، به طور رسمی، آزمایش‌های انطباق توزیع با توزیع نرمال ما را از استفاده از روش پارامتریک بر اساس فرض توزیع نرمال منع نمی‌کرد. همانطور که قبلاً ذکر شد ، تجزیه واریانس نسبت به انحراف از حالت عادی نسبتاً مقاوم است ، بنابراین ما هنوز از آن استفاده خواهیم کرد.

5.3. ANOVA یک طرفه: محاسبات دستی

برای مشخص کردن تغییرپذیری قد افراد در مثال ذکر شده ، مجموع مربعات انحراف را محاسبه می کنیم (در انگلیسی به صورت SS ، مجموع مربع ها یا) مقادیر فردی از میانگین: ... میانگین قد در این مثال 173 سانتی متر است. بر این اساس،

SS = (186–173) 2 + (169–173) 2 + (166–173) 2 + (188–173) 2 + (172–173) 2 + (179–173) 2 + (165–173) 2 + (174–173) 2 + (163–173) 2 + (162–173) 2 + (162–173) 2 + (190–173) 2 ;

SS = 132 + 42 + 72 + 152 + 12 + 62 + 82 + 12 + 102 + 112 + 112 + 172;

SS = 169 + 16 + 49 + 225 + 1 + 36 + 64 + 1 + 100 + 121 + 121 + 289 = 1192.

مقدار حاصل (1192) معیاری برای تغییرپذیری کل مجموعه داده است. با این حال، آنها از دو گروه تشکیل شده اند که برای هر یک می توان میانگین خاص خود را تشخیص داد. در داده های داده شده، میانگین قد زنان 168 سانتی متر و مردان - 180 سانتی متر است.

بیایید مجموع مجذور انحرافات را برای زنان محاسبه کنیم:

SS f = (169–168) 2 + (166–168) 2 + (172–168) 2 + (179–168) 2 + (163–168) 2 + (162–168) 2 ;

SS f = 12 + 22 + 42 + 112 + 32 + 52 + 62 = 1 + 4 + 16 + 121 + 9 + 25 + 36 = 212.

همچنین مجموع مجذور انحرافات را برای مردان محاسبه می کنیم:

اس اس ام = (186–180) 2 + (188–180) 2 + (174–180) 2 + (162–180) 2 + (190–180) 2 ;

اس اس ام = 62 + 82 + 62 + 182 + 102 = 36 + 64 + 36 + 324 + 100 = 560.

مطابق تجزیه و تحلیل منطق واریانس ، مقدار مورد بررسی به چه چیزی بستگی دارد؟

دو مقدار محاسبه شده، SS f و اس اس ام ، واریانس درون گروهی را مشخص می کند که در تحلیل واریانس معمولاً به آن "خطا" می گویند. ریشه این نام با منطق زیر همراه است.

چه چیزی رشد یک فرد را در این مثال تعیین می کند؟ اول از همه، از میانگین قد افراد به طور کلی، صرف نظر از جنسیت آنها. ثانیا - از کف. اگر افراد یک جنس (مذکر) از جنس دیگر (مونث) بلندتر باشند، این را می توان به صورت اضافه کردن به میانگین «انسان معمولی» در برخی اندازه ها، یعنی تأثیر جنسیت نشان داد. در نهایت، افراد همجنس به دلیل تفاوت های فردی از نظر قد با هم تفاوت دارند. در مدلی که قد را مجموع میانگین انسان و تنظیم جنسیت توصیف می کند، تفاوت های فردی غیرقابل توضیح است و می توان آن را «خطا» در نظر گرفت.

بنابراین، مطابق با منطق تحلیل واریانس، مقدار مورد بررسی به صورت زیر تعیین می شود: ، جایی که x ij - مقدار i-امین مقدار مورد مطالعه در مقدار j-امین عامل مورد مطالعه؛ - میانگین عمومی؛ F j - تأثیر مقدار j-th عامل مورد مطالعه ؛ - "خطا"، سهم فردیت شیئی که کمیت به آن تعلق داردx ij .

مجموع مربع های بین گروهی

بنابراین، SS اشتباهات = SS f + SS m = 212 + 560 = 772. با این مقدار، تنوع درون گروهی را توصیف کردیم (زمانی که گروه ها بر اساس جنسیت شناسایی شدند). اما بخش دوم تغییرپذیری نیز وجود دارد - بین گروهی که ما آن را نام خواهیم بردافکت SS (از آنجایی که ما در مورد تأثیر تقسیم مجموعه اشیاء مورد بررسی به زنان و مردان صحبت می کنیم).

میانگین هر گروه با میانگین کلی متفاوت است. با محاسبه سهم این تفاوت در اندازه گیری کل تغییرپذیری، باید تفاوت بین گروه و میانگین کل را در تعداد اشیاء هر گروه ضرب کنیم.

افکت SS = = 7 × (168-173) 2 + 5 × (180-173) 2 = 7 × 52 + 5 × 72 = 7 × 25 + 5 × 49 = 175 + 245 = 420.

در اینجا اصل ثبات مجموع مربعات ، کشف شده توسط فیشر ، آشکار شد: SS = جلوه SS + خطای SS ، یعنی برای این مثال ، 1192 = 440 + 722.

مربع های میانی

با مقایسه در مثال ما مجموع مربع های بین گروهی و درون گروهی، می بینیم که اولی با تغییرات دو گروه مرتبط است و دومی - 12 مقدار در 2 گروه. تعداد درجات آزادی ( df ) برای برخی پارامترها می توان تفاوت بین تعداد اشیاء در گروه و تعداد وابستگی ها (معادلات) که این مقادیر را به هم متصل می کند تعریف کرد.

در مثال ما اثر df = 2–1 = 1، آ خطاهای df = 12–2 = 10.

می توانیم مجموع مربع ها را بر تعداد درجات آزادی آنها تقسیم کنیم و مجذورات میانگین را بدست آوریم ( خانم ، به معنای مربع). با انجام این کار ، می توانیم آن را ثابت کنیم خانم - چیزی جز واریانس ("واریانس"، نتیجه تقسیم مجموع مربع ها بر تعداد درجات آزادی). پس از این کشف، می توانیم ساختار جدول ANOVA را درک کنیم. برای مثال ما به این صورت خواهد بود.

تاثیر

خطا

اثر ام اس و خطاهای ام اس تخمینی از واریانس بین گروهی و درون گروهی هستند و بنابراین می توان آنها را بر اساس معیار مقایسه کرد.اف (معیار Snedecor، به نام فیشر)، طراحی شده برای مقایسه واریانس. این معیار صرفاً ضریب تقسیم واریانس بزرگتر بر واریانس کوچکتر است. در مورد ما ، این 420 / 77.2 = 5.440 است.

تعیین اهمیت آماری آزمون فیشر با استفاده از جداول

اگر بخواهیم اهمیت آماری اثر را به صورت دستی و با استفاده از جداول تعیین کنیم، باید مقدار به دست آمده از معیار را با هم مقایسه کنیم. اف با درجه بحرانی ، مربوط به سطح خاصی از اهمیت آماری برای درجات آزادی معین است.


برنج. 5.3.1. قطعه جدول با مقادیر بحرانی معیار اف

همانطور که مشاهده می کنید ، برای سطح اهمیت آماری p = 0.05 ، مقدار بحرانی معیاراف 4.96 است. این بدان معناست که در مثال ما، عمل جنسیت مورد مطالعه با سطح معناداری آماری 05/0 ثبت شد.

نتیجه را می توان به صورت زیر تفسیر کرد. احتمال فرضیه صفر که بر اساس آن میانگین قد زنان و مردان یکسان است و تفاوت ثبت شده قد آنها با تصادفی بودن در تشکیل نمونه ها همراه است، کمتر از 5 درصد است. این بدان معناست که ما باید یک فرضیه جایگزین انتخاب کنیم که میانگین قد زنان و مردان متفاوت است.

5.4. تحلیل واریانس یک طرفه ( ANOVA) در بسته Statistica

در مواردی که محاسبات به صورت دستی انجام نمی شود، بلکه با کمک برنامه های مناسب (مثلاً بسته Statistica)، مقدار پ به صورت خودکار تعیین می شود. می توانید مطمئن شوید که کمی بالاتر از مقدار بحرانی است.

برای تجزیه و تحلیل مثال مورد بحث با استفاده از ساده ترین نوع تجزیه و تحلیل واریانس، باید رویه Statistics / ANOVA را برای فایل با داده های مربوطه اجرا کنید و گزینه One-way ANOVA را در پنجره نوع تجزیه و تحلیل و گفتگوی Quick specs را انتخاب کنید. گزینه در پنجره روش مشخصات ...


برنج. 5.4.1. گفتگوی عمومی آنووا / MANOVA

در پنجره محاوره ای باز شده ، در قسمت متغیرها ، باید ستونهایی را که حاوی داده هایی هستند که در حال مطالعه آنها هستیم (فهرست متغیرهای وابسته ؛ در مورد ما ، ستون رشد) ، و همچنین ستون حاوی مقادیر را مشخص کنید. که مقدار مورد مطالعه را به گروه‌ها تقسیم می‌کند (پیش‌بینی‌کننده طبقه‌ای (عامل)؛ در مورد ما، ستون جنسیت). در این نسخه از تحلیل، بر خلاف تحلیل چند متغیره، تنها یک عامل را می توان در نظر گرفت.


برنج. 5.4.2 گفتگوی ANOVA یک طرفه

در پنجره Factor codes، باید مقادیر فاکتور مورد نظر را که باید در طول این تحلیل پردازش شوند، مشخص کنید. تمام مقادیر موجود را می توان با استفاده از دکمه زوم مشاهده کرد. اگر ، مانند مثال ما ، باید تمام مقادیر عامل را در نظر بگیرید (و برای جنسیت در مثال ما فقط دو مورد از آنها وجود دارد) ، می توانید روی دکمه همه کلیک کنید. وقتی ستون هایی که باید پردازش شوند و کدهای فاکتور مشخص شد ، می توانید روی دکمه OK کلیک کرده و به تجزیه و تحلیل سریع نتایج بروید: ANOVA Results 1 ، به برگه Quick.

برنج. 5.4.3. تب Quick از پنجره نتایج ANOVA

دکمه All Effects / Graphs به شما اجازه می دهد تا ببینید که میانگین دو گروه چگونه با هم مقایسه می شوند. در بالای نمودار، تعداد درجات آزادی و همچنین مقادیر F و p برای فاکتور مورد نظر نشان داده شده است.


برنج. 5.4.4. رسم نتایج ANOVA

دکمه همه جلوه ها به شما امکان می دهد یک جدول تجزیه واریانس مشابه آنچه در بالا توضیح داده شد (با برخی تفاوت های قابل توجه) دریافت کنید.


برنج. 5.4.5 جدول ANOVA (مقایسه با یک جدول مشابه که با دست به دست آمده است)

خط پایین جدول مجموع مربع ها، تعداد درجات آزادی و میانگین مربعات خطا (تغییرپذیری درون گروهی) را نشان می دهد. یک خط بالا - شاخص های مشابه برای عامل مورد مطالعه (در این مورد، علامت جنسی)، و همچنین معیار اف (نسبت مجذورات میانگین اثر به مجذورهای میانگین خطا)، و سطح اهمیت آماری آن. این واقعیت که تأثیر عامل مورد نظر از نظر آماری معنی‌دار است، با برجسته‌سازی با رنگ قرمز نشان داده می‌شود.

خط اول حاوی داده های مربوط به نشانگر "Intercept" است. این ردیف موجود در جدول یک رمز و راز را برای کاربران تازه وارد Statistica در نسخه ششم یا جدیدتر نشان می دهد. مقدار Intercept احتمالاً مربوط به تجزیه مجموع مربعات همه مقادیر داده است (یعنی 1862 + 1692 ... = 360340). مقدار معیار F نشان داده شده برای آن با تقسیم به دست می آید رهگیری MS / خطای MS = 353220 / 77.2 = 4575.389 و طبیعتاً مقدار بسیار کمی می دهد پ ... جالب اینجاست که در Statistica-5 این مقدار به هیچ وجه محاسبه نشده است و راهنمای استفاده از نسخه های بعدی بسته به هیچ وجه در مورد معرفی آن اظهار نظر نمی کند. احتمالاً بهترین کاری که یک زیست شناس که با Statistica-6 و بعد از آن کار می کند این است که به سادگی ردیف Intercept را در جدول ANOVA نادیده بگیرد.

5.5. ANOVA و آزمون های دانشجویی و فیشر: کدام بهتر است؟

همانطور که ممکن است متوجه شده باشید ، داده هایی که با استفاده از تحلیل واریانس یک طرفه مقایسه کردیم ، همچنین می توانیم با استفاده از آزمون های دانشجویی و فیشر بررسی کنیم. بیایید این دو روش را با هم مقایسه کنیم. برای این کار تفاوت قد زن و مرد را با استفاده از این معیارها محاسبه کنید. برای انجام این کار، باید مسیر Statistics / Basic Statistics / t-test، مستقل، توسط گروه ها را طی کنیم. به طور طبیعی، متغیرهای وابسته، متغیر رشد و متغیر گروه بندی، متغیر جنسیت است.


برنج. 5.5.1. مقایسه داده‌های پردازش‌شده با استفاده از آنالیز واریانس بر اساس آزمون‌های دانشجو و فیشر

همانطور که می بینید، نتیجه مشابه با ANOVA است. پ 0.041874 = در هر دو مورد، همانطور که در شکل نشان داده شده است. 5 و در شکل نشان داده شده است. 5.5.2 (خودتان ببینید!).


برنج. 5.5.2. نتایج تجزیه و تحلیل (رمزگشایی تفصیلی جدول نتایج - در بند معیار دانشجو)

تأکید بر این نکته حائز اهمیت است که اگرچه معیار F از نظر ریاضی در تجزیه و تحلیل تحلیل شده بر اساس معیارهای Student و Fisher همانند ANOVA است (و نسبت واریانس را بیان می کند)، اما معنای آن در نتایج تحلیل ارائه شده در جدول نهایی کاملا متفاوت است. هنگام مقایسه بر اساس معیارهای دانشجو و فیشر ، مقایسه مقادیر میانگین نمونه ها با توجه به معیار دانشجو انجام می شود و مقایسه تنوع آنها بر اساس معیار فیشر انجام می شود. در نتایج تجزیه و تحلیل، خود واریانس نمایش داده نمی شود، بلکه ریشه دوم آن - انحراف استاندارد است.

در مقابل، در ANOVA از آزمون فیشر برای مقایسه میانگین‌های نمونه‌های مختلف استفاده می‌شود (همانطور که بحث کردیم، این کار با تقسیم مجموع مربع‌ها به قطعات و مقایسه میانگین مجموع مربع‌های متناظر با تنوع بین و درون گروهی انجام می‌شود). .

با این حال، تفاوت فوق به ارائه نتایج یک مطالعه آماری مربوط می شود تا ماهیت آن. همانطور که به عنوان مثال توسط گلانتز (1999، ص 99) اشاره شد، مقایسه گروه ها با آزمون استیودنت می تواند به عنوان یک مورد خاص از تحلیل واریانس برای دو نمونه در نظر گرفته شود.

بنابراین، مقایسه نمونه‌ها بر اساس آزمون‌های دانشجو و فیشر یک مزیت مهم نسبت به آنالیز واریانس دارد: می‌تواند نمونه‌ها را از نظر تنوع آنها مقایسه کند. اما مزایای آنالیز واریانس همچنان قابل توجه تر است. اینها شامل، برای مثال، توانایی مقایسه چند نمونه به طور همزمان است.

طرح تحلیل واریانس در نظر گرفته شده بسته به موارد زیر متمایز می شود: الف) بر اساس ماهیت ویژگی که توسط آن جامعه به گروه ها (نمونه ها) تقسیم می شود؛ ب) بر اساس تعداد ویژگی هایی که توسط آن جامعه به گروه ها (نمونه ها) تقسیم می شود. ) ج) در مورد روش نمونه گیری.

ارزشهای مشخصه که جمعیت را به گروه‌هایی تقسیم می‌کند، می‌تواند نمایانگر جمعیت عمومی یا جمعیت نزدیک به آن باشد. در این مورد، طرح ANOVA با طرح مورد بحث در بالا مطابقت دارد. اگر مقادیر یک ویژگی که گروه‌های مختلف را تشکیل می‌دهد، نمونه‌ای از جمعیت عمومی را نشان دهد، فرمول‌بندی فرضیه صفر و جایگزین تغییر می‌کند. به عنوان یک فرضیه صفر، فرض بر این است که بین گروه‌ها تفاوت‌هایی وجود دارد، یعنی میانگین گروه تغییراتی را نشان می‌دهد. به عنوان یک فرضیه جایگزین، پیشنهاد می شود که هیچ نوسانی وجود ندارد. بدیهی است که با چنین فرمول بندی فرضیه ها، دلیلی برای عینیت بخشیدن به نتایج مقایسه واریانس ها وجود ندارد.

با افزایش تعداد ویژگی های گروه بندی ، به عنوان مثال ، تا 2 ، اولاً تعداد صفر و بر این اساس فرضیه های جایگزین افزایش می یابد. در این مورد، فرضیه صفر اول از عدم وجود تفاوت بین میانگین برای گروه های صفت گروه بندی اول صحبت می کند، فرضیه صفر دوم از عدم وجود تفاوت در میانگین برای گروه های صفت گروه بندی دوم صحبت می کند و در نهایت سومین فرضیه صفر نشان دهنده عدم وجود به اصطلاح اثر متقابل عوامل (ویژگی های گروه بندی) است.

اثر متقابل به عنوان چنین تغییری در ارزش یک ویژگی مؤثر درک می شود که نمی توان با عملکرد کل دو عامل توضیح داد. برای آزمایش سه جفت فرضیه ارائه شده، لازم است سه مقدار واقعی معیار F-Fisher محاسبه شود که به نوبه خود نوع زیر را برای تجزیه حجم کل تغییرات پیشنهاد می کند.

پراکندگی های مورد نیاز برای به دست آوردن معیار F به روشی شناخته شده با تقسیم حجم های تغییرات بر تعداد درجات آزادی به دست می آید.

همانطور که می دانید نمونه ها می توانند وابسته و مستقل باشند. اگر نمونه ها وابسته باشند، در مقدار کل تغییرات، به اصطلاح تغییرات توسط تکرارها باید متمایز شود.
... اگر برجسته نشود، این تنوع می تواند تغییرات درون گروهی را به میزان قابل توجهی افزایش دهد (
) که می تواند نتایج تحلیل واریانس را مخدوش کند.

سوالات را مرور کنید

17-1. نتایج تجزیه واریانس مشخصات چیست؟

17-2. چه زمانی از معیار Q-Tukey برای بتن ریزی استفاده می شود؟

17-3. تفاوت های دستورات اول، دوم و غیره چیست؟

17-4. چگونه مقدار واقعی آزمون کیو توکی را پیدا کنیم؟

17-5- چه فرضیه هایی در مورد هر تفاوت ارائه شده است؟

17-6. مقدار جدولی معیار Tukey Q به چه چیزی بستگی دارد؟

17-7. اگر سطوح صفت گروه بندی نمونه باشد، فرض صفر چیست؟

17-8. وقتی داده ها بر اساس دو معیار گروه بندی می شوند، چگونه مقدار کل تغییرات تجزیه می شود؟

17-9. در این صورت تغییر در تکرارها برجسته می شود (
) ?

خلاصه

مکانیسم در نظر گرفته شده برای مشخص کردن نتایج تجزیه و تحلیل واریانس به شما امکان می دهد یک ظاهر کامل به آن بدهید. هنگام استفاده از آزمون کیو توکی باید به محدودیت ها توجه کرد. این مطالب همچنین اصول اولیه طبقه بندی مدل های ANOVA را تشریح کرد. باید تأکید کرد که اینها فقط یک اصل است. مطالعه دقیق ویژگی های هر مدل مستلزم مطالعه عمیق تری جداگانه است.

تکالیف آزمایشی برای سخنرانی

فرضیه ها در تحلیل واریانس چه ویژگی های آماری دارند؟

    نسبت به دو واریانس

    نسبت به یک میانگین

    نسبت به چند میانگین

    نسبت به یک واریانس

محتوای فرضیه جایگزین در تحلیل واریانس چیست؟

    واریانس های مقایسه شده با یکدیگر برابر نیستند

    همه میانگین های مقایسه شده برابر نیستند.

    حداقل دو میانگین کلی برابر نیستند

    واریانس بین گروهی بیشتر از واریانس درون گروهی است

بیشترین سطوح معنی داری در تحلیل واریانس کدامند؟

اگر تغییرات درون گروهی بیشتر از تغییرات بین گروهی باشد، آیا ANOVA باید ادامه یابد یا بلافاصله با H0 یا با AN موافق باشد؟

1. آیا باید با واریانس های مورد نیاز ادامه دهید؟

2. باید با H0 موافق بود

3. با ON موافقت کنید

اگر واریانس درون گروهی برابر با واریانس بین گروهی بود، تحلیل واریانس چه چیزی را باید دنبال کرد؟

    با فرضیه صفر برابری میانگین های کلی موافق باشید

    با فرضیه جایگزین در مورد وجود حداقل یک جفت وسیله نابرابر یکدیگر موافق باشید

هنگام محاسبه آزمون F-Fisher همیشه باید چه واریانسی در عدد وجود داشته باشد؟

    فقط درون گروهی

    در هر صورت بین گروهی

    بین گروهی اگر بیشتر درون گروهی باشد

ارزش واقعی معیار F-Fisher چقدر باید باشد؟

    همیشه کمتر از 1

    همیشه بزرگتر از 1

    مساوی یا بزرگتر از 1

مقدار جدولی معیار F-Fisher به چه چیزی بستگی دارد؟

1.از سطح قابل قبولی از اهمیت

2. از تعداد درجات آزادی کل تنوع

3. از تعداد درجات آزادی تنوع بین گروهی

4. در مورد تعداد درجات آزادی تنوع درون گروهی

5. از مقدار ارزش واقعی معیار F-Fisher؟

افزایش تعداد مشاهدات در هر گروه با واریانس های مساوی، احتمال پذیرش ……

1 فرضیه صفر

2. فرضیه جایگزین

3. بر پذیرش فرضیه های صفر و جایگزین تأثیری ندارد

منظور از مشخص کردن نتایج تحلیل واریانس چیست؟

    مشخص کنید که آیا محاسبات واریانس به درستی انجام شده است یا خیر

    تعیین کنید که کدام یک از میانگین های کلی برابر یکدیگر بوده است

    مشخص کنید که کدام یک از میانگین های عمومی با یکدیگر برابر نیستند

آیا این جمله درست است: "هنگام مشخص کردن نتایج تجزیه و تحلیل واریانس، تمام میانگین های کلی با یکدیگر برابر بودند."

    می تواند درست و غلط باشد

    درست نیست، این ممکن است به دلیل اشتباهات در محاسبات باشد

آیا هنگام تعیین تحلیل واریانس می توان به این نتیجه رسید که همه میانگین های عمومی با یکدیگر برابر نیستند؟

1. ممکن است

2. احتمالاً در موارد استثنایی

3. در اصل غیر ممکن است.

4. فقط در صورتی امکان پذیر است که در محاسبات اشتباه کنید

اگر فرضیه صفر با معیار F-Fisher پذیرفته شد، آیا لازم است تحلیل واریانس مشخص شود؟

1. مورد نیاز

2-لازم نیست

3. به صلاحدید تحلیلگر ANOVA

در چه موردی از آزمون توکی برای مشخص کردن نتایج تحلیل واریانس استفاده می شود؟

1. اگر تعداد مشاهدات گروه ها (نمونه ها) یکسان باشد

2. اگر تعداد مشاهدات گروه ها (نمونه ها) متفاوت باشد

3.اگر نمونه هایی با تعداد مساوی و نامساوی وجود دارد

تنبلی

NDS هنگام تعیین نتایج تحلیل واریانس بر اساس آزمون توکی چیست؟

1. میانگین خطا را با مقدار واقعی معیار تولید کنید

2. حاصلضرب میانگین خطا بر اساس مقدار جدول معیار

3. نسبت هر تفاوت بین میانگین نمونه به

خطای متوسط

4. تفاوت میانگین نمونه

اگر نمونه با توجه به 2 ویژگی به گروه ها تقسیم شود، حداقل چند منبع باید به کل تنوع مشخصه تقسیم شود؟

اگر مشاهدات بر اساس نمونه ها (گروه ها) وابسته باشند، کل تغییرات را باید به چند منبع تقسیم کرد (ویژگی گروه بندی یک)؟

منبع (علت) تنوع بین گروهی چیست؟

    بازی شانس

    اکشن ترکیبی بازی شانس و عامل

    عمل عامل (ها).

    پس از تجزیه و تحلیل واریانس آن را پیدا کنید

منبع (علت) تنوع درون گروهی چیست؟

1 بازی شانسی

2. عمل ترکیبی بازی شانس و عامل

3. عمل عامل (ها)

4. پس از تحلیل واریانس مشخص خواهد شد

اگر مقادیر مشخصه به صورت کسر بیان شوند ، از چه روشی برای تبدیل داده منبع استفاده می شود؟

    لگاریتم

    استخراج ریشه

    تبدیل Phi

سخنرانی 8 همبستگی

حاشیه نویسی

مهمترین روش برای بررسی رابطه بین نشانه ها روش همبستگی است. این سخنرانی محتوای این روش، رویکردهای بیان تحلیلی این ارتباط را آشکار می کند. توجه ویژه ای به شاخص های خاصی به عنوان شاخص های تنگی ارتباط می شود

کلید واژه ها

همبستگی. روش حداقل مربعات ضریب رگرسیون. ضرایب تعیین و همبستگی.

مسائل پرداخته شده است

    رابطه عملکردی و همبستگی

    مراحل ساخت معادله همبستگی ارتباطات. تفسیر ضرایب معادله

    نشانگرهای سفتی

    ارزیابی شاخص های ارتباطی منتخب

واحد مدولار 1 ماهیت همبستگی. مراحل ساخت معادله همبستگی ارتباط، تفسیر ضرایب معادله.

هدف و اهداف مطالعه واحد مدولار 1شامل درک ویژگی های همبستگی است. تسلط بر الگوریتم ساخت معادله ارتباط ، درک محتوای ضرایب معادله.

      جوهر همبستگی

در پدیده های طبیعی و اجتماعی ، دو نوع ارتباط وجود دارد - یک ارتباط عملکردی و یک ارتباط همبستگی. در یک اتصال تابعی، هر مقدار آرگومان با مقادیر کاملاً تعریف شده (یک یا چند) تابع مطابقت دارد. یک مثال از یک رابطه تابعی، رابطه بین محیط و شعاع است که با معادله بیان می شود.
... هر مقدار شعاع rمربوط به یک مقدار واحد برای محیط است L . در صورت همبستگی، هر مقدار از ویژگی عامل مربوط به چندین مقدار نه چندان مشخص از ویژگی مؤثر است. نمونه هایی از همبستگی عبارتند از رابطه بین وزن یک فرد (ویژگی م effectiveثر) و قد او (ویژگی فاکتوریل) ، رابطه بین مقدار کود مصرفی و عملکرد ، بین قیمت و مقدار محصول ارائه شده. منبع ظهور یک همبستگی این واقعیت است که ، به عنوان یک قاعده ، در زندگی واقعی ، ارزش یک ویژگی م effectiveثر به عوامل زیادی بستگی دارد ، از جمله مواردی که ماهیت تصادفی تغییر خود را دارند. به عنوان مثال، وزن یکسان یک فرد به سن، جنسیت، رژیم غذایی، شغل و بسیاری عوامل دیگر بستگی دارد. اما در عین حال ، بدیهی است که رشد به طور کلی عامل تعیین کننده است. با توجه به این شرایط، همبستگی باید به عنوان یک رابطه ناقص تعریف شود که تنها در صورت وجود تعداد زیادی مشاهدات، به طور متوسط، می توان آن را ایجاد و تخمین زد.

1.2 مراحل ساخت معادله همبستگی ارتباطات.

مانند یک رابطه عملکردی، یک همبستگی با یک معادله رابطه بیان می شود. برای ساخت آن، باید به طور مداوم مراحل (مراحل) زیر را طی کنید.

ابتدا باید روابط علت و معلولی را درک کرد، به تبعیت نشانه ها پی برد، یعنی کدام یک از آنها دلایل (نشانه های عاملی) و کدام یک نتیجه (نشانه های مؤثر) هستند. روابط علّی بین ویژگی ها توسط نظریه موضوعی که در آن از روش همبستگی استفاده می شود، ایجاد می شود. مثلاً علم «آناتومی انسان» به شما این امکان را می دهد که بگویید منشأ رابطه وزن و قد چیست، کدام یک از این نشانه ها عامل است، در نتیجه علم «اقتصاد» منطق رابطه بین قیمت و عرضه، مشخص می کند که چه چیزی و در چه مرحله ای علت و چه چیزی است ... بدون چنین توجیه نظری اولیه، تفسیر نتایج به دست آمده در آینده دشوار است و گاهی اوقات می تواند به نتایج پوچ منجر شود.

پس از برقراری وجود روابط علت و معلولی، این روابط باید رسمیت یابد، یعنی با استفاده از یک معادله ارتباطی بیان شود، در حالی که ابتدا نوع معادله را انتخاب کنید. تعدادی از تکنیک ها را می توان برای انتخاب نوع معادله پیشنهاد کرد. می توانید به نظریه موضوعی که در آن از روش همبستگی استفاده می شود ، مراجعه کنید ، به عنوان مثال ، ممکن است علم "شیمی کشاورزی" قبلاً پاسخی به این سال داده باشد که از کدام معادله برای بیان رابطه استفاده شود: عملکرد - کود. اگر چنین پاسخی وجود ندارد، برای انتخاب یک معادله، باید از برخی داده های تجربی استفاده کنید و آنها را به طور مناسب پردازش کنید. بلافاصله باید گفت که با انتخاب نوع معادله بر اساس داده های تجربی، باید به وضوح درک کرد که می توان از این نوع معادله برای توصیف رابطه داده های مورد استفاده استفاده کرد. تکنیک اصلی برای پردازش این داده ها ساخت نمودارها است، زمانی که مقادیر ویژگی عامل بر روی محور ابسیسا ترسیم می شود و مقادیر احتمالی ویژگی موثر بر روی محور ارتین رسم می شود. از آنجایی که طبق تعریف، مقدار یکسان ویژگی فاکتور مربوط به مجموعه ای از مقادیر تعریف نشده مشخصه موثر است، در نتیجه اقدامات فوق، مجموعه مشخصی از نقاط را دریافت خواهیم کرد که به آن فیلد همبستگی می گویند. نمای کلی میدان همبستگی در تعدادی از موارد اجازه می دهد تا در مورد شکل احتمالی معادله فرضی ایجاد کنیم. با پیشرفت مدرن فناوری رایانه، یکی از روش های اصلی برای انتخاب یک معادله، برشمردن انواع مختلف معادلات است. ، در حالی که بهترین معادله معادله ای است که بالاترین ضریب تعیین را ارائه می دهد، گفتاری که در ادامه به آن پرداخته خواهد شد. قبل از اقدام به محاسبات، لازم است بررسی شود که داده های تجربی مورد استفاده برای ساخت معادله تا چه حد الزامات خاصی را برآورده می کنند. الزامات مربوط به ویژگی های فاکتوریل و مجموعه داده ها است. علائم فاکتور، در صورت وجود چندین مورد، باید مستقل از یکدیگر باشند. در مورد کلیت ، اولاً باید همگن باشد

(مفهوم همگنی قبلاً در نظر گرفته شد) و ثانیاً نسبتاً بزرگ. هر صفت فاکتوریل باید حداقل 8-10 مشاهده را شامل شود.

بعد از انتخاب معادله، مرحله بعدی محاسبه ضرایب معادله است. ضرایب معادله اغلب با استفاده از روش حداقل مربعات محاسبه می شود. از نقطه نظر همبستگی، استفاده از روش حداقل مربعات عبارت است از به دست آوردن ضرایب معادله به طوری که
= min، یعنی مجموع مربعات انحرافات مقادیر واقعی شاخص مؤثر ( ) از محاسبه شده بر اساس معادله ( ) حداقل مقدار بود. این نیاز با ساخت و حل یک سیستم شناخته شده از معادلات به اصطلاح عادی محقق می شود. اگر به عنوان معادله همبستگی بین yو ایکسمعادله خط مستقیم انتخاب شده است
، که در آن سیستم معادلات نرمال همانطور که می دانید به صورت زیر خواهد بود:

حل این سیستم با توجه به آو ب , مقادیر لازم ضرایب را بدست می آوریم. صحت محاسبه ضرایب توسط برابری بررسی می شود

تحلیل واریانس برای چه مواردی استفاده می شود؟ هدف از تحلیل واریانس بررسی وجود یا عدم وجود اثر معنی دار هر عامل کمی یا کیفی بر تغییرات صفت مؤثر مورد بررسی است. برای انجام این کار، عاملی که احتمالاً تأثیر قابل توجهی دارد یا ندارد، به کلاس های درجه بندی (به عبارت دیگر، گروه ها) تقسیم می شود و با مطالعه اهمیت بین میانگین ها مشخص می شود که آیا تأثیر عامل یکسان است یا خیر. مجموعه داده های مربوط به درجه بندی فاکتور. مثال ها: وابستگی سود شرکت به نوع مواد اولیه مورد استفاده بررسی می شود (سپس کلاس های درجه بندی انواع مواد اولیه هستند)، وابستگی هزینه تولید یک واحد تولید به اندازه بخش شرکت (سپس کلاس های درجه بندی ویژگی های اندازه تقسیم هستند: بزرگ، متوسط، کوچک).

حداقل تعداد کلاس های نمره دهی (گروهی) دو کلاس می باشد. کلاس های فارغ التحصیلی می تواند کیفی یا کمی باشد.

چرا به آنالیز واریانس آنالیز واریانس می گویند؟ تحلیل واریانس نسبت دو واریانس را بررسی می کند. واریانس ، همانطور که می دانیم ، ویژگی پراکندگی داده ها در میانگین است. اولین مورد، واریانسی است که با تأثیر عامل توضیح داده می شود، که پراکندگی مقادیر بین درجه بندی عامل (گروه ها) حول میانگین همه داده ها را مشخص می کند. دومی واریانس غیرقابل توضیح است که پراکندگی داده ها در درجه بندی ها (گروه ها) در اطراف میانگین های خود گروه ها را مشخص می کند. واریانس اول را می توان بین گروهی و دومی را درون گروهی نامید. نسبت این واریانس ها را نسبت فیشر واقعی می نامند و با مقدار بحرانی نسبت فیشر مقایسه می شود. اگر نسبت فیشر واقعی بیشتر از نسبت بحرانی باشد، درجات متوسط ​​درجه بندی با یکدیگر متفاوت است و عامل مورد بررسی به طور قابل توجهی بر تغییر داده ها تأثیر می گذارد. اگر کمتر باشد، میانگین نمرات درجه بندی با یکدیگر تفاوتی ندارد و عامل تأثیر قابل توجهی ندارد.

چگونه فرضیه ها در ANOVA تدوین ، پذیرفته و رد می شوند؟ در تحلیل واریانس، وزن مخصوص تأثیر کل یک یا چند عامل تعیین می شود. اهمیت تأثیر عامل با آزمون فرضیه ها مشخص می شود:

  • اچ0 : μ 1 = μ 2 = ... = μ آ، جایی که آ- تعداد کلاس های درجه بندی - همه کلاس های درجه بندی یک مقدار متوسط ​​دارند،
  • اچ1 : نه همه μ منبرابر - همه کلاس های درجه بندی دارای مقدار میانگین یکسان نیستند.

اگر تأثیر یک عامل معنی دار نباشد، تفاوت بین کلاس های درجه بندی این عامل نیز ناچیز است و در جریان تحلیل واریانس فرضیه صفر است. اچ0 رد نمی شود. اگر تأثیر عامل قابل توجه باشد ، فرضیه صفر است اچ0 رد شد: همه کلاس های درجه بندی میانگین یکسانی ندارند، یعنی در بین تفاوت های احتمالی بین کلاس های درجه بندی، یک یا چند کلاس قابل توجه است.

برخی دیگر از مفاهیم تحلیل واریانس. یک مجموعه آماری در ANOVA ، جدول داده های تجربی است. اگر همه کلاس های درجه بندی تعداد گزینه های یکسانی داشته باشند، مجموعه آماری همگن (همگن) نامیده می شود، اگر تعداد گزینه ها متفاوت باشد - ناهمگن (ناهمگن).

بسته به تعداد عوامل ارزیابی شده، تحلیل واریانس یک طرفه، دو طرفه و چند متغیره متمایز می شود.

تجزیه و تحلیل واریانس یک طرفه: ماهیت روش، فرمول ها، مثال ها

ماهیت روش، فرمول ها

بر اساس این واقعیت که مجموع مربعات انحرافات مجموعه آماری را می توان به اجزای زیر تقسیم کرد:

SS = SS a + SSه,

SS

SSآ آمجموع مربعات انحرافات،

SSه- مجموع مربعات انحرافات غیر قابل توضیح یا مجموع مربعات انحرافات خطا.

اگر از طریق nمنتعداد گزینه ها را در هر درجه درجه بندی (گروه) مشخص کنید و آتعداد کل درجه بندی های عامل (گروه ها) است، سپس تعداد کل مشاهدات است و فرمول های زیر را می توان به دست آورد:

مجموع مجذورات انحرافات: ,

نسبت داده شده به عامل آمجموع مربعات انحرافات: ,

مجموع مجذورات انحرافات غیر قابل توضیح یا مجموع مربعات انحرافات خطا: ,

- میانگین کل مشاهدات،

(گروهی).

بعلاوه،

واریانس درجه بندی عامل (گروه) کجاست.

برای انجام تجزیه و تحلیل واریانس یک طرفه برای داده های یک مجموعه آماری ، باید نسبت واقعی فیشر را پیدا کنید - نسبت واریانس که توسط تأثیر عامل (بین گروهی) و واریانس غیرقابل توضیح توضیح داده شده است (درون گروهی) :

و آن را با ارزش بحرانی فیشر مقایسه کنید.

واریانس ها به صورت زیر محاسبه می شوند:

واریانس توضیح داد،

واریانس غیر قابل توضیح

va = آ − 1 - تعداد درجات آزادی واریانس توضیح داده شده ،

ve = nآ - تعداد درجات آزادی واریانس غیرقابل توضیح ،

v = n

مقدار بحرانی نسبت فیشر با مقادیر معینی از سطح معنی داری و درجات آزادی را می توان در جداول آماری یافت یا با استفاده از تابع MS Excel F OBR محاسبه کرد (شکل زیر، برای افزایش آن، با سمت چپ روی آن کلیک کنید. دکمه ی ماوس).


این تابع نیاز به وارد کردن داده های زیر دارد:

احتمال - سطح اهمیت α ,

Degrees_freedom1 تعداد درجات آزادی واریانس توضیح داده شده است vآ,

Degrees_freedom2 تعداد درجات آزادی واریانس غیرقابل توضیح است vه.

اگر مقدار واقعی نسبت فیشر بیشتر از مقدار بحرانی () باشد ، فرضیه صفر با سطح اهمیت رد می شود α ... این بدان معنی است که این عامل به طور قابل توجهی بر تغییر داده ها تأثیر می گذارد و داده ها به عامل با احتمال بستگی دارد پ = 1 − α .

اگر مقدار واقعی نسبت فیشر کمتر از بحرانی () باشد، نمی توان فرضیه صفر را با سطح معناداری رد کرد. α ... این بدان معنی است که این عامل به طور قابل توجهی بر داده ها با احتمال تأثیر نمی گذارد پ = 1 − α .

تجزیه و تحلیل یک طرفه واریانس: مثالها

مثال 1.باید مشخص شود که آیا نوع مواد خام مورد استفاده بر سود شرکت تأثیر می گذارد یا خیر. در شش کلاس درجه بندی (گروه) عامل (نوع 1 ، نوع 2 ، و غیره) ، اطلاعات سود حاصل از تولید 1000 واحد محصول در میلیون روبل به مدت 4 سال جمع آوری می شود.

نوع مواد اولیه2014 2015 2016 2017
17,21 7,55 7,29 7,6
27,89 8,27 7,39 8,18
37,25 7,01 7,37 7,53
47,75 7,41 7,27 7,42
57,7 8,28 8,55 8,6
67,56 8,05 8,07 7,84
میانگین
پراکندگی
7,413 0,0367
7,933 0,1571
7,290 0,0480
7,463 0,0414
8,283 0,1706
7,880 0,0563

آ= 6 و در هر کلاس (گروه) nمن = 4مشاهده تعداد کل مشاهدات n = 24 .

تعداد درجات آزادی:

va = آ − 1 = 6 − 1 = 5 ,

ve = nآ = 24 − 6 = 18 ,

v = n − 1 = 24 − 1 = 23 .

بیایید واریانس ها را محاسبه کنیم:

.

.

از آنجا که نگرش واقعی فیشر انتقادی تر است:

با سطحی از اهمیت α 0.05 =، نتیجه می گیریم که سود شرکت، بسته به نوع مواد اولیه مورد استفاده در تولید، به طور قابل توجهی متفاوت است.

یا، که همین طور است، فرضیه اصلی در مورد برابری میانگین ها در همه کلاس های درجه بندی عامل (گروه ها) را رد می کنیم.

در مثالی که اکنون در نظر گرفته شد، هر کلاس درجه فاکتور تعداد گزینه های یکسانی داشت. اما، همانطور که در مقدمه ذکر شد، تعداد گزینه ها می تواند متفاوت باشد. و این به هیچ وجه روند ANOVA را پیچیده نمی کند. این مثال بعدی است.

مثال 2.لازم است مشخص شود که آیا هزینه تولید یک واحد تولید به اندازه تقسیم شرکت بستگی دارد یا خیر. فاکتور (اندازه واحد) به سه درجه (گروه) کوچک، متوسط، بزرگ تقسیم می شود. داده های تعمیم یافته مربوط به این گروه ها در مورد هزینه تولید یک واحد از همان نوع محصول برای یک دوره معین.

کم اهمیتمیانگینبزرگ
48 47 46
50 61 57
63 63 57
72 47 55
43 32
59 59
58
میانگین58,6 54,0 51,0
پراکندگی128,25 65,00 107,60

تعداد کلاس های درجه بندی عاملی (گروه ها) آ= 3 ، تعداد مشاهدات در کلاس ها (گروه ها) n1 = 4 , n2 = 7 , n3 = 6 ... تعداد کل مشاهدات n = 17 .

تعداد درجات آزادی:

va = آ − 1 = 2 ,

ve = nآ = 17 − 3 = 14 ,

v = n − 1 = 16 .

بیایید مجموع مجذور انحرافات را محاسبه کنیم:

بیایید واریانس ها را محاسبه کنیم:

,

.

بیایید نسبت واقعی فیشر را محاسبه کنیم:

.

نسبت بحرانی فیشر:

از آنجایی که مقدار واقعی نسبت فیشر کمتر از بحرانی است:، نتیجه می‌گیریم که اندازه واحد سازمانی تأثیر قابل‌توجهی بر هزینه تولید ندارد.

یا ، که یکسان است ، با احتمال 95 ، این فرضیه اصلی را می پذیریم که متوسط ​​هزینه تولید یک واحد از محصول مشابه در بخشهای کوچک ، متوسط ​​و بزرگ یک شرکت تفاوت قابل توجهی با یکدیگر ندارد.

ANOVA یک طرفه در MS Excel

تجزیه و تحلیل واریانس یک طرفه را می توان با استفاده از روش MS Excel انجام داد ANOVA یک طرفه... ما از آن برای تجزیه و تحلیل داده های مربوط به رابطه بین نوع مواد خام مورد استفاده و سود شرکت از مثال 1 استفاده می کنیم.

خدمات / تجزیه و تحلیل داده هاو یک ابزار تحلیل انتخاب کنید ANOVA یک طرفه.

در پنجره فاصله ورودیما منطقه داده را نشان می دهیم (در مورد ما $ A $ 2: $ E $ 7 است). ما نشان می دهیم که چگونه فاکتور گروه بندی می شود - توسط ستون یا ردیف (در مورد ما، با ردیف). اگر ستون اول شامل نام کلاسهای عامل است ، کادر را علامت بزنید برچسب ستون اول... در پنجره آلفاسطح اهمیت را نشان می دهد α = 0,05 .

جدول دوم - تجزیه و تحلیل واریانس - حاوی داده هایی در مورد مقادیر فاکتور بین گروه ها و درون گروه ها و کل است. اینها مجموع انحرافات مجذور (SS)، تعداد درجات آزادی (df)، واریانس (MS) هستند. سه ستون آخر شامل نسبت فیشر واقعی (F)، سطح p (P-value) و نسبت بحرانی فیشر (F crit) است.

خانم اف P-value F crit
0,58585 6,891119 0,000936 2,77285
0,085017

از آنجایی که مقدار واقعی نسبت فیشر (6.89) از مقدار بحرانی (2.77) بیشتر است، با احتمال 95٪ فرضیه صفر در مورد برابری میانگین بهره وری در هنگام استفاده از انواع مواد خام را رد می کنیم، یعنی: نتیجه می گیریم که نوع مواد خام مورد استفاده بر شرکت های سودآور تأثیر می گذارد.

تجزیه و تحلیل واریانس دو طرفه بدون تکرار: ماهیت روش، فرمول ها، مثال

از تحلیل واریانس دو طرفه برای بررسی وابستگی احتمالی صفت مؤثر به دو عامل استفاده می شود: آو ب... سپس آ- تعداد درجه بندی عوامل آو ب- تعداد درجه بندی عوامل ب... در مجموعه آماری مجموع مربعات باقیمانده ها به سه جزء تقسیم می شود:

SS = SS a + SS b + SSه,

- مجموع مجذورات انحرافات،

- با تأثیر یک عامل توضیح داده می شود آمجموع مربعات انحرافات،

- با تأثیر یک عامل توضیح داده می شود بمجموع مربعات انحرافات،

- میانگین کل مشاهدات،

میانگین مشاهدات در هر درجه بندی عامل آ ,

ب .

آ ,

پراکندگی با تأثیر عامل توضیح داده می شود ب ,

va = آ − 1 آ ,

vb = ب − 1 - تعداد درجات آزادی پراکندگی که با تأثیر عامل توضیح داده می شود ب ,

ve = ( آ − 1)(ب − 1)

v = ab- 1 - تعداد کل درجات آزادی.

اگر عوامل مستقل از یکدیگر باشند، دو فرضیه صفر و فرضیه های جایگزین متناظر برای تعیین اهمیت عوامل مطرح می شود:

برای فاکتور آ :

اچ0 : μ 1A = μ 2A = ... = μ aA,

اچ1 : نه همه μ iAبرابر هستند؛

برای فاکتور ب :

اچ0 : μ 1B = μ 2B = ... = μ aB,

اچ1 : نه همه μ iBبرابر هستند.

آ

برای تعیین تأثیر یک عامل ب، نگرش واقعی فیشر باید با نگرش انتقادی فیشر مقایسه شود.

α پ = 1 − α .

α پ = 1 − α .

تحلیل واریانس دو طرفه بدون تکرار: یک مثال

مثال 3.بسته به حجم موتور و نوع سوخت ، میانگین مصرف سوخت در هر 100 کیلومتر بر لیتر داده می شود.

باید بررسی شود که آیا مصرف سوخت به اندازه موتور و نوع سوخت بستگی دارد یا خیر.

راه حل. برای فاکتور آتعداد کلاسهای درجه بندی آ= 3، برای فاکتور بتعداد کلاس های درجه بندی ب = 3 .

ما مجموع مربعات انحرافات را محاسبه می کنیم:

,

,

,

.

واریانس های متناظر:

,

,

.

آ ... از آنجایی که نسبت فیشر واقعی کمتر از بحرانی است، این فرضیه را می پذیریم که جابجایی موتور با احتمال 95٪ بر مصرف سوخت تأثیر نمی گذارد. با این حال، اگر سطح معناداری را انتخاب کنیم α = 0.1 ، سپس مقدار واقعی نسبت فیشر ، و سپس با احتمال 95٪ می توان فرض کرد که جابجایی موتور بر مصرف سوخت تأثیر می گذارد.

نسبت واقعی فیشر برای یک عامل ب ، مقدار بحرانی نسبت فیشر: ... از آنجایی که نسبت فیشر واقعی بیشتر از مقدار بحرانی نسبت فیشر است، با احتمال 95 درصد فرض می کنیم که نوع سوخت بر مصرف آن تأثیر می گذارد.

تجزیه و تحلیل واریانس دو طرفه بدون تکرار در MS Excel

تجزیه و تحلیل واریانس دو طرفه بدون تکرار می تواند با استفاده از روش MS Excel انجام شود. ما از آن برای تجزیه و تحلیل داده‌های مربوط به رابطه بین نوع سوخت و مصرف آن از مثال 3 استفاده می‌کنیم.

در منوی MS Excel، دستور را اجرا کنید خدمات / تجزیه و تحلیل داده هاو یک ابزار تحلیل انتخاب کنید تحلیل واریانس دو طرفه بدون تکرار.

ما داده ها را به همان روشی که در مورد تحلیل واریانس تک متغیره پر می کنیم.


در نتیجه این روش، دو جدول نمایش داده می شود. جدول اول Totals است. این شامل داده هایی در مورد همه کلاس های درجه بندی عوامل است: تعداد مشاهدات ، مقدار کل ، مقدار متوسط ​​و واریانس.

جدول دوم - تجزیه و تحلیل واریانس - حاوی داده هایی در مورد منابع تغییرات است: پراکندگی بین ردیف ها، پراکندگی بین ستون ها، پراکندگی خطا، پراکندگی کل، مجموع انحرافات مجذور (SS)، تعداد درجات آزادی (df)، واریانس (MS) ). سه ستون آخر حاوی مقدار واقعی نسبت فیشر (F)، سطح p (P-value) و مقدار بحرانی نسبت فیشر (F crit) است.

خانم اف P-value F crit
3,13 5,275281 0,075572 6,94476
8,043333 13,55618 0,016529 6,944276
0,593333

عامل آ(جابه جایی موتور) در خطوط گروه بندی می شود. از آنجایی که نسبت فیشر واقعی 5.28 کمتر از 6.94 بحرانی است، با احتمال 95٪ فرض می کنیم که مصرف سوخت به اندازه موتور بستگی ندارد.

عامل ب(نوع سوخت) در ستون ها گروه بندی شده است. نسبت فیشر واقعی 13.56 از 6.94 بحرانی بیشتر است، بنابراین با احتمال 95٪ فرض می کنیم که مصرف سوخت به نوع آن بستگی دارد.

تجزیه و تحلیل واریانس دو طرفه با تکرار: ماهیت روش، فرمول ها، مثال

تحلیل واریانس دو طرفه با تکرارها به منظور بررسی نه تنها وابستگی احتمالی صفت مؤثر به دو عامل استفاده می شود - آو ب، بلکه تعامل احتمالی عوامل آو ب... سپس آ- تعداد درجه بندی عوامل آو ب- تعداد درجه بندی عوامل ب, r- تعداد تکرارها در مجموعه آماری مجموع مربعات باقیمانده ها به چهار جزء تقسیم می شود:

SS = SS a + SS b + SS ab + SSه,

- مجموع مجذورات انحرافات،

- با تأثیر یک عامل توضیح داده می شود آمجموع مربعات انحرافات،

- با تأثیر یک عامل توضیح داده می شود بمجموع مربعات انحرافات،

- با تأثیر متقابل عوامل توضیح داده می شود آو بمجموع مربعات انحرافات،

- مجموع مجذور انحرافات غیر قابل توضیح یا مجموع مربعات انحرافات خطا،

- میانگین کل مشاهدات،

- میانگین مشاهدات در هر درجه بندی عامل آ ,

- میانگین تعداد مشاهدات در هر درجه بندی عامل ب ,

میانگین تعداد مشاهدات در هر ترکیبی از درجه بندی عوامل آو ب ,

n = Abr- تعداد کل مشاهدات

واریانس ها به صورت زیر محاسبه می شوند:

پراکندگی با تأثیر عامل توضیح داده می شود آ ,

پراکندگی با تأثیر عامل توضیح داده می شود ب ,

- واریانس با اثر متقابل عوامل توضیح داده می شود آو ب ,

- واریانس یا واریانس غیرقابل توضیح خطا،

va = آ − 1 - تعداد درجات آزادی پراکندگی که با تأثیر عامل توضیح داده می شود آ ,

vb = ب − 1 - تعداد درجات آزادی پراکندگی که با تأثیر عامل توضیح داده می شود ب ,

vab = ( آ − 1)(ب − 1) - تعداد درجات آزادی واریانس که با اثر متقابل عوامل توضیح داده می شود آو ب ,

ve = ab(r − 1) - تعداد درجات آزادی واریانس غیر قابل توضیح یا واریانس خطا،

v = Abr- 1 - تعداد کل درجات آزادی.

اگر عوامل مستقل از یکدیگر باشند، سه فرضیه صفر و فرضیه جایگزین متناظر برای تعیین اهمیت عوامل مطرح می شود:

برای فاکتور آ :

اچ0 : μ 1A = μ 2A = ... = μ aA,

اچ1 : نه همه μ iAبرابر هستند؛

برای فاکتور ب :

برای تعیین تأثیر متقابل عوامل آو ب، نگرش واقعی فیشر باید با نگرش انتقادی فیشر مقایسه شود.

اگر نسبت فیشر واقعی بزرگتر از نسبت فیشر بحرانی باشد، فرضیه صفر باید با سطح معناداری رد شود. α ... این بدان معنی است که این عامل به طور قابل توجهی بر داده ها تأثیر می گذارد: داده ها به عامل با احتمال بستگی دارد پ = 1 − α .

اگر نسبت فیشر واقعی کمتر از نسبت فیشر بحرانی باشد، فرضیه صفر باید با سطح معناداری پذیرفته شود. α ... این بدان معنی است که این عامل به طور قابل توجهی بر داده ها با احتمال تأثیر نمی گذارد پ = 1 − α .

دو طرفه تکرار ANOVA: یک مثال

در مورد تأثیر متقابل عوامل آو ب: نگرش واقعی فیشر کمتر از انتقادی است ، بنابراین تعامل بین کمپین تبلیغاتی و یک فروشگاه خاص ضروری نیست.

تجزیه و تحلیل واریانس دو طرفه با تکرار در MS Excel

تجزیه و تحلیل واریانس دو طرفه با تکرار می تواند با استفاده از روش MS Excel انجام شود. ما از آن برای تجزیه و تحلیل داده‌های مربوط به رابطه بین درآمد فروشگاه و انتخاب یک فروشگاه خاص و کمپین تبلیغاتی از مثال 4 استفاده می‌کنیم.

در منوی MS Excel، دستور را اجرا کنید خدمات / تجزیه و تحلیل داده هاو یک ابزار تحلیل انتخاب کنید تحلیل واریانس دو طرفه با تکرار.

ما داده ها را به همان روشی که در مورد تجزیه واریانس دو طرفه بدون تکرار است ، پر می کنیم ، با این تفاوت که تعداد تکرارها باید در تعداد سطرها برای نمونه پنجره وارد شود.

در نتیجه روش ، دو جدول نمایش داده می شود. جدول اول شامل سه بخش است: دو مورد اول مربوط به هر یک از دو کمپین تبلیغاتی است ، سوم شامل اطلاعات مربوط به هر دو کمپین تبلیغاتی است. ستون های جدول حاوی اطلاعاتی در مورد تمام درجه های درجه بندی عامل دوم - ذخیره: تعداد مشاهدات، مقدار کل، مقدار متوسط ​​و واریانس است.

جدول دوم شامل داده هایی در مورد مجموع انحرافات مجذور (SS)، تعداد درجات آزادی (df)، واریانس (MS)، مقدار واقعی نسبت فیشر (F)، سطح p (P-value) و مقدار بحرانی نسبت فیشر (F crit) برای منابع مختلف تغییرات: دو عاملی که در ردیف‌ها (نمونه) و ستون‌ها، اثر متقابل عوامل، خطاها (داخل) و شاخص‌های کل (کل) آورده شده‌اند.

خانم اف P-value F crit
8,013339 0,500252 0,492897 4,747221
189,1904 11,81066 0,001462 3,88529
6,925272 0,432327 0,658717 3,88529
16,01861

برای فاکتور بنسبت واقعی فیشر بیشتر از نسبت بحرانی است ، بنابراین ، با احتمال 95، ، درآمدها بین فروشگاه ها تفاوت قابل توجهی دارد.

برای تعامل عوامل آو بنگرش واقعی فیشر کمتر از نگرش انتقادی است، بنابراین، با احتمال 95٪، تعامل بین کمپین تبلیغاتی و یک فروشگاه خاص قابل توجه نیست.

همه موضوعات مرتبط "آمار ریاضی"

ANOVA(از لاتین Dispersio - dispersion / در انگلیسی Analysis Of Variance - ANOVA) برای مطالعه تأثیر یک یا چند متغیر کیفی (عامل) بر یک متغیر کمی وابسته (پاسخ) استفاده می شود.

تجزیه واریانس بر این فرض استوار است که برخی از متغیرها را می توان علل (عوامل ، متغیرهای مستقل): و برخی دیگر را پیامدها (متغیرهای وابسته) در نظر گرفت. متغیرهای مستقل را گاهی اوقات دقیقاً به این دلیل که محقق در آزمایش توانایی تغییر آنها و تجزیه و تحلیل نتیجه حاصل را دارد، عوامل قابل تنظیم می نامند.

هدف اصلی تحلیل واریانس(ANOVA) مطالعه ای است در مورد اهمیت تفاوت بین میانگین ها با مقایسه (تحلیل) واریانس ها. با تقسیم واریانس کل به منابع متعدد ، می توان واریانس ناشی از تفاوت بین گروه ها را با واریانس ناشی از تنوع درون گروهی مقایسه کرد. اگر فرضیه صفر درست باشد (در مورد برابری میانگین ها در چندین گروه از مشاهدات انتخاب شده از جمعیت عمومی)، برآورد واریانس مرتبط با تنوع درون گروهی باید نزدیک به برآورد واریانس بین گروهی باشد. اگر شما صرفاً میانگین ها را در دو نمونه مقایسه می کنید، ANOVA همان نتیجه آزمون t معمولی را برای نمونه های مستقل (اگر دو گروه مستقل از اشیاء یا مشاهدات را مقایسه می کنید) یا آزمون t برای نمونه های وابسته (در صورت مقایسه) به دست می دهد. دو متغیر روی یک و یک مجموعه از اشیا یا مشاهدات).

ماهیت تحلیل واریانس تجزیه واریانس کل صفت مورد مطالعه به اجزای منفرد، به دلیل تأثیر عوامل خاص، و آزمون فرضیه هایی در مورد اهمیت تأثیر این عوامل بر صفت مورد مطالعه است. با مقایسه مولفه های واریانس با یکدیگر با استفاده از آزمون F فیشر می توان تعیین کرد که چه نسبتی از تغییرپذیری کلی صفت مؤثر ناشی از عمل عوامل تنظیم شده است.

ماده اولیه برای تجزیه و تحلیل واریانس داده های مطالعه سه یا چند نمونه است: که می توانند از نظر تعداد مساوی یا نابرابر باشند، هم متصل و هم نامنسجم. با تعداد عوامل کنترل شده شناسایی شده، تحلیل واریانس می تواند باشد تک متغیره(در این مورد ، تأثیر یک عامل بر نتایج آزمایش مورد مطالعه قرار می گیرد) ، دو عاملی(هنگام مطالعه تاثیر دو عامل) و چند عاملی(به شما امکان می دهد نه تنها تأثیر هر یک از عوامل را به طور جداگانه ارزیابی کنید، بلکه تعامل آنها را نیز ارزیابی کنید).

ANOVA به گروه روش های پارامتریک تعلق دارد و بنابراین تنها زمانی باید استفاده شود که ثابت شده باشد که توزیع نرمال است.

ANOVA زمانی استفاده می شود که متغیر وابسته بر حسب نسبت، فواصل یا ترتیب اندازه گیری شود و متغیرهای تأثیرگذار ماهیت غیر عددی داشته باشند (مقیاس نامگذاری).

نمونه کارها

در مسائلی که با تحلیل واریانس حل می شوند، پاسخی با ماهیت عددی وجود دارد که متاثر از چندین متغیر با ماهیت اسمی است. مثلاً چند نوع جیره غذایی گاو یا دو روش نگهداری آنها و غیره.

مثال 1:چندین کیوسک داروخانه در طول هفته در سه مکان مختلف فعالیت می کردند. در آینده ، ما می توانیم تنها یکی را ترک کنیم. باید مشخص شود که آیا از نظر آماری تفاوت معناداری بین حجم فروش دارو در کیوسک ها وجود دارد یا خیر. در این صورت ، ما کیوسکی را انتخاب می کنیم که بیشترین متوسط ​​فروش روزانه را داشته باشد. اگر تفاوت در حجم فروش از نظر آماری ناچیز باشد، سایر شاخص ها باید مبنای انتخاب کیوسک باشند.

مثال 2:مقایسه تضادهای میانگین های گروهی. هفت سوگیری سیاسی از بسیار لیبرال تا بسیار محافظه‌کار رتبه‌بندی می‌شوند، و از تضاد خطی برای آزمایش اینکه آیا یک روند غیرصفر به سمت افزایش میانگین‌های گروهی وجود دارد یا خیر استفاده می‌شود - یعنی، آیا افزایش خطی قابل‌توجهی در میانگین سنی در هنگام بررسی گروه‌های مرتب شده در گروه‌ها وجود دارد یا خیر. جهت گیری از لیبرال به محافظه کار

مثال 3:تحلیل واریانس دو طرفه. تعداد فروش محصولات، علاوه بر اندازه فروشگاه، اغلب تحت تأثیر محل قفسه های محصول است. این مثال شامل ارقام فروش هفتگی برای چهار طرح قفسه و سه اندازه فروشگاه است. نتایج تجزیه و تحلیل نشان می دهد که هر دو عامل - محل قفسه ها با محصول و اندازه فروشگاه - بر تعداد فروش تأثیر می گذارد، اما تعامل آنها معنی دار نیست.

مثال 4: ANOVA یک بعدی: طرح بلوک کامل تصادفی با دو تیمار. اثر تمام ترکیبات ممکن از سه چربی و سه چاک دهنده بر روی نان بررسی شده است. چهار نمونه آرد از چهار منبع مختلف به عنوان عوامل مسدود کننده عمل کردند. اهمیت تعامل چربی سوز باید مشخص شود. پس از آن، احتمالات مختلف انتخاب تضادها را تعیین کنید، که این امکان را به شما می دهد تا بفهمید کدام ترکیب از سطوح عامل متفاوت است.

مثال 5:مدل پلان سلسله مراتبی (تودرتو) با اثرات مختلط. تأثیر چهار هد انتخابی تصادفی نصب شده در دستگاه بر تغییر شکل نگهدارنده‌های کاتد شیشه‌ای تولیدی مورد بررسی قرار می‌گیرد. (سرها در دستگاه تعبیه شده اند، بنابراین نمی توان از یک سر در ماشین های مختلف استفاده کرد). اثر سر به عنوان یک عامل تصادفی در نظر گرفته می شود. آمار ANOVA نشان می دهد که تفاوت قابل توجهی بین ماشین ها وجود ندارد، اما نشانه هایی وجود دارد که ممکن است هدها متفاوت باشند. تفاوت بین همه ماشین ها قابل توجه نیست، اما برای دو تا از آنها تفاوت بین انواع هد قابل توجه است.

مثال 6:تجزیه و تحلیل یک بعدی اندازه گیری های مکرر با استفاده از طرح کرت های تقسیم شده. این آزمایش برای تعیین تأثیر میزان اضطراب افراد بر قبولی در امتحان در چهار تلاش متوالی انجام شد. داده ها به گونه ای سازماندهی شده اند که می توان آنها را به عنوان گروهی از زیر مجموعه های کل مجموعه داده ("کل نمودار") مشاهده کرد. تأثیر اضطراب ناچیز بود ، در حالی که تأثیر تلاش قابل توجه بود.

فهرست روش ها

  • مدل های آزمایش فاکتوریل مثال: عوامل مؤثر در موفقیت حل مسائل ریاضی. عوامل موثر بر حجم فروش

داده ها شامل چندین سری مشاهده (پردازش) است که به عنوان تحقق نمونه های مستقل در نظر گرفته می شود. فرضیه اولیه می گوید که هیچ تفاوتی در درمان وجود ندارد، یعنی. فرض بر این است که همه مشاهدات را می توان به عنوان یک نمونه از جامعه عمومی در نظر گرفت:

  • مدل پارامتریک تک عاملی: روش شفه.
  • مدل ناپارامتریک تک عاملی [Lagutin MB, 237]: معیار Kruskal-Wallis [Hollender M., Wolf DA, 131]، معیار Jonkhir's [Lagutin MB, 245].
  • مورد کلی یک مدل با عوامل ثابت، قضیه کوکران [عفیفی ا.، آیزن اس.، 234].

داده ها مشاهدات تکراری هستند:

  • مدل غیر پارامتری دو عاملی: معیار فریدمن [لاپاچ ، 203] ، معیار پیج [لاگوتین MB ، 263]. مثال ها: مقایسه اثربخشی روش های تولید، تکنیک های کشاورزی.
  • مدل غیر پارامتری دو عاملی برای داده های ناقص

تاریخ

این اسم چه ریشهای دارد تحلیل واریانس? ممکن است عجیب به نظر برسد که روش مقایسه میانگین ها آنالیز واریانس نامیده می شود. در واقع، این به این دلیل است که هنگام بررسی معنی‌داری آماری تفاوت بین میانگین‌های دو (یا چند) گروه، در واقع در حال مقایسه (تحلیل) واریانس‌های نمونه هستیم. مفهوم اساسی تحلیل واریانس پیشنهاد شده است فیشردر سال 1920 شاید اصطلاح طبیعی تر، مجموع تجزیه و تحلیل مربع یا تجزیه و تحلیل تغییرات باشد، اما به طور سنتی از اصطلاح ANOVA استفاده می شود. در ابتدا، ANOVA برای پردازش داده‌های به‌دست‌آمده از آزمایش‌های طراحی‌شده ویژه توسعه داده شد و تنها روشی در نظر گرفته شد که به درستی روابط علی را بررسی می‌کند. این روش برای ارزیابی آزمایشات در تولید محصول استفاده شد. بعداً ، اهمیت علمی کلی تجزیه واریانس برای آزمایشات روانشناسی ، آموزش ، پزشکی و غیره.

ادبیات

  1. شفه جی.تحلیل واریانس. - م.، 1980.
  2. آرنس اچ. لوتر یو.تحلیل واریانس چند متغیره
  3. الف آی کوبزارآمار ریاضی کاربردی. - M: Fizmatlit ، 2006.
  4. Lapach S.N.، Chubenko A.V.، Babich P.N.آمار در علم و تجارت. - کیف: موریون، 2002.
  5. لاگوتین ام بی.آمار ریاضی تصویری در دو جلد. - M.: P-center، 2003.
  6. عفیفی A. ، Eisen S.تحلیل آماری: رویکردی مبتنی بر کامپیوتر.
  7. هلندر ام.، ولف دی.آ.روشهای آماری ناپارامتریک

پیوندها

  • تجزیه و تحلیل واریانس - کتاب درسی الکترونیکی StatSoft.


 


خواندن:



رئیس کلیسای ارتدوکس - ساختار کلیسای ارتدکس روسیه

رئیس کلیسای ارتدوکس - ساختار کلیسای ارتدکس روسیه

یکی از پانزده کلیسای ارتدوکس محلی کلیسای ارتدکس روسیه است. این یک کلیسای محلی چند ملیتی است که در ...

درگیری بین پاتریارک نیکون و تزار الکسی میخایلوویچ

درگیری بین پاتریارک نیکون و تزار الکسی میخایلوویچ

تزار الکسی میخایلوویچ و پاتریارک نیکون مقدمه ................................................................................. ... 3 1. تزار الکسی میخایلوویچ و نیکون قبل از کلیسا. .

زندگی سرگیوس رادونژ نمونه ای از سخنرانی هنری از زندگی سرگیوس رادونژ

زندگی سرگیوس رادونژ نمونه ای از سخنرانی هنری از زندگی سرگیوس رادونژ

مقدمه فصل 1. سیمون آذرین - کاتب و نویسنده 1.1 معنای ژانر هاژیوگرافی در ادبیات روسیه باستان 2 ویژگی های زندگی و ...

تواریخ زندگی سرگیوس رادونژ نشانه های زندگی در زندگی سرگیوس رادونژ

تواریخ زندگی سرگیوس رادونژ نشانه های زندگی در زندگی سرگیوس رادونژ

اولین نویسنده اثر "زندگی سرگیوس رادونژ" که خلاصه ای از آن در اینجا ارائه شده است، اپیفانیوس حکیم است. او این کار را آغاز کرد ...

تصویر خوراک Rss