معنی داری آماری به چه معناست؟

معنی داری آماری احتمال یافتن انحراف معین از فرضیه صفر _یا بیشتر از یک فرضیه_ در نمونه است.

از معنی داری آماری غالباً در مقالات پژوهشی به عنوان p-value (مخفف “مقدار احتمال”) یا به عبارت ساده تر p نام برده می شود.

مقدار p کوچک اساساً به این معنیست که داده هایتان تحت برخی فرضیه های صفر دور از واقع است. یک قاعده قراردادی اینست که اگر 0/05> p ،فرضیه صفر را رد کنید .

مثال 1 – 10 پرتاب سکه

 یک سکه دارم و فرضیه صفر، نااریب بودن سکه تعریف میشود. به این معنی که احتمال رو آمدن سکه 0.5 باشد. سکه را 10 بارپرتاب می کنم، ممکن است سکه بین 0 تا 10 بار، رو بیاید. احتمالات این نتایج -با فرض اینکه سکه من کاملا نااریب باشد- در زیر نشان داده شده است. *

به خاطر داشته باشید که احتمالات، همان فراوانی های نسبی هستند. بنابراین احتمال 0.24، برای 5 بار رو امدن سکه بدین معنیست که اگر سکه 10 بار پرتاب شود، و این عمل را 1000 بار تکرار کنم، باید در تقریبا 24٪ این پرتاب ها، 5 بارسکه رو بیاید.

حال، 9 تا از 10 پرتاب سکه، رو می آید. شکل قبل بیان می دارد  که احتمال 9 بار رو آمدن یا بیشتر، در نمونه ای 10 تایی از پرتاب سکه، 0.01 = p می باشد. اگر سکه من کاملا نااریب باشد، احتمال به دست آوردن احتمالی که الان محاسبه کردیم فقط  1در 100 است.

بنابراین، بر اساس این نمونه از N = 10 پرتاب سکه باشد، فرضیه صفر را رد می کنم:

پس در نتیجه، دیگر عقیده ندارم که سکه من نااریب است.

مثال 2 – آزمون T

نمونه ای 360 نفره، در یک آزمون گرامر شرکت کرده اند. می خواهیم بدانیم که آیا بین نمره مردان و زنان تفاوتی وجود دارد. فرضیه صفر ما این است که به طور متوسط، نمره پاسخ دهندگان مرد و زن برابر است. جدول زیر میانگین و انحراف استاندارد این نمونه را برحسب جنسیت بیان می کند.

توجه داشته باشید که زنان 3.5 نمره بیشتر از مردان کسب کرده اند. با این حال، اندازه نمونه ها تا حدودی با اندازه جامعه تفاوت دارد. سوال اینجاست که: اگر میانگین امتیازات برای همه مردان و زنان برابر باشد، احتمال پیدا کردن این اختلاف میانگین یا یک تفاوت شدید در نمونه N = 360 چقدر است؟ این سوال با انجام آزمون t دونمونه مستقل پاسخ داده می شود.

آماره آزمون – T

بنابراین تا چه اندازه می توان، اختلاف میانگین نمونه را، منطقی دانست؟ این بستگی دارد به

• انحراف معیار و

• اندازه نمونه هایی که داریم.

در اینجا اختلاف میانگین 3.5 امتیازی خود را استاندارد می کنیم، در نتیجه t=-2.2 می شود. بنابراین t  –مقدار آماره آزمون- در واقع مقدار اختلاف میانگین تصحیح شده برای اندازه های نمونه و انحراف استاندارد اصلاح شده را بیان می کند. جالب اینجاست که ما توزیع نمونه ای -و همچنین احتمال- را برای آزمون t می شناسیم.

معنی داری آماری یک طرفه

معنی داری آماری یک طرفه احتمال یافتن انحراف از فرضیه صفر -یا یک مقدار بیشتر- در یک نمونه است. در نمونه ما . p (1-tailed) ≈ 0.014

احتمال بدست آوردن t ≤ 2.2- با در نظر گرفتن اختلاف میانگین 3.5 نمره ای ما  1.4٪ می باشد. اگر میانگین جوامع دقیقا برابر باشد و ما 1000 نمونه داشته باشیم، انتظار داریم فقط 14 نمونه با اختلاف میانگین 3.5 نمره یا بیشتر حاصل شوند.

در مجموع، اگر اختلاف میانگین جوامع صفر باشد، این نتیجه از نمونه، بسیار دور از انتظار به نظر میرسد. درنتیجه فرضیه صفر را رد می کنیم. نتیجه گیری: احتمالاً زنان و مردان دراین آزمون نمره یکسانی نمی گیرند.

برخی از محققان صراحتا چنین نتایجی گزارش می دهند. با این حال، نقصی که در اینجا وجود دارد اینست که استدلال ما بیان دارد اگر مقدار t بزرگ باشد (کوچک نباشد)، فرضیه صفر را رد نمی کنیم.  مقدار بزرگ t در انتهای سمت راست توزیع قرارمی گیرد. با این حال، p-value فقط دم چپ را در نظر می گیرد که مقدار t (کوچک) -2.2 ما در آن به پایان می رسد. چنانچه هر دو احتمال را در نظر بگیریم، باید مقدار p = 0.028 ، که حاکی از معنی داری 2طرفه می باشد را گزارش دهیم.

معنی داری آماری 2 طرفه

معنی داری آماری دو طرفه، احتمال یافتن انحراف مطلق داده شده از فرضیه صفر_ یا بزرگتر_ در یک نمونه است

در آزمون t ، مقادیر بسیار کوچک و همچنین خیلی بزرگ t ،تحت فرضیه H0 ،دورانتظار می باشد. بنابراین ، نباید از دم سمت راست توزیع چشم پوشی کرد ، همانطور که برای یک آزمون یکطرفه اینکاررا انجام می دهیم. این موضوع بیان میکند که اگرمقدار t به جای -2.2 ، مقدار 2.2 باشد، فرضیه صفر را رد نمی کنیم. بااین تفاسیر، هر دو مقدار t، تحت فرضیه H0 به یک اندازه دورازانتظارهستند.

قرارداد برای محاسبه p برای t = -2.2 و نتیجه عکس: t = 2.2است. اضافه کردن آنها منجر به بدست آمدن پی-مقدار دوطرفه: p (2 tailed) = 0.028 درمثال می شود. از آنجا که توزیع در حوالی 0 متقارن است ، این 2 پی-مقدار، باهم برابرند.بنابراین ممکن است ما به همان اندازه p-value یک طرفه را دوبرابر کنیم.

 

 

معنی داری یکطرفه یا دوطرفه؟

باید معنی داری 1 طرفه یا 2 طرفه را بررسی کنید؟ اولاً ، بسیاری از آزمونهای آماری – مانند آزمونهای ANOVA(تحلیل واریانس یکطرفه) و chi-square tests(کی دو)– فقط p-value یکطرفه دارند،واین همان چیزیست که شما گزارش می دهید.

با این حال ، این سوال شامل حال آزمون های t ، آزمون های z و برخی دیگر ازآزمونها نیز میشود.

در مورد تجزیه و تحلیل داده ها اتفاق نظر کاملی وجود ندارد که کدام روش بهترمی باشد. بنده ،شخصاً هر زمان که p-values  دوطرفه محاسبه شده باشد را،ترجیح داده و گزارش می کنم. یک دلیل عمده اینست که برخی ازآزمون ها فقط p-value یکطرفه را محاسبه می کنند ، این امر، اغلب شامل تاثیراتی در دستورعمل های مختلف می باشد.

“”او روی زمین چه چیزی را امتحان می کند …؟”این نیاز به توضیح دارد، درست است؟

آزمون t یا تحلیل واریانس یکطرفه؟

با استفاده از آزمون t افراد جوان و میانسال را در آزمون گرامر مقایسه کردیم. بگذارید اینگونه بگوییم که جوانان عملکرد بهتری داشتند.

این از سطح معنی داری یک طرفه 0.096 نتیجه شد. این p-value اثر معکوس همان اندازه را شامل نمی شود :افراد میانسال با همان مقدارنمره، بهتر عمل می کنند. شکل زیر این ماجرا را نشان می دهد.

سپس افراد جوان ، میانسال و پیر را با استفاده از تحلیل واریانس یکطرفه مقایسه کردیم. جوانان بهترین عملکرد را دارند ، افراد مسن ضعیف ترین عملکرد ، و افراد میانسال دقیقاً در این بین هستند.

این از سطح معنی داری یک طرفه 0.035 نتیجه شد .اکنون این p-value  شامل اثر معکوس همان اندازه است.

بنابراین ،اگرمقدار p برای تحلیل واریانس یکطرفه همیشه دارای اثرات در جهات مختلف باشد، پس چرا هنگام گزارش آزمون t این موارد را لحاظ نمی کنید؟ در حقیقت ، آزمون t مستقل، در واقع حالت خاصی از تحلیل واریانس یکطرفه می باشد: اگر 2 گروه را،با تحلیل واریانس یکطرفه آزمون کنید، p-value حاصل، با مقدار معنی داری دوطرفه از آزمون t بر روی داده های مشابه،یکسان خواهد بود. این موضوع برای آزمون z در مقابل آزمون خی-دو نیز،صدق میکند.

“فرضیه مقابل

از گزارش معنی داری یک طرفه گاهی اوقات با این ادعا دفاع میشود که محقق انتظار دارد در جهتی معین تأثیر بگذارد.با این تفاسیر ، نمی توانم این موضوع را تأیید کنم. شاید “فرضیه های مقابل” فقط به منظور ارائه نتایج معنی داری آـماری قابل توجه تری، ارائه شده باشند.

دوم، انتظارات احتمالات را منتفی نمی دانند .اگر کسی کاملاً مطمئن است که برخی ازنتایج جهت خواهد داشت ، پس چرا باید از آزمون آماری استفاده کند؟

معنی داری آماری در مقابل عملی

بنابراین “معنی داری آماری”دقیقا به ما چه اطلاعاتی می دهد؟ اساساً می گوید که  مقداربرخی از تأثیرات در برخی از جوامع، به احتمال زیاد صفرنمی باشد. بنابراین آیا واقعاً این،همان چیزیست که می خواهیم بدانیم؟ اینکه اختلاف میانگین ، همبستگی یا تأثیری دیگر “صفر نیست”؟

نه.البته که نه.

درواقع می خواهیم بدانیم که برخی ازاختلاف میانگین ها ، همبستگی ها یا تأثیرات دیگر،تاچه اندازه زیاد می باشند.

با این تفاسیر ، این اطلاعاتی نیست که معنی داری آماری به ما می دهد.

به عنوان مثال ، همبستگی 0.1 در نمونه N = 1،000، مقدارp تقریبا برابربا0.0015 دارد. این از نظر آماری بسیار قابل توجه است: که به احتمال زیاد همبستگی جامعه برابر با 0.000 نمی باشد … با این حال ، در یک نمودار پراکنش،همبستگی 0.1 ازمقدار 0 قابل تشخیص نمی باشد. بنابراین مقدار قابل توجهی از نظر آماری نیست.

اما، همبستگی 0.5 با N = 10 دارای p تقریبا برابر با 0.14 است که بدین جهت، از نظر آماری معنی دار نمی باشد.

با این وجود ، نمودار پراکنش، یک رابطه قوی بین متغیرها را،نشان می دهد. با این حال ، از آنجا که اندازه نمونه ما بسیارکوچک است ، ممکن است این رابطه قوی به نمونه کوچک ما محدود شود: اگر همبستگی جامعه، دقیقا صفر باشد ،  احتمال وقوع آن 14٪ می باشد.

مشکل اساسی اینست که اگر حجم نمونه به اندازه کافی بزرگ باشد، از نظر آماری،هر اثری، قابل توجه است. بنابراین ، نتایج باید هم از نظر آماری و هم از نظر عملی معنی دار باشند تا بتوانند از اهمیت بیشتری برخوردار شوند. فواصل اطمینان به خوبی این دوبخش از اطلاعات را با هم ترکیب می کنند ودرنتیجه می توانند مفیدتر از معنی داری آماری واقع شوند.