تعریف و مقدمه

آزمون z  برای 2 نسبت مستقل از هم بررسی می کندکه آیا رویدادی به طور مساوی اغلب در 2 زیرجاحعه رخ می دهد. مثال: آیا درصد مساوی از دانش آموزان دختر و پسر به برخی از سوالات امتحانی به درستی پاسخ می دهند؟ شکل زیر نشان می دهد که داده های مورد نیاز چه شکلی هستند.

آزمون -Z-مثال ساده

یک نمونه تصادفی ساده از n = 175  دانش آموزپسر و n = 164 دانش آموز دختر 5 سوال امتحانی را تکمیل کردند. بعضی از داده های خام-که در زیر نشان داده شده است در z-test-independent-proportions.xlsx هستند .

ابتدا به سوال 1 امتحان می پردازیم. داده های خام این سوال  به طور خلاصه در جدول احتمالی زیر نشان داده شده است.

جدول احتمالی ما درصد پاسخ دهندگان زن و مرد که به سوال 1 به درستی پاسخ داده اند را نشان می دهد.  در آمار ، ما معمولاً نسبت ها را بر درصد ترجیح می دهیم. با خلاصه کردن یافته های خود ، می بینیم که

  •   p1 = 0.720  نسبت n1 = 175 دانش آموز پسر و
  • p2 = 0.768  نسبت n2 = 164 دانش آموز دختر است که به درستی پاسخ داده اند.

در نمونه ما ، دانش آموزان دختر کمی بهتر از دانش آموزان پسر عمل کردند.  نتایج نمونه معمولاً تا حدی با همتایان جامعه خود متفاوت است.حتی اگر کل جامعه زن و مرد مشابه عمل کنند ، باز هم ممکن است درنمونه کوچک خود تفاوتی پیدا کنیم.  می توان این نتایج را به راحتی از نمونه های تصادفی دانش آموزان ترسیم کرد.  آزمون z تلاش می کند این فرضیه صفر را بی اثر کند و هم چنین نشان دهد که درجامعه هم تفاوت وجود دارد.

فرضیه صفر

فرضیه صفر برای یک آزمون z  برای نسبتهای مستقل است کهتفاوت بین 2 نسبت جامعه صفر است.اگر این درست بتشد ، تفاوت بین 2 نسبت نمونه هم باید نزدیک به صفر باشد. ولی نتایج بسیار متفاوت از صفر هستند بنابراین با فرضیه صفر در تضاد است . بنابراین دقیقاً چقدر این نتیجه بعید است؟ محاسبه این نسبتاً آسان است ، اما به فرضیاتی نیاز دارد.

مفروضات

مفروضات آزمون z برای نسبتهای مستقل عبارتند از:

  • مشاهدات مستقل و
  • اندازه نمونه کافی

اندازه نمونه کافی چیست؟ اکثر کتابهای درسی بیان می کنند که نتایج آزمون به اندازه کافی دقیق است اگر

p a n a > 10
( 1 p a ) n a > 10
p b n b > 10
( 1 p b ) n b > 10

اگر این موارد وجود داشته باشند. ابزار اکسل در یک دقیقه به طور خودکار بررسی می کند اگر همه این 4 شرایط برآورده شده باشند .

na و nb : حجم نمونه 

فرمول های آزمون Z

برای محاسبه آزمون z ، ابتدا تفاوت بین نسبت  های نمونه محاسبه می کنیم:

d i f = p 1 p 2

برای داده های مثال ما:                                                                   dif=0.720−0.768=−0.048          

خطای استاندارد برای این اختلاف بستگی به نسبت جامعه دارد. بدیهی است که ما آن را نمی دانیم اما می توانیم از روی تخمین نسبت جامعه  ^p  محاسبه کنیم:    

p ^ = p a n a + p b n b n a + n b

برای داده های مثال ما ، اینطور خواهد بود:

p ^ = 0.720 175 + 0.768 164 175 + 164 = 0.743
توجه داشته باشید که این نسبت کلی نمونه ما است که به درستی پاسخ داده است. این به راحتی در جدول احتمالی که قبلاً ارائه کردیم تأیید می شود. اکنون می توانیم خطای استاندارد اختلافات را برآورد کنیم: S E 0 = p ^ ( 1 p ^ ) ( 1 n a + 1 n b )
برای مثال ما عبارت است از :
S E 0 = 0.743 ( 1 0.743 ) ( 1 175 + 1 164 ) = .0475
اکنون می توانیم به راحتی آماره آزمون را محاسبه کنیم
Z = d i f S E 0
در اینجا δ  تفاوت فرض شده جامعه را نشان می دهد. فرضیه صفر ما بیان می کند که δ = 0 (نسبت هر دو جامعه برابر است). بنابراین برای مثال ما ، Z=−1.02
اگر مفروضات آزمون z برآورده شود ، Z تقریباً از توزیع نرمال استاندارد پیروی می کند. از اینجا می توانیم به آسانی آن را جستجو کنیم P(Z<−1.02)=0.155 بنابراین معنی داری 2 طرفه عبارت است P (2 − tailed) = 0.309
نتیجه گیری: ما فرضیه صفر را رد نمی کنیم. اگر اختلاف جامعه صفر باشد، یافتن تفاوت در نمونه مشاهده شده یا احتمال شدیدتر بسیار است. داده های ما ادعای نسبت برابر پاسخ دانش آموزان پسر و دختر در سوال 1 امتحان  را رد می کند.

فواصل اطمینان برای آزمون –z

داده های ما نشان می دهد که تفاوت بین نسبت های نمونه ما، dif=-.048 است. درصد مردانی که پاسخ صحیح داده اند حدود 4.8 درصد کمتر از زنان است. با این حال، از آنجایی که 4.8٪ ما فقط بر اساس یک نمونه است، احتمالاً تا حدودی “نادرست” است. بنابراین دقیقاً چقدر انتظار داریم که “نادرست” باشد؟ ما می توانیم با محاسبه فاصله اطمینان به این پاسخ پاسخ دهیم. ابتدا فرضیه جایگزین HA را فرض می کنیم که تفاوت جمعیت 0.048- است. خطای استاندارد اکنون کمی متفاوت از H0 محاسبه می شود:
S E A = p a ( 1 p a ) n a + p b ( 1 p b ) n b
برای نمونه ما به این صورت محاسبه می شود:
S E A = .72 ( 1 .72 ) 175 + .77 ( 1 .77 ) 164 = 0.0473
حال، فاصله اطمینان برای اختلاف جمعیت δ بین نسبت ها به صورت زیر است:
C I δ = p ^ S E A Z 1 2 α < δ < p ^ + S E A Z 1 2 α
برای یک بازه 95 درصد و 5 درصد سطح معنی داری داریم:
Z 1 2 α = Z .975 1.96
شکل زیر این و برخی دیگر از مقادیر z حیاتی را برای سطوح مختلف α نشان می دهد. همانطور که در توزیع نرمال – آموزش سریع نشان داده شده است، می توان مقادیر دقیق را به راحتی در Excel یا Googlesheets جستجو کرد.

برای مثال ما فاصله اطمینان 95 درصد برابر است با:

C I δ = .048 .0473 1.96 < δ < .048 + .0473 1.96 =
C I δ = .141 < δ < 0.044

یعنی به احتمال 95 درصد اختلاف جامعه بین 0.141- و 0.044 است. توجه داشته باشید که این CI حاوی صفر است: تفاوت صفر بین نسبت جامعه -به این معنی که زن و مرد به یک اندازه خوب عمل می کنند- در محدوده احتمالی است.

اندازه اثر Cohen’s H - i

نسبت نمونه ما p1 = 0.72 و p2 = 0.77 است. آیا باید آن را یک اثر کوچک ، متوسط ​​یا بزرگ در نظر بگیریم؟ احتمال اندازه اثر اندازه گیری شده ، تفاوت بین نسبت های ما است. با این حال ، معیار مناسب تر Cohen’s H است که به صورت زیر تعریف شده است:

h = | 2 a r c s i n p 1 2 a r c s i n p 2 |

در این جا  arcsinarcsin همان عملکرد تابع  arcsine را دارد.

قوانین اساسی در این فرمول :

  • h = 0.2 نشان دهنده یک اثر کوچک است.
  • h = 0.5 نشان دهنده یک اثر متوسط است.
  • h = 0.8 نشان دهنده یک اثر بزرگ است.

برای داده های مثال ما ، Cohen’s H  عبارت است از:

h = | 2 a r c s i n 0.72 2 a r c s i n 0.77 |
h = | 2 1.01 2 1.07 | = 0.11

قوانین کلی ما نشان می دهد که این اثر تقریباً ناچیز است.

اندازه اثر i -ضریب Phi

یک اندازه گیری اندازه اثر جایگزین برای آزمون z برای نسبتهای مستقل ، ضریب phi است که با φ نشان داده می شود)  حرف یونانی( “phi” این یک همبستگی پیرسون بین متغیرهای دوگانه است.

قوانین اساسی در این فرمول عبارتند از :

  • |ϕ|=1نشان دهنده یک اثر کوچک است ؛
  • |ϕ|=3نشان دهنده یک اثر متوسط است ؛
  • |ϕ|=5نشان دهنده یک اثر بزرگ است.

با این حال ، ما احساس می کنیم این قوانین کلی قابل بحث هستند: ممکن است بیش از حد سختگیر باشند زیرا  | φ | به طور قابل ملاحظه ای کوچکتر از | r | است. به هر حال اگر کسی ایده بهتری دارد ، به من اطلاع دهد

ابزار Excel برای آزمون های Z

آزمون Z در اکثر بسته های آماری از جمله SPSS و JASP متاسفانه وجود ندارد. بنابراین ما این را توسعه می دهیم در  که z-test-independent-proportions.xlsx بخشی از آن در زیر نشان داده شده است.

با توجه به 2 نسبت نمونه و 2 اندازه نمونه ، ابزار ما

  • بررسی می کند که آیا فرض اندازه نمونه برآورده شده است یا خیر.
  • سطح معنی داری 2 طرفه برای آزمون z را محاسبه می کند.
  • (1 – β)را محاسبه می کند که قدرت آزمون z است ؛
  • فاصله اطمینان را برای تفاوت بین نسبت ها محاسبه می کند.
  • Cohen’s H را محاسبه می کند؛
  • φ را محاسبه می کند.

ما این ابزار را بر ماشین حساب های آنلاین ترجیح می دهیم زیرا

  • نتایج در Excel را می توان (و باید) با سایر فایل های پروژه ذخیره کرد در حالی که نتایج حاصل از ماشین حساب های آنلاین معمولاً چنین نیست.
  • تمام فرمول های استفاده شده در Excel قابل مشاهده هستند و بنابراین می توان آنها را تأیید کرد.
  • اجرای بسیاری از آزمون های z در اکسل می تواند بدون زحمت و با گسترش فرمول ها انجام شود.

کاربران SPSS می توانند به راحتی ورودی مناسب ابزار Excel را با دستور MEANS مانند زیر اجرا کرد

*Create table with sample sizes and proportions for v1 to v5 by sex.

means v1 to v5 by sex
/cells count mean.

انجام این کار برای 2+ متغیرهای وابسته به جدولی مطابق شکل زیر می انجامد.

توجه داشته باشید که همه متغیرهای وابسته برای کارکردن باید کدگذاری 0-1 داشته باشند

رابطه آزمون -Z با سایر آزمونها

جایگزین آزمون z برای نسبتهای مستقل ، آزمون استقلال کی دو است . سطح معنی داری دومی (که همیشه 1 طرفه است) با معنی داری دوطرفه آزمون اول یکسان است. با بررسی دقیق تر ، این آزمایشات – و همچنین مفروضات آنها – از نظر آماری معادل هستند. با این حال ، 2 دلیل برای ترجیح دادن آزمون z  بر آزمون کی دو وجود دارد:

  • از آزمون z فاصله اطمینان برای تفاوت بین نسبت ها بدست می آید.
  • اجرای 2 یا بیشتر آزمون های z آسان تر است و به یک جدول خروجی واضح تر از 2 (+) جدول احتمالی با آزمون های کی دو منجر می شود.

دوم، آزمون z برای نسبتهای مستقل، مجانبی است  مشابه  آزمون t نمونه های مستقل اگر از حجم نمونه بزرگتر استفاده شود اینها بیشتر شبیه هم می شوند. اما -برعکس- نتایج آزمون t برای نسبت ها “درست نیست” ، زیرا اندازه نمونه ها کوچکتر است. دلایل دیگر ترجیح دادن آزمونz بر آزمون t این است که

  • آزمون z-  منجر به  قدرت بیشتر و فواصل اطمینان کمتر برای نمونه های کوچکتر استفاده شده ، می شود.
  • آزمون t مستلزم متغیرهای وابسته دارای توزیع نرمال و واریانس جامعه برابر است در حالی که آزمون z اینطور نیست.

بنابراین -به طور خلاصه- از آزمون z استفاده کنید بهتر است . این که بسته های آماری شما آن را ندارند بهانه ضعیفی برای انجام ندادن کار درست است.

ممنون از مطالعه شما!