- مثالی از رگرسیون چندگانه
- بررسی داده ها و آمار توصیفی
- گفتگوهای رگرسیون در SPSS
- خروجی رگرسیون چندگانه در SPSS
- فرضیات رگرسیون چندگانه
- گزارش رگرسیون چندگانه توسط APA
مثالی از رگرسیون چندگانه
یک دانشمند می خواهد تحقیق کند که آیا از طریق چندین ویژگی بیمار می تواند هزینه های مراقبت های بهداشتی را پیش بینی کرد؟ تمام داده ها در health-costs.sav است که به شرح زیرمیباشد.
A>> متغیر وابسته هزینه های مراقبت های بهداشتی (به دلار آمریکا) اعلام شده در سال 2020 یا به طور خلاصه “هزینه” است.
B>> متغیرهای مستقل جنس ، سن ، نوشیدن الکل، سیگار کشیدن و ورزش هستند. دانشمند ما فکر می کند که هر متغیر مستقل با هزینه های مراقبت های بهداشتی رابطه خطی دارد. بنابراین او تصمیم می گیرد که یک مدل رگرسیون خطی چندگانه را برازش دهد. مدل نهایی به طور همزمان هزینه های متغیرهای مستقل را پیش بینی می کند.
بررسی داده ها و آمار توصیفی
قبل از اجرای رگرسیون چندگانه ، ابتدا اطمینان حاصل کنید که
- متغیر وابسته کمی است.
- هر متغیر مستقل کمی یا دوحالته است.
- حجم نمونه به اتدازه کافی بزرگ است.
یک بازرسی بصری از داده های ما نشان می دهد که الزامات 1 و 2 برآورده شده است: جنسیت یک متغیر دوحالته است و سایر متغیرهای مرتبط کمی هستند. در مورد اندازه نمونه، قاعده کلی این است که برای هر متغیر مستقل حداقل 15 مشاهده مستقل لازم دارید. در مثال ما ، از 5 متغیر مستقل استفاده خواهیم کرد بنابراین به یک نمونه نمونه حداقل (N = 5 * 15 = 75) نیاز داریم. داده های ما شامل 525 مورد است، بنابراین خوب به نظر می رسد.
توجه داشته باشید که داده های مثال ما شامل 525 مشاهده مستقل است
به خاطر داشته باشید ، اگر مقادیر گمشده در متغیرهای ما وجود داشته باشد ، ممکن است نتوانیم از همه موارد N = 525 استفاده کنیم. بیایید اکنون برخی از بررسی های سریع داده ها را ادامه دهیم.
- هیستوگرام اساسی را بر روی تمام متغیرها اجرا کنید. بررسی کنید که توزیع فراوانی آنها منطقی به نظر می رسد. آیا داده پرت وجود دارد؟ آیا باید مقادیر از دست رفته را مشخص کنید؟
- نمودارپراکنش را برای هر متغیر مستقل (محور x)در مقابل متغیر وابسته (محور y)بررسی کنید. * آیا روابط منحنی شکل یا مورد غیر معمولی مشاهده می کنید؟
- آمار توصیفی را برای تمام متغیرها انجام دهید. اگر متغیرهایی مقادیر گمشده دارند بررسی کنید و اگر وجود دارد تعداد آنها چندتا است.
4- همبستگی پیرسون را در بین تمام متغیرها بررسی کنید. همبستگی مطلق بیش از 0.8 یا بیشتر ممکن است بعداً باعث ایجاد عوارضی (معروف به چند خطی بودن) برای تحلیل رگرسیون واقعی شود.
APA توصیه می کند که این دو جدول آخر را مانند شکل زیر ترکیب و گزارش کنید.
APA جدول گزارش شده برای همبستگی و آمار توصیفی را گزارش می دهد
به عنوان بخشی از نتایج رگرسیون چندگانه
این بررسی های داده ها نشان می دهد که داده های نمونه ما کاملاً خوب به نظر می رسند: همه نمودارها قابل قبول هستند ، هیچ مقدار از دست رفته ای وجود ندارد و هیچ یک از همبستگی ها از 0.43 فراتر نمی رود. بیایید اکنون با تحلیل رگرسیون واقعی پیش برویم.
تالارگفتگوی رگرسیون درSPSS
ابتدا مطابق شکل زیر به Analyze >> Regression >> Linear خواهیم رفت.
سپس ، گفتگوی اصلی و زیر دیالوگ ها را مانند تصویر زیر پر می کنیم.
- ما فاصله اطمینان 95٪ برای ضرایب b انتخاب می کنیم.
- برخی از تحلیلگران همبستگی های جزئی مربعی (squared semipartial) را به عنوان اندازه گیری اندازه اثر برای پیش بینی های فردی گزارش می دهند. اما فعلاً ، از آنها بگذریم.
- با انتخاب “موارد را به صورت لیست حذف کنید” ، تجزیه و تحلیل رگرسیون فقط برای موارد بدون مقادیر از دست رفته در هر یک از متغیرهای رگرسیون انجام می شود. این برای داده های مثال ما خوب است اما ممکن است ایده خوبی برای سایر داده ها نباشد.
با کلیک روی Paste ، دستور زیر را نتیجه میدهد. بیایید آن را اجرا کنیم.
دستور رگرسیون چندگانه در SPSS
*Basic multiple regression syntax without regression plots.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT costs
/METHOD=ENTER sex age alco cigs exer.
خروجی رگرسیون چندگانه در SPSS
اولین جدولی که بررسی می کنیم ، جدول ضرایب نشان داده شده در زیر است.
ضرایبb مدل رگرسیون ما را مشخص می کنند:
$Costs’ = -3263.6 + 509.3 \cdot Sex + 114.7 \cdot Age + 50.4 \cdot Alcohol\\ + 139.4 \cdot Cigarettes – 271.3 \cdot Exericse$
(\cdot) هزینه های بهداشتی سالیانه پیش بینی شده را به دلار نشان می دهد.
هر ضریب b میانگین افزایش هزینه های مرتبط با افزایش 1 واحد در یک پیش بینی را نشان می دهد. به عنوان مثال ، افزایش 1 ساله در سن به طور متوسط 114.7 دلار در هزینه ها افزایش می یابد. یا افزایش 1 ساعته ورزش در هفته با افزایش – 271.3 دلار (یعنی 271.3 دلار کاهش) هزینه های سالانه سلامتی همراه است.
حال بیایید، در مورد جنسیت صحبت کنیم: افزایش 1 واحدی جنسیت ، به طور متوسط 509.3 دلار هزینه هارا افزایش می یابد. برای درک معنای این مورد ، لطفا توجه داشته باشید که جنسیت در داده های مثال ما 0 (زن) و 1 (مرد) رمزگذاری شده است. بنابراین برای این متغیر ، تنها افزایش 1 واحدی ممکن است از زن (0) به مرد (1) باشد. بنابراین ، 509.3B =$ به این معناست که بطور متوسط سالانه هزینه ها بر ای مردان 509.3 دلار بالاتر از زنان است (هر چیز دیگری برابر است ، یعنی). این چگونگی استفاده از متغیرهای دوحالته در رگرسیون چندگانه را روشن می کند. وقتی متغیر های تصنعی را آموزش دهیم این ایده را توضیح خواهیم داد.
ستون “Sig” در جدول ضرایب ما شامل (2مقدار) p-valueبرای هر ضریب b است. به عنوان یک دستورالعمل کلی ، ضریب b از نظر آماری معنی دار است اگر “Sig” یا p < 0.05باشد. بنابراین ، تمام ضرایب b در جدول ما از نظر آماری معنی دار هستند. دقیقاً ، مقدار p-value= 000 به این معنی است که اگر برخی از ضرایب b در جامعه صفر باشد (فرضیه صفر) ، در این صورت احتمال یافتن مشاهده ای از نمونه با ضریب b یا شدیدتر 0.000 است. سپس نتیجه می گیریم که احتمالاً ضریب b جامعه صفر نبوده است.
ضرایب b ، قدرت نسبی پیش بینی کننده های ما را به ما نمی گویند. دلیل این امر این است که مقیاس های مختلفی دارند: آیا یک سیگار در روز بیشتر از یک نوشیدنی الکلی در هفته است یا کمتر؟ یک راه برای مقابله با این ، مقایسه ضرایب رگرسیون استاندارد یا ضرایب بتا است که اغلب به صورت β (حرف یونانی “بتا”) نشان داده می شود. *
ضرایب بتا (ضرایب رگرسیون استاندارد) برای مقایسه نقاط قوت نسبی پیش بینی کننده های ما مفید است. 3 پیش بینی کننده قوی در جدول ضرایب ما عبارتند از:
- سن (β = 0.322) )؛
- مصرف سیگار (β = 0.311);
- ورزش (β = -0.281).
ضرایب بتا با استاندارد سازی همه متغیرهای رگرسیون (عدد z استاندارد) قبل از محاسبه ضرایب b بدست می آیند. استاندارد سازی متغیرها یک معیار(یا مقیاس) مشابه را برای آنها اعمال می کنند: نتایج عدد z همیشه میانگین 0 و انحراف استاندارد 1 به دنبال دارد.
این مطلب بدون توجه به اینکه آیا سیگار یا نوشیدنی های الکلی در طول سال به چه میزان محاسبه می شوند، درنظر گرفته می شود. به همین دلیل است که ضرایب B بیش از متغیرهای استاندارد استفاده می شوند در حالی که ضرایب بتا در مدلهای رگرسیونی درونی وبیرونی قابل مقایسه هستند.
بنابراین ضرایب b مدل رگرسیون چندگانه ما را تشکیل می دهند. این به ما می گوید که چگونه می توان هزینه های سالانه مراقبت های بهداشتی را پیش بینی کرد. آنچه که ما نمی دانیم ، این است که چقدر مدل ما این هزینه ها را پیش بینی می کند؟ پاسخ را در جدول خلاصه مدل در زیر می یابیم.
خروجی رگرسیون در II SPSS- خلاصه مدل و ANOVA
شکل زیر خلاصه مدل و جداول ANOVA در خروجی رگرسیون را نشان می دهد.
R ضریب همبستگی چندگانه را است. این به سادگی همبستگی پیرسون بین اعداد واقعی و اعداد پیش بینی شده توسط مدل رگرسیون ما را نشان می دهد.
مربع R- یا R2 به سادگی همبستگی چند مربع رانشان میدهد. این همچنین نسبت واریانس در متغیر وابسته برای کل مدل رگرسیونی است.
مربع R محاسبه شده بر روی داده های نمونه ،مربع Rبرای کل جامعه راهم برآورد میکند. بنابراین ما ترجیح می دهیم مربع R- یا R2adj تنظیم شده را گزارش کنیم ، که یک برآوردگر بی طرف برای مربع R جامعه است. برای مثال ما ، R2adj = 0.390. طبق اکثر استانداردها ، این بسیار بالا در نظر گرفته می شود.
متأسفانه ، SPSS برای R2adjفاصله اطمینان ندارد. با این حال ، p-value موجود در جدول ANOVA برای R و R-square اعمال می شود (بقیه اعداد این جدول بسیار بی فایده است). این فرضیه صفر را که کل مدل رگرسیونی R جامعه اش صفر است را ارزیابی می کند. از آنجا که p < 0.05 ، ما این فرضیه صفر را برای داده های مثال خود رد می کنیم.
به نظر می رسد که ما برای این تجزیه و تحلیل کار خود را به پایان رسانده ایم اما از یک مرحله مهم صرف نظر کرده ایم: بررسی فرضیات رگرسیون چندگانه.
فرضیات رگرسیون چندگانه
بررسی داده های ما با برخی الزامات اساسی آغاز شد. با این حال ، فرضیات رگرسیون خطی چندگانه “موثق و رسمی” هستند:
- مشاهدات مستقل؛
- نرمال بودن: باقی مانده های رگرسیون باید به طور معمول در جمعیت توزیع شوند *؛
- همبستگی : واریانس باقیمانده های جامعه نباید به هیچ وجه به صورت منظم در نوسان باشد.
- خطی بودن: هر پیش بینی کننده باید یک رابطه خطی با متغیر وابسته داشته باشد.
ما با انجام 3 کار بررسی خواهیم کرد که آیا تحلیل نمونه ما با این مفروضات مطابقت دارد:
- بازرسی بصری از داده های ما نشان می دهد که هر یک از مشاهدات N = 525 مربوط به یک شخص است. بعلاوه ، این افراد هیچ تعاملی باهم ندارند که بتواند روی پاسخهای نظرسنجی آنها تأثیر بگذارد. در این حالت ، ما معمولاً آنها را مشاهدات مستقلی می دانیم.
- ما یک هیستوگرام از مانده های رگرسیون خود ایجاد و بازرسی می کنیم تا ببینیم آیا داده ها تقریباً به طور نرمال توزیع شده اند.
- ما یک نمودارپراکنش برای باقیمانده ها (محور y )در مقابل مقادیر پیش بینی شده (محور x)ایجاد و بازرسی می کنیم. این نمودار پراکنش ممکنه اشتباهات همبستگی واریانس ها و خطی بودن را تشخیص دهد.
راه آسان برای به دست آوردن این 2 نمودار رگرسیون ، انتخاب آنها در گفتگوهای (نشان داده شده در زیر) و اجرای تجزیه و تحلیل رگرسیون است
با کلیک روی Paste ، دستور زیر نتیجه می شود. ما آن را اجرا می کنیم و نمودار باقی مانده نشان داده شده در زیر را بررسی می کنیم.
دستور رگرسیون چندگانه در SPSS II
*Regression syntax with residual histogram and scatterplot.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT costs
/METHOD=ENTER sex age alco cigs exer
/SCATTERPLOT=(*ZRESID ,*ZPRED)
/RESIDUALS HISTOGRAM(ZRESID).
نموارباقی مانده ها I -هیستوگرام
هیستوگرام باقی مانده های استاندارد شده ما نشان می دهد:
- اندکی چولگی مثبت داریم. دم راست توزیع کمی کشیده شده است.
- کمی کشیدگی مثبت داریم ؛ توزیع ما بیشتر قله تیزی دارد تا اینکه منحنی نرمالی باشد (یا “لپتوکورتیک”). دلیل این امر، این است که میله های میانی بیش از حد بالا هستند و منحنی نرمال سوراخ می کنند.D;
به طور خلاصه ،مشاهده می کنیم برخی از انحرافات نرمال اند اما بسیار کوچک هستند. بیشتر تحلیلگران معتقدند که باقیمانده ها تقریباً توزیع نرمال دارند. اگر متقاعد نشدید ، می توانید باقیمانده ها را به عنوان یک متغیر جدید از طریق گفتگوی رگرسیون SPSS به داده ها اضافه کنید. در مرحله بعدی ، می توانید آزمون شاپیرو-ویلک یا یک آزمون کولموگروف-اسمیرنوف بر روی آنها انجام دهید. با این حال ، ما به طور کلی این آزمایشات را توصیه نمی کنیم.
نمودار باقیمانده ها II –نمودارپراکنش
پراکندگی باقیمانده که در زیر نشان داده شده است ، اغلب برای بررسی همبستگی و فرضیات خطی استفاده می شود. اگر هر دو فرض برقرار باشد ، این پراکندگی نباید هیچ الگوی سیستماتیک را نشان دهد. به نظر می رسد که این مورد در اینجا وجود دارد.
همبستگی بیانگر این است که واریانس باقیمانده باید ثابت باشد. این واریانس را می توان از فاصله عمودی نقاط در پراکندگی هاتخمین زد. بنابراین ، هنگام حرکت از چپ به راست ، ارتفاع پراکندگی ما نباید افزایش یابد یا کاهش یابد. ما چنین الگویی را نمی بینیم.
یک بررسی معمول برای فرض خطی بررسی این است که آیا نقاط موجود در این پراکندگی هر نوع منحنی را نشان می دهد. در اینجا چنین نیست ، بنابراین به نظر می رسد خطی بودن در اینجا نیز وجود دارد. *
گزارش APA رگرسیون چندگانه
جدول زیر دستورالعمل های استاندارد گزارشگری APA(انجمن روانشناسی آمریکا) را برای گزارش تجزیه و تحلیل رگرسیون چندگانه استاندارد ارائه می دهد.
من فکر می کنم این نادرست است که جدول APA برای مدل رگرسیون ما ثابت نباشد. من به شما توصیه می کنم به هر حال آن را اضافه کنید. علاوه بر این ، توجه داشته باشید که
- مربع R تنظیم شده در جدول خلاصه مدل یافت می شود و
- p-value آن تنها عددی است که از جدول ANOVA در خروجی SPSS نیاز دارید. آخرین مطلب، APA همچنین گزارش میدهد آمارتوصیفی و جدول همبستگی هارا همانطورکه دراینجا دیدیم.
ممنون از مطالعه شما