اجرای یک تحلیل رگرسیون چندگانه اساسی در SPSS ساده است. برای تجزیه و تحلیل دقیق، می خواهیم اطمینان حاصل کنیم که مفروضات اصلی را برآورده می کنیم.
- خطی بودن : هر پیش بینی کننده یک رابطه خطی با متغیر نتیجه ما دارد.
- نرمال بودن : خطاهای پیش بینی به طور معمول در جامعه توزیع می شود.
- همگنی واریانس: واریانس خطاها در جامعه ثابت است.
علاوه بر این، باید اطمینان حاصل کنیم که داده های ما(متغیرها و همچنین موارد دیگر) در وهله اول منطقی هستند. آخرین مرحله، انتخاب مدل این است که: کدام پیش بینی ها را باید در مدل رگرسیون خود بگنجانیم؟
به طور خلاصه، یک تحلیل جامع کاملاً به سوالات پاسخ می دهد. و بهتر است بدانیم که کدام قدم ها(به کدام ترتیب) باید برداشته شود؟ جدول زیر یک نقشه راه ساده را پیشنهاد می کند.
نقشه راه رگرسیون چندگانه در SPSS
گام | چرا؟ | عمل | |
---|---|---|---|
1 | هیستوگرام ها را بررسی کنید | ببینید آیا توزیع منطقی است. | مقادیر از دست رفته را تنظیم کنید. متغیرها را حذف کنید. |
2 | توصیفات را بازرسی کنید | ببینید آیا متغیرهایی با N کم هستند. N را از لحاظ لیست معتبر بررسی کنید. | متغیرهای با N کم را حذف کنید. |
3 | پراکندگی ها را بازرسی کنید | ببینید آیا روابط خطی هستند یا خیر. به دنبال موارد با نفوذ باشید. | در صورت نیاز موارد را حذف کنید. در صورت نیاز پیش بینی ها را تغییر شکل دهید. |
4 | ماتریس همبستگی را بررسی کنید | ببینید آیا همبستگی پیرسون منطقی است یا خیر. | متغیرها را با همبستگی های غیرمعمول بازرسی کنید. |
5 | رگرسیون I: انتخاب مدل | ببینید کدام مدل خوب است. | متغیرها را از مدل حذف کنید. |
6 | رگرسیون II: باقیمانده | نقشه های باقیمانده را بازرسی کنید. | در صورت نیاز متغیرها را تغییر دهید. |
مثال: مطالعه رضایت کارکنان
یک شرکت یک نظرسنجی رضایتمندی کارکنان را که شامل رضایت کلی کارکنان بود ، برگزار کرد. کارمندان همچنین برخی از جنبه های اصلی کیفیت شغل را ارزیابی کرده و در فایل work.sav ذخیره شده اند.
سوال اصلی که میخواهیم به آن پاسخ دهیم به صورت زیر می باشد:
کدام جنبه ها، کیفیت رضایت شغلی را پیش بینی می کند و تا چه حد؟
حالا باید نقشه راه ذکر شده را دنبال کنیم تا سوال فوق را پاسخ دهیم.
نمودار هیستوگرام همه متغیرها را بررسی کنید.
قبل از انجام هر کاری با متغیرها، ابتدا باید ببینیم آیا متغیرها دارای رفتار خاصی هستند یا خیر؟ ما این کار را با اجرای هیستوگرام روی همه متغیرها انجام خواهیم داد. اساساً این یک روش فوق العاده سریع برای یافتن هر اطلاعی در مورد متغیرها است. اجرای دستور زیر همه آنها را یکجا نمایش می دهد.
Check histograms of outcome variable and all predictors.*
frequencies overall to tasks
format notable/
.histogram/
نتیجه
یک نگاه سریع به این 6 هیستوگرام این موارد رانشان می دهد:
- هیچ یک از این متغیرها حاوی مقادیر از دست رفته سیستم نیستند.
- هیچ یک از متغیرهای ما داده پرت ندارند. برای این داده ها ، نیازی به تنظیم مقادیر از دست رفته کاربر نیست.
- همه توزیع های فراوانی قابل قبول به نظر می رسند.
اگر هیستوگرام ها مقادیر غیرمعقولی را نشان دهند ، ضروری است قبل از رفتن به مرحله بعدی ، آنها را به عنوان مقادیر از دست رفته کاربر تنظیم کنید.
بررسی جدول توصیفی
اگر متغیرها حاوی مقادیر گمشده باشند ، یک جدول توصیفی ساده روشی سریع برای ارزیابی مقدار ازدست رفته است. هیستوگرام های ما نشان می دهد که داده های موجود فاقد هیچ گونه داده گمشده ای هستند. برای اطمینان کامل ، بیایید برخی از توصیفات را اجرا کنیم.
*Check descriptives.
descriptives overall to tasks.
نتیجه
جدول توصیفی درصورت وجود مقادیر ازدست رفته درصد آنها را به ما می گوید. اگر مقادیر ازدست رفته وجود داشته باشند ممکن است بخواهید چنین متغیرهایی را از تجزیه و تحلیل حذف کنید.
ستون Nاین ستون جدول نعداد متغیرهای بدون مقادیر ازدست رفته را نشان میدهد.به طور پیش فرض،SPSS برای رگرسیون فقط از این موارد کامل استفاده می کند – مگر اینکه از حذف دو به دو مقادیر از دست رفته استفاده کنید (که من معمولاً توصیه می کنم).
بررسی نمودار پراکنش
آیا پیش بینی کننده های ما (تقریباً) رابطه خطی با متغیر نتیجه دارند؟ اساساً همه کتابهای درسی بررسی نمودار باقیمانده هارا پیشنهاد می کنند: نمودارپراکنش مقادیر پیش بینی شده (محور x ) و باقی مانده ها(محور y) آن هستند قراراست غیرخطی بودن را تشخیص دهد. با این حال ، من فکر می کنم نمودار های باقی مانده برای بررسی خطی بودن بی فایده هستند. به این دلیل که مقادیر پیش بینی شده (وزن دار) ترکیبات پیش بینی کننده ها هستند. بنابراین اگر فقط یک پیش بینی کننده یک رابطه منحنی با متغیر نتیجه داشته باشد چه می شود؟ این منحنی با ترکیب پیش بینی کننده ها رقیق شده و به صورت یک متغیر – مقادیر پیش بینی شده درمی آید.
من فکر می کنم بررسی خطی هر پیش بینی جداگانه منطقی تر است. یک روش ساده برای اجرای نمودارپراکنش این است که پیش بینی کننده (محور x )و متغیر نتیجه (محور y )باشد .
یک روش ساده برای ایجاد نمودار پراکنش این است که دستور را از فهرست Paste کنید . برای جزئیات ، به آموزش نمودارپراکنش در SPSS مراجعه کنید. بعد ، تمام خطوط را حذف کنید ،این را کپی پیست کنید و نام متغیرهای مناسب را مانند تصویر زیر وارد کنید.
*Inspect scatterplots all predictors (x-axes) with outcome variable (y-axis).
GRAPH /SCATTERPLOT(BIVAR)= supervisor WITH overall /MISSING=LISTWISE.
GRAPH /SCATTERPLOT(BIVAR)= conditions WITH overall /MISSING=LISTWISE.
GRAPH /SCATTERPLOT(BIVAR)= colleagues WITH overall /MISSING=LISTWISE.
GRAPH /SCATTERPLOT(BIVAR)= workplace WITH overall /MISSING=LISTWISE.
GRAPH /SCATTERPLOT(BIVAR)= tasks WITH overall /MISSING=LISTWISE.
نتیجه
نمودارپراکنش ما انحنای خاصی را نشان نمی دهد.ولی موارد غیرمعمولی را مشاهده می کنیم که با الگوی کلی نقاط متناسب نیستند. اگر این موارد را با یک متغیر جدید (موقتی) علامت گذاری کنیم ، به راحتی می توانیم آنها را بررسی کنیم.
*Flag unusual case(s) that have (overall satisfaction > 40) and (supervisor < 10).
compute flag1 = (overall > 40 and supervisor < 10).
*Move unusual case(s) to top of file for visual inspection.
sort cases by flag1(d).
نتیجه
مورد (id = 36) واقعاً عجیب به نظر می رسد: مدیر و محل کار 0 هستند (بدتر هم نیستند) اما رتبه بندی کلی کار خیلی بد نیست. شاید ما باید چنین مواردی را از تجزیه و تحلیل با دستور FILTER حذف کنیم. اما در حال حاضر ، ما فقط آنها را نادیده می گیریم. در مورد خطی بودن ، نمودار پراکنش های حداقل بررسی را انجام می دهند. برای بررسی دقیق تر ، جدول متغیر رگرسیونی توسعه یافته را امتحان کنید.
نمودارهای متغیر رگرسیونی می توانند به سرعت برخی از تفاوت های خطوط متناسب را به نمودار پركنش اضافه كنند. این ممکن است سریع مسائل را روشن کند.
گزینه سوم برای بررسی خط منحنی (برای افرادی که همه آنها را می خواهند بدانند – و همین حالا هم آن را می خواهند) این است کهCURVEFIT را برای هر متغیرپیش بین با متغیر نتیجه اجراکنند.
بررسی ماتریس همبستگی
حال می خواهیم مشاهده کنیم که آیا همبستگی (پیرسون) در بین همه متغیرها (متغیر نتیجه و متغیر پیش بین) منطقی است. برای جزئیات ، به تجزیه و تحلیل همبستگی درSPSS مراجعه کنید. برای داده های موجود ، من انتظار دارم فقط همبستگی مثبت بین آنها باشد ، به طور مثال 0.3 و 0.7.
*Inspect if correlation matrix makes sense.
correlations overall to tasks
/print nosig
/missing pairwise.
نتیجه
الگوی همبستگی کاملاً منطقی به نظر می رسد. ایجاد یک ماتریس همبستگی خوب و تمیز مانند این در همبستگی SPSS در قالب APA پوشش داده شده است.
رگرسیون I - انتخاب مدل
سوال بعدی که می خواهیم به آن پاسخ دهیم این است: کدام پیش بینی کننده ها به طور قابل توجهی در پیش بینی رضایت شغلی نقش دارند؟ همبستگی های ما نشان می دهد که همه پیش بینی کننده ها با متغیر نتیجه از نظر آماری رابطه معنی داری دارند. با این حال ، بین خود پیش بینی کننده ها همبستگی قابل توجهی نیز وجود دارد. یعنی همپوشانی دارند. برخی از واریانسهای مربوط به رضایت شغلی که توسط یک پیش بینی کننده حساب می شود ، ممکن است توسط برخی دیگر از پیش بینی کننده ها نیز به حساب آید. در این صورت ، این پیش بینی کننده ممکن است دیگر منحصر به فرد در پیش بینی ما نباشد.
رویکردهای مختلفی برای یافتن انتخاب صحیح پیش بینی کننده ها وجود دارد. یکی از این موارد اضافه کردن یک به یک همه متغیرهای پیش بین به معادله رگرسیونی است. از آنجا که ما 5 پیش بینی کننده داریم ، این منجر به 5 مدل می شود. بنابراین بیایید ببینیم چه اتفاقی می افتد. ما به Analyze Regression Linear خواهیم رفت و کادر گفتگو را مانند تصویر زیر پر می کنیم.
روش Forward که ما انتخاب کردیم به این معنی است که SPSS همه پیش بینی کننده هایی را نشان می دهد (که در آن زمان) مقادیر p-values *آنها کمتر از ثابت های انتخاب شده است ، که معمولاً 0.05 است.
Aانتخاب 0.98 (یا حتی بالاتر)معمولاً منجر به اضافه شدن کلیه متغیر های پیش بین به معادله رگرسیونی می شود.
Bبه طور پیش فرض ، SPSS فقط از مواردی استفاده می کند که مقادیر از دست رفته در پیش بینی کننده ها و متغیر نتیجه (“حذف لیست”) وجود ندارد. اگر مقادیر از دست رفته بر روی متغیرها پراکنده شده باشند ، این ممکن است منجر به کم شدن داده ها شود که برای تجزیه و تحلیل استفاده می شود. برای مواردی که مقادیر گمشده دارند ، با حذف جفتی سعی می شود از تمام مقادیر غیر از دست رفته برای تجزیه و تحلیل استفاده شود.
* دستور رگرسیون I – انتخاب مدل
*Regression I: see which model seems right.
REGRESSION
/MISSING PAIRWISE /*… because LISTWISE uses only complete cases…*/
/STATISTICS COEFF OUTS R ANOVA CHANGE
/CRITERIA=PIN(.98) POUT(.99)
/NOORIGIN
/DEPENDENT overall
/METHOD=FORWARD supervisor conditions colleagues workplace tasks.
نتایج رگرسیون l-
SPSS با افزودن یک پیش بینی کننده در آن زمان ، 5 مدل رگرسیون را برازش داد. جدول خلاصه مدل برخی از آمارها را برای هر مدل نشان می دهد. ستون مربع – r تنظیم شده نشان می دهد که با افزودن پیش بینی سوم از 0.351 به 0.427 افزایش می یابد.
مربع – r تنظیم شده با افزودن پیش بینی چهارم خیلی بیشتر افزایش می یابد درحالی که وقتی وارد پیش بینی کننده پنجم می شویم کاهش می یابد. درج بیش از 3 پیش بینی به مدل هیچ معنایی ندارد.
ستون Sig وF Change این را تأیید می کند: افزایش r-square از اضافه کردن پیش بینی کننده سوم از نظر آماری معنی دار است ، F(1,46) = 7.25, p = 0.010 افزودن پیش بینی کننده چهارم ، میزان مربع-r را بیشتر از این بهبود نمی دهد. به طور خلاصه ، این جدول نشان می دهد که ما باید مدل 3 را انتخاب کنیم.
نتایج رگرسیون I – ضرایبB
توجه داشته باشید که با اضافه کردن پیش بینی های بیشتر ، تمام ضرایب b کوچک می شوند. اگر 5 پیش بینی کننده (مدل 5) را بسازیم ، فقط 2 مورد از نظر آماری معنی دار هستند. ضرایب b غیر قابل اعتماد می شوند اگر اعداد بسیاری را تخمین بزنیم.
یک قاعده کلی این است که ما برای هر پیش بینی به 15 مشاهده نیاز داریم. با N = 50 ، نباید بیش از 3 پیش بینی کننده داشته باشیم و جدول ضرایب دقیقاً این را نشان می دهد. درست است؟ ما به مدل 3 بسنده می کنیم.
بنابراین مدل 3 دقیقاً چیست؟ این مدل می گوید که
محل کار*0.34 +علاقه * 0.36 +شرایط * 0.41 + 10.96 =رضایت شغلی پیش بینی شده
این فرمول به ما این امکان را می دهد که مقادیر پیش بینی شده خود را در SPSSو میزان اختلاف آنها با مقادیر واقعی ، باقی مانده ها ،را محاسبه کنیم. با این حال ، یک روش آسان تر برای بدست آوردن اینها ، اجرای مجدد مدل رگرسیون انتخابی است. بررسی آنها به ما می گوید که مفروضات رگرسیون ما تا چه حد برآورده می شود.
رگرسیون II- جدول باقیمانده ها
بیایید گفتگوی برگرسیون خود را دوباره باز کنیم. یک راه آسان استفاده از ابزار فراخوان گفتگو در نوار ابزار ما است. از آنجا که مدل 3 مدیر و همکاران را مستثنی می کند ، ما آنها را از جعبه پیش بینی ها حذف خواهیم کرد (که –عنواناً– به هیچ وجه “پیش بینی کننده ها” ذکر نمی شود).
اکنون ، روش رگرسیون می تواند برخی از جدول های باقیمانده را ایجاد کند ، اما من ترجیح می دهم خودم آنها را ایجاد کنم. این باعث می شود من آن راکنترل کنم و در صورت لزوم می توان تجزیه و تحلیل های بعدی را انجام داد. بنابراین مقادیر پیش بینی شده استاندارد و باقیمانده استاندارد شده را ذخیره می کنم.
رگرسیون II- جدول باقیمانده ها
*Regression II: refit chosen model and save residuals and predicted values.
REGRESSION
/MISSING PAIRWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA CHANGE /*CI(95) = 95% confidence intervals for B coefficients.*
/CRITERIA=PIN(.98) POUT(.99)
/NOORIGIN
/DEPENDENT overall
/METHOD=ENTER conditions workplace tasks /*Only 3 predictors now.*
/SAVE ZPRED ZRESID.
نتایج رگرسیون II - فرض نرمال بودن
اول توجه داشته باشید که SPSS دو متغیر جدید به داده های ما اضافه کرده است: ZPR_1 مقدار zرا برای مقادیر پیش بینی شده ما z دارد. ZRE_1 باقیمانده استاندارد شده است.
بیایید ابتدا ببینیم آیا باقیمانده ها توزیع نرمال دارند یا خیر ما این کار را با یک هیستوگرام سریع انجام خواهیم داد
*Histogram for inspecting if residuals are normally distributed.
frequencies zre_1
/format notable
/histogram.
اگر یک چشم را ببندیم ، مانده های ما تقریباً به طور معمول توزیع می شود. توجه داشته باشید کهE-16 8.53به معنای 10^16 * 8.53 است که در اصل صفر است. من مطمئن نیستم که چرا انحراف معیار برای نمرات “استاندارد” 1نیست اما روز دیگر این موضوع را جستجو می کنم.
نتایج رگرسیون II - خطی بودن و همبستگی واریانس
حال بیایید ببینیم همبستگی واریانس تا چه حدی برقرار است. می خواهیم نمودار پراکنش را برای مقادیر پیش بینی شده (محور x )باقیمانده (محور y ) ایجاد کنیم.
*Scatterplot for heteroscedasticity and/or non linearity.
GRAPH
/SCATTERPLOT(BIVAR)= zpr_1 WITH zre_1
/title “Scatterplot for evaluating homoscedasticity and linearity”.
نتیجه
مورد اول، به نظر می رسد هنگام حرکت از چپ به راست ، نقاط ما به صورت عمودی پراکنده نیستند. یعنی به نظر می رسد با مقادیر بالاتر پیش بینی شده ، واریانس – پراکندگی عمودی – کاهش می یابد. چنین واریانس کاهشی مثالی از ناهمگنی است – برعکس همگنی واریانس. این فرض تا حدودی نقض شده به نظر می رسد اما خیلی هم بد نیست.
مورد دوم ، به نظر می رسد که نقاط ما از الگوی منحنی پیروی می کنند – به جای به خط راست – اما این اصلاً مشخص نیست. اگر واقعاً می خواهیم بدانیم ، می توانیم برخی مدل های منحنی را در این متغیرهای جدید تطبیق دهیم. با این حال ، همانطور که قبلاً استدلال کردم ، فکر می کنم متناسب بودن این موارد با متغیر نتیجه در مقابل هر پیش بینی به طور جداگانه ، روش امیدوار کننده تری برای ارزیابی خطی بودن است.
برخی از دستورالعمل ها در مورد گزارش نتایج در رگرسیون چندگانه در SPSS – مثال 2گام به گام ارائه شده است.
با تشکر از خواندن شما