استفاده از پیش بینی های دسته بندی شده در رگرسیون چندگانه نیاز به کدگذاری ساختگی دارد. بنابراین چگونه می توان از چنین متغیرهای تصنعی استفاده کرد و چگونه می توان خروجی حاصل را تفسیر کرد؟ این مقاله آموزشی شما را راهنمایی می کند.
- مثال 1- پیش بینی های تصنعی واحد
- مثال 2- پیش بینی های تصنعی چندگانه
- مثال 3- پیش بینی های کمی و تصنعی
- آیا رگرسیون متغیر تصنعی بی فایده است؟
داده های مثال
تمام مثالهای موجود در این آموزش در آدرسstaff-dummies.sav است بخشی از آن در زیر نشان داده شده است.
داده های ما از قبل حاوی متغیرهای تصنعی برای نمایش نوع قرارداد است. دو گزینه برای ایجاد متغیرهای تصنعی وجود دارد
- ابزار متغیرهای تصنعی
- ساخت متغیرهای تصنعی در SPSS
تحلیل i -آزمون T به عنوان رگرسیون تصنعی
بیایید ابتدا بررسی کنیم که آیا حقوق ماهیانه به جنسیت مربوط می شود یا خیر. دو گزینه برای کشف این موارد وجود دارد
- آزمون t مستقل یا
- رگرسیون خطی ساده برای جنسیت به عنوان یک پیش بینی تصنعی واحد.
تجزیه و تحلیل اینها نتایج یکسانی دارند. مقایسه اینها اولین قدم برای درک رگرسیون متغیر تصنعی است. بیایید ابتدا t-test خود را از دستور زیر اجرا کنیم.
*Independent samples t-test: salary by sex.
t-test groups sex(1 0)
/variables salary.
نتایج
1حقوق ناخالص ماهانه زنان 421.09 دلار بیشتر از مردان است. همچنین توجه داشته باشید که کد مرد ها 0 و کد زنان 1 است.
3سطح معناداری برای این اختلاف میانگین 0.004 است: ما احتمالاً این فرضیه صفر را که میانگین حقوق جامعه بین زن و مرد است را نپذیریم.
4 فاصله اطمینان 95٪ بیانگر دامنه اختلاف میانگین جامعه است. که از 134.52 دلار تا 707.67 دلار است.
بیایید اکنون این تحلیل را به عنوان رگرسیون با یک متغیر تصنعی مجدداً اجرا کنیم.
مثال 1- پیش بینی های تصنعی واحد
در SPSS ابتدا به
Analyze >> Regression >> Linear
رفته و گفتگوها را مانند شکل زیر پر می کنیم.
نتایج تکمیل این مراحل در دستور زیر آمده است.بیایید اجرا کنیم.
*Regression: salary by single dummy variable (sex).
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=ENTER sex.
خروجی رگرسیون متغیر تصنعی 1:
1توجه داشته باشید که مقدار ثابت ، میانگین حقوق برای پاسخ دهندگان مرد است.
2ضریب b برای جنسیت ، اختلاف میانگین حقوق بین پاسخ دهندگان زن و مرد است. این برابر با متوسط افزایش حقوق مرتبط با افزایش 1 واحدی جنسیت است: از مرد (با کد 0) به زن (با کد 1).
این معنی دار است زیرا معادله رگرسیون عبارت است از
Salary′=$2731+$421⋅SexSalary′=$2731+$421⋅Sex
بنابراین برای همه مردان ، پیش بینی می کنیم حقوق ماهیانه ناخالص برابرباشدبا
Salary′=$2731+$421⋅0=$2731Salary′=$2731+$421⋅0=$2731
و برای همه زنان پیش بینی می کنیم که
Salary′=$2731+$421⋅1=$3152Salary′=$2731+$421⋅1=$3152
این حقوق پیش بینی شده صرفاً متوسط حقوق برای پاسخ دهندگان زن و مرد است. در آخر ، توجه داشته باشید که 3سطح معنی داری و 4فاصله اطمینان برای ضریب b مساوی است با همتایان آنها برای اختلاف میانگین در نتایج آزمون t.
تحلیل 2- ANOVA به عنوان رگرسیون ساختگی
حال بیایید ببینیم آیا حقوق و دستمزد به نوع قرارداد (آزاد ، موقت یا دائم) مربوط است. ما این فرضیه صفر را آزمایش خواهیم کرد که میانگین جامعه در هر 3 نوع قرارداد برابر است. دو گزینه برای آزمایش این فرضیه عبارتند از:
- ANOVA و
- رگرسیون متغیر تصنعی
همانطور که خواهیم دید ، ضرایب b بدست آمده از رویکرد رگرسیون ما مساوی است با مقابله ساده از ANOVA است: میانگین برای یک گروه مرجع تعیین شده با میانگین برای گروه دیگر مقایسه می شود. این نتایج ANOVA را می توان از دستور زیر انجام داد.
*ANOVA: salary by type of contract.
unianova salary by contract
/contrast (contract) = simple(1)
/print descriptive etasq.
1از آنجا که p < 0.05، ما این فرضیه صفر را که میانگین های جوامع باهم برابر اند را رد می کنیم.
2 اندازه اثر ، و مربع eta 125/0 است. این بین متوسط (06/0) و بزرگ (14/0) است.
3میانگین اختلاف بین کارمندان در قرارداد دائم در مقابل قرارداد موقت (گروه مرجع) 465.94 دلار است.
p-value 4 و
5فاصله اطمینان نشان می دهد که این اختلاف میانگین “به طور قابل توجهی” با صفر متفاوت است ، فرضیه صفر برای این مقایسه.
به همین ترتیب ، میانگین حقوق کارمندان مستقل در مقابل قرارداد موقت مقایسه می شود (در اینجا نشان داده نشده است).
مثال 2- پیش بینی های تصنعی چندگانه
به قسمت
Analyze >> Regression >> Linear
رفته و گفتگوها را مانند شکل زیر پر می کنیم.
2ما باید یک دسته مرجع انتخاب کنیم و آن را به عنوان پیش بینی کننده وارد نکنیم: برایk دسته ، ما همیشه ( (k – 1متغیرهای تصنعی را وارد می کنیم.
6 دستور زیر تکمبل این مراحل را انجام می دهد.
*Regression with 2 dummy variables representing type of contract.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=ENTER contract_2 contract_3.
خروجی رگرسیون متغیر تصنعی2:
1توجه داشته باشید که مربع rبرابر است با مربع ANOVA eta که قبلاً دیدیم. این مورد همیشه وجود دارد: هر دو معیار نشان دهنده نسبت واریانس در متغیر وابسته است که توسط متغیر (های) مستقل حساب شده است.
2 مربع R برای کل مدل (فقط شامل 2 متغیر تصنعی) از نظر آماری معنی دار است. در واقع ، کل جدول ANOVA رگرسیون با جدول بدست آمده از ANOVA واقعی یکسان است.
3 میانگین ثابت حقوق برای دسته مرجع می شود: کارمندانی که قرارداد موقت دارند. این پاسخ دهندگان در هر دو متغیر تصنعی در مدل ما نمره صفر می گیرند. برای آنها ، معادله رگرسیون عبارت است از
Salary′=$2675.8+$465.94⋅0+$1087.4⋅0=$2675.8Salary′=$2675.8+$465.94⋅0+$1087.4⋅0=$2675.8
4ضرایب B ،میانگین اختلافات بین هر گروه تصنعی و گروه مرجع است: میانگین حقوق و دستمزد کارمندان در قرارداد دائمی 465.94 دلار بیشتر از کسانی است که قرارداد موقت دارند.
5 اختلاف میانگین حقوق بین کارمندان قرارداد دائم و موقت “به طور قابل توجهی” با صفر متفاوت است زیرا p < 0.05 می باشد.
6تمام ضرایب B و p-values و فاصله اطمینان آنها با مقابله های ساده ای که در نتایج قبلی ANOVA شاهد بودیم یکسان هستند.
نکته آخر در مورد این نتایج این است که شما باید همه یا هیچ کدام از متغیرهای تصنعی را به نمایندگی از یک متغیر دسته بندی وارد کنید. اگر این کار را نکنید ، ضرایب B دیگر با میانگین اختلاف بین دسته های تصنعی و دسته مرجع مطابقت ندارند. شکل زیر سعی دارد این نکته که تا حدودی چالش برانگیز است را روشن کند.
به طور خلاصه ، یک متغیر تصنعی برخی از دسته ها را در مقابل سایر دسته های جمع شده نشان می دهد. باجزئی سازی دسته های دیگرانتظار می رود ، اثرات مرجع جدا شود: این ضرایب b را برابر با میانگین اختلاف بین دسته های مرجع در مقابل دسته مرجع می کند.
تجزیه و تحلیل 3: ANCOVA به عنوان رگرسیون تصنعی
تاکنون ، ما دیدیم که نوع قرارداد با میانگین حقوق و دستمزد مرتبط است. با این حال ، آیا این فقط می تواند به دلیل سابقه کار باشد؟ کارکنانی که سالهای بیشتری در این شغل مشغول به کار هستند ، فقط به دلیل داشتن تجربه بیشتر ، انواع قرارداد بهتر و همچنین حقوق بیشتری دریافت می کنند؟
دو گزینه برای رد کردن چنین سردرگمی های احتمالی وجود دارد
- تحلیل رگرسیون چندگانه با،تجربه و 2 متغیر تصنعی برای نوع قرارداد به عنوان پیش بین .
- ANCOVA با نوع شغل به عنوان یک عامل ثابت و تجربه به عنوان یک متغیر.
بیایید ابتدا این را به عنوان یک رگرسیون متغیر تصنعی تحلیل کنیم. سپس نتایج را از طریق روش ANCOVA تکرار خواهیم کرد.
مثال 3- پیش بینی های کمی و تصنعی
باز هم ، بیایید به
Analyze >> Regression >> Linear
برویم و مراحل نشان داده شده در زیر را کامل کنیم.
6برای این مثال ، ما یک تحلیل رگرسیون سلسله مراتبی را اجرا خواهیم کرد: ما ابتدا فقط متغیر کنترل خود ، expn (تجربه کار) را وارد می کنیم.
7سپس ما “بلوک” دوم پیش بینی کننده ها را درخواست می کنیم.
8سرانجام ، ما 2 متغیر تصنعی (به استثنای contract_1 ، دسته مرجع ما) را به عنوان بلوک دوم خود وارد می کنیم.
9دستور زیر منجر به این مراحل می شود.
*Hierarchical regression with quantitative predictor, then 2 dummy variables.
REGRESSION
/MISSING LISTWISE
/STATISTICS COEFF OUTS CI(95) R ANOVA CHANGE
/CRITERIA=PIN(.05) POUT(.10)
/NOORIGIN
/DEPENDENT salary
/METHOD=ENTER expn
/METHOD=ENTER contract_2 contract_3.
خروجی رگرسیون متغیر تصنعی3:
SPSS 1 هر 2مدل رگرسیونی را اجرا و مقایسه میکند: مدل 1 شامل تجربه کار به عنوان پیش بینی کننده کمی (تنها) است. مدل 2 ،2 متغیر تصنعی را که نشان دهنده نوع قرارداد است را به مدل 1 اضافه می کند.
2 افزودن تصنعی های نوع قرارداد به تجربه کار ، مربع r- را از 0.39 به 0.44 افزایش می دهد.
3 این افزایش از نظر آماری قابل توجه است: متغیر تصنعی ما به پیش بینی حقوق با تجربه کاری کمک می کنند.
4ثابت در مدل 2 میانگین حقوق کارمندانی است که :
الف) دارای قرارداد موقت (دسته مرجع) و
ب) دارای 0 سال سابقه کار هستند.
اینها کارکنانی هستند که در همه مدلهای پیش بینی کننده در 2مدل نمره صفر می گیرند.
5 اگر نوع قرارداد را کنترل کنیم ، یک واحد (سال) افزایش تجربه کاری با افزایش ماهانه 113.75 دلار همراه است.
6 اگر ما تجربه کار را کنترل کنیم ، اختلاف میانگین حقوق بین کارمندان در قراردادهای دائمی (ساختگی) در مقابل موقت (مرجع) 321.14 دلار است.
7از آنجا که p < 0.05 ، این اختلاف میانگین از نظر آماری معنی دار است. بیایید اکنون تجزیه و تحلیل دقیقاً مشابه ANCOVA را از دستور زیر انجام دهیم.
*ANCOVA for salary by contract, controlling for experience (years).
unianova salary by contract with expn
/contrast (contract) = simple(1)
/print descriptive etasq.
1مربع eta جزئی برای “مدل اصلاح شده” برابر با رگرسیون مربع r است.
2خروجی شامل اندازه های اثر برای هر دو پیش بینی کننده به طور جداگانه است. توجه داشته باشید که جمع 0.361 و 0.082 می شود 0.443 ، تا حدی بزرگتر از 0.440 برای کل مدل است. دلیل این امر این است که این تأثیرات تا حدی با هم همپوشانی دارند: نوع قرارداد با تجربه باهم مرتبط اند.
3 اگر تجربه کار را اصلاح کنیم ، اختلاف میانگین حقوق بین کارمندان در قرارداد دائمی در مقابل موقت 321.14 دلار است. این تفاوت به عنوان یک ضریب b در خروجی رگرسیون تصنعی قبلی مشاهده شد.
4جای تعجب نیست که P-value و
5فاصله اطمینان با رگرسیون تصنعی آنها نیز یکسان است.
آیا رگرسیون متغیر تصنعی بی فایده است؟
بسیاری از کتابهای درسی رگرسیون متغیر تصنعی را به عنوان تنها گزینه استفاده از ترکیبی از پیش بینی کننده های کمی و طبقه ای پیشنهاد می کنند. با این حال ، آخرین مثال ما نشان می دهد که ANCOVA گزینه بهتری برای این سناریو است. چرا؟ خوب،
- ANCOVA نیازی به افزودن متغیرهای تصنعی (از نظر فنی اضافی) به داده های شما ندارد.
- ANCOVA برای کل پیش بینی کننده یک اندازه اثر واحد (مربع eta جزئی) ارائه می دهد. این برای متغیرهای تصنعی مجزا از اندازه اثر مفیدتر است زیرا ما هرگز آنها را جداگانه به یک مدل رگرسیون اضافه نمی کنیم.
- آزمایش اثرات مدل بین پیش بینی کننده های کمی و طبقه بندی از طریق ANCOVA نسبتاً آسان است اما از طریق رگرسیون پیچیده است.
یادداشت های نهایی
اول از همه ، توجه داشته باشید که تجزیه و تحلیل در این آموزش از برخی مراحل مهم صرف نظر کرده است:
- ما هیچ توزیع فراوانی را بررسی نکردیم تا ببینیم داده های ما قابل قبول به نظر می رسند.
- ما نمی بینیم که آیا مقادیر از دست رفته در داده های ما وجود دارد.