رگرسیون چندگانه یک روش آماری است که هدف آن پیش بینی یک متغیر مورد نظر از روی چندین متغیر دیگر است. متغیری که پیش بینی شده است به عنوان معیار شناخته می شود. متغیرهایی که معیار را پیش بینی می کنند به عنوان پیش بینی کننده شناخته می شوند. رگرسیون به متغیرهای متریک نیاز دارد اما تکنیک های خاصی نیز برای استفاده از متغیرهای طبقه ای هم در دسترس است.

رگرسیون چندگانه - مثال

من یک شرکت را اداره می کنم و می خواهم بدانم که چگونه عملکرد شغلی کارکنان من با ضریب هوشی ، انگیزه و میزان حمایت اجتماعی آنها ارتباط دارد. به طور شهودی ، من فرض می کنم که ضریب هوشی بالاتر ، انگیزه و حمایت اجتماعی با عملکرد بهتر شغلی مرتبط است. شکل زیر این مدل را تجسم می کند.

در این مرحله ، مدل من واقعاً مرا به جایی نمی رساند. اگرچه این مدل حس شهودی دارد ، اما نمی دانیم با واقعیت مطابقت دارد یا نه. علاوه بر این ، این مدل نشان می دهد که پیش بینی کننده های من (ضریب هوشی ، انگیزه و حمایت اجتماعی) با عملکرد شغلی ارتباط دارند اما در مورد چگونگی قوی بودن این روابط فرضی چیزی نمی گوید. در واقع ، تحلیل رگرسیون تخمین عددی نقاط قوت این روابط را ارائه می دهد.

برای استفاده از تحلیل رگرسیون ، ما به داده های چهار متغیر (1 معیار و 3 پیش بینی) در مدل خود نیاز داریم. بنابراین ما از کارمندان خود می خواهیم که در نظر سنجی ها شرکت کنند. بخشی از داده های خام جمع آوری شده در زیر نشان داده شده است.

رگرسیون چندگانه - داده های خام

رگرسیون چندگانه – مفهوم داده ها

شکل زیر معنی هر متغیر در داده ها را نشان میدهد.

در مورد نمرات این آزمون ها ، آزمون های 1 ، 3 و 4 امتیازات مختلفی از 0 (پایین ترین حد) تا 100 (بالاترین حد) میگیرند.

2 بطور متوسط میانگین و انحراف معیار در جامعه برای ضریب هوشی 100و 15 می باشد. معمولاً ، ما نمره 70 را بسیار کم ، 100 را عادی و 130 را خیلی بالا توصیف می کنیم

رگرسیون چندگانه - ضرایب B

اکنون که داده های لازم را جمع آوری کردیم ، نرم افزار ما (SPSS یا بسته های دیگر) یک تحلیل رگرسیون چندگانه را بر روی آنها اجرا می کند. نتیجه اصلی در زیر نشان داده شده است.

برای اینکه مقادیر کمی بصری شوند ، ضرایب b را به نمای کلی مدل خود اضافه کردیم ، که در زیر نشان داده شده است. (بعداً به ضرایب بتا خواهیم رسید.)

توجه داشته باشید که این مدل اکنون نقاط قوت روابط را کمی می کند. دقیقاً ، این مدل می گوید که

 عملکرد شغل =(0.31 xانگیزه) + (0.16 x حمایت اجتماعی)  +(0.27 x ضریب هوشی) +18.1

در مدل ما ، 18.1 یک عدد ثابت است که با متغیرهای دیگر ارتباطی ندارد. این نسبت برای پاسخ دهندگان یک ثابت است ، به این معنی که برای هر پاسخ دهنده 18.1 عدد یکسان است.

 این فرمول نحوه برآورد عملکرد شغلی را نشان می دهد: جمع می کنیم با هر امتیاز پیش بینی کننده بعد از ضرب آنها دراعداد. این اعداد به عنوان ضرایب b یا ضریب رگرسیون غیر استاندارد شناخته می شوند: ضریب B نشان می دهد که با افزایش یک واحد در یک پیش بینی کننده متغیر معیار چند واحد  تغییر می کند ، در صورتی که همه موارد دیگر برابر باشد. در این جا ، “واحد” همان واحدهای اندازه گیری متغیرهای درگیر است. این می تواند متر ، دلار ، ساعت یا …- که دراینجا امتیازات کسب شده در آزمون های مختلف است- باشد. به عنوان مثال ، یک امتیاز افزایش در آزمون انگیزه ما با افزایش 0.31 امتیاز در آزمون عملکرد شغلی ما همراه است. این بدین معناست که -به طور متوسط- پاسخ دهندگانی که از نظر انگیزه 1 امتیاز بیشتر کسب می کنند ، عملکرد آنها 0.31 امتیاز بالاتر میرود.

رگرسیون چندگانه - خطی بودن

بطور معمول “رگرسیون چندگانه” به تجزیه و تحلیل رگرسیون چندگانه خطی تک متغیر اشاره دارد،مگر اینکه خلاف آن مشخص شود. “تک متغیره” به این معنی است که ما دقیقاً یک متغیر مورد علاقه را پیش بینی می کنیم. “خطی” به این معنی است که رابطه بین هر یک از پیش بینی ها و معیارها در مدل ما خطی است. به عنوان مثال ، شکل زیر رابطه فرضی بین انگیزه و عملکرد شغلی را تجسم می کند.

بخاطر داشته باشید که خطی بودن فرضیه ای است که ممکن است وجود داشته باشد یا نداشته باشد. به عنوان مثال ، رابطه واقعی بین انگیزه و عملکرد شغلی ممکن است همانطور که در زیر نشان داده شده است ، غیر خطی باشد.

در عمل ، ما معمولاً ابتدا خطی بودن را فرض می کنیم و سپس برخی از نمودارهای پراکنش را برای مشاهده هرگونه روابط غیر خطی بررسی می کنیم.

رگرسیون چندگانه - ضرایب بتا

 با توجه به امتیازات پیش بینی کننده های ما ، ضرایب b برای تخمین عملکرد شغلی مفید هستند. با این حال ، همیشه نمی توانیم از آنها برای مقایسه نقاط قوت نسبی پیش بینی کننده های خود استفاده کنیم زیرا به مقیاس پیش بینی کننده ها بستگی دارد.

به این معنا که اگر از یورو برای حقوق به عنوان پیش بینی استفاده کنیم ، بعد یوروسنت را جایگزین یورو کنیم  ضریب B را 100 واحد کاهش می دهد. اگر یک یورو افزایش دهیم حقوق را ،عملکرد شغلی 2.3 واحد افزایش میابد ، یک یورو افزایش با افزایش (2.3 / 100 =) 0.023واحد یورو سنت مطابقت دارد. با این حال ، شما احتمالاً احساس می کنید که تغییر یورو به یورو سنت باعث نمی شود که حقوق یک پیش بینی کننده “قویتر” باشد.

راه حل این مشکل استاندارد سازی معیار و همه پیش بینی ها است. ما آنها را به z-scores تبدیل می کنیم. این کار مقیاس همه متغیرها را یکسان می کند: اعداد انحراف استاندارد کمتر یا بیشتر از میانگین متغیر است.

اگر تجزیه و تحلیل رگرسیون خود را با استفاده از این z-scores دوباره انجام دهیم ، ضرایب b بدست می آوریم که به ما امکان مقایسه نقاط قوت نسبی پیش بینی ها را می دهد. این ضرایب رگرسیون استاندارد به عنوان ضرایب بتا شناخته می شوند. ضرایب بتا ضرایب b  هستند که با اجرای رگرسیون بر روی متغیرهای استاندارد به دست می آیند. شکل بعدی ضرایب بتا حاصل از تجزیه و تحلیل رگرسیون چندگانه ما را نشان می دهد.

 یک نکته عددثابت فوق الذکر از این مدل خارج شده است. پس از استاندارد سازی همه متغیرها ، این همیشه صفر است زیرا میانگین عدد z  همیشه صفر است.

رگرسیون چندگانه - مقادیر پیش بینی شده

حالا به ضرایب b برگردید: توجه داشته باشید که می توانیم از ضرایب b برای پیش بینی عملکرد شغلی برای هر پاسخ دهنده ای استفاده کنیم. به عنوان مثال ، بیایید نمرات اولین پاسخ دهنده خود ، هِنری را در نظر بگیریم که در زیر نشان داده شده است.

برای هِنری ، مدل رگرسیون ما بیان می کند که

 (109 x 0.27) + (89 x 0.31) + (73 x 0.16) + 18.1 = 86.8=عملکرد شغلی.

یعنی مقدار عملکرد شغلی هنری 86.8 پیش بینی شده است. این نمره عملکرد شغلی است که هنری طبق مدل ما باید داشته باشد. با این حال ، از آنجا که مدل ما فقط تلاشی برای تخمین واقعیت دارد ، مقادیر پیش بینی شده معمولاً تا حدودی با مقادیر واقعی داده های ما متفاوت هستند. اکنون این موضوع را کمی بیشتر بررسی خواهیم کرد.

رگرسیون چندگانه - مربعR

به جای محاسبه دستی مقادیر پیش بینی شده مدل برای عملکرد شغلی ، می توانیم از نرم افزار خود استفاده کنیم. پس از انجام این کار ، هر پاسخ دهنده دارای دو نمره عملکرد شغلی خواهد بود: نمره واقعی که توسط آزمون ما اندازه گیری می شود و نمره ای که مدل ما ارائه می دهد. بخشی از نتایج در زیر نشان داده شده است.

اگر مدل ما عملکرد خوبی داشته باشد ، این دو نمره باید برای هر پاسخ دهنده کاملاً شبیه باشد. ما با ایجاد یک نمودار پراکنش همانطور که در زیر نشان داده شده است ،این مورد را بررسی میکنیم.

ما یک رابطه خطی قوی بین مقادیر واقعی و پیش بینی شده مشاهده می کنیم. قدرت چنین رابطه ای به طور معمول به صورت همبستگی بیان می شود. برای این داده ها ، همبستگی 81/0 بین عملکرد واقعی و پیش بینی شده وجود دارد. با این حال ، ما اغلب مربع این همبستگی را گزارش می کنیم ، معروف به مربع R ، که 0.65 است. مربع R همبستگی مربع (پیرسون) بین مقادیر پیش بینی شده و واقعی است . ما به مربع R  علاقه مند هستیم زیرا این نشان می دهد مدل ما چقدر توانایی پیش بینی متغیر مورد نظر را دارد. مقدار مربع R 0.65 همانطور که پیدا کردیم به طور کلی بسیار زیاد در نظر گرفته می شود. مدل ما واقعاً کار بزرگی انجام می دهد!

رگرسیون چندگانه - مربع R تنظیم شده

به یاد داشته باشید که ضرایب b  این امکان را می دهد که عملکرد شغلی را با توجه به امتیازات پیش بینی کننده خود پیش بینی کنیم. بنابراین نرم افزار چگونه ضرایب b  ای که ما گزارش دادیم را ارائه می دهد؟ چرا به جای مثلاً 21/0 یا 41/0 ، 31/0 را برای انگیزه انتخاب کرده است؟ پاسخ اصلی این است که ضرایب b ای را محاسبه می کند که منجر به مقادیر پیش بینی شده می شوند تا جایی که ممکن است به مقادیر واقعی نزدیک باشند. این بدان معنی است که نرم افزار ضرایب b  ای را محاسبه می کند که مربع R را برای داده های ما به حداکثر می رساند.

اکنون ، با فرض اینکه داده های ما یک نمونه تصادفی ساده از جامعه هدف ما هستند ، به دلیل خطای نمونه برداری ، با داده های جامعه تا حدودی متفاوت خواهند بود. بنابراین ، ضرایب b بهینه برای نمونه ما برای جامعه ما مطلوب نیست. این بدان معنی است که اگر از مدل رگرسیون خود بر روی جامعه خود استفاده کنیم ، مقدار مربع R  کمتری پیدا خواهیم کرد.مربع R تعدیل شده برآوردی برای مربع R جامعه است ، اگر مدل رگرسیون نمونه خود را بر روی جامعه خود استفاده کنیم. مربع R تنظیم شده تصویر واقع بینانه تری از قدرت پیش بینی مدل ما می دهد در حالی که مربع R بیش از حد خوشبینانه است. این کاهش در مربع R به عنوان انقباض شناخته می شود و با نمونه های کوچکتر و تعداد بیشتری از پیش بینی کننده ها بدتر می شود.

رگرسیون چندگانه - یادداشت های نهایی

هدف این آموزش توضیحی سریع در مورد مبانی رگرسیون چندگانه است. با این حال ، در عمل ، مسایل بیشتری از جمله همسان سازی و چند خطی بودن درگیر هستند.که این موارد از حیطه این آموزش خارج است.