• همبستگی
  • ضرایب B
  • عرض از مبدا
  • باقی مانده های رگرسیونی
  • مربع – R

رگرسیون خطی ساده روشی است که یک متغیر متریک را از یک رابطه خطی با یک متغیر متریک دیگر پیش بینی می کند. به یاد داشته باشید که “متغیرهای متریک” به متغیرهای اندازه گیری شده فصله ای یا نسبتی اشاره دارد. نکته در اینجا این است که محاسباتی – مانند جمع و تفریق – در متغیرهای متریک (“حقوق” یا “طول”) معنی دار هستند اما در متغیرهای طبقه ای (“ملیت” یا “رنگ”) معنی دار نیستند.

مثال: پیش بینی عملکرد شغلی از روی ضریب هوشی

برخی از شرکت ها می خواهند بدانند که آیا می توان عملکرد شغلی را از طریق نمرات ضریب هوشی پیش بینی کرد؟ قدم باید عملکرد (شغل) و ضریب هوشی را بر روی تعداد زیادی کارمند اندازه گیری کرد. آنها این کار را روی 10 کارمند انجام دادند و نتایج در زیر نشان داده شده است.

با نگاهی به این داده ها ، به نظر می رسد کارکنانی که دارای ضریب هوشی بالاتری هستند امتیازات عملکرد شغلی بهتری نیز دارند. ولی نظر دادن با دیدن این 10 مورد – تعداد کم است – دشوار میباشد. راه حل این مسئله ایجاد یک نمودار پراکنش است که در زیر نشان داده شده است.

نمودار پراکنش عملکرد با ضریب هوشی

توجه داشته باشید که مقادیر شناسه دار در داده های ما نشان می دهد کدام نقطه نشان دهنده کدام کارمند است. به عنوان مثال ، بالاترین امتیاز (بهترین عملکرد) شماره 1 –کِوین است ، با نمره عملکرد 115.  اگر از چپ به راست (ضریب هوشی پایین به بالاتر) حرکت کنیم ، نقاط ما بالاتر از این قرار دارند (عملکرد بهتر). یعنی ، نمودار پراکندگی ما یک همبستگی مثبت (پیرسون) بین ضریب هوشی و عملکرد را نشان می دهد.

همبستگی پیرسون عملکرد با ضریب هوشی

همانطور که در شکل قبلی نشان داده شده است ، همبستگی 63/0 است. با وجود حجم نمونه کوچک ، از نظر آماری نیز قابل قبول است زیرا p < 0.05 است . بین ضریب هوشی و عملکرد رابطه خطی شدیدی وجود دارد. اما چیزی که هنوز به آن پاسخ نداده ایم این است: چگونه می توانیم عملکرد را از ضریب هوشی پیش بینی کنیم؟ با فرض خطی بودن رابطه بین آنها این کار را خواهیم کرد. حال رابطه دقیق فقط به 2 عدد نیاز دارد – عرض از مبدا و شیب خط –  رگرسیون آنها را برای ما محاسبه می کند.

فرمول عمومی – رابطه خطی

هر رابطه خطی را می توان به صورت Y ’= A + B * X تعریف کرد. بیایید ببینیم که این اعداد به چه معنا هستند.

از آنجایی که X در داده های ما وجود دارد و نمرات ضریب هوشی اند اگر عرض از مبدا (یا ثابت) و ضریب (B)را  بدانیم ، می توانیم عملکرد را پیش بینی کنیم. بیایید ابتدا SPSS این موارد را محاسبه کرده و سپس کمی بیشتر روی معنی آنها دقیق شویم.

فرمول پیش بینی عملکرد

این خروجی به ما می گوید که بهترین پیش بینی ممکن برای عملکرد شغلی با توجه به ضریب هوشی

 34.26 + 0.64 * عملکرد شغلی = ضریب هوشی

بنابراین اگر متقاضی ای نمره ضریب هوشی 100 بدست آورد ، بهترین تخمین ممکن برای عملکرد وی عبارت است از  34.26 + 0.64 * 100 = 98.26

بنابراین خروجی اصلی تحلیل رگرسیون ما 2 عدد است:

  • عرض از مبدا (ثابت) 34.26 و
  • ضریب(b)  64/0

این اعداد از کجا آمده اند و چه معنایی دارند؟

 

ضریب B - شیب رگرسیون

ضریب b تعداد واحدهای افزایش Y در ارتباط با یک واحد افزایش X است. ضریب b 64/0 به این معنی است که یک واحد افزایش ضریب هوشی با 0.64 واحد افزایش عملکرد همراه است. همانطور که در زیر نشان داده شده است ، ما با اضافه کردن خط رگرسیون به نمودار پراکنش ، این را تجسم کردیم.

به طور متوسط ​​، کارکنان با ضریب هوشی = 100 امتیاز  عملکردی بالاتر از کارکنان با ضریب هوشی = 90 دارند. هرچه ضریب b ما بیشتر باشد ، شیب خط رگرسیون ما تندتر است. به همین دلیل است که b گاهی شیب رگرسیون نامیده می شود.

عرض از مبدا رگرسیون ("ثابت")

عرض از مبدا نتیجه پیش بینی شده برای مواردی است که 0 را در پیش بینی کننده کسب می کنند. اگر کسی نمره ضریب هوشی=100 را کسب کند ، ما می توانیم عملکردی (34.26 + 0.64 * 0 =) 34.26 را برای این شخص پیش بینی کنیم. از نظر فنی ، عرض از مبدا نمره y  است (“عرض از مبدا ها”)  که خط رگرسیون از محور y عبور می کند همانطور که در زیر نشان داده شده است.

امیدوارم این  شکل معنای واقعی ضریب b وعرض از مبدا را روشن کند. اما چرا SPSS به جای برخی از اعداد دیگر a = 34.3 و b = 0.64  را ارائه داده است؟ یک رویکرد به جواب با باقی مانده های رگرسیون شروع می شود.

باقی مانده های رگرسیون

باقیمانده رگرسیون مقدار مشاهده شده – مقدار پیش بینی شده – در متغیر نتیجه برای برخی موارد است . شکل زیر باقی مانده های رگرسیون را برای مثال ما تجسم می کند.

برای اکثر کارمندان ، عملکرد مشاهده شده آنها با آنچه تحلیل رگرسیون ما پیش بینی می کند متفاوت است. هرچه این اختلاف (باقیمانده) بیشتر باشد ، مدل ما پیش بینی بدی برای عملکرد کارمندان دارد. بنابراین چقدر مدل ما عملکرد را برای همه موارد درست پیش بینی می کند؟ ابتدا مقادیر و مانده های پیش بینی شده را برای 10 مورد خود محاسبه می کنیم. تصویر زیر آنها را به عنوان 2 متغیر جدید در داده های ما نشان می دهد. توجه داشته باشید که   عملکرد =مقادیر+ مانده

باقیمانده های ما نشان می دهد که معادله رگرسیون ما برای هر مورد چقدرخطا دارد. بنابراین معادله رگرسیون ما برای همه موارد چقدر درست است؟ به نظر می رسد میانگین باقیمانده به این سوال پاسخ می دهد. این همیشه صفر است: باقی مانده های مثبت و منفی به سادگی به صفر می رسند. بنابراین در عوض ، میانگین مربع باقیمانده را محاسبه می کنیم که واریانس باقیمانده است.

واریانس خطا

واریانس خطا ،میانگین مربع باقیمانده است و نشان می دهد که مدل رگرسیون ما چقدر بد متغیر نتیجه را پیش بینی می کند. یعنی واریانس خطا واریانس متغیر نتیجه است که رگرسیون آن را “توضیح” نمی دهد. بنابراین آیا واریانس خطا معیار مفیدی است؟ تقریبا. یک مشکل این است که واریانس خطا یک معیار استاندارد نیست: یک متغیر نتیجه با یک واریانس بزرگ معمولاً منجر به یک واریانس خطای بزرگ می شود. این مسئله با تقسیم واریانس خطا بر واریانس متغیر نتیجه حل می شود. کم کردن این از نتایج1 در –مربع r

دقت پیش بینی - مربع R

مربع R  نسبت واریانس در متغیر نتیجه است که توسط رگرسیون حساب می شود. یک روش برای محاسبه آن از روی واریانس متغیر نتیجه و واریانس خطا است که در زیر نشان داده شده است.

 واریانس عملکرد 73.96 و واریانس خطا 44.19 است. این بدان معناست که معادله رگرسیون ما حدود 40٪ از واریانس عملکرد را تشکیل می دهد. این عدد به مربع- r  معروف است. مربع- R دقت مدل رگرسیون ما را نشان می دهد. روش دوم برای محاسبه مربع -r مربع کردن همبستگی بین پیش بینی کننده و متغیر نتیجه است. در مثال ما ، 0.6342 = 0.40. مربع -r نامیده می شود زیرا ” r” نشان دهنده همبستگی نمونه ای در آمار است.

چرا رگرسیون ما به جای برخی اعداد دیگر با 26/34 و 64/0 را بدست آورده است؟ این به این دلیل است که رگرسیون ضرایبی که مربع- r را ماکسیمم میکند را محاسبه می کند. برای داده های ما ، هر ضریب b  یا باقی مانده دیگر منجر به مربع- r کمتر از 0.40 می شود که تجزیه و تحلیل ما به دست آورد.

آمار استنباطی

تاکنون ، رگرسیون ما 2 نکته مهم را به ما گفت:

  • نحوه پیش بینی عملکرد از ضریب هوشی: ضرایب رگرسیون.
  • ضریب هوشی تا چه اندازه می تواند عملکرد را پیش بینی کند: مربع -r.

تاکنون ، هر دو نتیجه فقط در مورد 10 کارمند ما اعمال شده است. اگراینها تمام آنچه که ما دنبال آن هستیم باشد ، کار ما تمام شده است. با این حال ، ما احتمالاً می خواهیم نتایج نمونه خود را به جامعه بیشتری تعمیم دهیم. انجام این کار به برخی از آمار استنباطی احتیاج دارد که اولین آمار از نوع مربع r تنظیم شده است.

مربع - R تنظیم شده

مربع -R تنظیم شده یک برآوردگر بی طرف مربع -rدر جامعه است. رگرسیون ضرایبی را محاسبه می کند که مربع- r را برای داده های ما به حداکثر می رساند. بکار بردن این موارد در سایر داده ها – مانند کل جامعه – احتمالاً منجر به یک مربع r تا حدودی پایین تر می شود: مربع r قابل تنظیم است. این پدیده به انقباض معروف است.

برای داده های ما ، مربع -r تنظیم شده 0.33 است که بسیار کمتر از مربع -r  ما 0.40 است. یعنی ما انقباض کامل داریم. بطور کلی،

  • اندازه نمونه های کوچکتر باعث انقباض بیشتر می شود و
  • پیش بینی های بیشتر (در رگرسیون چندگانه) منجر به انقباض بیشتر می شود.

خطاهای استاندارد و اهمیت آماری

بیایید آخرین قسمت از خروجی خود را مرور کنیم.

1 ضریب bو عرض از مبدا رابطه خطی را تعریف می کند که متغیر نتیجه را از پیش بینی کننده به بهترین وجه پیش بینی می کند.

2 خطاهای استاندارد، انحراف معیار ضرایب ما بر نمونه های تکراری (فرضی) است. خطاهای استاندارد كوچكتر برآورد دقیق تری را نشان می دهد.

3 ضرایب بتا ضرایب استاندارد شده b هستند: ضرایب b پس از استاندارد سازی همه پیش بینی ها و متغیر نتیجه محاسبه می شوند. آنها بیشتر برای مقایسه پیش بینی های مختلف در رگرسیون چندگانه مفید هستند. در رگرسیون ساده ، بتا = r ، همبستگی نمونه.

4 t آماره آزمون ماست – برای محاسبه اهمیت آماری جالب نیست اما لازم است.

 5 ” Sig ” با توجه به این فرضیه صفر که ضریب جامعه b صفر است ، اهمیت 2 دنباله ای را برای ضریب b نشان می دهد.

6 فاصله اطمینان 95٪ دامنه احتمالی ضریب (های) b جامعه را می دهد.

 ممنون از مطالعه شما