• معادله رگرسیون لجستیک
  • مثال منحنی های رگرسیون لجستیک
  • ضرایب- B  رگرسیون لجستیک
  • اندازه اثر – رگرسیون لجستیک
  • فرضیات رگرسیون لجستیک

رگرسیون لجستیک یک تکنیک برای پیش بینی  یک متغیر با نتیجه دوحالته توسط بیشتر از یک پیش بینی کننده است. مثال: احتمال مرگ افراد قبل از سال 2020 چقدر است، با توجه به سن آنها در سال 2015؟ توجه داشته باشید که “مرگ” یک متغیر دوحالته است زیرا فقط 2 نتیجه ممکن دارد (بله یا خیر).

این تحلیل همچنین به عنوان رگرسیون لجستیک دوجمله ای یا به عبارت ساده “رگرسیون لجستیک” شناخته می شود. یک تکنیک مرتبط، “رگرسیون لجستیک چند جمله ای” است که متغیرهای نتیجه را سه دسته و بیشتر پیش بینی می کند.

رگرسیون لجستیک - مثالی ساده

یک خانه سالمندان داده هایی در مورد N = 284  سالمند ، جنسیت، سن در 1 ژانویه 2015 و اینکه آیا سالمند قبل از 1 ژانویه 2020 فوت کرده است ، دارد. داده ها در this Googlesheet  آمده است که برخی از آنها در زیر نشان داده شده اند.

 بیایید ابتدا فقط روی سن تمرکز کنیم: آیا می توانیم مرگ را قبل از سال 2020 از سن در سال 2015 پیش بینی کنیم؟ – و اگر چنین است – دقیقاً چگونه؟ و تا چه حد؟ اولین قدم خوب ، بررسی یک نمودار پراکنش مانند آنچه در زیر نشان داده شده است.

چند موردی که در این نمودار پراکنش مشاهده می کنیم این است

  • همه به جز یک سالمند بالای 83 سال در 5 سال آینده فوت کردند.
  • انحراف استاندارد سن برای سالمندانی که فوت کرده اند بسیار بیشتر از سالمندانی است که زنده مانده اند.
  • سن دارای کشیدگی مثبت قابل توجهی است، به ویژه برای سالمندانی که فوت کرده اند.

 اما چگونه می توان پیش بینی کرد که سالمند با توجه به سن وی فوت کرده است یا خیر؟ ما این کار را با قرار دادن یک منحنی لجستیکی انجام خواهیم داد.

معادله رگرسیون لجستیک ساده

رگرسیون لجستیک ساده احتمال برخی از نتایج را با توجه به یک متغیر پیش بینی کننده واحد محاسبه می کند

\frac{1}{1 + e^{\,-\,(b_0\,+\,b_1X_{1i})}}=P(Y_i)
 

در این جا

  • P(Yi) احتمال پیش بینی Yبرای مورد i است.
  • e یک ثابت ریاضی تقریباً 2.72 است.
  • b0 یک ثابت تخمین زده شده از داده است.
  • b1 ضریب b  برآورد شده از داده ها است
  • Xi نمره مشاهده شده در متغیر X برای مورد i است.

ماهیت اصلی رگرسیون لجستیک تخمین b0 و b1 است. این 2 عدد این امکان را به ما می دهد که احتمال مرگ سالمند را با توجه به هر سن مشاهده شده محاسبه کنیم. ما این منحنی ها را به نمودار پراکنش قبلی اضافه می کنیم.

منحنی های مثال رگرسیون لجستیک

از مقایسه این منحنی ها متوجه می شویم:

  • محور افقی منحنی ها b0را تعیین می کند: با افزایش b0 ، منحنی ها به سمت چپ تغییر جهت می دهند اما شیب های آنها تحت تأثیر قرار نمی گیرد. این برای منحنی ها 2 ،4 و 5 دیده می شود ، و توجه داشته باشید که b0 متفاوت است اما b1 برای این منحنی ها برابر است.
  • همانطور که b0 افزایش می یابد ، احتمالات پیش بینی شده نیز افزایش می یابد: با توجه به سن  90 سال ، منحنی 4 احتمال مرگ 0.75 را پیش بینی می کند. منحنی 2 و 5 احتمال مرگ برای یک سالمند 90 تقریباً 0.50 و 0.25 پیش بینی می کند.
  • b1شیب انحناها را تعیین می کند: اگر b1 > 0 باشد ، احتمال مرگ با افزایش سن افزایش می یابد. با بزرگتر شدن b1 این رابطه قویتر می شود. منحنی های 1 ، 2 و 3 این نکته را نشان می دهد: با بزرگتر شدن b1 ، منحنی ها بزرگتر می شوند بنابراین احتمال مرگ با افزایش سن بیشتر افزایش می یابد.

 حال یک سوال به وجود می آید: چگونه بهترین  “b1” و “b0 “را پیدا کنیم؟

رگرسیون لجستیک – لگاریتم احتمال

برای هر پاسخ دهنده ، یک مدل رگرسیون لجستیک احتمال وقوع رویداد Yi را تخمین می زند. بدیهی است که این احتمالات زیاد می شود در صورت وقوع واقعه و برعکس. یک روش برای جمع بندی عملکرد برخی از مدل ها برای پاسخ دهندگان ، لگاریتم احتمال LL است:

در این فرمول

  • Yiدر صورت وقوع رویداد 1 و در صورت عدم وقوع 0 است.
  • lnنشانگر لگاریتم عدد طبیعی است: برای بدست آوردن یک عدد مشخص e را بایدچه قدر افزایش دهید؟

 LL یک معیار خوب اندازه گیری است: هر چیز دیگری برابر است ، مدل رگرسیون لجستیک از آنجا که LL بزرگتری دارد ، داده های بهتری را ارائه می دهد. تا حدی گیج کننده است ، LLهمیشه منفی است.  بنابراین می خواهیم b0 و b1 را برای آن پیدا کنیم که LL تا حد ممکن به صفر نزدیک کند.

برآورد بیشترین احتمال

برعکس رگرسیون خطی ، رگرسیون لجستیک نمی تواند مقادیر بهینه b0 و b1 را به راحتی محاسبه کند. در عوض ، ما باید اعداد مختلف را امتحان کنیم تا زمانی کهLLبیشتر از این افزایش یابد. هر تلاشی یک تکرار شناخته می شود. روند یافتن مقادیر بهینه از طریق تکرار به عنوان برآورد بیشترین احتمال شناخته می شود.

 بنابراین چگونه نرم افزارهای آماری – مانند SPSS ، Stata یا SAS  -نتایج رگرسیون لجستیک را بدست می آورد. خوشبختانه ، آنها به طور شگفت انگیزی در این کار مهارت دارند. اما به جای گزارش LL ،  .−2LL را گزارش می دهند2LL – که “بد بودن تناسب” است را اندازه گیری میکند که توزیع خی دو را به دنبال دارد.

این باعث می شود 2LL- برای مقایسه مدل های مختلف مفید باشد که به زودی خواهیم دید.    2LL –  نشان دهنده 2- لگاریتم احتمال است که درخروجی نشان داده شده است.

پاورقی در اینجا به ما می گوید که برآورد حداکثر احتمال برای یافتن ضرایب بهینه b0 و b1 فقط به 5 تکرار نیاز دارد. بنابراین بیایید اکنون آنها را بررسی کنیم.

رگرسیون لجستیک - ضرایب B

مهمترین خروجی برای هر تحلیل رگرسیون لجستیک ، ضرایب b  هستند. شکل زیر آنها را برای داده های نمونه ما نشان می دهد.

قبل از پرداختن به جزئیات ، این خروجی به طور خلاصه نشان می دهد

1 ضرایب b  مدل ما را تشکیل می دهند.

2خطاهای استاندارد برای ضرایب b  اند.

3 آمارهWald  مقدار (BSE)2  که از توزیع مربعات کی پیروی می کند را محاسبه میکند.

4 درجات آزادی آماره Wald می باشند؛

5سطح معنی داری برای ضرایب. b

6ضرایب b بیان شده یا  eB  نسبت احتمالات مرتبط با تغییر در نمرات پیش بینی کننده هستند.

7فاصله اطمینان 95٪ برای ضرایب. b

ضرایب b  مدل رگرسیون لجستیکی ما را تکمیل می کنند، که

برای یک سالمند 75 ساله ، احتمال فوت در 5 سال

بنابراین اکنون می دانیم که چگونه می توان با توجه به سن کسی ، مرگ را در عرض 5 سال پیش بینی کرد. اما این پیش بینی چقدر خوب است؟ چندین رویکرد وجود دارد. بیایید با مقایسه مدل شروع کنیم.

رگرسیون لجستیک - مدل پایه

اگر اطلاعات دیگری نداشتیم چگونه می توانیم پیش بینی کنیم که چه کسی از دنیا رفته است؟ 50.7% از نمونه ما از دنیا رفت اند. بنابراین احتمال پیش بینی شده برای همه 0.507 خواهد بود.

 برای اهداف طبقه بندی ، ما معمولاً پیش بینی می کنیم که یک رویداد رخ میدهد اگر p(رویداد)  ≥  0.50  . از آنجا که p(مردن) = 0.507 برای همه ، ما به سادگی پیش بینی می کنیم که همه از دنیا رفته اند. این پیش بینی برای 50.7٪ از نمونه ما که مرده اند صحیح است.

رگرسیون لجستیک - نسبت احتمال

اکنون ، با توجه به این احتمالات پیش بینی شده و نتایج مشاهده شده ، می توانیم میزان بد بودن تناسب خود را محاسبه کنیم: -2LL = 393.65 . مدل واقعی ما – پیش بینی مرگ از روی سن – با -2LL = 354.20 ارائه می دهد. تفاوت بین این اعداد به عنوان نسبت احتمال LR شناخته می شود:

نکته مهم ، LR از توزیع مربع کی با درجه آزادی df پیروی می کند ، که به صورت زیر محاسبه می شود

 

که در آن k تعداد پارامترهای تخمین زده شده توسط مدل ها را نشان می دهد. همانطور که در این صفحه this Googlesheet نشان داده شده است ، LR و df  منجر به سطح معنی داری برای کل مدل می شوند.

فرضیه صفر در اینجا این است که برخی از مدل ها همانطور ضعیف مثل مدل پایه در برخی از جامعه ها پیش بینی می کنند. از آنجا که p = 0.000 ، ما این را رد می کنیم: مدل ما (پیش بینی مرگ ازروی سن) عملکرد بهتری از یک مدل پایه و بدون هیچ پیش بینی کننده ای دارد.

 اما دقیقاً چرا بهتر؟ این با اندازه اثر آن پاسخ داده می شود.

رگرسیون لجستیک - اندازه اثرمدل

یک روش خوب برای ارزیابی میزان عملکرد مدل ما از طریق اندازگیری اندازه اثر است. یک روش Cox & Snell R2 or R2CS   است که عبارتست از

متأسفانه ، R2CS هرگز به حداکثر نظری خود که 1 است نمی رسد. بنابراین ، یک روش تنظیم شده به نام  Nagelkerke R2 or    اغلب ترجیح داده می شود:

 

برای داده های نمونه ما ، R2CS = 0.130 که اندازه اثر متوسط را نشان می دهد. R2N = 0.173، کمی بزرگتر از متوسط است .

R2CS و R2N از نظر فنی کاملاً متفاوت از مربع r  هستند که در رگرسیون خطی محاسبه می شوند. با این حال ، آنها تلاش می کنند تا همان نقش را ایفا کنند. بنابراین هر دو اندازه گیری به عنوان اقدامات شبه مربع شناخته می شوند.

رگرسیون لجستیک - پیش بینی اندازه اثر

عجیبه ، در بعضی از کتابهای درسی ، هر اثر برای پیش بینی کننده های فردی ذکر شده است. شاید به این دلیل که اینها کاملاً در SPSS وجود ندارند. دلیل اینکه ما به آنها احتیاج داریم این است که ضرایب b به مقیاس (دل خواه) پیش بینی کننده های ما بستگی دارد: اگر به جای سال ها در روزها سن را وارد کنیم ، ضریب b آن بسیار کوچک می شود. این بدیهی است که ضرایب b   نامناسبی برای مقایسه پیش بینی های درونی یا مدل های مختلف ارائه دهد.

 JASP شامل ضرایب b  تا حدی استاندارد شده است: پیش بینی کننده های کمی – اما نه متغیر نتیجه – به عنوان عددz  وارد می شوند همانطور که در زیر نشان داده شده است.

فرضیات رگرسیون لجستیک

تحلیل رگرسیون لجستیک به مفروضات زیر احتیاج دارد:

  • مشاهدات مستقل
  • مشخصات صحیح مدل ؛
  • اندازه گیری بدون خطای متغیر نتیجه و همه پیش بینی ها ؛
  • خطی بودن: هر پیش بینی به طور خطی به eB (نسبت شانس) مرتبط است.

 فرض 4 تا حدودی بحث برانگیز است و در بسیاری از کتابهای درسی حذف شده است همانطور که توسط مورد 4 بحث شده است ، می توان آن را با آزمون Box-Tidwell ارزیابی کرد. این اساساً در صورت بررسی تأثیرات متقابل بین هر پیش بینی کننده و لگاریتم طبیعی یا LN آن ، آزمایش می شود.

رگرسیون لجستیک چندگانه

تا اینجا ، بحث ما محدود به رگرسیون لجستیکی ساده بود که فقط از یک پیش بینی کننده استفاده می کند. مدل به راحتی با پیش بینی های اضافی گسترش می یابد ، و در نتیجه رگرسیون لجستیک چندگانه ایجاد می شود:


در اینجا

  • P(Yi)احتمال پیش بینی شده Y برای مورد i است.
  • e یک ثابت ریاضی تقریباً 2.72 است.
  • b0 یک ثابت تخمین زده شده از داده هاست.
  • b1, b2, … ,bk ضریب b برای پیش بینی های 1, 2, … ,kاست.
  • X1i, X2i, … ,Xki  اعداد مشاهده شده در پیش بینی های X1, X2, … ,Xk  برای مورد i است.

رگرسیون لجستیک - مراحل بعدی

این مقدمه اساسی محدود به موارد ضروری رگرسیون لجستیک بود. اگر می خواهید بیشتر بیاموزید ، ممکن است بخواهید برخی از موضوعاتی را که حذف کردیم را بخوانید:

  1. نسبت شانس – که در رگرسیون لجستیک به عنوان eB محاسبه می شود – نحوه تغییر احتمالات را بسته به نمرات پیش بینی کننده بیان می کند.
  2. آزمون Box-Tidwell بررسی می کند که آیا روابط بین نسبت شانس فوق و نمرات پیش بینی خطی است.
  3. آزمون Hosmer و Lemeshow یک آزمون جایگزینی خوب برای همه مدل رگرسیون لجستیک است.

ممنون از مطالعه شما