همبستگی پیرسون-معرفی کوتاه

همبستگی پیرسون یک عدد بین -1 تا 1 است که نشان میدهد تا چه حد دو متغییر به طور خطی مرتبط هستند. همبستگی پیرسون همچنین با عناوین “ضریب همبستگی حاصل ضرب” (“product moment correlation coefficient” (PMCC)) و یا به سادگی”همبستگی” شناخته می شود.

همبستگی پیرسون فقط برای متغیرهای کمی(ازجمله متغیرهای دو حالتی) مناسب است.

  • برای متغیرهای ترتیبی، از همبستگی اسپیرمن یا کندال و برای متغیرهای اسمی از همبستگی کرامر استفاده کنید.

ضریب همبستگی-مثال

 

ما از 40 نفر که شغل آزاد دارند، درآمد سالانه آنها را در سال 2010 تا 2014 را پرسیدیم. بخشی از داده های خام در زیر نشان داده شده است.

سوال این است که:

آیا بین درآمد سال 2010 و سال 2011 ارتباطی وجود دارد؟

یک روش عالی برای کشف این موضوع رسم نمودار پراکنش می باشد. در این نمودار هر فرد را با یک نقطه نشان می دهیم. موقعیت های افقی و عمودی هر نقطه نشان دهنده میزان درآمد هر فرد در سال 2010 و 2011 می باشد. نتیجه در زیر نشان داده شده است.

نمودار پراکنش ما  یک رابطه قوی بین درآمد در سال های 2010 و 2011 نشان می دهد: افرادی که درآمد کمتری در سال 2010 داشتند (سمت چپ ترین نقاط) معمولاً درآمد کمتری نیز در سال 2011 داشتند (نقاط پایین تر) و بالعکس. بعلاوه، این رابطه تقریباً خطی است. الگوی اصلی در نقاط یک خط مستقیم است.

میزان قرارگیری نقاط ما بر روی یک خط مستقیم نشان دهنده قدرت رابطه است. همبستگی پیرسون عددی است که قدرت دقیق این رابطه را نشان می دهد.

ضریب همبستگی و نمودار های پراکنش

یک ضریب همبستگی نشان دهنده میزان قرار گرفتن نقاط در یک نمودار پراکنش بر روی یک خط مستقیم است.

این بدان معناست که ما معمولاً نمی توانیم همبستگی ها را از چیزی دقیق تر از نمودار پراکنش ،تخمین بزنیم .شکل زیر به خوبی این نکته را نشان می دهد.

ضریب همبستگی-مقدمات

برخی از نکات اساسی در مورد ضرایب همبستگی با شکل قبلی به خوبی نشان داده شده است. کمترین چیزی که باید بدانید این است که:

  • همبستگی ها هرگز کمتر از 1-نیستند. همبستگی 1- نشان می دهد که نقاط داده ها در یک نمودار پراکنش دقیقاً روی یک خط نزولی مستقیم قرار دارند. این دو متغیر کاملاً ارتباط منفی و خطی دارند.
  • همبستگی 0 به این معنی است که دو متغیر هیچ ارتباط خطی ندارند. با این حال، ممکن است برخی از روابط غیر خطی بین دو متغیر وجود داشته باشد.
  • ضرایب همبستگی هرگز از 1 بیشتر نیستند. ضریب همبستگی 1 به این معنی است که دو متغیر کاملاً به طور خطی با هم ارتباط مثبت دارند. نقاط موجود در یک نمودار پراکنش دقیقاً روی یک خط صعودی مستقیم قرار دارند.

ضریب همبستگی-تفسیر خطاها

هنگام تفسیر همبستگی ها، باید برخی موارد را در ذهن داشته باشید. یک بحث مفصل سزاوار یک آموزش جداگانه است اما ما به طور خلاصه به دو نکته اصلی اشاره خواهیم کرد.

  • همبستگی ها ممکن است روابط علی را نشان دهند یا نه. برعکس، روابط علی از برخی متغیرها به متغیر دیگر ممکن است منجر به همبستگی بین این دو متغیر شود.
  • همبستگی ها نسبت به نقاط پرت بسیار حساس هستند. یک مشاهده غیرمعمول ممکن است تأثیر زیادی در همبستگی داشته باشد. با بررسی سریع نمودار پراکنش، چنین نقاط پرتی به راحتی قابل تشخیص هستند.

 

ضریب همبستگی_نرم افزار

بیشتر ویرایشگرهای صفحه گسترده مانند Excel، Googlesheets و OpenOffice می توانند همبستگی ها را برای شما محاسبه کنند. تصویر زیر مثالی را در Googlesheets نشان می دهد.

ضریب همبستگی_ ماتریس همبستگی

بخاطر داشته باشید که همبستگی در متغییرهای جفت شده اعمال می شود. اگر به بیش از 2 متغیر علاقه دارید، احتمالاً می خواهید نگاهی به همبستگی بین همه جفت های مختلف متغیر بیندازید.

این همبستگی ها معمولاً در یک جدول مربعی نشان داده می شوند که به عنوان ماتریس همبستگی شناخته می شوند.

بسته های نرم افزاری آماری مانند SPSS قبل از اینکه پلک بزنید، ماتریس های همبستگی ایجاد می کنند. یک مثال در زیر نشان داده شده است.

توجه داشته باشید که عناصر مورب (به رنگ قرمز) همبستگی بین هر متغیر و خودش هستند. به همین دلیل است که آنها همیشه 1 هستند.

همچنین توجه داشته باشید که همبستگی های زیر مورب (به رنگ خاکستری) زائد هستند زیرا با همبستگی های بالای مورب یکسان هستند. در اصطلاح، می گوییم که این یک ماتریس متقارن است.

در آخر، در الگوی همبستگی کاملاً منطقی به نظر می رسد که:همبستگی بین درآمد سالانه از هم جدا شود زیرا این سالها فاصله بیشتری دارند.

 

همبستگی پیرسون_فرمول

اگر بخواهیم همبستگی ها را بررسی کنیم، باید یک رایانه ان ها رابرای ما محاسبه کند. به ندرت (احتمالاً هرگز) به فرمول واقعی احتیاج خواهید داشت. با این حال، برای کامل بودن بحث، همبستگی پیرسون بین متغیرهای X و Y به صورت زیر محاسبه میشود:

rXY=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)∑ni=1(Xi−X¯¯¯¯)2−−−−−−−−−−−−√∑ni=1(Yi−Y¯¯¯¯)2−−−−−−−−−−−−√rXY=∑i=1n(Xi−X¯)(Yi−Y¯)∑i=1n(Xi−X¯)2∑i=1n(Yi−Y¯)2

این فرمول اساساً به تقسیم کوواریانس بر ضرب انحراف معیارها برمی گردد. از آنجا که ضریب، عددی است که بر عدد دیگری تقسیم می شود، فرمول ما نشان می دهد که چرا از ضریب همبستگی صحبت می کنیم.

 

همبستگی_معنی داری اماری

داده هایی که ما در دسترس داریم اغلب_نه همیشه_ یک نمونه کوچک از جمعیت بسیار بزرگ است. در این صورت، ما ممکن است یک همبستگی غیر صفر در نمونه خود پیدا کنیم حتی اگر در جمعیت صفر باشد. شکل زیر نشان می دهد که چگونه این اتفاق می افتد.

اگر یک لحظه از رنگ ها چشم پوشی کنیم، تمام 1000 نقطه در این نمودار پراکنش برخی از جمعیت را تصویر می کنند. همبستگی جامعه _که با ρ نشان داده می شود_ بین آزمون 1 و آزمون 2 صفر است.

اکنون، ما می توانیم از این جامعه نمونه N = 20 را بگیریم که برای آن همبستگی r = 0.95 باشد. برعکس، این بدان معنی است که یک همبستگی نمونه 0.95 به طور قطع ثابت نمی کند که یک همبستگی غیر صفر در کل جامعه وجود دارد. با این حال، یافتن r = 0.95 با N = 20 اگر ρ = 0 بسیار بعید است .اما دقیقاً چقدر بعید است؟ و از کجا بفهمیم؟

 

 

آماره آزمون

اگر ρ _ همبستگی جامعه_ صفر باشد، پس احتمال همبستگی نمونه داده شده _معنی داری آماری_ آن بستگی به اندازه نمونه دارد. بنابراین ما اندازه نمونه و r را ترکیب وبه یک عدد واحد، آماره آزمون t،تبدیل می کنیم:

T=R(n−2)(1−R2)−−−−−−−−√T=R(n−2)(1−R2)


حال،T مورد علاقه نیست. با این حال، ما برای یافتن سطح معنی داری  برخی از همبستگی ها به آن نیاز داریمT .دارای توزیع t با ν =n-2 درجه آزادی است اما فقط در صورتی که برخی از فرض ها تحقق یابند.

 

آزمون همبستگی_مفروضات

آزمون معناداری آماری همبستگی پیرسون به 3 فرض نیاز دارد:

  • مشاهدات مستقل
  • همبستگی جامعه، ρ = 0؛
  • نرمال بودن: 2 متغیر شامل به طورنرمال درجامعه توزیع می شود. با این حال، این برای اندازه مناسب نمونه، مثلاً 20< N لازم نیست. *

 

همبستگی  پیرسونتوزیع نمونه گیری 

در مثال ما، اندازه نمونه N= 20 بود. بنابراین اگر فرضیات خود را برآورده کنیم، Tدارای یک توزیع t با df = 18 ،همانطور که در زیر نشان داده شده ،است.

این توزیع نشان میدهد که  با احتمال 95٪ که -2.1 < t < 2.1، مربوط به -0.44 < r < 0.44 است. سرانجام :اگر N = 20 باشد، به احتمال 95%  -0.44 < r < 0.44،قرار دارد. فقط احتمال یافتن5%همبستگی خارج از این محدوده وجود دارد.

چنین همبستگی از نظر آماری در 05/0 = α یا پایین تر معنی دار است یعنی: آنها (بسیار) بعید هستند و بنابراین فرضیه صفر که همبستگی صفر برای جامعه بودرا ،رد می کنند.

در آخر، همبستگی نمونه 0.95 ما دارای p-value 1.55e-10 -one تا 6,467,334,654است. با اطمینان می توانیم نتیجه بگیریم که یک همبستگی غیر صفر در کل جامعه ما وجود دارد.