توزیع فراوانی چیست؟

توزیع فراوانی، نمایی کلی از همه مقادیر متمایز در متغیرها و تعداد دفعات وقوع آنها می باشد. یعنی این توزیع، نحوه اختصاص فراوانی ها، بر روی مقادیر را بیان می کند.

توزیع فراوانی اغلب برای جمع بندی متغیرهای دسته بندی شده استفاده می شود. دلیل این امر این است که متغیرهای متریک مقادیر متمایز زیادی دارند. نتایج بررسی اینگونه متغیرها اگر به صورت خام در جداول بزرگ و نمودارها بیایند، اطلاعاتی راجع به داده ها ارائه نمی دهند. در این حالت، هیستوگرام راهی برای تصویر کردن فراوانی فاصله ای از مقادیر به جای هرمقدار مشخص است.

با این تفاسیر چند نمونه از توزیع های فراوانی را بررسی می کنیم.

 

توزیع فراوانی – مثال

 183 دانش اموز یک پرسشنامه را پر می کنند. یکی از سوالات این است که در کدام رشته تحصیل می کنند. تصویر زیر بخشی از این داده ها را نمایش می دهد.

توزیع فراوانی – جدول

بیایید بررسی کنیم که این رشته های تحصیلی چطور توزیع شده است؟ فقط نگاه کردن به 183 مقدار  به ما کمک نمی کند. یک رویکرد مناسب این است که به سادگی هر یک از رشته های تحصیلی در داده ها را مشخص  و تعداد دفعات وقوع آن را، جدول بندی کنیم.

جدول زیر نحوه توزیع فراوانی ها را بر روی مقادیر، نشان می دهد(رشته های تحصیلی اصلی در این مثال) از این جهت توزیع فراوانی نامیده می شود.

جدول توزیع فراوانی ساده

دانشجویان رشته روانشناسی با تعداد 62 نفر، محبوب ترین رشته تحصیلی می باشد. گزینه “سایر” با تعداد 16 نفر کمترین مقدار را داراست. رشته های باقیمانده تقریباً به یک اندازه محبوب هستند(بین 33 تا 37 نفر).

توجه داشته باشید که مجموع فراوانی ها با حجم نمونه 183، همخوانی دارند. این موضوع همیشه صدق میکند، مگر اینکه یک متغیر شامل مقادیر گمشده باشد. زیرا پاسخ دهندگان گاهی اوقات می توانند از پاسخ دادن به یک سوال صرف نظر کنند یا از عبارت “بدون پاسخ” یا چیزی مشابه آن استفاده کنند.

فراوانی های نسبی

همچنین، توزیع فراوانی ممکن است شامل فراوانی های نسبی باشد:

فراوانی نسبی حاصل تقسیم فراوانی هر دسته بر تعداد کل مقادیر است. فراوانی های نسبی اغلب به صورت درصد یا نسبت نشان داده می شوند.

فراوانی های نسبی، فهم توزیع های فراوانی را آسان می کنند. علاوه بر این، مقایسه ها را نیز تسهیل می کنند. برای مثال،” 67.5% از مردان و 63.2% از زنان فارغ التحصیل شده اند.” تفسیر بسیار آسان تری از “79نفر از 117 مرد و 120نفر از 190 زن است فارغ التحصیل شده اند” دارد.

فراوانی های نسبی و احتمال

احتمال، نوع خاصی از فراوانی نسبی است. احتمال یک فراوانی نسبی از بی نهایت آزمایش و نمونه های تکرار شده است.

در نتیجه این بیان که “یک سکه با احتمال 50 درصد رو می آید” دراصطلاح یعنی اگر سکه را بی نهایت بار پرتاب کنیم، 50 درصد –فراوانی نسبی– از پرتابها رو می آید.

اما، روشن است  که نمیتوانیم یک سکه را بی نهایت بار پرتاب کنیم. بنابراین نمی توانیم این ادعا را با اطمینان اثبات کنیم. با این تفاسیر، اگر سکه را چندین بار (مثلاً 100) پرتاب کنیم، احتمالاً فراوانی نسبی طرف رو به دست آمده نزدیک به 0.5 (یا 50٪) می باشد.

یک نتیجه بسیار متفاوت ممکن است دارای احتمال یا p-value کمی باشد. 

ما معمولا اظهار میکنیم که نتیجه از نظر آماری معنی دار است اگر p < 0.05. این به معنای این است که اگر بتوانیم تعداد نامحدودی از نمونه های تصادفی را در نظربگیریم، نتیجه نمونه _برخی از درصدها، همبستگی، اختلاف میانگین یا هر چیزی _باید در کمتر از 5٪ کل نمونه ها رخ دهد. چنین فراوانی نسبی _یا احتمال_یعنی در داده های ما در موارد کمی فرضیه صفر را مشاهده میکنیم بنابراین فرضیه صفر رد میشود.

 خوب..بیایید با توزیع فراوانی پیش برویم.

توزیع های فراوانی – فراوانی های تجمعی

فراوانی تجمعی تعداد دفعاتی است که یک مقدار و تمام مقادیر قبل از آن رخ می دهند. یعنی فراوانیها روی مقادیر جمع می شوند – از این رو “تجمعی” نامیده میشوند. همین استدلال برای فراوانی های نسبی تجمعی، همانطور که در شکل زیر نشان داده شده است ، صدق می کند.

در این مثال ، مستقیما می بینیم که 73.2٪ از کل پاسخ دهندگان، دوره را را حداقل “خوب” ارزیابی می کنند. این فراوانی نسبی برای “خوب” و تمام مقادیری که قبل از آن هستند ،است_در این مورد فقط “بسیار خوب” قبل ان است

در مورد فراونی های تجمعی ، از این نکته غافل نشوید

  • فراوانی های تجمعی، بستگی به ترتیب قرارگیری مقادیر،در جدول فراوانی دارد.اگر جدول را معکوس کنیم ، درصد تجمعی “خوب” (3.8٪ + 23٪ + 50.8٪=) 77.6٪ خواهد بود. این درصد برای “خوب” یا رتبه بدتر است.
  • فراوانی های تجمعی برای متغیرهای اسمی مناسب نیستند.این بدان دلیل است که مقادیرشان ذاتا ترتیبی ندارند. به عنوان مثال ، منطقی نیست که بگوییم “25.3٪ از پاسخ دهندگان ما حداقل فرانسوی هستند”.

 

توزیع های فراوانی – نمودارهای میله ای

یک تصویرسازی رایج از توزیع فراوانی ، نمودار میله ای است که در زیر نشان داده شده است.

نمودار میله ای یک نمودار ساده است اما به چند نکته مهم توجه کنید:

  • هر مقدار مشخص توسط یک میله نشان داده می شود.بنابراین یک متغیر با مقادیر متمایز زیاد (تولد یا درآمد ماهانه) تعداد زیادی میله دارد و بنابراین برای نمودار میله ای مناسب نیست.

برای چنین متغیرهایی ،  رسم نمودارهیستوگرام ایده بهتری می باشد.

  • محور دسته ها خطی نیست:فاصله(به سانتی متر) بین 1 تا 2 مانند فاصله بین 4 تا 7 است.  بنابراین نمی توان گفت که یک سانتی متر اختلاف 1 یا 3 دوره را نشان می دهد   

 

  • فراوانی های صفر از نمودار حذف شده اند.به عنوان مثال، هیچ یک از این دانش اموزان 5 دوره را نگذراندند. به همین دلیل است که 5 در محور دسته اصلاً رخ نمی دهد.

هیچ یک از این ویژگی ها برای هیستوگرام مناسب نیست ، چراکه ممکن است شبیه نمودار میله ای باشد اما در واقع یکسان نیست.

 

توزیع های فراوانی – نمودارهای دایره ای

یک تصویرسازی جایگزین برای توزیع فراوانی ، نموداردایره ای می باشد که در زیر نشان داده شده است.

می توان ادعا کرد که نموداردایره ای ترسیم بهتری نسبت به نمودار میله ای فوق الذکر به ما می دهد:

5 درصد باید به 100 درصد اضافه شود و بنابراین مستقل نیستند. نموداردایره ای به نوعی این وابستگی را بیان می کند: اگر یک قسمت ازدایره، بزرگ شود ، حداقل یک قسمت دیگر باید کوچک شود. این موضوع برای ستون های موجود در نمودار میله ای صدق نمی کند – که به اشتباه فراوانی های (نسبی) را مستقل نشان می دهد.