شناسایی مقادیر گمشده – وب سایت آموزشی

آموزش مقادیر گمشده SPSS

نوسینده Ruben Geert van den Berg براساس Basics

مقادیر گمشده در نرم افزار SPSS
مقادیر گمشده کاربر SPSS
تنظیمات مقادیر گمشده کاربر
بازرسی مقادیر گمشده در هر متغیر
تجزیه و تحلیل داده های SPSS با وجود مقادیر گمشده

مقادیر گمشده در SPSS به چه معناست؟

در SPSS ، ممکن است “مقادیر گمشده” به 2 موضوع اشاره داشته باشند:

مقادیر گمشده سیستمی مقادیری هستند که به طور کلی در داده ها وجود ندارند. در data view..به عنوان دوره نشان داده می شوند.

• به مقادیری که هنگام تجزیه و تحلیل یا ویرایش داده ها ناپدید شده باشند، مقادیر گمشده کاربرمی گویند.

در نرم افزار SPSS این کاربراست که مشخص می کند چه مقادیری باید حذف شود.

این آموزش شما را ازدوطریق راهنمایی می کند. به صورت کلی از bank.sav – که بخشی ازآن در زیر نشان داده شده است – استفاده خواهیم کرد.

چنانچه بعد از بارگیری و باز کردن این فایل ،چندین نمونه راامتحان کنید ،ازاین آموزش بیشترین بهره را خواهید برد.

مقادیر گمشده سیستمی در spss

مقادیر گمشده سیستمی مقادیری هستند که به طور کلی در داده ها وجود ندارند .مقادیرگمشده سیستمی به شکل نقطه در جایگاه داده نشان داده می شود که در زیر نشان داده شده است.

مقادیرگمشده سیستمی فقط در متغیرهای عددی یافت می شود. در مقادیر گمشده سیستمی ،متغیرهای متنی،وجود ندارد. داده ها به چندین دلیل ممکن است در سیستم به صورت مقادیر گمشده باشند:

● برخی از پاسخ دهندگان به دلیل روند پرسشنامه به بعضی سوالات پاسخ نمی دهند.

• پاسخ دهنده از برخی سوالات گذر کرده است.

• گاهی در حین وارد کردن یا ویرایش داده ها مشکلی به وجود می آید.

• برخی از مقادیر به دلیل خرابی تجهیزات ثبت نشده اند.

در بعضی موارد مقادیر گمشده سیستمی کاملاً منطقی است.مثلا بپرسیم که “آیاماشین دارید؟” و پاسخ دهنده “خیر” جواب دهد. پس نرم افزاردراین نظرسنجی باید ازپرسیدن سوال بعدی امتنا کند: “ماشین شما چه رنگیست؟” احتمالا در داده های سیستم ، برای افرادی که ماشین ندارند،مقادیر گمشده ای مشاهده کنیم.این نوع از مقادیر گمشده، کاملا منطقیست.

با این حال ، دربرخی ازموارد هم ، ممکن است مشخص نباشد که چرا مقادیر در سیستم از دست رفته است. ممکن است مشکلی پیش آمده باشد یاخیر . بنابراین ، باید سعی کنید دلیل وجود مقادیر گمشده سیستمی را متوجه شوید به خصوص اگر تعدادشان زیاد باشد.

حال،چگونه می توان مقادیرگمشده از داده هایمان را شناسایی و کنترل کنیم؟

پس از نگاهی به نوع دوم مقادیر از دست رفته به آن خواهیم رسید.

مقادیر گمشده کاربردر SPSS

به مقادیری که هنگام تجزیه و تحلیل یا ویرایش داده ها،قابل بررسی نیستند،مقادیر گمشده کاربرمی گویند. “کاربر” در اینجا به کاربرspss اشاره دارد.که شمایید!!

درنتیجه،این شماهستید که گاهی ممکن است لازم باشد،برخی ازمقادیر را به عنوان مقادیر گمشده کابر درنظر بگیرید. . بنابراین کدام داده ها – در صورت وجود – باید کنارگذاشته شوند؟ به طور خلاصه،

• برای متغیرهای رسته ای ، به طور معمول پاسخ هایی مانند “نمی دانم” یا “بدون پاسخ” از تجزیه و تحلیل حذف می شوند.

• برای متغیرهای متریک، مقادیرغیرمحتمل – زمان واکنش 50 میلی ثانیه یا حقوق ماهیانه 9999999 یورو – معمولاً به عنوان مقدارگمشده کاربر درنظر گرفته می شوند.

رای bank.sav، هنوز هیچ مقدار گمشده کاربر تنظیم نشده است، همانطور که در variable view مشاهده می شود.

حال بیایید ببینیم که آیا مقادیری باید به عنوان گمشده تنظیم شود ؟وچطور این کار را انجام دهیم؟

مقادیر گمشده کاربر برای متغیرهای رسته ای

یک روش سریع برای بررسی متغیرهای رسته ای ، محاسبه توزیع فراوانی ورسم نمودارهای میله ای متناظرآن است. مطمئن باشید که جداول خروجی هم مقادیر و هم نام آن ها را نشان می دهند. ساده ترین راه برای انجام این کاراجرای دستور زیر می باشد.

برای داشتن خروجی خوب، هم مقدار و هم نام آن ها را نشان دهید.

set tnumbers both.

*جدول فراوانی اولیه برای q1.

frequencies q1 to q9.

نتیجه

توجه داشته باشید که q1 یک متغیر ترتیبی است: مقادیر بالاتر ، سطح بالاتری از سازگاری را نشان می دهد.

با این حال، این برای 11 جواب نمی دهد :”بدون پاسخ” سازگاری بیشتر از 10 “کاملاً موافق” را نشان نمی دهد.بنابراین ، فقط مقادیر 1 تا 10 ترتیبی می باشند مقادیر 11 باید حذف شود.

دستورزیر روش صحیح انجام این کار را نشان می دهد.

* عدد11 را به عنوان مقدارگمشده کاربربرای q1 درنظربگیرید.

missing values q1 to q9 (11).

* رسم دوباره جدول فراوانی ها.

frequencies q1 to q9.

نتیجه

توجه داشته باشید که درحال حاظر، عدد 11 جزو مقادیر گمشده محسوب میشود.این مقدار 6 بار در q1 رخ داده است همچنین 14 مقدار گمشده سیستمی نیز وجود دارد.در variable view،11 به عنوان مقدار گمشده کاربر برای q1 تا q9در نظر گرفته شده است.

مقادیر گمشده کاربر برای متغیرهای متریک

روش صحیح بررسی متغیرهای متریک رسم نمودار هیستوگرام برای آنها می باشد.علاوه براین، دستور زیر ساده ترین راه برای انجام این کار را بیان می کند.

*Run basic histogram over working hours per week.
frequencies whours
/format notable
/histogram.

نتیجه

برخی از پاسخ دهندگان جواب داده اند که بیش از 150 ساعت در هفته کار می کنند. شاید این عدد، مقدارساعت کارآنها دریک ماه – بیشتر از هفته- می باشد. به هرحال ، چنین مقادیری معتبر نیستند. بنابراین همه مقادیر 50 ساعت کار در هفته یا بیشتر را به عنوان مقادیر گمشده کاربر درنظر خواهیم گرفت. پس از انجام این کار، توزیع مقادیر باقیمانده قابل قبول به نظر می رسد.

*Set 50 hours per week or more as user missing.

missing values whours (50 thru hi).

*Rerun histogram.

frequencies whours
/format notable
/histogram.

بررسی مقادیر گمشده در هر متغیر

یک روش بسیار سریع برای بررسی مقادیر گمشده (سیستم و کاربر) درهر متغیر ، رسم جدول توصیفی می باشد.

قبل از انجام این کار، مطمئن شوید که هیچ وزن(WEIGHT ) یا فیلتر(FILTER ) فعال نداشته باشید.

با اجرای SHOW WEIGHT FILTER N می توانید این مورد را بررسی کنید. همچنین توجه داشته باشید که 464 مورد برای این داده ها وجود دارد. حال میخواهیم آمار توصیفی را بررسی کنیم.

* مقادیرگمشده در هر متغیر را بررسی کنید.

descriptives q1 to q9.

* توجه: تعداد مقادیر گمشده برابراست با(464 – N) .

نتیجه

ستون N تعداد مقادیری که گمشده نیستند در هر متغیر را نشان می دهد. از آنجا که در کل 464 مورد داریم ، تعداد مقادیر گمشده درهرمتغیربرابر با(464 – N) می باشد. اگر درصد بالایی از متغیرها گمشده باشند ، ممکن است بخواهید آنها را از تجزیه و تحلیل های- مخصوصا – چند متغیره حذف کنید.

مهم است توجه داشته باشید که ارزش N (به صورت لیست) = 309 است. این موارد بدون هیچ مقدار گمشده در تمام متغیرهای این جدول است. برخی ازروشها فقط از این 309موردکه به عنوان مقادیر گمشده درلیست spss موجودند ،استفاده میکنند.

نتیجه گیری: هیچ یک از متغیرها – ستون داده ها – درصدزیادی ازمقادیر گمشده را شامل نمیشود.

حال بررسی میکنیم که آیا حالات – سطر داده ها – مقادیر گمشده زیادی دارند یا خیر.

بررسی مقادیر گمشده در هرمورد

پس از بررسی اگر مقادیر گمشده زیادی داشته باشیم ،میتوانیم یک متغیر جدید ایجاد کنیم. این متغیرجدید شامل مقادیر گمشده، مجموعه ای از متغیرهاست که می خواهیم به کمک هم تجزیه و تحلیل کنیم. در مثال زیر، این متغیرq1 تا q9 خواهد بود.

برای این متغیر از یک نام کوتاه و ساده استفاده خواهیم کرد: مثلا mis_1 خوبست. فقط درنظر داشته باشید،توضیحی به عنوان برچسب متغییر_تعداد گمشده ها…_اضافه کنید

* متغیر جدیدی از مقادیرگمشده برای q1 تا q9 ،ایجاد کنید.

count mis_1 = q1 to q9 (missing).

*توضیحی به عنوان برچسب برای mis_1 در نظر بگیرید.

variable labels mis_1 ‘Missing values over q1 to q9’.

* مقادیر گمشده توزیع فراونی را بررسی کنید.

frequencies mis_1.

نتیجه

در این جدول ،عدد 0،یعنی در q1تا q9 مقدار گمشده ای وجود ندارد.این شامل 309 مورد است. این Valid N (به صورت لیست) است که قبلاً در جدول توصیفات مشاهده کردیم.

همچنین توجه داشته باشید که یکی از 9 حالت متغیرها، 8 مقدار گمشده دارد.اگر پاسخ دهنده پرسشنامه را به طور جدی پر کند، ممکن است شک کنیم.

شاید بهتر باشدکه آن را از تحلیل های q1 تا q9 حذف کنیم. . روش صحیح این کار استفاده از FILTER است.

تجزیه و تحلیل داده هادر SPSS با وجود مقادیر گمشده

بنابراین اگرداده هادر SPSS شامل مقادیر گمشده باشند ، چگونه می توان انهارا تجزیه و تحلیل کرد؟ در اکثر مواقع، SPSS هر تجزیه و تحلیل را روی تمام مواردی که می تواند برای آن استفاده کند، اجرا می کند. درسته ، حالا داده ها شامل 464 مورد است.

به هرحال ،در اکثر تجزیه و تحلیل ها نمی توان از همه 464 حالت استفاده کرد چراکه ممکن است برخی از آنها به دلیل گمشدن مقادیرشان حذف شوند.

اینکه چه مواردی حذف شود بستگی به این دارد که از کدام متغیرهارا برای تجزیه و تحلیل استفاده کنیم.

بنابراین ، یکی از مهمترین روشها اینست که همیشه تعداد مورد هایی که برای هر تحلیل استفاده شده است را بررسی کنید.

همیشه،آن چیزی که انتظار دارید اتفاق نمی افتد. حال بیایید در ابتدا نگاهی به حذف pairwise (جفت جفت )مقادیر گمشده بیندازیم.

حذف داده‌های گمشده به طور مجزا برای هر متغیر

بیایید تمام همبستگی های (پیرسون) بین q1 تا q9 را بررسی کنیم. ساده ترین راه برای انجام این کار فقط اجرای correlations q1 to q9 است. اگر چنین کاری انجام دهیم، جدول نشان داده شده در زیر را دریافت می کنیم.

توجه داشته باشید که هر همبستگی براساس تعداد مختلفی از موارد است. دقیقاً، هر همبستگی بین یک جفت متغیر از همه موارد دارای مقادیر معتبر روی این 2 متغیر استفاده می کند. این به عنوان حذف زوجی مقادیر از گمشده شناخته می شود. توجه داشته باشید که بیشترین همبستگی هامربوط به 410 تا 440 است.

حذف همه مقادیر گمشده

بیایید اکنون پس از افزودن یک خط به دستور(syntax) کوچمان ، همان همبستگی ها را دوباره انجام دهیم.

correlations q1 to q9
/missing listwise

بعد از اجرای آن ، همانطور که در زیر نشان داده شده است ،ماتریس همبستگی کوچکتری بدست می آوریم. این دیگر شامل تعداد موارد در هر همبستگی نیست.,

هر همبستگی بر اساس 309 مورد یکسان است ، به ترتیب لیست N. این موارد بدون مقادیر از دست رفته در تمام متغیرهای جدول است: q1 تا q9. این به عنوان حذف لیست شده مقادیر از دست رفته شناخته می شود.

بدیهی است که ، حذف لیست دار اغلب موارد بسیار کمتری را نسبت به حذف دوتایی استفاده می کند. به همین دلیل است که ما اغلب مورد دوم را توصیه می کنیم: ما می خواهیم تا حد امکان از موارد استفاده کنیم. با این حال ، اگر بسیاری از مقادیر از دست رفته وجود داشته باشد ، حذف دو به دو ممکن است باعث مسائل محاسباتی شود. در هر صورت ، مطمئن شوید که شما ،برای مقادیرگمشده از کدام دو صورت استفاده شده است؟ . به طور پیش فرض ، رگرسیون و تحلیل عاملی از به حذف همه استفاده می کنند و در اکثر مواقع ، این، آن چیزی نیست که می خواهید.

با عدم تحلیل مقادیر گمشده، تحلیل را انجام دهید.

تجزیه و تحلیل اگر 2 متغیر مرتبط باشد به عنوان تجزیه و تحلیل دومتغیره شناخته می شود .

در انجام این کار ، SPSS فقط می تواند از مقادیر دارای ارزش درهردومتغیراستفاده کند. منطقی به نظر می رسد ، نه ؟

حال ، اگر چندین تجزیه و تحلیل دو متغییره راهمزمان انجام دهید ، می توانید باحذف چنین مواردی،تجزیه و تحلیل راانجام دهید: هر تحلیل مستقل از تمامی موارد ممکن استفاده می کند. تجزیه و تحلیل های مختلف ممکن است از زیر مجموعه های مختلف موارد استفاده کنند.

اگر چنین چیزی را نمی خواهید ،می توانید از حذف همه استفاده کنید: هر تجزیه و تحلیل در کلیه متغیرها، فقط از مواردی که مقادیر گمشده ندارند برای همه تجزیه و تحلیل ها استفاده می کند. شکل زیر این موضوع را برای تحلیل واریانس یکطرفه (ANOVA)نشان می دهد.

آزمون برای q1 و educ بدون در نظر گرفتن q2 تا q4 از تمامی مواردی که دارای مقادیر معتبر در q1 و educ هستند استفاده می کند.

در تمامی آزمون ها فقط مواردی استفاده می شوند که مقادیردر q1 تا q4 و educآنها،گمشده نباشد.

معمولاً می خواهیم تا جایی که ممکن است برای هر تجزیه و تحلیل از موارد زیادی استفاده کنیم. بنابراین ترجیح می دهیم با تحلیل نکردن برخی از موارد تجزیه و تحلیل را انجام دهیم. اما هرکدام را که انتخاب کردید ،مطمئن شوید که چه تعداد را برای هر تجزیه و تحلیل درنظر گرفته اید. بنابراین خروجی خود را به دقت بررسی کنید.

از این نظر مخصوصاً آزمون کلموگروف _اسمیرنوف غلط انداز است:

به طور پیش فرض ، یک گزینه را با استفاده از گزینه دیگر و حذف به صورت لیست وار تجزیه وتحلیل کنید.

ویرایش داده ها با وجود مقادیر گمشده

ویرایش داده ها با وجود مقادیرگمشده می تواند غلط انداز باشد. . دستورات و توابع در این حالت به صورت متفاوتی عمل میکنند. اگر از این مسئله بی اطلاع باشید ، حتی محاسبه موارداساسی مثل میانگین در SPSS می تواند بسیار اشتباه باشد.

دستور زیر 3 روشی را که برخی اوقات با آنها مواجه می شویم نشان می دهد. با وجود مقادیرگمشده ، 2 مورد از آنها نتایج نادرستی را ارائه می دهند.

* روش صحیح محاسبه میانگین.

compute mean_a = mean(q1 to q9).
* محاسبه میانگین – اولین روش غلط.

compute mean_b = (q1 + q2 + q3 + q4 + q5 + q6 + q7 + q8 + q9) / 9.
* محاسبه میانگین -دومین روش غلط.

compute mean_c = sum(q1 to q9) / 9.

بررسی نتایج

descriptives mean_a to mean_c.

نتیجه

برداشت نهایی

وجود مقادیرگمشده درداده های دنیای واقعی، امری رایج می باشد. معمولاً هنگام تجزیه و تحلیل یا ویرایش داده ها مزاحمت زیادی ایجاد نمی كنند اما در بعضی موارد این کاررا انجام می دهند. در صورت کم بودن مقادیر گمشده، کمی احتیاط بیشتر کفایت می کند. نتایج خود را دوباره بررسی کنید و بدانید که چه کاری انجام را می دهید.