Dancing with data: Spotting an outlier

နံပါတ္တစ္ခု မွားေနမွန္း ကၽြန္မဘယ္လိုသိသလဲလို႕ မၾကာခဏ အေမးခံရပါတယ္။ အမွန္အတိုင္းေျပာရရင္ နံပါတ္တစ္ခု မွားေနမွန္း ကၽြန္မအျမဲတမ္း တန္းျပီး မသိႏိုင္ပါဘူး။ အခ်ိဳ႕နံပါတ္ေတြကေတာ့ ဆိုင္ရာ ဘာသာရပ္အေပၚ မူတည္ျပီး သိႏိုင္ပါတယ္။

ကၽြန္မဆီမွာ ကိုယ္ဝန္ေဆာင္သည္ေတြရဲ႕ ေသြးေပါင္ခ်ိန္ႏႈန္းေတြမွတ္ထားတဲ့ ေဒတာ ရွိတယ္ဆိုပါေတာ့။ အဲဒီေသြးေပါင္ခ်ိန္ႏႈန္းေတြမွာ အေပၚေသြး ၄၀ ေအာက္ရွိေနတာေတြ ေတြ႕တာနဲ႕ ဒီနံပါတ္မွားေနတယ္ဆိုတာ ကၽြန္မတန္းျပီး ေျပာႏိုင္ပါတယ္။ ေဒတာျဖည့္တဲ့သူမွားေနလား၊ ေသြးတိုင္းတဲ့သူပဲ မွားေနလား၊ တစ္ေယာက္ေယာက္ေတာ့ အမွားလုပ္ခဲ့တာမွန္း တန္းသိပါတယ္။အဲဒါဘာလို႕လဲဆိုေတာ့ ကၽြန္မမွာ ဇီဝေဗဒအေျခခံရွိတဲ့အတြက္ လူတစ္ေယာက္က ေသြးေပါင္ခ်ိန္ အဲဒီေလာက္နည္းေနလို႕ရွိရင္ အသက္ေတာင္မရွင္ႏိုင္ေတာ့ဘူးဆိုတာ သိေနလို႕ပါ။

ဒါေပမယ့္ Statistician ေတာ္ေတာ္မ်ားမ်ားက ဆိုင္ရာဘာသာရပ္ေတြမွာ ကၽြမ္းက်င္သူေတြ မဟုတ္ၾကဘူးေလ။ ဒီေတာ့ ကိုယ္နဲ႕ အကၽြမ္းတဝင္မရွိတဲ့ ဘာသာရပ္က ေဒတာကို ၾကည့္ရျပီဆိုရင္ေတာ့ အမွားကို လံုးဝမေျပာႏိုင္ေတာင္မွ မွားႏိုင္ေခ်ရွိတဲ့နံပါတ္ေတြကို ရွာလို႕ရပါတယ္။ အဲဒါကို outlier လို႕ေခၚပါတယ္။ ဒီ outlier ေတြကို ရွာခ်င္ရင္ နည္း ၂ နည္း ရွိပါတယ္။ သူတို႕ကေတာ့ သေဘာတရားက အတူတူပါပဲ။ ၂ နည္းစလံုးမွာ ေဒတာရဲ႕ ျဖန္႕က်က္မႈ (Distribution) ကို အေျခခံထားတာပါ။

ပထမနည္းကေတာ့ ကိုယ့္ေဒတာရဲ႕ အနည္းဆံုးနံပါတ္ (Minimum Value) ၊ အမ်ားဆံုးနံပါတ္ (Maximum Value) နဲ႕ ပ်မ္းမွ်ေခ် နံပါတ္ (Average Value) ေတြကို ယွဥ္ၾကည့္လိုက္ဖို႕ပါပဲ။ outlier ရွိႏိုင္တဲ့ ေဒတာမွာ အနည္းဆံုး ၊ အမ်ားဆံုး နဲ႕ ပ်မ္းမွ်ေခ် ေတြဟာ အရမ္းကို ကြာျခားေနႏိုင္ပါတယ္။ ပ်မ္းမွ်ေတြ အမ်ားၾကီးရွိႏိုင္ေၾကာင္း ကၽြန္မအရင္က ဒီပို႕စ္မွာ ေရးခဲ့ပါေသးတယ္။

ဒုတိယနည္းကေတာ့ ကိုယ့္မွာ outlier ရွိမရွိ လိုက္စစ္ရမယ့္ ေဒတာေတြမ်ားေနလို႕ရွိရင္ အရမ္း အသံုးဝင္ပါတယ္။ ပထမနည္းလို အနည္းဆံုး၊ အမ်ားဆံုးနဲ႕ ပ်မ္းမွ်ေတြကို တစ္ခုခ်င္းလိုက္ၾကည့္ေနမယ့္အစား Histogram ေတြ ခ်ဆြဲလိုက္ဖို႕ပါပဲ။ Histogram က ကၽြန္မအရင္ ပို႕စ္မွာ ေရးခဲ့တဲ့အတိုင္းပဲ ေဒတာေတြရဲ႕ ျဖန္႕က်က္မႈကို ျမင္လြယ္ေအာင္ ဂရပ္ေလးဆြဲထားတာျဖစ္ပါတယ္။ ဒီေတာ့ outlier ရွာတဲ့ေနရာမွာ ကြာျခားခ်က္ေတြကို လိုက္ျပီး ႏႈတ္ေနစရာမလိုဘဲ မွားႏိုင္ေခ်ေတြ ဘယ္မွာစုေနလဲဆိုတာကို မ်က္လံုးေလးတစ္ခ်က္ ေဝ့လိုက္တာနဲ႕တင္ သိႏိုင္ပါတယ္။

အေပၚက Histogram မွာဆိုရင္ ရွိဖို႕ေတာ္ေတာ္ရွားတဲ့ အရပ္ ၇ ေပနဲ႕ ၁ လက္မ ရွိေနတဲ့ ေက်ာင္းသားေတြကို တန္းျပီးျမင္ရပါတယ္။

Dancing with data

Pages

Saturday, October 26, 2013

Spotting an outlier

No comments:

Post a Comment