နံပါတ္တစ္ခု မွားေနမွန္း ကၽြန္မဘယ္လိုသိသလဲလို႕ မၾကာခဏ အေမးခံရပါတယ္။ အမွန္အတိုင္းေျပာရရင္ နံပါတ္တစ္ခု မွားေနမွန္း ကၽြန္မအျမဲတမ္း တန္းျပီး မသိႏိုင္ပါဘူး။ အခ်ိဳ႕နံပါတ္ေတြကေတာ့ ဆိုင္ရာ ဘာသာရပ္အေပၚ မူတည္ျပီး သိႏိုင္ပါတယ္။
ကၽြန္မဆီမွာ ကိုယ္ဝန္ေဆာင္သည္ေတြရဲ႕ ေသြးေပါင္ခ်ိန္ႏႈန္းေတြမွတ္ထားတဲ့ ေဒတာ ရွိတယ္ဆိုပါေတာ့။ အဲဒီေသြးေပါင္ခ်ိန္ႏႈန္းေတြမွာ အေပၚေသြး ၄၀ ေအာက္ရွိေနတာေတြ ေတြ႕တာနဲ႕ ဒီနံပါတ္မွားေနတယ္ဆိုတာ ကၽြန္မတန္းျပီး ေျပာႏိုင္ပါတယ္။ ေဒတာျဖည့္တဲ့သူမွားေနလား၊ ေသြးတိုင္းတဲ့သူပဲ မွားေနလား၊ တစ္ေယာက္ေယာက္ေတာ့ အမွားလုပ္ခဲ့တာမွန္း တန္းသိပါတယ္။အဲဒါဘာလို႕လဲဆိုေတာ့ ကၽြန္မမွာ ဇီဝေဗဒအေျခခံရွိတဲ့အတြက္ လူတစ္ေယာက္က ေသြးေပါင္ခ်ိန္ အဲဒီေလာက္နည္းေနလို႕ရွိရင္ အသက္ေတာင္မရွင္ႏိုင္ေတာ့ဘူးဆိုတာ သိေနလို႕ပါ။
ဒါေပမယ့္ Statistician ေတာ္ေတာ္မ်ားမ်ားက ဆိုင္ရာဘာသာရပ္ေတြမွာ ကၽြမ္းက်င္သူေတြ မဟုတ္ၾကဘူးေလ။ ဒီေတာ့ ကိုယ္နဲ႕ အကၽြမ္းတဝင္မရွိတဲ့ ဘာသာရပ္က ေဒတာကို ၾကည့္ရျပီဆိုရင္ေတာ့ အမွားကို လံုးဝမေျပာႏိုင္ေတာင္မွ မွားႏိုင္ေခ်ရွိတဲ့နံပါတ္ေတြကို ရွာလို႕ရပါတယ္။ အဲဒါကို outlier လို႕ေခၚပါတယ္။ ဒီ outlier ေတြကို ရွာခ်င္ရင္ နည္း ၂ နည္း ရွိပါတယ္။ သူတို႕ကေတာ့ သေဘာတရားက အတူတူပါပဲ။ ၂ နည္းစလံုးမွာ ေဒတာရဲ႕ ျဖန္႕က်က္မႈ (Distribution) ကို အေျခခံထားတာပါ။
ပထမနည္းကေတာ့ ကိုယ့္ေဒတာရဲ႕ အနည္းဆံုးနံပါတ္ (Minimum Value) ၊ အမ်ားဆံုးနံပါတ္ (Maximum Value) နဲ႕ ပ်မ္းမွ်ေခ် နံပါတ္ (Average Value) ေတြကို ယွဥ္ၾကည့္လိုက္ဖို႕ပါပဲ။ outlier ရွိႏိုင္တဲ့ ေဒတာမွာ အနည္းဆံုး ၊ အမ်ားဆံုး နဲ႕ ပ်မ္းမွ်ေခ် ေတြဟာ အရမ္းကို ကြာျခားေနႏိုင္ပါတယ္။ ပ်မ္းမွ်ေတြ အမ်ားၾကီးရွိႏိုင္ေၾကာင္း ကၽြန္မအရင္က ဒီပို႕စ္မွာ ေရးခဲ့ပါေသးတယ္။
အေပၚက Histogram မွာဆိုရင္ ရွိဖို႕ေတာ္ေတာ္ရွားတဲ့ အရပ္ ၇ ေပနဲ႕ ၁ လက္မ ရွိေနတဲ့ ေက်ာင္းသားေတြကို တန္းျပီးျမင္ရပါတယ္။
No comments:
Post a Comment