Monday, January 27, 2014

Confounding Marathon

ကၽြန္မ ျပီးခဲ့တဲ့ အပတ္တုန္းက Yoma Yangon International Marathon မွာ 21 km အတြက္ ဝင္ျပိဳင္ျဖစ္ပါတယ္။ ပန္းဝင္ဖို႕ စုစုေပါင္း ၃ နာရီ ၁၀ မိနစ္ၾကာတယ္။ မိန္းကေလးအုပ္စုမွာေတာ့ နံပါတ္ ၁၁၈ ခ်ိတ္တယ္။ မဆိုးဘူးလို႕ ေျပာလို႕ရတာေပါ့။


အေျပးျပိဳင္ပြဲဝင္ျပီးေတာ့မွ ဖတ္ဖူးခဲ့တဲ့ မာရသြန္နဲ႕ ပတ္သတ္တဲ့ ေဒတာ အတြက္အခ်က္ အလြဲေလးတစ္ခု အေၾကာင္းကို ျပန္သတိရသြားပါတယ္။ အဲဒီမာရသြန္က ႏိုင္ငံတကာ အေျပးသမားမ်ားအၾကားမွာ နာမည္အရမ္းၾကီးတဲ့ Boston Marathon က အေၾကာင္းေလးျဖစ္ပါတယ္။ ကၽြန္မက အရင္က Boston မွာလဲ ေနဖူးေတာ့ သူငယ္ခ်င္းေတြ Boston Marathon ဝင္ျပိဳင္ရင္ သြားအားေပးေနက်ေပါ့။


တစ္ခါတုန္းက သုေတသီတစ္ေယာက္က Boston Marathon က အေျပးသမားေတြရဲ႕ အခ်ိန္ေတြကို ၾကည့္ျပီး ေယာက်္ားနဲ႕မိန္းမ ေျပးတဲ့အခ်ိန္ ပ်မ္းမွ်ေခ် ဘယ္ေလာက္ကြာျခားလဲဆိုတာ သိခ်င္တယ္။ ကၽြန္မတို႕ ပံုမွန္ဆိုလို႕ရွိရင္ ေယာက်္ားနဲ႕ မိန္းမ ခြန္အားကြာတဲ့အတြက္ ေယာက်္ားေျပးတာကေတာ့ ပိုျမန္တယ္ဆိုတာ သိေနတာပဲ။ ဒါေပမယ့္ ဒီ Dataset ကေနက်ေတာ့ မိန္းမေတြက ေျပးတာ ပိုျမန္ေနတယ္ဆိုျပီး ထြက္လာတယ္။


ဒီေတာ့ အဲဒီ သုေတသီလည္း ပ်ာသြားတာေပါ့။ ဘာမ်ားမွားေနလဲ၊ ဘာညာ လိုက္ရွာတာေပါ့။


ျဖစ္ခ်င္ေတာ့ သူ ေလ့လာေနတဲ့အခ်ိန္တုန္းက မာရသြန္ဆိုတာ ေယာက်္ားေတြပဲ ဝင္ျပိဳင္တာမ်ားတယ္။ အအိုေတြေရာ အပ်ိဳေတြေရာေပါ့။ ဒါေပမယ့္ မိန္းမေတြမွာ ငယ္ငယ္ရြယ္ရြယ္ မိန္းမေလးေတြပဲ ဝင္ျပိဳင္တာမ်ားတယ္။ က်န္းမာႏုပ်ိဳေနတဲ့ မိန္းကေလးေတြ ေျပးတာက အိုမင္းရြတ္တ်ေနတဲ့ အဖိုးၾကီးေတြထက္ အဆေပါင္းမ်ားစြာ ျမန္ေနေတာ့ က်ားမအလိုက္ ပ်မ္းမွ်ေခ်ရွာလိုက္ရင္ မိန္းကေလးေတြက ပိုျမန္ေနသလိုျဖစ္သြားပါတယ္။


အဂၤလိပ္စာမွာ ကိုယ့္ရဲ႕စိတ္ေတြ အေတြးေတြကို ရွဳပ္သြားေစတာကို Confound ျဖစ္တယ္လို႕ ေျပာပါတယ္။ ဒီေတာ့ Confounder ဆိုတာ ကိုယ့္ရဲ႕အေတြးေတြကို ရွဳပ္သြားေစတဲ့အရာေပါ့။ ဒီ Confounder က Statistics မွာ အရမ္းအေရးၾကီးပါတယ္။ Confounder ရွိေနရင္ ကိုယ့္ရဲ႕တြက္ခ်က္မႈက ေျပာင္းျပန္ျဖစ္သြားႏိုင္ပါတယ္။


မာရသြန္ဥပမာမွာက ကိုယ္တကယ္ေလ့လာခ်င္တာ က်ားမလိင္အလိုက္ ေျပးႏႈန္းျဖစ္ေပမယ့္ အသက္ကြာျခားခ်က္က ကိုယ့္ရဲ႕တြက္ခ်က္မႈကို ဝင္ရွဳပ္သြားပါေစတယ္။ ဒီေတာ့ ေျပးတဲ့က်ားမအလိုက္ အသက္ကြာျခားခ်က္က Confounder ျဖစ္သြားပါတယ္။ Confounder ျပႆနာမရွိခ်င္ရင္ အသက္အရြယ္အတူတူမွာ က်ားမ ေျပးတာ ဘယ္လိုကြာသလဲ ေလ့လာရမွာ ျဖစ္ပါတယ္။


ကၽြန္မျပိဳင္တဲ့ ရိုးမမာရသြန္မွာကေတာ့ ေယာက်္ားသပ္သပ္ မိန္းမသပ္သပ္ စာရင္းလုပ္လုိက္ေတာ့ ေတာ္ပါေသးရဲ႕။ ႏို႕မို႕ဆိုရင္ ကၽြန္မရဲ႕ ပန္းဝင္တဲ့ နံပါတ္က ၄၀၀ ေက်ာ္သြားမယ္။


Wednesday, January 22, 2014

Missing yet not missing

Missing Data ဆိုတာ Statistics မွာ အလြန္အေရးၾကီးပါတယ္။ အခ်ိဳ႕ေဒတာေတြက မရွိတာေတြ၊ မရႏိုင္တာေတြေၾကာင့္ ကိုယ္ေကာက္ခ်က္ခ်လိုက္တဲ့ အေျဖေတြက လြဲေခ်ာ္သြားႏိုင္ပါတယ္။ ဒီေတာ့ Missing Data ေတြ မရွိေအာင္ ဘယ္လိုလုပ္မလဲ၊ ရွိရင္လည္း ဘယ္လိုျပန္ျဖည့္တြက္ရမလဲ ဆိုတာေတြက Statistics မွာ အေရးၾကီးတဲ့ Topic ေတြ ျဖစ္ပါတယ္။ ဒါေပမယ့္ Missing Data ဆိုတာက တစ္ခါတစ္ေလက်ေတာ့ ေဒတာက တစ္ကယ္ကို ေပ်ာက္ေနတာ ျဖစ္ျပီး တစ္ခါတစ္ေလက်ေတာ့ တမင္ ေဖ်ာက္ထားတာ ျဖစ္ေနႏိုင္ပါတယ္။ ဒီေတာ့ ၾကည့္တဲ့သူေတြက ေဒတာ ေပ်ာက္ေနတာလား ၊ေဖ်ာက္ထားတာလားဆိုတာ ခြဲျခားသိဖို႕လိုပါတယ္။

တကယ္ေပ်ာက္ေနတဲ့ Missing Data ကို ကၽြန္မတို႕ Missing-at-Random Data လို႕ေခၚပါတယ္။ သူကေတာ့ တစ္ကယ္ကို ရိုးရိုးသားသားေပ်ာက္ေနတဲ့ ေဒတာမ်ိဳးေပါ့။ ဥပမာ - စာေမးပြဲေမးခြန္းမွာ ေမ့ျပီး အေျဖ မေျဖလာတာမ်ိဳးေပါ့။ ဒီလိုမ်ိဳး Missing Data ဆိုရင္ ျပန္ျဖည့္ျပီး တြက္လို႕ရပါတယ္။ အဲ..... တမင္ေဖ်ာက္ထားတဲ့ Missing Data ဆိုရင္ေတာ့ ကိုယ္က ျပန္ျဖည့္ျပီးတြက္လိုက္မွ ကိုယ့္ရဲ႕ ေကာက္ခ်က္ေတြက တပ္တပ္စင္ေအာင္လြဲသြားႏိုင္ပါတယ္။ ဒီလို Missing Data မ်ိဳးကို Missing-not-at-Random Data လို႕ေခၚပါတယ္။

ဒါနဲ႕ ပတ္သက္ျပီး Facebook မွာ သူငယ္ခ်င္းေတြကို Unfriend လုပ္တတ္တာကို NPR က ေလ့လာထားတဲ့ အေၾကာင္းကို Simply Statistics Blog က Statistics ရွဳေထာင့္ကေန ဥပမာေလးေပးထားပါတယ္။ 

Facebook မွာက လူေတြေတာ္ေတာ္မ်ားမ်ားက ကိုယ့္သူငယ္ခ်င္းေတြတင္တဲ့ ပို႕စ္ေတြၾကည့္ရင္း စိတ္ဓါတ္က်တတ္ၾကပါတယ္။ ကိုယ့္သူငယ္ခ်င္းရဲ႕ ပို႕စ္ေတြမွာက အရမ္းကို ေပ်ာ္စရာေကာင္းေနတာေတြ၊ စိတ္လႈပ္ရွားစရာေကာင္းေနတာေတြမ်ားေနေတာ့ ကိုယ့္ရဲ႕ ဘဝၾကီးကပဲ ဟာတာတာၾကီးလိုျဖစ္ေနျပီး ကိုယ့္သူငယ္ခ်င္းနဲ႕ ယွဥ္ရင္ ကိုယ္က ဘဝမွာ လူညံ့ၾကီးျဖစ္ေနတယ္လို႕ ေတြးျပီး စိတ္ဓါတ္က်လာတတ္ပါတယ္။

ဒါေပမယ့္ တစ္ကယ္ျဖစ္ေနတာ ကိုယ္ပါ အပါအဝင္ Facebook မွာ ၾကြားစရာရွိတာေတြ အဓိကထားျပီး တင္ေလ့ရွိၾကပါတယ္။ ကိုယ္က ရွံဳးနိမ့္ေနတာေတြဆိုရင္ ဘယ္တင္မလဲ။ ဒီေတာ့ ကိုယ့္ရဲ႕ သူငယ္ခ်င္းပို႕စ္ေတြကို ၾကည့္လိုက္မယ္ဆိုရင္ အေကာင္းၾကီးျဖစ္ေနေတာ့ သူတို႕ရဲ႕ အဆိုးေတြ မွန္သမွ်က Missing Data ျဖစ္သြားတာေပါ့။ ဒါေပမယ့္ အဲဒီ Missing Data က တမင္ေဖ်ာက္ထားတဲ့ Missing-not-at-Random Data ေလ။ သူတို႕ရဲ႕ ပို႕စ္ေတြၾကည့္ျပီး ကိုယ္က ဓါတ္ပ်က္ေနရင္ အလကားပဲ။ ကိုယ္သိထားဖို႕က ကိုယ့္ရဲ႕ပို႕စ္ေတြကို ၾကည့္ျပီး ကိုယ့္ရဲ႕ သူငယ္ခ်င္းကလည္း စိတ္ဓါတ္က်ေနေကာင္း က်ေနပါလိမ့္မယ္။


မူရင္းစာမူမ်ားကို ဖတ္ခ်င္ရင္ေတာ့ ေအာက္မွာ သြားဖတ္လို႕ ရပါတယ္။

http://www.npr.org/2014/01/09/261108836/many-younger-facebook-users-unfriend-the-network
http://simplystatistics.org/2014/01/17/missing-not-at-random-data-makes-some-facebook-users-feel-sad/



Friday, January 10, 2014

Let's have a t Party


အုပ္စု ၂ ခုရွိျပီး အဲဒီ အုပ္စု ၂ ခုရဲ႕ ကြာျခားခ်က္ကို ႏႈိုင္းယွဥ္ခ်င္ရင္ t Test ကို သံုးလို႕ရပါတယ္။ အေရးၾကီးတာကေတာ့ အုပ္စုက ၂ ခုပဲရွိရမယ္။ ျပီးေတာ့ ကိုယ္ႏႈိုင္းယွဥ္ခ်င္တဲ့ ကြာျခားခ်က္က ေရတြက္လို႕ရတဲ့ ကိန္းဂဏန္းတစ္ခု ျဖစ္ရမယ္။ အဲဒါအျပင့္ အဲဒီကြာျခားခ်က္က ဒီအုပ္စုမွာ ပါဝင္တဲ့သူေတြ အားလံုးဆီကေန တိုင္းတာထားတဲ့ တန္ဖိုးတစ္ခုျဖစ္ရမယ္။ t Test ရဲ႕သေဘာတရားကေတာ့ ဒီအုပ္စု ၂ ခုရဲ႕ ပ်မ္းမွ်ေခ်တန္ဖိုးေတြက ဒီအုပ္စုေတြရဲ႕ အရြယ္အစားနဲ႕ ယွဥ္ရင္ အရမ္းကြာျခားေနသလားကို စမ္းစစ္ျခင္းျဖစ္ပါတယ္။ t Test သံုးဖို႕ အုပ္စု ၂ ခုစလံုးရဲ႕ အရြယ္အစားေတြ တူေနစရာမလိုပါဘူး။


တန္းခြဲ (က) နဲ႕ တန္းခြဲ (ခ) ၂ တန္းမွာ ဘယ္အတန္းက ေက်ာင္းသားေတြ စာပိုေတာ္သလဲဆိုတာ သိခ်င္တယ္ ဆိုပါေတာ့။ အဲဒါကို သိႏိုင္တဲ့ နည္းေတြ အမ်ားၾကီးေတာ့ ရွိတာေပါ့။ ဥပမာ - ဒီတန္းခြဲ ၂ ခုဆီကေန ထူးခၽြန္ဆုေတြ ဘယ္ႏွစ္ခုရလဲဆိုတာ တိုင္းတာႏိုင္တယ္။ ဒါေပမယ့္ ထူးခၽြန္ဆုမ်ားတိုင္းလည္း အဲဒီအတန္းက တစ္တန္းလံုးအေနနဲ႕ စာပိုေတာ္ေနတာမဟုတ္ဘူး။ ထူးခၽြန္ဆုမ်ားသလို က်တဲ့သူေတြလည္း မ်ားေနႏိုင္တာပဲ။


ေစာေစာက ေမးခြန္းကို t Test သံုးျပီး ေျဖခ်င္တယ္ဆိုလို႕ရွိရင္ေတာ့ တန္းခြဲ (က) နဲ႕ တန္းခြဲ (ခ) မွာရွိတဲ့ ေက်ာင္းသားေတြရဲ႕ အမွတ္ေတြကို သံုးျပီး တန္းခြဲတစ္ခုခ်င္းဆီရဲ႕ ပ်မ္းမွ်ရမွတ္ေတြကို ႏႈိုင္းယွဥ္ႏိုင္ပါတယ္။ အဲလိုယွဥ္ဖို႕အတြက္ တန္းခြဲ (က) နဲ႕ တန္းခြဲ (ခ) က ေက်ာင္းသားအေရအတြက္ တူစရာမလိုပါဘူး။ တူရင္ေတာ့ ေကာင္းတာေပါ့။

t Test ကေန t Test value တစ္ခုရယ္ ထံုးစံအတိုင္း p value တစ္ခု ထြက္လာပါလိမ့္မယ္။ အဲဒါေတြကို ၾကည့္ျပီး ကိုယ္ႏႈိုင္းယွဥ္ေနတဲ့ အုပ္စု ၂ ခု တူမတူကို စမ္းစစ္လို႕ရပါတယ္။


Excel မွာေတာ့ t Test လုပ္ခ်င္ရင္ Data Analysis Toolpak သံုးလို႕ရပါတယ္။ Data Analysis Toolpak အေၾကာင္းကို အရင္က ေျပာျပီးပါျပီ။ Data Analysis Toolpak ကေန ကိုယ္စစ္ခ်င္တဲ့ t Test အမ်ိဳးအစားကို ေရြးလို႕လဲ ရပါတယ္။