ကၽြန္မ ျပီးခဲ့တဲ့ အပတ္တုန္းက Yoma Yangon International Marathon မွာ 21 km အတြက္ ဝင္ျပိဳင္ျဖစ္ပါတယ္။ ပန္းဝင္ဖို႕ စုစုေပါင္း ၃ နာရီ ၁၀ မိနစ္ၾကာတယ္။ မိန္းကေလးအုပ္စုမွာေတာ့ နံပါတ္ ၁၁၈ ခ်ိတ္တယ္။ မဆိုးဘူးလို႕ ေျပာလို႕ရတာေပါ့။
အေျပးျပိဳင္ပြဲဝင္ျပီးေတာ့မွ ဖတ္ဖူးခဲ့တဲ့ မာရသြန္နဲ႕ ပတ္သတ္တဲ့ ေဒတာ အတြက္အခ်က္ အလြဲေလးတစ္ခု အေၾကာင္းကို ျပန္သတိရသြားပါတယ္။ အဲဒီမာရသြန္က ႏိုင္ငံတကာ အေျပးသမားမ်ားအၾကားမွာ နာမည္အရမ္းၾကီးတဲ့ Boston Marathon က အေၾကာင္းေလးျဖစ္ပါတယ္။ ကၽြန္မက အရင္က Boston မွာလဲ ေနဖူးေတာ့ သူငယ္ခ်င္းေတြ Boston Marathon ဝင္ျပိဳင္ရင္ သြားအားေပးေနက်ေပါ့။
တစ္ခါတုန္းက သုေတသီတစ္ေယာက္က Boston Marathon က အေျပးသမားေတြရဲ႕ အခ်ိန္ေတြကို ၾကည့္ျပီး ေယာက်္ားနဲ႕မိန္းမ ေျပးတဲ့အခ်ိန္ ပ်မ္းမွ်ေခ် ဘယ္ေလာက္ကြာျခားလဲဆိုတာ သိခ်င္တယ္။ ကၽြန္မတို႕ ပံုမွန္ဆိုလို႕ရွိရင္ ေယာက်္ားနဲ႕ မိန္းမ ခြန္အားကြာတဲ့အတြက္ ေယာက်္ားေျပးတာကေတာ့ ပိုျမန္တယ္ဆိုတာ သိေနတာပဲ။ ဒါေပမယ့္ ဒီ Dataset ကေနက်ေတာ့ မိန္းမေတြက ေျပးတာ ပိုျမန္ေနတယ္ဆိုျပီး ထြက္လာတယ္။
ဒီေတာ့ အဲဒီ သုေတသီလည္း ပ်ာသြားတာေပါ့။ ဘာမ်ားမွားေနလဲ၊ ဘာညာ လိုက္ရွာတာေပါ့။
ျဖစ္ခ်င္ေတာ့ သူ ေလ့လာေနတဲ့အခ်ိန္တုန္းက မာရသြန္ဆိုတာ ေယာက်္ားေတြပဲ ဝင္ျပိဳင္တာမ်ားတယ္။ အအိုေတြေရာ အပ်ိဳေတြေရာေပါ့။ ဒါေပမယ့္ မိန္းမေတြမွာ ငယ္ငယ္ရြယ္ရြယ္ မိန္းမေလးေတြပဲ ဝင္ျပိဳင္တာမ်ားတယ္။ က်န္းမာႏုပ်ိဳေနတဲ့ မိန္းကေလးေတြ ေျပးတာက အိုမင္းရြတ္တ်ေနတဲ့ အဖိုးၾကီးေတြထက္ အဆေပါင္းမ်ားစြာ ျမန္ေနေတာ့ က်ားမအလိုက္ ပ်မ္းမွ်ေခ်ရွာလိုက္ရင္ မိန္းကေလးေတြက ပိုျမန္ေနသလိုျဖစ္သြားပါတယ္။
အဂၤလိပ္စာမွာ ကိုယ့္ရဲ႕စိတ္ေတြ အေတြးေတြကို ရွဳပ္သြားေစတာကို Confound ျဖစ္တယ္လို႕ ေျပာပါတယ္။ ဒီေတာ့ Confounder ဆိုတာ ကိုယ့္ရဲ႕အေတြးေတြကို ရွဳပ္သြားေစတဲ့အရာေပါ့။ ဒီ Confounder က Statistics မွာ အရမ္းအေရးၾကီးပါတယ္။ Confounder ရွိေနရင္ ကိုယ့္ရဲ႕တြက္ခ်က္မႈက ေျပာင္းျပန္ျဖစ္သြားႏိုင္ပါတယ္။
မာရသြန္ဥပမာမွာက ကိုယ္တကယ္ေလ့လာခ်င္တာ က်ားမလိင္အလိုက္ ေျပးႏႈန္းျဖစ္ေပမယ့္ အသက္ကြာျခားခ်က္က ကိုယ့္ရဲ႕တြက္ခ်က္မႈကို ဝင္ရွဳပ္သြားပါေစတယ္။ ဒီေတာ့ ေျပးတဲ့က်ားမအလိုက္ အသက္ကြာျခားခ်က္က Confounder ျဖစ္သြားပါတယ္။ Confounder ျပႆနာမရွိခ်င္ရင္ အသက္အရြယ္အတူတူမွာ က်ားမ ေျပးတာ ဘယ္လိုကြာသလဲ ေလ့လာရမွာ ျဖစ္ပါတယ္။
ကၽြန္မျပိဳင္တဲ့ ရိုးမမာရသြန္မွာကေတာ့ ေယာက်္ားသပ္သပ္ မိန္းမသပ္သပ္ စာရင္းလုပ္လုိက္ေတာ့ ေတာ္ပါေသးရဲ႕။ ႏို႕မို႕ဆိုရင္ ကၽြန္မရဲ႕ ပန္းဝင္တဲ့ နံပါတ္က ၄၀၀ ေက်ာ္သြားမယ္။
Monday, January 27, 2014
Wednesday, January 22, 2014
Missing yet not missing
Missing Data ဆိုတာ Statistics မွာ အလြန္အေရးၾကီးပါတယ္။ အခ်ိဳ႕ေဒတာေတြက မရွိတာေတြ၊ မရႏိုင္တာေတြေၾကာင့္ ကိုယ္ေကာက္ခ်က္ခ်လိုက္တဲ့ အေျဖေတြက လြဲေခ်ာ္သြားႏိုင္ပါတယ္။ ဒီေတာ့ Missing Data ေတြ မရွိေအာင္ ဘယ္လိုလုပ္မလဲ၊ ရွိရင္လည္း ဘယ္လိုျပန္ျဖည့္တြက္ရမလဲ ဆိုတာေတြက Statistics မွာ အေရးၾကီးတဲ့ Topic ေတြ ျဖစ္ပါတယ္။ ဒါေပမယ့္ Missing Data ဆိုတာက တစ္ခါတစ္ေလက်ေတာ့ ေဒတာက တစ္ကယ္ကို ေပ်ာက္ေနတာ ျဖစ္ျပီး တစ္ခါတစ္ေလက်ေတာ့ တမင္ ေဖ်ာက္ထားတာ ျဖစ္ေနႏိုင္ပါတယ္။ ဒီေတာ့ ၾကည့္တဲ့သူေတြက ေဒတာ ေပ်ာက္ေနတာလား ၊ေဖ်ာက္ထားတာလားဆိုတာ ခြဲျခားသိဖို႕လိုပါတယ္။
တကယ္ေပ်ာက္ေနတဲ့ Missing Data ကို ကၽြန္မတို႕ Missing-at-Random Data လို႕ေခၚပါတယ္။ သူကေတာ့ တစ္ကယ္ကို ရိုးရိုးသားသားေပ်ာက္ေနတဲ့ ေဒတာမ်ိဳးေပါ့။ ဥပမာ - စာေမးပြဲေမးခြန္းမွာ ေမ့ျပီး အေျဖ မေျဖလာတာမ်ိဳးေပါ့။ ဒီလိုမ်ိဳး Missing Data ဆိုရင္ ျပန္ျဖည့္ျပီး တြက္လို႕ရပါတယ္။ အဲ..... တမင္ေဖ်ာက္ထားတဲ့ Missing Data ဆိုရင္ေတာ့ ကိုယ္က ျပန္ျဖည့္ျပီးတြက္လိုက္မွ ကိုယ့္ရဲ႕ ေကာက္ခ်က္ေတြက တပ္တပ္စင္ေအာင္လြဲသြားႏိုင္ပါတယ္။ ဒီလို Missing Data မ်ိဳးကို Missing-not-at-Random Data လို႕ေခၚပါတယ္။
ဒါနဲ႕ ပတ္သက္ျပီး Facebook မွာ သူငယ္ခ်င္းေတြကို Unfriend လုပ္တတ္တာကို NPR က ေလ့လာထားတဲ့ အေၾကာင္းကို Simply Statistics Blog က Statistics ရွဳေထာင့္ကေန ဥပမာေလးေပးထားပါတယ္။
Facebook မွာက လူေတြေတာ္ေတာ္မ်ားမ်ားက ကိုယ့္သူငယ္ခ်င္းေတြတင္တဲ့ ပို႕စ္ေတြၾကည့္ရင္း စိတ္ဓါတ္က်တတ္ၾကပါတယ္။ ကိုယ့္သူငယ္ခ်င္းရဲ႕ ပို႕စ္ေတြမွာက အရမ္းကို ေပ်ာ္စရာေကာင္းေနတာေတြ၊ စိတ္လႈပ္ရွားစရာေကာင္းေနတာေတြမ်ားေနေတာ့ ကိုယ့္ရဲ႕ ဘဝၾကီးကပဲ ဟာတာတာၾကီးလိုျဖစ္ေနျပီး ကိုယ့္သူငယ္ခ်င္းနဲ႕ ယွဥ္ရင္ ကိုယ္က ဘဝမွာ လူညံ့ၾကီးျဖစ္ေနတယ္လို႕ ေတြးျပီး စိတ္ဓါတ္က်လာတတ္ပါတယ္။
ဒါေပမယ့္ တစ္ကယ္ျဖစ္ေနတာ ကိုယ္ပါ အပါအဝင္ Facebook မွာ ၾကြားစရာရွိတာေတြ အဓိကထားျပီး တင္ေလ့ရွိၾကပါတယ္။ ကိုယ္က ရွံဳးနိမ့္ေနတာေတြဆိုရင္ ဘယ္တင္မလဲ။ ဒီေတာ့ ကိုယ့္ရဲ႕ သူငယ္ခ်င္းပို႕စ္ေတြကို ၾကည့္လိုက္မယ္ဆိုရင္ အေကာင္းၾကီးျဖစ္ေနေတာ့ သူတို႕ရဲ႕ အဆိုးေတြ မွန္သမွ်က Missing Data ျဖစ္သြားတာေပါ့။ ဒါေပမယ့္ အဲဒီ Missing Data က တမင္ေဖ်ာက္ထားတဲ့ Missing-not-at-Random Data ေလ။ သူတို႕ရဲ႕ ပို႕စ္ေတြၾကည့္ျပီး ကိုယ္က ဓါတ္ပ်က္ေနရင္ အလကားပဲ။ ကိုယ္သိထားဖို႕က ကိုယ့္ရဲ႕ပို႕စ္ေတြကို ၾကည့္ျပီး ကိုယ့္ရဲ႕ သူငယ္ခ်င္းကလည္း စိတ္ဓါတ္က်ေနေကာင္း က်ေနပါလိမ့္မယ္။
မူရင္းစာမူမ်ားကို ဖတ္ခ်င္ရင္ေတာ့ ေအာက္မွာ သြားဖတ္လို႕ ရပါတယ္။
http://www.npr.org/2014/01/09/261108836/many-younger-facebook-users-unfriend-the-network
http://simplystatistics.org/2014/01/17/missing-not-at-random-data-makes-some-facebook-users-feel-sad/
တကယ္ေပ်ာက္ေနတဲ့ Missing Data ကို ကၽြန္မတို႕ Missing-at-Random Data လို႕ေခၚပါတယ္။ သူကေတာ့ တစ္ကယ္ကို ရိုးရိုးသားသားေပ်ာက္ေနတဲ့ ေဒတာမ်ိဳးေပါ့။ ဥပမာ - စာေမးပြဲေမးခြန္းမွာ ေမ့ျပီး အေျဖ မေျဖလာတာမ်ိဳးေပါ့။ ဒီလိုမ်ိဳး Missing Data ဆိုရင္ ျပန္ျဖည့္ျပီး တြက္လို႕ရပါတယ္။ အဲ..... တမင္ေဖ်ာက္ထားတဲ့ Missing Data ဆိုရင္ေတာ့ ကိုယ္က ျပန္ျဖည့္ျပီးတြက္လိုက္မွ ကိုယ့္ရဲ႕ ေကာက္ခ်က္ေတြက တပ္တပ္စင္ေအာင္လြဲသြားႏိုင္ပါတယ္။ ဒီလို Missing Data မ်ိဳးကို Missing-not-at-Random Data လို႕ေခၚပါတယ္။
ဒါနဲ႕ ပတ္သက္ျပီး Facebook မွာ သူငယ္ခ်င္းေတြကို Unfriend လုပ္တတ္တာကို NPR က ေလ့လာထားတဲ့ အေၾကာင္းကို Simply Statistics Blog က Statistics ရွဳေထာင့္ကေန ဥပမာေလးေပးထားပါတယ္။
Facebook မွာက လူေတြေတာ္ေတာ္မ်ားမ်ားက ကိုယ့္သူငယ္ခ်င္းေတြတင္တဲ့ ပို႕စ္ေတြၾကည့္ရင္း စိတ္ဓါတ္က်တတ္ၾကပါတယ္။ ကိုယ့္သူငယ္ခ်င္းရဲ႕ ပို႕စ္ေတြမွာက အရမ္းကို ေပ်ာ္စရာေကာင္းေနတာေတြ၊ စိတ္လႈပ္ရွားစရာေကာင္းေနတာေတြမ်ားေနေတာ့ ကိုယ့္ရဲ႕ ဘဝၾကီးကပဲ ဟာတာတာၾကီးလိုျဖစ္ေနျပီး ကိုယ့္သူငယ္ခ်င္းနဲ႕ ယွဥ္ရင္ ကိုယ္က ဘဝမွာ လူညံ့ၾကီးျဖစ္ေနတယ္လို႕ ေတြးျပီး စိတ္ဓါတ္က်လာတတ္ပါတယ္။
ဒါေပမယ့္ တစ္ကယ္ျဖစ္ေနတာ ကိုယ္ပါ အပါအဝင္ Facebook မွာ ၾကြားစရာရွိတာေတြ အဓိကထားျပီး တင္ေလ့ရွိၾကပါတယ္။ ကိုယ္က ရွံဳးနိမ့္ေနတာေတြဆိုရင္ ဘယ္တင္မလဲ။ ဒီေတာ့ ကိုယ့္ရဲ႕ သူငယ္ခ်င္းပို႕စ္ေတြကို ၾကည့္လိုက္မယ္ဆိုရင္ အေကာင္းၾကီးျဖစ္ေနေတာ့ သူတို႕ရဲ႕ အဆိုးေတြ မွန္သမွ်က Missing Data ျဖစ္သြားတာေပါ့။ ဒါေပမယ့္ အဲဒီ Missing Data က တမင္ေဖ်ာက္ထားတဲ့ Missing-not-at-Random Data ေလ။ သူတို႕ရဲ႕ ပို႕စ္ေတြၾကည့္ျပီး ကိုယ္က ဓါတ္ပ်က္ေနရင္ အလကားပဲ။ ကိုယ္သိထားဖို႕က ကိုယ့္ရဲ႕ပို႕စ္ေတြကို ၾကည့္ျပီး ကိုယ့္ရဲ႕ သူငယ္ခ်င္းကလည္း စိတ္ဓါတ္က်ေနေကာင္း က်ေနပါလိမ့္မယ္။
မူရင္းစာမူမ်ားကို ဖတ္ခ်င္ရင္ေတာ့ ေအာက္မွာ သြားဖတ္လို႕ ရပါတယ္။
http://www.npr.org/2014/01/09/261108836/many-younger-facebook-users-unfriend-the-network
http://simplystatistics.org/2014/01/17/missing-not-at-random-data-makes-some-facebook-users-feel-sad/
Friday, January 10, 2014
Let's have a t Party
အုပ္စု ၂ ခုရွိျပီး အဲဒီ အုပ္စု ၂ ခုရဲ႕ ကြာျခားခ်က္ကို ႏႈိုင္းယွဥ္ခ်င္ရင္ t Test ကို သံုးလို႕ရပါတယ္။ အေရးၾကီးတာကေတာ့ အုပ္စုက ၂ ခုပဲရွိရမယ္။ ျပီးေတာ့ ကိုယ္ႏႈိုင္းယွဥ္ခ်င္တဲ့ ကြာျခားခ်က္က ေရတြက္လို႕ရတဲ့ ကိန္းဂဏန္းတစ္ခု ျဖစ္ရမယ္။ အဲဒါအျပင့္ အဲဒီကြာျခားခ်က္က ဒီအုပ္စုမွာ ပါဝင္တဲ့သူေတြ အားလံုးဆီကေန တိုင္းတာထားတဲ့ တန္ဖိုးတစ္ခုျဖစ္ရမယ္။ t Test ရဲ႕သေဘာတရားကေတာ့ ဒီအုပ္စု ၂ ခုရဲ႕ ပ်မ္းမွ်ေခ်တန္ဖိုးေတြက ဒီအုပ္စုေတြရဲ႕ အရြယ္အစားနဲ႕ ယွဥ္ရင္ အရမ္းကြာျခားေနသလားကို စမ္းစစ္ျခင္းျဖစ္ပါတယ္။ t Test သံုးဖို႕ အုပ္စု ၂ ခုစလံုးရဲ႕ အရြယ္အစားေတြ တူေနစရာမလိုပါဘူး။
တန္းခြဲ (က) နဲ႕ တန္းခြဲ (ခ) ၂ တန္းမွာ ဘယ္အတန္းက ေက်ာင္းသားေတြ စာပိုေတာ္သလဲဆိုတာ သိခ်င္တယ္ ဆိုပါေတာ့။ အဲဒါကို သိႏိုင္တဲ့ နည္းေတြ အမ်ားၾကီးေတာ့ ရွိတာေပါ့။ ဥပမာ - ဒီတန္းခြဲ ၂ ခုဆီကေန ထူးခၽြန္ဆုေတြ ဘယ္ႏွစ္ခုရလဲဆိုတာ တိုင္းတာႏိုင္တယ္။ ဒါေပမယ့္ ထူးခၽြန္ဆုမ်ားတိုင္းလည္း အဲဒီအတန္းက တစ္တန္းလံုးအေနနဲ႕ စာပိုေတာ္ေနတာမဟုတ္ဘူး။ ထူးခၽြန္ဆုမ်ားသလို က်တဲ့သူေတြလည္း မ်ားေနႏိုင္တာပဲ။
ေစာေစာက ေမးခြန္းကို t Test သံုးျပီး ေျဖခ်င္တယ္ဆိုလို႕ရွိရင္ေတာ့ တန္းခြဲ (က) နဲ႕ တန္းခြဲ (ခ) မွာရွိတဲ့ ေက်ာင္းသားေတြရဲ႕ အမွတ္ေတြကို သံုးျပီး တန္းခြဲတစ္ခုခ်င္းဆီရဲ႕ ပ်မ္းမွ်ရမွတ္ေတြကို ႏႈိုင္းယွဥ္ႏိုင္ပါတယ္။ အဲလိုယွဥ္ဖို႕အတြက္ တန္းခြဲ (က) နဲ႕ တန္းခြဲ (ခ) က ေက်ာင္းသားအေရအတြက္ တူစရာမလိုပါဘူး။ တူရင္ေတာ့ ေကာင္းတာေပါ့။
t Test ကေန t Test value တစ္ခုရယ္ ထံုးစံအတိုင္း p value တစ္ခု ထြက္လာပါလိမ့္မယ္။ အဲဒါေတြကို ၾကည့္ျပီး ကိုယ္ႏႈိုင္းယွဥ္ေနတဲ့ အုပ္စု ၂ ခု တူမတူကို စမ္းစစ္လို႕ရပါတယ္။
Excel မွာေတာ့ t Test လုပ္ခ်င္ရင္ Data Analysis Toolpak သံုးလို႕ရပါတယ္။ Data Analysis Toolpak အေၾကာင္းကို အရင္က ေျပာျပီးပါျပီ။ Data Analysis Toolpak ကေန ကိုယ္စစ္ခ်င္တဲ့ t Test အမ်ိဳးအစားကို ေရြးလို႕လဲ ရပါတယ္။
Subscribe to:
Posts (Atom)