Tuesday, September 9, 2014

Almost Thadingyut

It's been a while that I have written anything on this blog. There were two parts to the reason: At first, I got too busy at work during weekdays so I started writing on weekends. And then, I got chosen by one of my best friends to be her bridesmaid, which meant bridal shopping on weekends. Don't get me wrong: it's always my pleasure to accompany her. Friends or blogs? For me, it's always friends.

So it's now almost Thadingyut, which also marks the opening of nuptial season. My friend is also almost done with her wedding preparations and she is getting married in a month. Although I keep referring this wedding from the bridal side, I know both groom and bride. They have been my friends since kindergarten. They were sorta high school sweethearts although they started dating only after high school. For my friend, he was also her first love.

Then I wonder what are the chances that he is actually the best one for her given that she has never dated anyone else. (No offense, my dear friends if you happen to read this. I love you both.) You know, to be honest, I can't see how you can decide upon one person without having dated anyone else. 

There is already a well defined probability problem for my friend's case. It's known in statistics classically as a secretary problem or optimal stopping. The secretary problem is that I want to fill a single secretarial position and there are n known applicants whom will be interviewed sequentially. As soon as I am done with the interviews (or dating), the applicant is either accepted or rejected (for marriage ???) right away. When will be the best place to stop or what will I have the highest probability of selecting the best applicant?

Going back to analogy with dating and marriage: calculations are very straightforward actually. If I am happy with the first date, I will just marry him and I don't have to date the second one. Or else I have to move on with second date.

Probability of choosing the correct one at r marriage time 
 = Sum (from i = 1 to n) of P (i-th date is chosen and i-th date is the best)
 = Sum (from i = 1 to n) of P (i-th date is chosen given i-th date is the best) x P (i-th date is the best)

I will have you read the details at this wikipedia page on secretary problem. To make the long story short, you have the answer of 1/e or about 36.8%, which means that you should look for your best eligible man among the first 36.8%.

Of course, this is just a mathematical reminder to know when one should stop dating. Some people like to date forever, and I respect their choice. Also the probability of your selected one being the best partner is a whole new problem with a lot of variables in it. I am sure OkCupid has found out an answer already. 

So my friend, you are very lucky, you didn't have to look far to get the right one. He is there with you since the start. I sincerely wish you all the best.











Wednesday, April 2, 2014

Sample Ample




tckwavm jrefrmEdkifiHrSm t&rf;acwfpm;wmu qmaA; (Survey) aumufwmyg/ awGUwdkif;olwdkif;ar;vdkuf&if qmaA; (Survey) aumufwJholawGcsnf;yJ/ tvkyfwpfckckvkyfjyDqdk&if 'Dtvkyf b,favmufatmifjrifaMumif;? vlb,fESpfa,mufrSmjzifh tusdK;&SdaMumif; ponfjzifhaygh/ tJ...'DrSm awmfawmfrsm;rsm; qmaA;aumufwJholawGawmfawmfrsm;rsm;rSm txifrSm;aewmav;wpfckudk oGm;awGUrdygw,f/ b,frSmvJqdkawmh udk,fqmaA;aumufr,fh vlOD;a& (Sample Size) ,lwJhae&mrSmyg/

trsm;u b,fvdkxifaevJqdkawmh udk,foGm;ar;r,fh vlOD;a&rsm;av? aumif;av vdkUxifMuw,f/ 'ghtjyif oGm;ar;r,fh vlOD;a&u rlvpkpkaygif;vlOD;a& (Total Population) &JU tenf;qHk; 5% wdkU 10% wdkU &Sd&r,f qdkwmu ygao;w,f/ 'grS Statistics t& wdusr,fayghav/

tJ'gu awmfawmfav;udk rSm;aewJh t,ljzpfygw,f/ vlOD;a&rsm;av? aumif;avqdkwmudkawmh tMurf;zsif; vufcHygw,f/ 'gayr,fh udk,fhavhvmr,fh taMumif;t&mtay:rlwnfjyD; vlOD;a&ta&twGufwpfckcka&mufoGm;jyD;&if aemufxyfvlOD;a&xyfwdk;vnf; udk,fhtwGuf bmrSxyfjyD; tusdK;r&Sdawmhygbl;/ oGm;ar;r,fh vlOD;a&ydkrsm;wJhtwGufom ydkufqHydkukefomwm &Sdygvdrfhr,f/


'Dawmh udk,fhtwGuf taumif;qHk;oGm;ar;oifhwJh vlOD;a& ta&twGufu b,favmufvJ/ 
aocsmwmuawmh trsm;u ajymaewJh 5% wdkU 10% wdkU r[kwfwmawmh trSefyJ/ tvG,fulqHk; Oyrmay;vdkufr,f/ tck 2015 a&G;aumufyGJtwGuf MudKyGdKifhwGufcsif&if jrefrmEdkifiHvlOD;a&oef; 60 &JU 10% jzpfwJh vlOD;a& 6 oef;udkom oGm;ar;&&if wu,fhudk rvG,faMumyJ/

tckvkyfaewJh qmaA;awmfawmfrsm;rsm;u rlvu vlOD;a& (Total Population) &JU b,ftcsdK; (Proportion) u b,fvdkrsdK;vJudk odcsifMuwmrsm;ygw,f/ Oyrm jrefrmEdkifiH&JU udk,f0efaqmiftrsdK;orD;OD;a&b,favmuf&mcdkifEIef;u om;zGm;q&mrawGeJU eD;uyfqufqHrI&SdovJ/ 2015 rSm a':pkudk b,favmuf&mcdkifEIef;u rJay;rvJaygh/ uav;b,favmuf&mcdkifEIef;u tpm00vifvifpm;&ovJ/ vlOD;a&b,favmufu pmwwfvJ/

'Dvdk Proportion udk odcsifwJhtcgrSm &SdwwfwJh 'D Proportion awG&JU jzefUusufrI (Distribution) u Binomial Distribution jzpfygw,f/ ESpfckxJu wpfckudk a&G;&wJhjzefUusufrIwdkif;u Binomial Distribution jzpfygw,f/ apmapmu OyrmrSm jrefrmEdkifiH&JU udk,f0efaqmiftrsdK;orD;wpfa,mufu om;zGm;q&mrawGeJU eD;uyfqufqHrI&Sd&if&Sdw,f? r&Sd&if r&Sdbl;/ a':pkudk rJay;&ifay;? ray;&if ray;bl;/ ESpfrsdK;xJu wpfrsdK;yJ vkyfydkifcGifh&Sdw,f/ ESpfrsdK;pvHk;rjzpfEdkifbl;/

'D Binomial Distribution &SdwJh vlOD;a&rsdK;twGuf Sample Size a&G;vdkU&Sd&if pOf;pm;&r,fh tcsuf 3 csufyJ&Sdygw,f/
1/ rdrdcefUrSef;xm;onfh &mcdkifEIef; (Estimated Proportion)
2/ vGJacsmfcGifh (Margin of Error)
3/ ,HkMunfrItwdkif;twm (Confidence Level)
wpfckrS apmapmuajymwJh rlvvlOD;a&&JU b,f&mcdkifEIef;qdkwm r[kwfbl;/

1/ rdrdcefUrSef;xm;onfh &mcdkifEIef; (Estimated Proportion)
udk,fu bmudkyJ avhvm avhvm? udk,favhvmaewJh taMumif;t&meJU ywfoufjyD; aemufcHokawoe (Background Research) rvkyfvdkUr&ygbl;/ t&ifu wpfjcm;olawG avhvmxm;wmawG&Sdw,f/ 'gawGoHk;jyD; tckudk,fvkyf&ifawmh tajzu bmav;jzpfEdkifw,fqdkjyD; MudKwifcefUrSef;&ygw,f/ Educated Guess aygh/ olrsm;vkyfxm;jyD;om;r&Sd&ifawmif wu,hfokawoeMuD;rvkyfcif tMudKokawoeav; (Pilot Study) t&ifvkyf&ygw,f/ udk,fhrSm bmMudKwifxifjrifcsuf (Hypothesis) rS r&SdbJ okawoeoGm;vkyf&if 'g[mppfrSefwJh okawoer[kwfygbl;/

Oyrm uRefru jrefrmEdkifiH&JU vlOD;a&b,favmufu pmwwfvJ avhvmcsifw,fqdkygawmh/ UN u t&ifu  jrefrmEdkifiH&JU vlOD;a& 93% u pmwwfw,fvdkU ajymxm;w,f/ tck bkef;awmfMuD;oifausmif;awG ydkrsm;vmjyD;qdkawmh 95% avmufawmh pmwwfvdrfhr,fvdkU uRefru xifw,f/

2/ vGJacsmfcGifh (Margin of Error)
'guawmh apmapmu uRefrxifxm;wmuae b,favmufvGJcGifh&SdvJqdkwmyg/ uRefru t&rf;wduscsif&if 1% vdkUajymvdkU&w,f/ 'grSr[kwf 3% ajymvdkUvJ&w,f/ 10% vdkUvJajymvdkU&w,f/ aq;ynmrSm 'Duifqmaq;wpfckckaomufvdkuf&if vlemaysmufoGm;rvm;? aooGm;rvm; odcsif&ifawmh 0.001% avmuftxd t&rf;wduszdkUvdkygw,f/ udk,favhvmwJh taMumif;t&mrSmyJ rlwnfygw,f/

'Dawmh tck 3% vdkUyJ ,lvdkuf&atmif/ 'Dawmh uRefrxifwJh&mcdkifEIef;u 92% uae 98% txd jzpfEdkifw,f/ uRefrtwGufuawmh pmwwfwJh &mcdkifEIef;u 95% uGufwdjzpfaezdkUrS rvdkwm/

3/ ,HkMunfrItwdkif;twm (Confidence Level)
'guawmh uRefr&JU okawoejyD;oGm;&if uRefr&vmr,fh tajzay:rSm b,favmuf,HkMunfrI&SdovJqdkwm jzpfygw,f/ 'gudk Significance vdkUvJ vlodrsm;Muygw,f/ awmfawmfrsm;rsm;uawmh Confidence Level udk 95% ,lMuygw,f/ tJ'gbmudkqdkvdkwmvJqdkawmh uRefrvkyfcJhwJh okawoetwdkif; \onfra&G; aemufxyf tacguf 100 xyfvkyfMunfh/ 95 acgufrSm &vmwJh tajzu apmapmu uRefr&wJh tajz eJU vGJacsmfcGifh 3% twGif; jyef&vdrfhr,fudk qdkvdkygw,f/ 'DrSm apmapmuvdkyJ udk,favhvmwmeJUyJ qdkifygw,f/ tjrJwrf; 'DtajzyJ xGufapcsifae&ifawmh Confidence Level udkh 99% wdkUavmuftxd,l&rSmaygh/ odyfrvdk&ifawmh 90% avmufvJ jzpfygw,f/

tckawmh trsm;,lwJhtwdkif; 95% vdkYyJ ,l&atmif/ 'D 95% Confidence Level udk z-score tjzpfajymif;vdkuf&if 1.96 &ygw,f/

'D 3 ck&&if usefwmu azmfjrLvmxJ xnfhvdkuf&HkygyJ/ Binomial Distribution &SdwJh vlOD;a&rsdK;twGuf Sample Size a&G;zdkU azmfjrLvmu


'DazmfjrLvmoHk;jyD; wGufvdkuf&if uRefravhvmcsifwJh jrefrmEdkifiHvlOD;a& b,favmufpmwwfvJ okawoetwGuf vl 203 a,mufom vdkygw,f/ 'Dta,muf 203 a,muf u jrefrmEdkifiHvlOD;a&eJU ,SOfvdkuf&if awmfawmfhudk enf;aewmyg/ apmapmuvdkqdk&if jrefrmEdkifiH vlOD;a&&JU 10% jzpfwJh ta,muf 6 oef;udk vdkufar;zdkU rvdkygbl;/

wpfck&Sdwmu uRefru 'DrSm t"duokawoe ar;cGef;wpfckxJtwGufudkyJ tajccHjyD;wGufxm;wmyg/ wpfjcm;ar;cGef;awGyg tqpfygr,fqdk&ifawmh azmfjrLvmu enf;enf;ajymif;oGm;ygr,f/ ar;cGef;rsm;vmavav? ar;oifhwJh vlOD;a&vJydkrsm;vmEdkifavaygh/ aocsmwmuawmh 6 oef;txdra&mufbl;/

Monday, January 27, 2014

Confounding Marathon

ကၽြန္မ ျပီးခဲ့တဲ့ အပတ္တုန္းက Yoma Yangon International Marathon မွာ 21 km အတြက္ ဝင္ျပိဳင္ျဖစ္ပါတယ္။ ပန္းဝင္ဖို႕ စုစုေပါင္း ၃ နာရီ ၁၀ မိနစ္ၾကာတယ္။ မိန္းကေလးအုပ္စုမွာေတာ့ နံပါတ္ ၁၁၈ ခ်ိတ္တယ္။ မဆိုးဘူးလို႕ ေျပာလို႕ရတာေပါ့။


အေျပးျပိဳင္ပြဲဝင္ျပီးေတာ့မွ ဖတ္ဖူးခဲ့တဲ့ မာရသြန္နဲ႕ ပတ္သတ္တဲ့ ေဒတာ အတြက္အခ်က္ အလြဲေလးတစ္ခု အေၾကာင္းကို ျပန္သတိရသြားပါတယ္။ အဲဒီမာရသြန္က ႏိုင္ငံတကာ အေျပးသမားမ်ားအၾကားမွာ နာမည္အရမ္းၾကီးတဲ့ Boston Marathon က အေၾကာင္းေလးျဖစ္ပါတယ္။ ကၽြန္မက အရင္က Boston မွာလဲ ေနဖူးေတာ့ သူငယ္ခ်င္းေတြ Boston Marathon ဝင္ျပိဳင္ရင္ သြားအားေပးေနက်ေပါ့။


တစ္ခါတုန္းက သုေတသီတစ္ေယာက္က Boston Marathon က အေျပးသမားေတြရဲ႕ အခ်ိန္ေတြကို ၾကည့္ျပီး ေယာက်္ားနဲ႕မိန္းမ ေျပးတဲ့အခ်ိန္ ပ်မ္းမွ်ေခ် ဘယ္ေလာက္ကြာျခားလဲဆိုတာ သိခ်င္တယ္။ ကၽြန္မတို႕ ပံုမွန္ဆိုလို႕ရွိရင္ ေယာက်္ားနဲ႕ မိန္းမ ခြန္အားကြာတဲ့အတြက္ ေယာက်္ားေျပးတာကေတာ့ ပိုျမန္တယ္ဆိုတာ သိေနတာပဲ။ ဒါေပမယ့္ ဒီ Dataset ကေနက်ေတာ့ မိန္းမေတြက ေျပးတာ ပိုျမန္ေနတယ္ဆိုျပီး ထြက္လာတယ္။


ဒီေတာ့ အဲဒီ သုေတသီလည္း ပ်ာသြားတာေပါ့။ ဘာမ်ားမွားေနလဲ၊ ဘာညာ လိုက္ရွာတာေပါ့။


ျဖစ္ခ်င္ေတာ့ သူ ေလ့လာေနတဲ့အခ်ိန္တုန္းက မာရသြန္ဆိုတာ ေယာက်္ားေတြပဲ ဝင္ျပိဳင္တာမ်ားတယ္။ အအိုေတြေရာ အပ်ိဳေတြေရာေပါ့။ ဒါေပမယ့္ မိန္းမေတြမွာ ငယ္ငယ္ရြယ္ရြယ္ မိန္းမေလးေတြပဲ ဝင္ျပိဳင္တာမ်ားတယ္။ က်န္းမာႏုပ်ိဳေနတဲ့ မိန္းကေလးေတြ ေျပးတာက အိုမင္းရြတ္တ်ေနတဲ့ အဖိုးၾကီးေတြထက္ အဆေပါင္းမ်ားစြာ ျမန္ေနေတာ့ က်ားမအလိုက္ ပ်မ္းမွ်ေခ်ရွာလိုက္ရင္ မိန္းကေလးေတြက ပိုျမန္ေနသလိုျဖစ္သြားပါတယ္။


အဂၤလိပ္စာမွာ ကိုယ့္ရဲ႕စိတ္ေတြ အေတြးေတြကို ရွဳပ္သြားေစတာကို Confound ျဖစ္တယ္လို႕ ေျပာပါတယ္။ ဒီေတာ့ Confounder ဆိုတာ ကိုယ့္ရဲ႕အေတြးေတြကို ရွဳပ္သြားေစတဲ့အရာေပါ့။ ဒီ Confounder က Statistics မွာ အရမ္းအေရးၾကီးပါတယ္။ Confounder ရွိေနရင္ ကိုယ့္ရဲ႕တြက္ခ်က္မႈက ေျပာင္းျပန္ျဖစ္သြားႏိုင္ပါတယ္။


မာရသြန္ဥပမာမွာက ကိုယ္တကယ္ေလ့လာခ်င္တာ က်ားမလိင္အလိုက္ ေျပးႏႈန္းျဖစ္ေပမယ့္ အသက္ကြာျခားခ်က္က ကိုယ့္ရဲ႕တြက္ခ်က္မႈကို ဝင္ရွဳပ္သြားပါေစတယ္။ ဒီေတာ့ ေျပးတဲ့က်ားမအလိုက္ အသက္ကြာျခားခ်က္က Confounder ျဖစ္သြားပါတယ္။ Confounder ျပႆနာမရွိခ်င္ရင္ အသက္အရြယ္အတူတူမွာ က်ားမ ေျပးတာ ဘယ္လိုကြာသလဲ ေလ့လာရမွာ ျဖစ္ပါတယ္။


ကၽြန္မျပိဳင္တဲ့ ရိုးမမာရသြန္မွာကေတာ့ ေယာက်္ားသပ္သပ္ မိန္းမသပ္သပ္ စာရင္းလုပ္လုိက္ေတာ့ ေတာ္ပါေသးရဲ႕။ ႏို႕မို႕ဆိုရင္ ကၽြန္မရဲ႕ ပန္းဝင္တဲ့ နံပါတ္က ၄၀၀ ေက်ာ္သြားမယ္။


Wednesday, January 22, 2014

Missing yet not missing

Missing Data ဆိုတာ Statistics မွာ အလြန္အေရးၾကီးပါတယ္။ အခ်ိဳ႕ေဒတာေတြက မရွိတာေတြ၊ မရႏိုင္တာေတြေၾကာင့္ ကိုယ္ေကာက္ခ်က္ခ်လိုက္တဲ့ အေျဖေတြက လြဲေခ်ာ္သြားႏိုင္ပါတယ္။ ဒီေတာ့ Missing Data ေတြ မရွိေအာင္ ဘယ္လိုလုပ္မလဲ၊ ရွိရင္လည္း ဘယ္လိုျပန္ျဖည့္တြက္ရမလဲ ဆိုတာေတြက Statistics မွာ အေရးၾကီးတဲ့ Topic ေတြ ျဖစ္ပါတယ္။ ဒါေပမယ့္ Missing Data ဆိုတာက တစ္ခါတစ္ေလက်ေတာ့ ေဒတာက တစ္ကယ္ကို ေပ်ာက္ေနတာ ျဖစ္ျပီး တစ္ခါတစ္ေလက်ေတာ့ တမင္ ေဖ်ာက္ထားတာ ျဖစ္ေနႏိုင္ပါတယ္။ ဒီေတာ့ ၾကည့္တဲ့သူေတြက ေဒတာ ေပ်ာက္ေနတာလား ၊ေဖ်ာက္ထားတာလားဆိုတာ ခြဲျခားသိဖို႕လိုပါတယ္။

တကယ္ေပ်ာက္ေနတဲ့ Missing Data ကို ကၽြန္မတို႕ Missing-at-Random Data လို႕ေခၚပါတယ္။ သူကေတာ့ တစ္ကယ္ကို ရိုးရိုးသားသားေပ်ာက္ေနတဲ့ ေဒတာမ်ိဳးေပါ့။ ဥပမာ - စာေမးပြဲေမးခြန္းမွာ ေမ့ျပီး အေျဖ မေျဖလာတာမ်ိဳးေပါ့။ ဒီလိုမ်ိဳး Missing Data ဆိုရင္ ျပန္ျဖည့္ျပီး တြက္လို႕ရပါတယ္။ အဲ..... တမင္ေဖ်ာက္ထားတဲ့ Missing Data ဆိုရင္ေတာ့ ကိုယ္က ျပန္ျဖည့္ျပီးတြက္လိုက္မွ ကိုယ့္ရဲ႕ ေကာက္ခ်က္ေတြက တပ္တပ္စင္ေအာင္လြဲသြားႏိုင္ပါတယ္။ ဒီလို Missing Data မ်ိဳးကို Missing-not-at-Random Data လို႕ေခၚပါတယ္။

ဒါနဲ႕ ပတ္သက္ျပီး Facebook မွာ သူငယ္ခ်င္းေတြကို Unfriend လုပ္တတ္တာကို NPR က ေလ့လာထားတဲ့ အေၾကာင္းကို Simply Statistics Blog က Statistics ရွဳေထာင့္ကေန ဥပမာေလးေပးထားပါတယ္။ 

Facebook မွာက လူေတြေတာ္ေတာ္မ်ားမ်ားက ကိုယ့္သူငယ္ခ်င္းေတြတင္တဲ့ ပို႕စ္ေတြၾကည့္ရင္း စိတ္ဓါတ္က်တတ္ၾကပါတယ္။ ကိုယ့္သူငယ္ခ်င္းရဲ႕ ပို႕စ္ေတြမွာက အရမ္းကို ေပ်ာ္စရာေကာင္းေနတာေတြ၊ စိတ္လႈပ္ရွားစရာေကာင္းေနတာေတြမ်ားေနေတာ့ ကိုယ့္ရဲ႕ ဘဝၾကီးကပဲ ဟာတာတာၾကီးလိုျဖစ္ေနျပီး ကိုယ့္သူငယ္ခ်င္းနဲ႕ ယွဥ္ရင္ ကိုယ္က ဘဝမွာ လူညံ့ၾကီးျဖစ္ေနတယ္လို႕ ေတြးျပီး စိတ္ဓါတ္က်လာတတ္ပါတယ္။

ဒါေပမယ့္ တစ္ကယ္ျဖစ္ေနတာ ကိုယ္ပါ အပါအဝင္ Facebook မွာ ၾကြားစရာရွိတာေတြ အဓိကထားျပီး တင္ေလ့ရွိၾကပါတယ္။ ကိုယ္က ရွံဳးနိမ့္ေနတာေတြဆိုရင္ ဘယ္တင္မလဲ။ ဒီေတာ့ ကိုယ့္ရဲ႕ သူငယ္ခ်င္းပို႕စ္ေတြကို ၾကည့္လိုက္မယ္ဆိုရင္ အေကာင္းၾကီးျဖစ္ေနေတာ့ သူတို႕ရဲ႕ အဆိုးေတြ မွန္သမွ်က Missing Data ျဖစ္သြားတာေပါ့။ ဒါေပမယ့္ အဲဒီ Missing Data က တမင္ေဖ်ာက္ထားတဲ့ Missing-not-at-Random Data ေလ။ သူတို႕ရဲ႕ ပို႕စ္ေတြၾကည့္ျပီး ကိုယ္က ဓါတ္ပ်က္ေနရင္ အလကားပဲ။ ကိုယ္သိထားဖို႕က ကိုယ့္ရဲ႕ပို႕စ္ေတြကို ၾကည့္ျပီး ကိုယ့္ရဲ႕ သူငယ္ခ်င္းကလည္း စိတ္ဓါတ္က်ေနေကာင္း က်ေနပါလိမ့္မယ္။


မူရင္းစာမူမ်ားကို ဖတ္ခ်င္ရင္ေတာ့ ေအာက္မွာ သြားဖတ္လို႕ ရပါတယ္။

http://www.npr.org/2014/01/09/261108836/many-younger-facebook-users-unfriend-the-network
http://simplystatistics.org/2014/01/17/missing-not-at-random-data-makes-some-facebook-users-feel-sad/