คณิตศาสตร์ของ "หวย"
"หวย" น่าจะเรียกได้ว่าเป็น "กิจกรรมประจำชาติ" ของไทยอย่างหนึ่งที่เรามาร่วมกันโอดครวญกันเป็นประจำกับการถูกหวยแ-ก หวยไม่เพียงแต่เป็น national pastime ประจำชาติเพียงเท่านั้น แต่ยังมีอิทธิพลเป็นอย่างมากต่อวัฒนธรรม ศาสนา และความเชื่อของเรา และเนื่องจากนี่เป็นเพจวิทยาศาสตร์จึงไม่สามารถปฏิเสธได้ว่าหวยนั้นมีส่วนที่เหนี่ยวรั้งความพัฒนาสู่ scientific literacy ในประเทศเราไม่มากก็น้อย ดั่งที่เราทุกคนน่าจะคุ้นเคยกันดีกับลูกหมูพิการ ต้นกล้วยงอกกลางต้น รวมไปถึงท่อน้ำทิ้งจากส้วมที่แตกและผุดขึ้นมาบนดิน ที่แทบทุกเหตุการณ์ ทุกอุบัติเหตุ ทุกข่าว ทุกปรากฏการณ์ที่เกิดขึ้นในบ้านเมืองนี้จะถูกตีความไปเป็น "ตัวเลข" เสียทั้งหมด
ในวันนี้เราจะมาลองดู "หวย" จากในแง่มุมของคณิตศาสตร์กันดูบ้าง โดยเฉพาะในเรื่องของรางวัล "เลขท้ายสองตัว"
รางวัลเลขท้ายสองตัวนั้นมีความเป็นไปได้ทั้งหมดอยู่ด้วยกัน 100 แบบ โอกาสที่จะถูก จึงมีเพียงแค่หนึ่งในร้อย (ในขณะที่โอกาสที่จะถูกแดกกลับมีถึง 99%) ทั้งนี้ทั้งนั้น นี่มาจากสมมติฐานว่าหวยทุกเลขนั้นมีโอกาสออกเท่ากันหมด ว่าแต่ว่าสมมติฐานนี้เป็นจริงหรือไม่?
จากกราฟบนในภาพ แสดงถึงการกระจายตัวของหวยเลขท้ายสองตัวตลอด 20 ปีที่ผ่านมา[1] ทั้ง "ตัวบน" และ "ตัวล่าง" รวมกันทั้งสิ้น 477 งวด จากการดูคร่าวๆ เราจะพบว่ารางวัลนั้นมีการกระจายตัวที่ค่อนข้างสม่ำเสมอ ไม่มีตัวเลขใดที่เด่นกว่าอย่างเห็นได้ชัดอาจจะมีบางตัวเลขที่ออกเยอะกว่าเลขอื่นบ้างเล็กน้อย แต่ก็ดูเหมือนจะไม่ได้มากจนเกินไป
ในทางสถิตินั้น หากเราต้องการจะทราบว่าข้อมูลชุดหนึ่งมีการกระจายตัวที่สอดคล้องกับการกระจายตัวอย่างสม่ำเสมอ (uniform distribution) หรือไม่ เราสามารถทำได้โดยการคำนวณค่า Pearson's chi-squared test ซึ่งหากเรานำข้อมูลรางวัลเลขท้ายสองตัวตลอด 20 ปีนี้มาคำนวณดู เราจะพบว่า ข้อมูลที่ได้นั้น มีค่า chi-squared อยู่ต่ำกว่า Upper-tail critical values of chi-square distribution ทั้งที่ 95% และ 99% confidence interval สำหรับทั้งตัวบนและตัวล่าง นี่หมายความว่า เราไม่สามารถ reject null hypothesis ได้ และไม่มีหลักฐานเพียงพอที่จะยืนยันว่าข้อมูลชุดนี้มีการกระจายตัวที่ต่างออกไปจาก uniform distribution ด้วยความมั่นใจกว่า 99%
ทั้งนี้ทั้งนั้น นี่ไม่ได้เป็นการยืนยันหรือปฏิเสธว่าหวยมีการล๊อคหรือไม่ เราบอกได้เพียงแค่ว่า เลขที่ออกนั้นมีการกระจายตัวที่ค่อนข้าง uniform และมีโอกาสลงทุกเลขอย่างใกล้เคียงกัน อยู่ที่ว่าเราจะเลือกเลขที่ถูกหรือเปล่า
วิธีหนึ่งที่เราอาจจะเลือกเลขที่จะแทง "หวย" ก็คือการ "สุ่ม" ด้วยตัวเราเองโดยการนึกเลขมั่วๆ ขึ้นมาหนึ่งตัวเลข อย่างไรก็ตาม วิธีนี้นั้นมีปัญหาเป็นอย่างมาก เนื่องจากมีการศึกษามายืนยันเป็นอย่างมาก ว่าสมองของมนุษย์นั้นทำการสุ่มตัวเลขได้ค่อนข้างแย่ และตัวเลขที่เรา "สุ่ม" ขึ้นมาจากหัวนั้น ไม่สามารถเป็นเลขที่เกิดจากการ "สุ่ม" ได้อย่างแท้จริง
กราฟล่างซ้ายของภาพ เป็นกราฟที่ได้มาจาก reddit ที่เก็บข้อมูลที่ผู้เข้าร่วมมา "สุ่ม" ตัวเลขลงบนโซเชียลมีเดียกว่า 6750 ครั้ง จากกราฟเราจะพบว่ากราฟนี้ไม่ได้มีการกระจายตัวที่สม่ำเสมอทุกตัวเลขเท่ากัน ตัวเลขที่ได้รับการ "สุ่ม" มากที่สุดนั้นได้แก่เลข "69" (ด้วยเหตุผลบางประการ) "77" และ "7" ตามลำดับ ซึ่งมากกว่าตัวเลขอื่นอย่างเห็นได้ชัด นอกไปจากนี้ ตัวเลขระหว่าง 1-10 ถูกเลือกมากกว่าตัวเลขอื่นอย่างมีนัยะสำคัญ ซึ่งนี่สอดคล้องกับการศึกษาทางจิตวิทยา และอีกการเก็บข้อมูลหนึ่งที่พบว่าเลข 7 จะถูกเลือกบ่อยที่สุดถึงกว่า 28% เมื่อเราให้คน "สุ่ม" เลขระหว่าง 1-10 ขึ้นมากว่า 8500 ครั้ง[5] เนื่องจากสมองของเรานั้นมีความรู้สึกว่าเลข "7" นั้นควรจะเป็นเลขที่ "สุ่ม" ที่สุด เราจึงเลือกกันแต่เลข 7 จนกลายเป็นเลขที่ไม่สุ่มอีกต่อไป
ซึ่งหากเรานำ Pearson chi-square test มาทดสอบกับข้อมูลชุดนี้ เราจะพบว่าค่า chi-square ที่ได้นั้นเกิน Upper-tail critical values of chi-square distribution ที่ระดับความเชื่อมั่น 90% ไปอย่างไม่เห็นฝุ่น ซึ่งเป็นการแสดงให้เห็นว่าเลขท้ายสองตัวที่ได้จากสมองมนุษย์นั้น ไม่ได้มีการกระจายตัวอย่างสม่ำเสมอเหมือนอย่างที่หวยออกมาจริงๆ
แล้วการที่สมองมนุษย์ไม่สามารถ random เลขออกมาได้อย่างสม่ำเสมอนั้นมันสำคัญตรงไหน? เมื่อสมองมนุษย์ไม่สามารถ generate distribution แบบเดียวกันกับหวยได้ ก็ย่อมหมายความว่าต่อให้คนที่เชื่อว่ามี "สัญชาติญาณ" ดีที่สุดในการ "เดา" หวย ก็เป็นไปไม่ได้ที่จะถูกหวยอย่างต่อเนื่อง เพราะว่าเราไม่มีทางที่จะเดาหวยได้ถูกอย่างต่อเนื่องอย่างสม่ำเสมอ ในเมื่อหวยนั้นออกทุกเลขอย่างสม่ำเสมอ แต่สมองของเรานั้นไม่สามารถสม่ำเสมอได้
ซึ่งนี่นำไปสู่กลวิธีทุดท้ายที่เรามักจะนำมาเป็น "แรงบรรดาลใจ" ในการแทงหวย นั่นก็คือ การมองหาตัวเลขรอบๆ ข้างที่ไม่เกี่ยวกับตัวเราเอง ไม่ว่าจะเป็นจำนวนผู้เสียชีวิต ลำดับประธานาธิปดี เวลาท้องถิ่นขณะที่นายกทุ่มโพเดี้ยม ฯลฯ
อย่างไรก็ตาม วิธีนี้ก็มีปัญหาอีกเช่นกัน.... โดยเจ้าปัญหาที่ว่านี้ รู้จักกันในนามของ Benford's Law[6]
Benford's Law นั้นถูกค้นพบโดยบังเอิญโดย Simon Newcomb ในปี 1881 และอีกครั้งโดย Frank Benford ในปี 1938 โดยในยุคก่อนที่จะมีเครื่องคิดเลขของพวกเขานั้น การหาค่า Logarithm ทำได้โดยการเปิดสมุดเล่มหนาๆ เพื่อหาค่าจากในตาราง โดยนายทั้งสองคนนี้พบว่าหน้าแรกๆ ของสมุด logarithm table ของพวกเขานั้นเปื่อยเร็วกว่าหน้าหลังๆ เป็นอย่างมาก นาย Benford จึงตั้งสมมติฐานว่า ตัวเลขหลักหน้าของค่าที่พบในธรรมชาตินั้นอาจจะมีการกระจายตัวที่ไม่สม่ำเสมอกัน โดยที่ตัวเลขน้อยๆ ควรจะมีการพบได้บ่อยกว่า ตามกราฟแท่งสีน้ำเงินที่ด้านล่างขวาของภาพ และเขาได้ทดสอบกับตัวเลขในธรรมชาติที่ไม่ควรจะมีความเกี่ยวข้องกัน ตั้งแต่ พื้นที่ผิวของแม่น้ำ 335 สาย, ประชากรของเมืองในสหรัฐ 3259 เมือง, ค่าคงที่สากลทางฟิสิกส์กว่า 104 ค่า มวลโมเลกุลกว่า 1800 โมเลกุล, ตัวเลขที่ได้จากคู่มือคณิตศาสตร์กว่า 5000 ตัวเลข, ตัวเลขที่พบในนิตยสาร Reader's Digest กว่า 308 เลข, บ้านเลขที่ของคนกว่า 342 คนที่พบใน American Men of Science และอัตราการเสียชีวิตกว่า 418 อัตรา รวมทั้งหมดนาย Benford ได้นำตัวเลขที่ได้มาแบบสุ่มกว่า 20,229 เลข และพบว่าเลขเหล่านั้นมีตัวเลขหลักหน้ากระจายตัวตาม Benford's Law
กราฟด้านล่างขวา แสดงถึง Benford's Law เทียบกับการกระจายตัวของตัวเลขหลักหน้าของค่าคงที่ทางฟิสิกส์ ซึ่งจะเห็นได้ว่ามีการกระจายตัวสอดคล้องกับ Benford's Law เป็นอย่างมาก นอกไปจากนี้ Benford's Law ยังใช้ได้อยู่ ไม่ว่าเราจะแปลงค่าต่างๆ ที่พบไปเป็นเลขฐานใดๆ หรือหน่วยใดๆ ก็ตาม ตัวอย่างเช่น Benford's Law ทำนายเอาไว้ว่า ตัวเลขกว่า 30.1% จะขึ้นต้นด้วยเลข 1 ซึ่งหากเรานำความสูงของตึกที่สูงที่สุดในโลก 58 ตึก เราจะพบว่าตึกกว่า 41% นั้นมีความสูงในหน่วยเมตรขึ้นต้นด้วยเลข 1 และแม้ว่าเราจะเปลี่ยนหน่วยเป็นหน่วยฟุต เราก็ยังจะพบว่าตึกกว่า 28% นั้นมีความสูงในหน่วยฟุตขึ้นต้นด้วยเลข 1 ซึ่งมากกว่าเลขอื่นใดๆ
แล้วเพราะเหตุใดเราจึงไม่พบเลขในธรรมชาติในจำนวนที่เท่าๆ กันทุกเลข? คำอธิบายที่ง่ายที่สุดก็คงจะเป็นเพราะว่า สิ่งต่างๆ หลายสิ่งในธรรมชาตินั้นมีความสัมพันธ์เชิง logarithm ซึ่งหากเราแปลงเลขในฐานสิบให้อยู่ในสเกลของ logarithm เราจะได้เส้นจำนวนดังภาพล่างขวาในภาพ จากเส้นจำนวนนี้ เราจะพบว่าหากเราจิ้มตำแหน่งโดยสุ่มบนเส้นจำนวนนี้ โอกาสส่วนมากที่สุดนั้นจะตกอยู่ในเลขที่มีหลักนำหน้าเป็น 1 ตามด้วย 2,3,4 ลดหลั่นลงไป ตาม Benford's Law
Benford's Law นี้มีประโยชน์เป็นอย่างยิ่ง ในการตรวจจับการโกง เนื่องจากสมองของมนุษย์นั้นมีความคาดหวังที่จะให้ทุกตัวเลขตกลงเท่าๆ กัน ตัวเลขที่ได้จากการเมคข้อมูลของคนจึงไม่เป็นไปตาม Benford's Law ซึ่งสามารถใช้เป็นหลักฐานบ่งบอกว่ามีอะไรบางอย่างตุกติกเกิดขึ้นในข้อมูล
ตัวอย่างที่ชัดเจนที่สุดตัวอย่างหนึ่งก็คือ ข้อมูลของจำนวนผู้ติดเชื้อ COVID-19 เนื่องจากการติดเชื้อนั้นมีการแพร่กระจายตัวแบบ exponential ตัวเลขจำนวนผู้ติดเชื้อนั้นจึงควรจะเป็นไปตาม Benford's Law ทีมนักวิจัยจึงได้มีการนำตัวเลขจำนวนผู้ติดเชื้อที่รายงานในแต่ละประเทศมาเปรียบเทียบกับ Benford's Law[7] และพบว่าข้อมูลจากประเทศรัสเซียและอิหร่านนั้นไม่เป็นไปตาม Benford's Law ในขณะที่จำนวนผู้ติดเชื้อจาก สหรัฐ บราซิล อินเดีย เปรู อาฟริกาใต้ โคลอมเบีย เม็กซิโก สเปน อาร์เจนตินา ชิลี อังกฤษ ฝรั่งเศส ซาอุ จีน ฟิลิปปินส์ เบลเยี่ยม ปากีสถาน และอิตาลี เป็นไปตาม Benford's Law ไม่ผิดเพี้ยน
ทั้งหมดนี้ก็วกกลับมาที่ปัญหาหลักของการนำค่าที่พบในธรรมชาติมาทำนายหวย: ค่าที่พบในธรรมชาตินั้นไม่ได้มีการกระจายตัวอย่างสม่ำเสมอ แต่หวยนั้นกระจายตัวอย่างสม่ำเสมอ (ซึ่งยังไม่นับกรณีเช่นเอาวันที่ซึ่งไม่มีทางเกิน 31 มาแทง) ตัวเลขที่เราพบในธรรมชาตินั้นจึงเปรียบได้กับลูกเต๋าที่ถูกถ่วงน้ำหนักเอาไว้ให้ได้ค่าต่ำๆ คำถามก็คือ ลูกเต๋าที่ถ่วงน้ำหนักเอาไว้นั้น จะเป็นตัวแทนที่จะทำนายผลของลูกเต๋าที่มาตรฐานได้แม่นจำจริงหรือ?
ทั้งนี้ทั้งนั้น การเล่นหวยหรือไม่เป็นเรื่องของแต่ละบุคคล และถึงแม้ว่าส่วนตัวในฐานะนักวิทยาศาสตร์นั้นจะไม่เห็นด้วยกับเรื่องงมงาย แต่การลงทุนหวยเพียงไม่กี่ร้อย และกับเสี้ยวเวลาเล็กๆ ที่จะได้ลุ้นถึงอนาคตที่ดีขึ้น บางทีก็อาจจะเป็นการลงทุนที่คุ้มค่าสำหรับคนหลายๆ คนก็ได้
หมายเหตุ: บทความนี้เราไม่ได้พูดถึง "โต๊ด" และ Benford's Law นั้นมีผลกับเลขหลักหน้าๆ มากกว่าหลักท้ายๆ แต่คำเตือนนี้ไม่ใช่การใบ้หวย...
อ้างอิง/อ่านเพิ่มเติม:
[1] https://horoscope.thaiorc.com/lottery/stats/lotto-years20.php
[2] https://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test
[3] https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3632045/
[4] https://www.reddit.com/r/dataisbeautiful/comments/88m2mj/pick_a_number_from_1100_results_from_6750/
[5] https://www.reddit.com/r/dataisbeautiful/comments/acow6y/asking_over_8500_students_to_pick_a_random_number/
[6] https://en.wikipedia.org/wiki/Benford%27s_law
[7] https://www.researchgate.net/publication/344164702_Is_COVID-19_data_reliable_A_statistical_analysis_with_Benford's_Law
「chi-square distribution table」的推薦目錄:
- 關於chi-square distribution table 在 มติพล ตั้งมติธรรม Facebook 的最讚貼文
- 關於chi-square distribution table 在 How to Read Values on a Chi Square Critical Value Table 的評價
- 關於chi-square distribution table 在 11.1 Chi-Square Tests for Independence 的評價
- 關於chi-square distribution table 在 How to build a chi-square distribution table in R - Stack Overflow 的評價
chi-square distribution table 在 11.1 Chi-Square Tests for Independence 的推薦與評價
Similarly, all the chi-square distributions form a family, and each of its members is also ... The 40 records give rise to a 2 × 2 contingency table. ... <看更多>
chi-square distribution table 在 How to build a chi-square distribution table in R - Stack Overflow 的推薦與評價
... <看更多>
chi-square distribution table 在 How to Read Values on a Chi Square Critical Value Table 的推薦與評價
... <看更多>