รู้จักกับ Confidence Interval
Confidence Interval เป็นคอนเซปต์ที่คนทั่วๆ ไปมักจะรู้จักกันน้อยมาก ทั้งๆ ที่ในความเป็นจริงแล้ว มันเป็นคอนเซปต์ที่เราคุ้นเคยกันดีมาก และเราก็ใช้กันอยู่ทุกวันในชีวิตประจำวัน
วิทยาศาสตร์นั้นใช้ “คณิตศาสตร์” เป็นภาษาหลักในการสื่อสาร และเรามักจะวัด “ปริมาณ” ออกมาแทนเป็นตัวเลขเสมอ เวลาเราอ่านข่าว เรามักจะคุ้นเคยกับการรายงานตัวเลขเพียงตัวหนึ่ง แทนค่าอะไรสักอย่าง เอกภพมีอายุ 13.8 พันล้านปี โลกมีรัศมี 6,378 กม. ปริมาณ antibody ในกระแสเลือด คือ 9000 U/mL ฯลฯ ทั้งๆ ที่ความจริงแล้วในทางวิทยาศาสตร์เราจะไม่ได้วัดค่าเป็นตัวเลขเพียงตัวเดียว แต่จะเป็นช่วงตัวเลขช่วงหนึ่ง ที่เรียกว่า “Confidence Interval”
อาจารย์สอนวิชาเคมีวิเคราะห์ที่ผมเรียนด้วย ครั้งหนึ่งเคยพูดเอาไว้ ในประโยคแรก ของคาบเรียนแรกของวิชาว่า
“Every measurement is a lie, the difficulties come when you try to believe it”
“ทุกๆ การวัดก็คือการโกหก ปัญหามันอยู่ที่ว่าเราพร้อมจะเชื่อมันได้แค่ไหน”
ลองจินตนาการดูว่าเราไปซื้อหมูสับที่ตลาด แม่ค้าก็หยิบหมูมากำมือหนึ่ง น้ำหนัก(มวล)ที่แท้จริงของหมูสับนั้นเป็นเป็นค่าๆ หนึ่ง ซึ่งไม่มีใครหรือสิ่งใดในเอกภพที่จะสามารถทราบได้ สิ่งที่ตาชั่งของแม่ค้าบอกนั้นเป็นเพียงการ “ประมาณ” น้ำหนักของหมูชิ้นนั้นเท่านั้น
สมมติว่าตาชั่งนั้นบอกว่าหมูหนัก “สองขีด” แท้จริงแล้ว “สองขีด” นั้นไม่ใช่น้ำหนักที่แท้จริงของหมู แต่เป็นเพียงการประมาณค่าน้ำหนักจริงของเนื้อหมู ที่อยู่ระหว่างสองขีดบวกลบกับค่าความคลาดเคลื่อนที่ได้จากเครื่องมือ
ซึ่งความเป็นจริงแล้ว นี่ไม่ได้เป็นเพียงคอนเซปต์ในอุดมคติอันสวยหรู และเรื่องมากอะไรของนักวิทยาศาสตร์เพียงอย่างเดียว แต่เป็นสิ่งที่เราทุกคนใช้ และตกลงกันอยู่ในชีวิตประจำวัน
เพราะเวลาเราตกลงซื้อ “หมูสองขีด” กับแม่ค้า เราก็ไม่ได้มีความคาดหวังว่าจะต้องซูมเข้าไปดูเข็มว่ามันอยู่ที่ 200 กรัม กับอีกกี่มิลลิกรัม หรือไมโครกรัม เราอาจจะพอใจ และไม่ได้ติดใจอะไรกับแม่ค้า ตราบใดที่นน. ของหมูนั้นอยู่ในค่าที่ “ยอมรับได้” ซึ่งสำหรับหมูสองขีดนี้อาจจะอยู่ในขอบเขต 150-250 กรัม (ขีดครึ่งถึงสองขีดครึ่ง) ก็ยังไม่น่าเกลียดอะไรมาก (เว้นเสียแต่คุณจะเป็นทนายความหัวหมอคนหนึ่งในเมืองเวนิส)
นั่นหมายความว่า เวลาเราบอกกันว่า “หมูสองขีด” แท้จริงแล้วเรากำลังบอกว่า “ตั้งแต่ขีดครึ่งกว่าๆ ไปจนถึงสองขีดครึ่ง” หรือเวลาเราบอกว่าเราใช้เวลาสองชม. เดินทางกลับบ้าน เราไม่ได้หมายความว่า “สองชั่วโมง ศูนย์นาที ศูนย์วินาที ศูนย์มิลลิวินาที” ไม่ขาดไม่เกิน แต่เราหมายความว่า “ระหว่าง ชั่วโมงนิดๆ ไปถึงเกือบสามชม”
ซึ่งไอ้ “ขอบเขตที่ยอมรับได้” นี่เอง ที่เกี่ยวข้องกับ “Confidence Interval” และมีความเกี่ยวข้องกับ “เลขนัยะสำคัญ” เพราะมันเป็นตัวบอกว่าเรา "พร้อมที่จะเชื่อคำโกหกนั้นแค่ไหน" เช่น คนที่บอกว่าใช้เวลากลับบ้าน “สองชั่วโมง” นั้นกำลังพยายามสื่อถึงขอบเขตที่ยอมรับได้ ที่แตกต่างจากผู้ที่บอกว่าใช้เวลากลับบ้าน “หนึ่งชั่วโมง สี่สิบเจ็ดนาที” เพราะเราคงไม่จำเป็นต้องระบุว่าสีสิบเจ็ดนาที ถ้าเราไม่ได้มั่นใจในหลักนาทีที่สำคัญขนาดนั้น
และนี่เป็นเหตุผลว่าทำไมเราจึงไม่ควรจะอ่านตัวเลขทุกหลักที่ได้จากเครื่องคิดเลข เช่น ป้ายยอดดอยอินทนนท์เขียนเอาไว้ว่าดอยอินทนน์มีความสูงจากระดับน้ำทะเล 2,565.3341 เมตร (เขียนงี้จริงๆ ไม่เชื่อลองไปดู) ซึ่งการระบุความแม่นยำไปถึงหลัก 0.1 มิลลิเมตรนั้นสื่อว่าความสูงที่วัดได้นี่นั้นแม่นยำยิ่งกว่าความสูงของเม็ดทรายหนึ่งเม็ด ซึ่งเป็นไปไม่ได้ (คือแค่คนวัดยืนหายใจความสูงก็เปลี่ยนไปมากกว่าทศนิยมที่เขากล่าวอ้างแล้ว)
ซึ่งในทางวิทยาศาสตร์นั้นก็ใช้หลักการเดียวกัน แต่เรามีการระบุให้รัดกุมไปกว่านั้น โดยเราจะบอกเป็น Confidence Interval ควบคู่ไปกับเปอร์เซ็นต์ความน่าเชื่อถือของขอบเขตนั้น หรือที่เรียกกันว่า Confidence Level หรือ "เรามั่นใจแค่ไหน ว่าคำตอบนั้นอยู่ในขอบเขตที่เราระบุเอาไว้"
เราสามารถนึกถึง Confidence Level ง่ายๆ โดยการจินตนาการแบบนี้ “สมมติว่าเราต้องวางเงินเดิมพันว่าค่าของเขตที่เรารายงานนั้นครอบคลุมไปถึงค่าที่แท้จริง เราจะกล้าเดิมพันแค่ไหน” แน่นอนว่าเราไม่มีวันมั่นใจได้ “100%” แต่หากเราพูดถึงการเดิมพัน ยิ่งเรามั่นใจมาก เราก็อาจจะยอมที่จะเดิมพันที่เสี่ยงมากขึ้น เช่น หากเรามั่นใจว่าเราจะถูกถึงมากกว่า 95% ต่อให้เดิมพันเสียเปรียบ 1 ต่อ 20 ก็ยังนับเป็นการลงทุนที่คุ้มค่าที่จะเสี่ยง
ดังนั้นค่าทุกค่าที่รายงานในทางวิทยาศาสตร์ นั้นจะมีอยู่สองส่วนเสมอ (ไม่ว่าจะละเอาไว้ในฐานที่เข้าใจหรือไม่ก็ตาม) นั่นก็คือเปอร์เซนต์ความเชื่อมั่น ว่าผู้รายงานมีความเชื่อมั่นในตัวเลขนี้เท่าใด และช่วงขอบเขตของตัวเลขที่สอดคล้องกับเปอร์เซนต์ความเชื่อมั่นเท่านั้น
ซึ่งยิ่งเราระบุขอบเขตให้กว้างเท่าไหร่ก็จะยิ่งมีโอกาสที่ค่าจริงจะอยู่ในขอบเขตนั้นมากขึ้นเพียงเท่านั้น เราอาจจะไม่มั่นใจเท่าไหร่ว่าหมูชิ้นนี้จะมีน้ำหนักระหว่าง 199.999 กรัมไปจนถึง 200.001 กรัม แต่เรามั่นใจค่อนข้างมากว่า น้ำหนักน่าจะอยู่ระหว่าง 100-300 กรัม และเรามั่นใจล้านเปอร์เซ็นต์ ว่าน้ำหนักของหมูนั้นมากกว่าศูนย์ แค่น้อยกว่ามวลของเอกภพ (แต่ขอบเขตที่ได้จากความมั่นใจเว่อร์ระดับนี้นั้นอาจจะไม่ได้มีความหมายเสียเท่าไหร่)
เช่น นักวิทยาศาสตร์ที่ชั่งสารอาจจะบอกว่า ตัวอย่างนี้มีมวล 200.0 +/- 0.2 g with 95% Confidence Interval รัศมีของโลกมีระยะทาง 6.3781366 +/- 1 x10^6 m ซึ่งยิ่งเครื่องมือมีความแม่นยำเพียงใด เราอาจจะยิ่งได้ขอบเขตของความน่าเชื่อถือที่แคบเท่านั้น แต่เราไม่มีวันที่จะสามารถหาน้ำหนักหรือรัศมี “ที่แท้จริง” เป๊ะๆ ได้เลย เราได้แต่เพียงทำให้ขอบเขตเล็กลงเรื่อยๆ
นอกจากความแม่นยำของเครื่องมือแล้ว อีกปัจจัยหนึ่งก็คือเรื่องของ “สถิติ” เช่น หากเราทำการสำรวจน้ำหนักของประชากรชาวไทย เราจะพบว่าน้ำหนักแต่ละคนนั้นมีการกระจายตัวออก และไม่เท่ากัน เราก็จะใช้ Confidence Interval และ Confidence Level ในการรายงานค่าที่เป็นตัวแทนของประชากรนี้ได้เช่นกัน ว่าเรามีความมั่นใจเพียงใด ว่าค่าที่แท้จริงจะอยู่ในขอบเขตนี้ แน่นอนว่าในประชากรที่มีค่าที่แตกต่างกันมาก ขอบเขตของความเชื่อมั่นย่อมที่จะกระจายตัวได้กว้างเป็นธรรมดา
ซึ่งการรายงาน Confidence Interval ที่ไม่สอดคล้องกับข้อมูล แน่นอนว่าเทียบเท่ากับการ “บิดเบือนความจริง” เพราะเรากำลังจะบอกว่าเรามั่นใจว่าค่าจริงนั้นอยู่ในช่วงนี้ ทั้งๆ ที่ความเป็นจริงแล้วข้อมูลไม่ได้บ่งชี้เช่นนั้นเลย
เช่น หากเรามีข้อมูลเพียงสองจุด แต่เรากลับแทนค่า Confidence Interval ด้วย “พิสัย” ของข้อมูล (ดังภาพ) เท่ากับเรากำลังบอกว่าข้อมูลที่เราวัดเพียงสองครั้งนั้น ได้สะท้อนถึงขอบเขตบน และขอบเขตล่างของค่าจริงเป็นที่เรียบร้อยแล้ว และเท่ากับเป็นการบ่งชี้ว่าเรามีความเชื่อมั่นว่าในการวัดครั้งถัดไป เราจะได้ค่าที่อยู่ระหว่างสองครั้งแรกที่วัดอย่างแน่นอน เปรียบเทียบได้กับการอ้างว่า เพียงสองครั้งที่เราวัดนั้น เราได้บังเอิญสุ่มได้ค่าที่มากที่สุด และน้อยที่สุดไปโดยบังเอิญภายในสองครั้งแรกที่ทำการวัด
หากเปรียบเทียบ ก็เปรียบได้กับการทอยลูกเต๋าที่เราไม่ทราบว่ามีกี่ด้าน และมีตัวเลขเท่าใดบ้างสองครั้ง ได้เลข 4 กับเลข 6 แล้วเราก็สรุปว่าค่าส่วนมากที่เต๋าลูกนี้จะทอยได้นั้น จะอยู่ระหว่าง 4 ถึง 6
เราอาจจะคิดว่า การโกหกข้อมูลมันทำได้เฉพาะการรายงานค่าเฉลี่ยที่ไม่ตรงตามความเป็นจริง แต่ในความเป็นจริงแล้วนั้น อย่างที่บอกไปแล้วว่าข้อมูลทางวิทยาศาสตร์นั้นมีทั้งเปอร์เซ็นต์ความน่าเชื่อถือ กับขอบเขตตัวเลข ซึ่งแม้ว่าเราจะรายงานค่าเฉลี่ยถูกต้อง แต่หากเรารายงานความน่าเชื่อถือ หรือขอบเขตที่ผิดไป (หรือไม่รายงาน) เราก็สามารถทำให้คนอ่านเข้าใจผิดได้เช่นกัน เช่นข้อมูลที่ไม่มีความน่าเชื่อถือ แต่แอบอ้างให้คนอ่านเข้าใจว่ามีความน่าเชื่อถือสูงกว่าที่ควรจะเป็น หรือการทำให้ขอบเขตแคบกว่าที่คิด (โดยการเลือกความน่าเชื่อถือที่ต่ำลง เป็นต้น) ก็อาจทำให้เข้าใจผิดเกี่ยวกับข้อมูลได้เช่นกัน
เช่น หากดูค่าเฉลี่ยเปรียบเทียบแล้วเราอาจจะพบว่าข้อมูลชุดหนึ่งมีค่าเฉลี่ยสูงกว่า แต่หากเราพิจารณาขอบเขตที่ 95% CI แล้วเราจะพบว่าข้อมูลส่วนมากมีความคาบเกี่ยวกันเสียส่วนมาก ทำให้ข้อสรุปที่ได้ควรจะเป็นว่าสองข้อมูลนี้ไม่มีความแตกต่างกันอย่างมีนัยะสำคัญ แต่หากเราเปลี่ยนไปเลือก 65% CI เราอาจจะพบว่าขอบเขตที่น่าเชื่อถือของข้อมูลทั้งสองนั้นแยกจากกันมากขึ้น เราอาจทำให้ผู้อ่านเข้าใจผิดไปว่าข้อมูลทั้งสองนั้นแตกต่างกันมากกว่าที่ควรจะเป็น
ซึ่งแน่นอนว่านี่ไม่ใช่หลักการทางสถิติที่ควรจะเป็น
ป.ล. หลังจากที่หลายๆ คนทักมา และดูเพิ่มเติมแล้ว เข้าใจว่า “ที่มา” ของกราฟ n=2 จะใช้ Interquartile range Q1 Q3 แทนนะครับ ซึ่งเนื่องจากข้อมูลมีไม่พอ เลยถูกปัดไปเป็น min/max โดยปริยาย ซึ่งแม้ว่า IQR จะมีความหมายแตกต่างจาก CI พอสมควร แต่โดยหลักการที่ข้อมูลไม่ได้แสดงแทนด้วยเลขตัวเดียว แต่แทนถึงประชากรที่มีความหลากหลาย ก็ไม่ได้แตกต่างกันมากครับ
同時也有10000部Youtube影片,追蹤數超過2,910的網紅コバにゃんチャンネル,也在其Youtube影片中提到,...