ในยุคสมัยที่ข้อมูลขับเคลื่อนทุกอย่างจนเราเห็นคำว่า data driven เต็มไปหมด แม้จะมีคำกล่าวที่ว่าข้อมูลไม่เคยโกหก แต่เราก็ต่างรู้กันดีว่า นั่นเป็นแค่ ‘คำโกหก’ ของคนที่พยายามจะโกหกด้วยข้อมูลอีกที การมี data literacy หรือ ความฉลาดรู้ทางข้อมูล กลายเป็นสิ่งที่จำเป็นสำหรับทุกคน ไม่ว่าคุณจะเป็นใคร ประกอบอาชีพอะไร การรู้เท่าทันและสามารถใช้ประโยชน์จากข้อมูลได้ก็จะช่วยให้งานของคุณเกิดประสิทธิภาพมากขึ้น
เมื่อย้อนไปดูระบบการศึกษา บทเรียนที่ดูใกล้เคียงกับเรื่องนี้ที่สุดน่าจะเป็น ‘สถิติ’ นี่จึงทำให้ความสำคัญของวิชาสถิติถูกกลับมาพูดถึงกันอีกครั้ง ว่ามันทำหน้าที่ได้ดีพอแล้วหรือยัง
สถิติเป็นหนึ่งในบทเรียนในวิชาคณิตศาสตร์ที่ถูกบรรจุในหลักสูตรการศึกษาขั้นพื้นฐานของบ้านเรามาตั้งแต่ไหนแต่ไรแล้ว แม้ในตัวชี้วัดจะระบุไว้อย่างชัดเจนว่า ผู้เรียนต้องเข้าใจและใช้ความรู้ทางสถิติในการนำเสนอข้อมูลและแปลความหมายของค่าสถิติเพื่อประกอบการตัดสินใจ แต่ในทางปฏิบัติที่ข้อสอบวัดผลส่วนใหญ่ โดยเฉพาะข้อสอบระดับชาติยังคงอยู่ในรูปของข้อสอบปรนัย หรือคำตอบแบบสั้น การฝึกให้นักเรียนแปลความหมาย ตีความ วิเคราะห์ เลือกเครื่องมือ และนำเสนอข้อมูล อันเป็นสาระสำคัญจริงๆ ของวิชาสถิติจึงไม่ได้ถูกเน้นในชั้นเรียนอย่างที่ควร
แม้สถิติจะถูกจัดว่าเป็นแขนงหนึ่งของวิชาคณิตศาสตร์ แต่จุดสำคัญที่ทำให้สถิติแตกต่างคือ คำถามในวิชาคณิตศาสตร์มักจะมีคำตอบตายตัว ชี้ถูกชี้ผิดได้ชัดเจน ในขณะที่คำตอบของคำถาม(ที่แท้จริง)ในวิชาสถิตินั้นเป็นคำถามปลายเปิด ต้องอาศัยการวิเคราะห์ ตีความ เคยมีงานวิจัยที่เอาข้อมูลชุดเดียวกันไปให้นักสถิติ 29 คนวิเคราะห์ ผลคือต่างสรุปไปคนละทิศคนละทางด้วยเหตุผลสนับสนุนที่แตกต่างกันไป ดังนั้นเมื่อเราพยายามจะวัดผลวิชาสถิติด้วยคำถามปลายปิด คำถามก็จะต้องมีคำตอบที่ตายตัวแน่นอน เช่น การคำนวณค่าทางสถิติต่างๆ หรือถามนิยามเท่านั้น สิ่งนี้ทำให้หลังจบการเรียนสถิติ เราได้เพียงนักเรียนที่สามารถคำนวณค่าต่างๆ และท่องนิยามได้อย่างแม่นยำถูกต้อง แต่ไม่ได้มี data literacy อย่างที่หลักสูตรคาดหวัง
ดังนั้นคำถามที่สำคัญคือ เราจะสร้าง data literacy อย่างไรดี คนมักจะเข้าใจผิดว่าการสอนเรื่อง data นั้น ต้องเริ่มต้นจากสูตรคำนวณ กราฟ หรือการเขียนโปรแกรม แต่สิ่งที่สำคัญกว่านั้นและต้องทำเป็นอย่างแรกคือ การสร้างความเชื่อว่า ‘เราสามารถหาคำตอบของคำถามต่างๆ ได้ด้วยข้อมูล’ นึกถึงการที่เราปล่อยให้แอปพลิเคชันฟังเพลงสุ่มเพลงต่อไปให้เรา การทำนายราคาหุ้นของวันพรุ่งนี้จากราคาในอดีต หรือการที่ฝ่ายบุคคลประเมินความสามารถของพนักงานด้วยประวัติการทำงาน เราทำสิ่งเหล่านี้เพราะเชื่อว่าการตัดสินใจบนฐานของ ‘ข้อมูล’ นั้นดีกว่าบนฐานของ ‘ความรู้สึก’ แต่ต้องรอให้เป็นเรื่องใหญ่ๆ อย่างนั้นก่อนหรือ เราถึงจะนึกถึงการใช้ข้อมูล ถ้าเป็นเรื่องที่ดูเล็กน้อยกว่านั้นล่ะ เล็กน้อยเช่นคำถามที่ว่า ‘ช็อกโกแลต M&M’s สีไหนหายากที่สุด’
แม้เราจะรู้กันดีว่าขนมช็อกโกแลตเม็ดเล็กๆ อย่าง M&M’s ที่มีอยู่หลายสีนั้น แต่ละสีมีรสชาติไม่ต่างกัน แต่บางคนก็ยังชอบเลือกกินสีนั้นมากกว่าสีนี้ คำถามคือสีไหนที่มีเยอะ สีไหนที่หายาก หรือจริงๆ แล้วมันก็มีเท่ากันหมดทุกสีนั่นแหละ
แน่นอน เราไม่ใช่คนเดียวที่สงสัยแบบนี้ ร้อนไปถึง ริก วิกคลิน (Rick Wicklin) นักสถิติเชิงคำนวณที่ SAS ซึ่งเป็นบริษัทผลิตซอฟต์แวร์ด้านการวิเคราะห์ข้อมูลชื่อดังของโลก ด้วยความที่คนในบริษัทของเขาคลั่งไคล้การกิน M&M’s กันมาก ในปี 2017 ด้วยจิตวิญญาณความเป็นนักสถิติ สิ่งที่ริกทำ คือเอาถุง M&M’s มาจำนวนหนึ่ง เทออกมา แล้วก็เริ่มนับจำนวน ผลที่เขาได้คือ จากทั้งหมด 712 เม็ด เป็นสีแดงไปแล้ว 108 เม็ด สีส้ม 133 เม็ด สีเหลือง 103 เม็ด สีเขียว 139 เม็ด สีน้ำเงิน 133 เม็ด และสีน้ำตาล 96 เม็ด แสดงผลได้ดังกราฟ

คำถามคือมันเป็นแบบนี้มาแต่ไหนแต่ไรหรือเปล่า เมื่อย้อนไปดูจะพบว่าเมื่อปี 1997 นั้น เว็บไซต์ของ M&M’s บอกว่าอัตราส่วนของแต่ละสีโดยประมาณคือ สีแดง 20% สีส้ม 10% สีเหลือง 20% สีเขียว 10% สีน้ำเงิน 10% และสีน้ำตาล 30% ก่อนจะมีการปรับอัตราส่วนอีกครั้งในปี 2008 เป็น สีแดง 13% สีส้ม 20% สีเหลือง 14% สีเขียว 16% สีน้ำเงิน 24% และสีน้ำตาล 13% แต่หลังจากนั้นไม่นาน ข้อมูลดังกล่าวก็ถูกลบออกไปจากเว็บไซต์ และไม่ปรากฏขึ้นมาให้เห็นอีกเลย

Photo: SAS
เมื่อนำข้อมูลที่เว็บไซต์บอกไว้ในปี 2008 มาเทียบกับข้อมูลของริก ก็พบว่าสีเขียวกับน้ำเงินนั้นไม่ตรงกันพอสมควร แปลว่าน่าจะมีการปรับอัตราส่วนอีกครั้งในระหว่างนั้น และด้วยความไม่ยอมแพ้ริกเขียนจดหมายไปหาฝ่ายดูแลลูกค้าของ M&M’s เพื่อสอบถามข้อมูล วันต่อมาก็ได้รับคำตอบกลับมาว่า M&M’s ที่ขายอยู่ในอเมริกานั้นผลิตจากโรงงานสองแห่ง คือ รัฐเทนเนสซี (Tennessee) และ รัฐนิวเจอร์ซีย์ (New Jersey) โดยแต่ละโรงงานมีอัตราส่วนการผลิตแต่ละสีไม่เท่ากันดังกราฟ โดยเราสามารถดูว่า M&M’s ซองนั้นผลิตที่โรงงานไหนได้จากรหัสหลังซอง


แต่ถึงแม้ว่าริกจะยังไม่ทันได้พลิกดูรหัสหลังซอง เขาก็สามารถทายได้จากข้อมูลที่เขามี เมื่อนำไปเทียบกับอัตราส่วนของทั้งสองโรงงานแล้ว สรุปได้ว่า M&M’s ที่เขาซื้อนั้น ต้องผลิตที่เทนเนสซีอย่างแน่นอน ซึ่งก็เป็นอย่างนั้นจริงๆ
เรื่องราวเกี่ยวกับความสงสัยและการพยายามหาคำตอบของริกนั้นเป็นแรงบันดาลใจให้คุณครูและอาจารย์ที่สอนวิชาสถิติหลายคนเอาไปสร้างเป็นบทเรียน ออกแบบกิจกรรม ตั้งแต่เรื่องพื้นฐานอย่างการสร้างตารางบันทึกการนับ ออกแบบตารางอย่างไรให้ใช้ง่าย จดแล้วไม่งง ต่อด้วยการนำเสนอข้อมูลหรือที่เรียกกันเป็นคำเท่ๆ ในยุคนี้ว่า data visualization ทำไมริกถึงเลือกใช้แผนภูมิแท่งแทนที่จะเป็นแผนภูมิวงกลม ไปถึงเนื้อหาระดับมหาวิทยาลัยอย่างการประมาณค่า ความผิดพลาดของการประมาณ การทดสอบสมมติฐานว่าข้อมูลที่เก็บมาได้ตรงกับข้อมูลในอดีตไหม การทดสอบสมมติฐานว่า M&M’s ถุงที่อยู่ในมือเรานั้นมาจากโรงงานไหนกันแน่ และอีกมากมายที่ถามต่อไปได้ไม่รู้จบ
งานวิจัยที่พูดถึงการสร้าง data literacy แทบทุกชิ้นต่างพูดตรงกันว่า ทุกอย่างต้องเริ่มจากความสงสัยที่อยู่ใกล้ตัว และการค้นหาความจริงจากข้อมูลต่างหาก คือสาระสำคัญของงานด้านข้อมูล เพราะสุดท้ายแล้วการได้รู้ว่า M&M’s แต่ละสีมีอัตราส่วนเท่าไรนั้น อาจจะไม่ได้ทำให้เด็กสักคนมีชีวิตที่ดี หรือมีหน้าที่การงานในอนาคตที่ดีขึ้น แต่การที่เขาถูกปลูกฝังว่า เมื่อสงสัยอะไรขึ้นมา เขาสามารถหาคำตอบได้ด้วยข้อมูล นั่นอาจจะเป็นจุดเริ่มต้นของการเติบโตไปเป็นพลเมืองของโลกที่ถูก data driven ไปแล้วใบนี้ได้อย่างแข็งแรง และมีภูมิคุ้มกันขึ้น ไม่มากก็น้อย
ที่มา
บทความ “Same data, different conclusions: Radical dispersion in empirical results when independent analysts operationalize and test the same hypothesis” (Online)
บทความ “Strategies for Teaching Data Literacy” (Online)
บทความ “A statistician got curious about M&Ms colors and went on an endearingly geeky quest for answers” (Online)
บทความ “The distribution of colors for plain M&M candies” (Online)
บทความ “Introducing Bayesian Analysis With m&m’s®: An Active-Learning Exercise for Undergraduates” (Online)
Cover Photo: M&M’S®