โดยปกติแล้ว เวลาพูดถึงการสอน Data Literacy นั้น Data Visualization หรือการนำเสนอข้อมูลให้เป็นภาพมักจะเป็นหัวข้อแรกๆ ที่ถูกพูดถึง เพราะการเลือกเครื่องมือนำเสนอข้อมูลที่เหมาะสมจะช่วยให้สื่อสารได้ตรงประเด็น แต่สาเหตุที่ผมเก็บเรื่องนี้ไว้เล่าเป็นหัวข้อท้ายๆ ของซีรีส์ นั่นก็เพราะเราไม่มีทางสร้างการนำเสนอข้อมูลที่ดีได้เลยหากเราไม่มีข้อมูลที่เก็บมาอย่างดี และถูกจัดให้เป็นระเบียบแล้วเสียก่อน
ถ้าย้อนกลับไปดูกรณีศึกษาเรื่องฟลอเรนซ์ ไนติงเกล จะเห็นว่า Data Visualization ที่ดีนั้นสำคัญมาก การที่เธอสร้างแผนภาพพื้นที่เชิงขั้ว (polar area diagram) ขึ้นมา สามารถอธิบายสภาพของหน่วยแพทย์สนามให้รัฐบาลและผู้มีอำนาจตัดสินใจเข้าใจและเห็นคล้อยตามไปกับข้อเสนอของเธอได้ ทุกวันนี้เราเห็นสื่อสำนักต่างๆ แข่งกันนำเสนอข้อมูลด้วยแผนภาพแทนที่จะเล่าด้วยปากเปล่า อย่างช่วงเลือกตั้งที่จะมีการอัปเดตผลการเลือกตั้งแบบเรียลไทม์ การนำเสนอข้อมูลที่ดีจะทำให้เราเห็นภาพได้ง่ายว่าพรรคไหนกำลังนำ พรรคไหนกำลังตาม และผลคะแนนห่างกันมากน้อยขนาดไหน
ด้วยความที่มันเป็นเรื่องสำคัญ จึงทำให้เรามีหนังสือ บทความ คอร์สออนไลน์ หรือคลิปมากมายที่สอนวิธีการทำ Data Visualization อธิบายข้อดีข้อเสียของแผนภาพชนิดต่างๆ เพื่อให้คนที่สนใจสามารถเลือกดูและเอาไปปรับใช้กับการนำเสนอข้อมูลของตัวเองได้ ดังนั้นบทความนี้เราจะไม่มาคุยกันว่าแผนภูมิแบบไหนควรจะใช้กับข้อมูลแบบไหน แต่เราจะมาคุยกันเรื่องที่ผมเห็นว่าสำคัญกว่า
ถ้ายังจำบทความแรกของซีรีส์ที่ว่าด้วยอัตราส่วนของ M&M’s แต่ละสีกันได้ ผมเคยเอาเรื่องนี้ไปทำเป็นกิจกรรมในชั้นเรียน ตอนนั้นผมแบ่งนักเรียนออกเป็นกลุ่มๆ แล้วแจก M&M’s ให้กลุ่มละถุงเพื่อนับว่าในถุงนั้นมี M&M’s แต่ละสีอยู่จำนวนเท่าไร จากนั้นให้ใช้แผนภูมิอะไรก็ได้นำเสนอข้อมูล ก่อนจะเอาผลของแต่ละกลุ่มขึ้นมาโชว์หน้าห้อง
ผลคือนักเรียนแทบทุกกลุ่มเลือกใช้แผนภูมิวงกลมด้วยเหตุผลคล้ายๆ กัน เพราะพวกเขาเห็นว่าตัวเองกำลังนำเสนอข้อมูลที่เป็นอัตราส่วน ดังนั้นการใช้แผนภูมิวงกลมก็น่าจะเป็นตัวเลือกที่ดีที่สุดตามที่เรียนมาตั้งแต่ชั้นประถม แม้ว่าจริงๆ แล้วในวงการ Data Visualization เขาจะลงความเห็นกันแล้วว่า ไม่ควรใช้แผนภูมิวงกลมกันแล้ว แต่นั่นไม่ใช่ประเด็นที่ผมอยากจะเล่าตอนนี้ ประเด็นที่ผมอยากพูดถึงคือสี
ปกติแล้วสีที่แสดงบนแผนภูมิวงกลมนั้นจะใช้สีอะไรก็ได้ จากนั้นก็แค่เขียนไว้ข้างๆ แผนภูมิว่าสีไหนสื่อถึงข้อมูลกลุ่มไหน เช่น ถ้าเราอยากรู้อัตราส่วนของเด็กนักเรียน ม.4 ม.5 และ ม.6 ในโรงเรียน เราก็อาจจะกำหนดให้เป็นสีเขียว เหลือง แดง หรือ แดง เหลือง เขียว หรือกำหนดให้นักเรียนชั้นไหนเป็นสีอะไรก็ได้ แต่ในกรณี M&M’s นั้น ข้อมูลของเราเป็นสีอยู่แล้ว ดังนั้นมันจะง่ายกว่ามากๆ หากเรากำหนดสีบนแผนภูมิให้ตรงกับสีที่เรากำลังสื่อถึง ลองนึกภาพว่ามันคงจะแปลกมากๆ ถ้าเราใช้สีเขียวแสดงอัตราส่วนของจำนวน M&M’s สีแดง แล้วก็สลับกันมั่วไปหมด
สีบนกราฟต้องถูกกำหนดโดยคนสร้างกราฟ ถ้าเราใช้เครื่องมืออย่าง Excel หรือโปรแกรมสร้างกราฟสำเร็จรูปอื่นๆ โปรแกรมจะใส่สีให้ตามสีมาตรฐานโดยไม่ได้คำนึกถึงความสอดคล้องระหว่างสีที่ใช้กับข้อมูลที่เราต้องการแสดง ตอนผมทำกิจกรรมนี้กับนักเรียน มีบางกลุ่มที่คิดเรื่องนี้และกำหนดสีให้ตรงกัน แต่ก็มีบางกลุ่มที่ไม่ทันได้คิด
แน่นอนว่ามันง่ายมากที่เราในฐานะผู้สอนจะชี้ให้เห็นถึงข้อผิดพลาด และสอนว่าที่ถูกต้องมันควรเป็นอย่างไร แต่การเรียนรู้จากความผิดพลาดของตัวเอง ด้วยตัวเอง ย่อมดีกว่าถูกบอกเป็นไหนๆ กิจกรรมต่อมาผมจึงให้นักเรียนแต่ละกลุ่มเดินขึ้นมาเพื่อจดข้อมูลจากแผนภูมิของกลุ่มอื่น แล้วนำไปสร้างเป็นข้อมูลชุดใหม่ที่ใหญ่ขึ้น ผลคือ แผนภูมิของกลุ่มที่ไม่ได้กำหนดสีให้ตรงกับข้อมูลนั้นถูกเพื่อนๆ กลุ่มอื่นบ่นเป็นเสียงเดียวกันว่าอ่านยาก ต้องคอยมองหาตัวกำหนดสัญลักษณ์สีที่อยู่ข้างกราฟ แทนที่จะมองแวบเดียวแล้วรู้เลยว่าสีไหนมีจำนวนเท่าไร แม้บางกลุ่มจะพยายามแก้ตัวว่ามันไม่ได้ดูยากขนาดนั้น แต่สุดท้ายพอได้มาอ่านแผนภูมิของตัวเอง พวกเขาก็ยอมรับว่าแผนภูมิของกลุ่มอื่นอ่านง่ายกว่าของพวกเขามาก
สิ่งนี้แสดงให้เห็นว่าจริงๆ แล้วมันไม่ได้มีหลักการอะไรตายตัวแบบครอบจักรวาลสำหรับการทำ Data Visualization แต่ขึ้นอยู่กับว่าทำแล้วมันเวิร์กหรือไม่เวิร์กในกรณีนั้นๆ มากกว่า อย่างกรณีล่าสุดที่ผมเพิ่งได้เห็นแผนภาพที่แสดงสถิติการออกหวยเลขท้าย 2 ตัวย้อนหลังจากเพจหนึ่งว่า เลขไหนออกบ่อย เลขไหนไม่ค่อยออก โดยผู้เขียนระบุไว้ในคำบรรยายภาพว่า “สถิติหวยเลขท้ายสองตัวล่าง เรียงความถี่ของการออกตามสีรุ้ง สีแดงคือออก 1 ครั้ง ไล่ไปจนถึงสีม่วงที่ออก 7 ครั้ง (สีขาวคือไม่เคยออกเลยในรอบ10ปี)”
แน่นอนว่าโพสต์นี้ถูกแชร์ออกไปในวงกว้างเพราะหลายๆ คนก็สนใจเรื่องหวยอยู่แล้ว แต่คำถามคือการใช้สีรุ้งเพื่อแสดงข้อมูลแบบนี้มันดีหรือไม่ดีแค่ไหน แม้ว่าคนส่วนใหญ่จะท่อง ม่วง คราม น้ำเงิน เขียว เหลือง แสด แดง ได้อยู่แล้ว แต่ความจริงคือ เราไม่มีสามัญสำนึกเกี่ยวกับลำดับของสีรุ้ง ถ้าผมถามขึ้นมาลอยๆ ว่า “น้ำเงินกับเขียวอะไรมากกว่ากัน” ก็ต้องเริ่มคิดก่อนว่า “โอเค ม่วงคือเยอะที่สุดนะ” แล้วเริ่มท่อง ม่วง คราม น้ำเงิน เขียว “โอเค น้ำเงินอยู่ใกล้ม่วงมากกว่าเขียว” ดังนั้นน้ำเงินจึงมีความถี่มากกว่า
จนมีผู้ใช้ทวิตเตอร์คนหนึ่งถึงกับเอาข้อมูลนี้ไปทำแผนภาพใหม่ หน้าตาเหมือนเดิมเป๊ะ แค่เปลี่ยนสี ให้สีเขียวเข้มแทนเลขที่ออกบ่อยครั้ง และสีอ่อนแทนเลขที่ออกน้อย ผลคือ ดูง่ายกว่าเยอะ นั่นเป็นเพราะมนุษย์เรามีสามัญสำนึกเกี่ยวกับลำดับกับความเข้มอ่อนของสีมากกว่าลำดับของสายรุ้งนั่นเอง
จากบทความที่แล้ว เราคุยกันเรื่องการจัดข้อมูลออกเป็นกลุ่มๆ ด้วยตารางสี่ช่อง หรือมากกว่าสี่ช่อง คราวนี้ถ้าเราไม่ใส่ข้อมูลลงไปในแต่ละกลุ่ม แต่เปลี่ยนเป็นการนับจำนวนแทน เช่น ในการศึกษาว่านักเรียนมัธยมต้นกับมัธยมปลายมีคนที่ชอบเล่นเกมมากหรือน้อยต่างกันแค่ไหน เก็บข้อมูลการเล่นเกมของนักเรียนมัธยมในโรงเรียนแห่งหนึ่งทั้งโรงเรียน ซึ่งสมมติว่ามี 1,000 คน ได้ผลมาว่าสำหรับมัธยมต้นนั้น มี 250 คนที่ชอบเล่นเกม ในขณะที่ 150 คนไม่ชอบเล่นเกม ในขณะที่มีมัธยมปลาย 350 คนที่ชอบเล่นเกม ในขณะที่อีก 250 คนไม่ชอบเล่นเกม จากข้อมูลดังกล่าวการใส่ชื่อแต่ละคนลงไปในตารางสี่ช่องนั้นก็ทำได้ แต่ในกรณีเราอาจจะสนใจว่ากลุ่มไหนมีจำนวนเท่าไรมากกว่า ดังนั้นเราจึงสร้างตารางสี่ช่องที่ใส่จำนวนนักเรียนในแต่ละกลุ่มแทน
ตารางสี่ช่องที่ข้างในมีตัวเลขความถี่ของแต่ละกลุ่มอย่างนี้เรียกว่า Two-way Frequency Tables หรือ Cross Table ซึ่งง่ายต่อการเห็นภาพรวมและเปรียบเทียบจำนวนของข้อมูลในแต่ละกลุ่ม บางคนอาจจะเสนอว่า ทำเป็นแผนภูมิวงกลมแบบนี้สิ
ดูดีขึ้นไหมนะ ดูดีขึ้นแหละ อย่างน้อยก็ทำให้เราเห็นว่านักเรียนชั้นมัธยมปลายที่ชอบเล่นเกมดูเป็นกลุ่มใหญ่ที่สุดของโรงเรียน แต่การแสดงข้อมูลแบบนี้ก็ยังมีจุดอ่อน เพราะต้องไม่ลืมว่าเป้าหมายแรกเริ่มของเราคือการเปรียบเทียบจำนวนคนที่ชอบเล่นเกมระหว่างนักเรียนสองระดับชั้น ถ้ามองแผนภูมิวงกลมที่ได้อย่างผิวเผินอาจจะทำให้คิดไปเองว่านักเรียนมัธยมปลายนั้นมีแนวโน้มจะชอบเล่นเกมมากกว่ามัธยมต้น เพราะมีถึง 350 คน เป็นพื้นที่ที่ใหญ่ที่สุด ในขณะที่นักเรียนมัธยมต้นมีแค่ 250 คนเท่านั้น แต่ถ้าเราลองดูจำนวนของนักเรียนแต่ละชั้นทั้งหมดให้ดี จะเห็นว่าโรงเรียนแห่งนี้มีนักเรียนมัธยมปลายอยู่ถึง 600 คนในขณะที่มีนักเรียนมัธยมต้นอยู่แค่ 400 คนเท่านั้น ถ้าเราลองมองเป็นอัตราส่วนจะพบว่ามีนักเรียนมัธยมต้นที่ชอบเล่นเกมอยู่ 250 จาก 400 คน ซึ่งเท่ากับ 62.5% ในขณะที่มีนักเรียนมัธยมปลายที่ชอบเล่นเกมอยู่เพียง 350 จาก 600 คน ซึ่งเท่ากับ 58.33% เท่านั้น
คำถามคือจะแสดงสัดส่วนนี้อย่างไรดี วิธีหนึ่งคือการใช้แผนภูมิวงกลมสองอัน แผนภูมิหนึ่งแสดงสัดส่วนนักเรียนมัธยมต้นที่ชอบเล่นเกม อีกแผนภูมิแสดงสัดส่วนนักเรียนมัธยมปลายที่ชอบเล่นเกม
นี่คือสิ่งที่ผมพูดเกริ่นไว้ตอนเล่าถึง M&M’s ว่าแม้หนังสือเรียนจะยังสอนว่าข้อมูลที่เป็นอัตราส่วนนั้นควรแสดงด้วยแผนภูมิวงกลม แต่ในวงการ Data Visualization ทุกวันนี้ทุกคนพูดตรงกันว่าใช้กราฟแท่งดีกว่า เหตุผลก็ตรงไปตรงมา นั่นคือมนุษย์ไม่ได้มีสามัญสำนึกเกี่ยวกับความมากน้อยของมุมได้ดีเท่ากับความสูง ลองนึกภาพว่ามีแท่งสองแท่งสูง 30 กับ 35 สายตาเราแยกได้ชัดเจนว่าอันไหนสูงกว่า ในขณะที่พอเป็นมุม 30 กับ 35 นั้นสายตาคนเราแยกได้ไม่ดีเท่าไร
จากข้อมูลในตารางสี่ช่องเราสามารถเอามาสร้างแผนภูมิแท่งได้หลักๆ สามแบบ แบบแรกเห็นชัดเจนว่าเลยว่ามีจำนวนเท่าไร ใครมากใครน้อยกว่าใคร แบบที่สองคือการเอาแบบแรกมาซ้อนกันในแต่ละกลุ่มช่วงชั้น ทำให้เห็นยอดรวมของทั้งสองช่วงนั้น แต่มีข้อเสียตรงที่ไม่เห็นอัตราส่วน เทียบกันไม่ได้ว่านักเรียนช่วงชั้นไหนชอบเล่นเกมมากกว่ากัน จึงนำมาสู่แบบที่สามที่แสดงอัตราส่วนให้เทียบได้ไปเลย
ปัญหาของแผนภูมิแท่งแบบที่สองกับสามคือ อันนึงเห็นยอดรวมแต่ไม่เห็นอัตราส่วน อีกอันเห็นอัตราส่วนแต่ไม่เห็นยอดรวม คำถามคือเป็นไปได้ไหมที่เราจะสร้างแผนภูมิที่แสดงให้เห็นทั้งยอดร่วมและอัตราส่วนในแต่ละช่วงนั้น หนึ่งในทางออกของปัญหานี้คือลองเปลี่ยนวิธีการแสดงผลจากแท่งเป็นพื้นที่แทน พื้นที่ใหญ่แทนกลุ่มที่มีจำนวนเยอะ พื้นที่เล็กแทนกลุ่มที่มีจำนวนน้อย
แผนภาพแบบนี้ถูกเรียกในหลายชื่อ ไม่ว่าจะเป็นแผนภาพโมเสก แผนภาพมารีเมกโกะ หรือ Eikosogram ซึ่งนิยมใช้ในการนำเสนอข้อมูลที่ถูกแบ่งเป็นกลุ่มๆ เมื่อต้องการเน้นให้เห็นและเปรียบเทียบอัตราส่วนระหว่างแต่ละกลุ่ม แผนภาพนี้เหมือนการเอาแผนภูมิแท่งแบบซ้อนกันมาผสมกับตารางสี่ช่อง ปกติแล้วแผนภูมิแท่งแบบซ้อนกันจะทำให้เราเห็นอัตราส่วนภายในแต่ละกลุ่มจากความสูงของแท่ง แต่ไม่สามารถบอกได้ว่าแต่ละกลุ่มที่ว่านั้นมีขนาดเท่าไร
เช่นเดียวกับตารางสี่ช่อง ความจริงแล้วแผนภาพโมเสกสามารถนำไปใช้กับข้อมูลที่มีมากกว่าสี่ช่องได้ นั่นคือแต่ละแกนไม่ได้แบ่งเป็นแค่สองกลุ่ม อย่างเช่นแผนภาพต่อไปนี้ที่เกิดจากการเอารายจ่ายของนักเรียนคนหนึ่งในแต่ละวันตลอดหนึ่งสัปดาห์มาแสดงด้วยแผนภาพโมเสก โดยจำแนกค่าใช้จ่ายออกเป็นสามหมวด คือพวกค่ากิน ค่าเดินทาง แล้วก็ค่าซื้อของอื่นๆ แน่นอนว่าถ้าอยากรู้ข้อมูลละเอียดๆ ลงไปว่าวันไหนจ่ายค่าอะไรเท่าไร ก็จะต้องไปดูจากข้อมูลดิบ แต่แผนภาพให้ภาพรวมกับเราว่า ถ้าเรามองว่าเงินที่ใช้ตลอดทั้งสัปดาห์เป็นเหมือนเค้กก้อนใหญ่หนึ่งก้อน เงินก้อนนี้ถูกตัดแบ่งไปเป็นหมวดไหน และถูกใช้ในวันไหนบ้าง
จากแผนภาพนี้เราเห็นชัดเจนเลยว่านักเรียนคนนี้ใช้เงินในวันเสาร์และอาทิตย์มากกว่าวันอื่นๆ อย่างเห็นได้ชัด เงินที่ใช้ในวันหยุดสุดสัปดาห์นั้นมากกว่าครึ่งหนึ่งของเงินที่ใช้ทั้งอาทิตย์ด้วยซ้ำ และอีกอย่างที่สังเกตได้คือในวันธรรมดานั้นค่าใช้จ่ายส่วนใหญ่ของเขานั้นเป็นค่ากิน ซื้อของเพียงนิดหน่อยเท่านั้น ในขณะที่วันเสาร์อาทิตย์นั้นต่างออกไป สัดส่วนของการซื้อของเพิ่มขึ้นอย่างเห็นได้ชัดในช่วงสุดสัปดาห์ เป็นไปได้ว่าเขาอาจจะไปเที่ยวกับเพื่อนหรือเรียนพิเศษในแหล่งที่มีอะไรน่าซื้อ
งานวิจัยหลายชิ้นสรุปตรงกันว่าแผนภาพโมเสกเป็นวิธีการแสดงอัตราส่วนของข้อมูลที่มีประสิทธิภาพ โดยเฉพาะอย่างยิ่งในด้านการศึกษาที่บอกว่าการแสดงอัตราส่วนด้วยแผนภาพโมเสกนั้นทำให้นักเรียนเข้าใจและเห็นภาพของข้อมูลได้ดีขึ้นมากกว่าการแสดงด้วยตารางปกติ หรือแผนภาพต้นไม้ซึ่งเป็นวิธีที่นิยมใช้กัน อย่างเช่นเรื่องความแม่นยำในการตรวจโรคของเครื่องมือที่หลายคนอาจจะเคยได้เห็นผ่านตามาบ้างช่วงโควิด
แนวคิดในการวัดความแม่นยำของการตรวจโรคใดๆ คือการวัดความสามารถที่การตรวจจะระบุผล Positive ในคนที่เป็นโรคนั้นจริงๆ และระบุผล Negative ในคนที่ไม่ได้เป็นโรคนั้น โดยการระบุผลว่าเป็น Positive ทั้งที่คนนั้นไม่ได้เป็นโรคจะเรียกว่า False Positive ส่วนการระบุว่าคนนั้น Negative ทั้งที่จริงๆ แล้วเขาเป็นโรคเรียกว่า False Negative ซึ่งอัตราการเกิดความผิดพลาดทั้งสองกรณีนั้นเป็นสิ่งที่ไม่อยากให้เกิด ดังนั้นชุดตรวจที่ดีควรจะมีอัตราความผิดพลาดที่ต่ำทั้งสองแบบ
งานวิจัยเรื่อง The impact of visualization on flexible Bayesian reasoning ยกตัวอย่างการจัดการเรียนการสอนเกี่ยวกับการสอนเรื่องการวัดประสิทธิภาพของการตรวจโรคในนักศึกษาระดับปริญญาตรีด้วยแผนภาพสองแบบนั่นคือแผนภาพต้นไม้และแผนภาพโมเสก ให้กลุ่มที่หนึ่งดูแผนภาพต้นไม้ทางด้านซ้าย ในขณะที่กลุ่มที่สองดูแผนภาพโมเสกทางด้านขวา พร้อมทั้งให้เอกสารอธิบายวิธีการอ่านแผนภาพแต่ละแบบ แล้วตั้งคำถามกับนักศึกษาว่า “ในการทดสอบความแม่นยำของชุดตรวจโรคชุดหนึ่ง ทดสอบกับคน 1,000 คน ซึ่ง 90% เป็นคนที่ไม่ติดเชื้อ และ 10% ติดเชื้อ พบว่าได้ผลดังนี้ จงหาอัตราส่วนของคนที่ติดเชื้อในบรรดาคนที่ผลตรวจเป็น positive”
ผลคือสัดส่วนของนักศึกษาที่ตอบถูกในกลุ่มที่ดูแผนภาพโมเสกเยอะกว่ากลุ่มที่ดูแผนภาพต้นไม้อย่างมีนัยสำคัญ เพื่อตอบคำถามนี้ให้ถูกต้อง เราต้องหาจำนวนคนที่ผลตรวจเป็น positive ทั้งหมดก่อน ซึ่งคือ 90+80 คนเท่ากับ 170 คน และหาว่าในบรรดา 170 คนนี้มีคนที่ติดเชื้อจริงๆ เท่าไร ซึ่งคือ 80 คน ดังนั้นคำตอบที่ถูกต้องจึงเป็น 80/170 แต่ถ้ามองจากแผนภาพต้นไม้นักศึกษาบางคนอาจจะหลงไปตอบว่า 80/100 ทั้งที่จริงแล้ว 80/100 มันคืออัตราส่วนของคนที่ผลตรวจเป็น positive ในบรรดาคนที่ติดเชื้อต่างหาก ในขณะที่ถ้าเราดูจากแผนภาพโมเสกจะเห็นชัดเจนว่ามีคนติดเชื้อทั้งหมด 90+80 คน (บริเวณในกรอบสีแดง) ซึ่งในนั้นมีก้อนที่เป็นคนติดเชื้อเพียง 80 คนเท่านั้น (บริเวณที่แรเงาสีเหลือง)
งานวิจัยเรื่อง From research on Bayesian reasoning to classroom intervention ได้ออกแบบวิธีการสอนสร้างแผนภาพโมเสกให้กับนักเรียนชั้นมัธยม 5 โดยแบ่งเป็นสองกลุ่มย่อย ให้ทั้งสองกลุ่มทำข้อสอบ Pre-test กลุ่มหนึ่งมีการเสริมเรื่องการสร้างแผนภาพโมเสก ในขณะที่อีกกลุ่มหนึ่งไม่มี จากนั้นให้ทั้งสองกลุ่มมาทำข้อสอบ Post-test ที่มีคำถามคล้ายคลึงกับตอน Pre-test ผลคือคะแนนสอบ Post-test ของนักเรียนกลุ่มที่เรียนเรื่องการสร้างแผนภาพโมเสกนั้นสูงกว่ากลุ่มที่ไม่ได้เรียนมาอย่างมีนัยสำคัญ ทั้งที่คะแนน Pre-test ของทั้งสองกลุ่มนั้นใกล้เคียงกันมาก
การทดลองนี้ถูกทำซ้ำกับนักศึกษาปริญญาโทซึ่งเคยเจอโจทย์ในลักษณะนี้มาแล้ว ในแง่คะแนนจึงออกมาไม่แตกต่างกันนัก แต่ในแง่ของการใช้งานพบว่ามีนักศึกษาหลายคนที่ตอน Pre-test เลือกใช้แผนภาพต้นไม้ แต่หลังจากการผ่านการสอนเรื่องแผนภาพโมเสก พวกเขาเปลี่ยนมาใช้แผนภาพโมเสกแทน แม้จะเป็นโจทย์ที่คล้ายเดิม
โดยสรุปแล้วสิ่งที่เป็นแก่นข้อเดียวของการทำ Data Visualization คือการเข้าใจสามัญสำนึกเกี่ยวกับการรับรู้ของมนุษย์ และพยายามออกแบบการนำเสนอข้อมูลให้ตรงกับสามัญสำนึกนั้น ถ้าลองนึกดูดีๆ ไอเดียแรกเริ่มของแผนภูมิวงกลมหรือแผนภาพโมเสกก็คือการแสดงความมากน้อยด้วยพื้นที่ พื้นที่ใหญ่แปลว่ามีอัตราส่วนเยอะ พื้นที่เล็กแสดงว่ามีอัตราส่วนน้อย ลองนึกภาพว่ามันกลับกันสิ ถ้าเราแสดงกลุ่มที่มีอัตราส่วนนิดเดียวด้วยพื้นที่ที่ใหญ่ แสดงกลุ่มที่มีอัตราส่วนใหญ่ด้วยพื้นที่เล็กๆ ถ้าทำแบบนั้นจริงคงจะได้แผนภูมิที่ดูยากพิลึก เพราะมันขัดกับสามัญสำนึกเกี่ยวกับการรับรู้ของเรา
ดังนั้นแม้ตำราสอนทำ Data Visualization จะพูดอะไรที่ดูเจ๋งเท่แค่ไหน สิ่งที่ผู้เรียนควรนึกเอาไว้เสมอก็คือ ทั้งหมดเป็นการพยายามสกัดเอาสามัญสำนึกเกี่ยวกับการรับรู้ของมนุษย์ออกมา และตำราเหล่านั้นก็พูดได้เพียงแค่แนวทางหลักกว้างๆ เท่านั้น แต่สุดท้ายคนที่รู้จักข้อมูล รู้เป้าหมายของการนำเสนอ รู้จักคนฟัง และต้องเป็นคนตัดสินใจว่าควรนำเสนอข้อมูลด้วยวิธีการไหน คือตัวเราเอง
บทความ “El impacto de la visualización sobre el razonamiento Bayesiano flexible” จาก aiem.es (Online)
บทความ “From research on Bayesian reasoning to classroom intervention” จาก digibug.ugr.es (Online)
บทความ “Mosaic Plot” จาก jmp.com (Online)
บทความ “THE ISSUE WITH PIE CHART” data-to-viz.com จาก (Online)
เฟซบุ๊ก อาจวรงค์ ป๋องแป๋ง จันทมาศ (Online)