อันนี้ก็เป็นข้อมูลด้วยเหรอ แล้วอะไรอีกบ้างคือข้อมูล

207 views
7 mins
May 1, 2024

          ในการเริ่มต้นเรียนเกี่ยวกับวิทยาศาสตร์ข้อมูล ผู้สอนมักจะเริ่มต้นจาก ชนิดของข้อมูล วิธีการเก็บข้อมูล การแสดงผลข้อมูล หรือการวิเคราะห์ข้อมูล แต่สิ่งที่มักถูกละเลยหรือถูกพูดถึงแค่ผ่านๆ คือ ความหมายของคำว่า ข้อมูล

          ถ้าอ้างอิงตามหนังสือเรียน ข้อมูล (data) หมายถึง “ข้อความจริงเกี่ยวกับเรื่องใดเรื่องหนึ่งที่สามารถใช้ในการสรุปผลในเรื่องที่สนใจศึกษา อาจเป็นได้ทั้งตัวเลขหรือไม่ใช่ตัวเลข หรืออาจหมายถึงค่าของตัวแปรที่สนใจศึกษา” หรือถ้าดูความหมายตามสำนักงานสถิติแห่งชาติ ข้อมูล คือ “ข้อเท็จจริงที่เกี่ยวกับเรื่องต่างๆ ซึ่งอาจเป็นข้อเท็จจริงที่เป็นตัวเลข เช่น จำนวนผู้ป่วยที่ติดเชื้อ HIV ในหมู่บ้าน ราคาของพืชผักและผลไม้ต่างๆ ในหมู่บ้าน หรืออาจเป็นข้อเท็จจริงที่ไม่ใช่ตัวเลข เช่น การศึกษา หรือ อาชีพของคนในหมู่บ้าน เป็นต้น”

          แม้แหล่งที่สองจะมีตัวอย่างให้เห็นสักหน่อย แต่ความหมายที่ทั้งสองแหล่งให้ไว้นั้นก็แทบจะไม่ต่างกัน ข้อมูล คือ ข้อเท็จจริงเกี่ยวกับเรื่องต่างๆ หากถามว่าข้อเท็จจริงที่ว่านี้คืออะไรบ้าง คำตอบก็คือ ‘ทุกอย่าง’

          ข้อมูลคือข้อเท็จจริงทุกอย่าง แต่ปัญหาคือขอบเขตของคำว่า ‘ทุกอย่าง’ สำหรับแต่ละคนนั้นไม่เท่ากัน เช่น ถ้าลองสุ่มคนสักคนขึ้นมา แล้วให้เราลองบอกข้อมูลเกี่ยวกับคนคนนี้ สิ่งแรกๆ ที่เรานึกถึงคงหนีไม่พ้น ชื่อ นามสกุล ส่วนสูง น้ำหนัก

          สิ่งเหล่านี้คือข้อมูลเกี่ยวกับคนคนนั้น หรืออาจจะมีที่เจาะจงขึ้นหน่อย เช่น ศาสนา หรือ ภูมิลำเนา แต่นั่นคือข้อมูลทั้งหมดเกี่ยวกับคนคนนั้นแล้วจริงหรือ คำตอบก็คือไม่ใช่ เพราะความเข้มข้นของเม็ดเลือดแดง ระดับคอเลสเตอรอล เงินเดือน หนี้สิน เหล่านี้ก็เป็นข้อมูลเหมือนกัน หรือถ้าจะเอาให้สุดกว่านั้น เมื่อเช้ากินอะไรมา เมื่อคืนนอนกี่ชั่วโมง ไปจนถึงหายใจเข้าออกกี่ครั้งตลอดชีวิต ทั้งหมดนี้ล้วนแต่เป็นข้อมูลทั้งสิ้น

          เมื่อทุกอย่างคือข้อมูล และข้อมูลคือทุกอย่าง ก่อนจะแยกประเภทของข้อมูลออกเป็นชนิดต่างๆ แบบที่หนังสือเรียนสถิติมักจะสอน สิ่งที่จำเป็นต้องทำก่อนคือการเลือกว่าข้อมูลไหนบ้างที่น่าสนใจ ข้อมูลไหนบ้างที่ไม่น่าสนใจ เช่นเวลาที่เราไปหาหมอ พยาบาลจะวัดส่วนสูง น้ำหนัก ความดัน วัดไข้ และเมื่อเข้าไปพบหมอ หมออาจจะถามอาการ ถามประวัติการรักษา โรคประจำตัว สิ่งเหล่านี้คือข้อมูลที่หมอต้องใช้ประกอบการวินิจฉัยโรค ในขณะที่ถ้าเราไปกู้เงิน ธนาคารคงไม่ได้อยากรู้ส่วนสูง น้ำหนัก ความดัน หรือพยายามจะวัดไข้เรา แต่อาจจะอยากรู้รายได้ รายจ่าย หรือหนี้สินของเรามากกว่า

          ดังนั้น แม้เราจะบอกว่าข้อมูลคือข้อเท็จจริงที่เกี่ยวกับเรื่องต่างๆ ซึ่งหมายถึงทุกอย่าง แต่การเลือกว่าเราจะสนใจข้อมูลไหนและไม่สนใจข้อมูลไหนนั้นขึ้นอยู่กับเป้าหมายว่าจะเอาข้อมูลนั้นไปใช้ทำอะไร

          สมมติว่าเราเปิดร้านขายของชำแล้วต้องการจะจัดโปรโมชันซื้อสินค้าเป็นคู่ในราคาที่ถูกลง เพื่อกระตุ้นการขายสินค้าที่ยอดขายไม่ดี แต่เรายังเลือกไม่ถูกว่าจะจัดโปรโมชันสินค้าชิ้นไหนบ้าง ข้อมูลแรกที่จะช่วยเราตัดสินใจเรื่องนี้อาจจะเป็นยอดขายของสินค้าแต่ละอย่าง ข้อมูลพวกนี้เก็บไม่ยาก ถ้าเราต้องนับสต็อกสินค้าแต่ละวันอยู่แล้ว ก็จะรู้ได้ว่าสินค้าไหนขายดีและสินค้าไหนขายไม่ออก เราก็จะสามารถเอาข้อมูลพวกนี้มาออกแบบเป็นโปรโมชันขายคู่ได้ เช่น ถ้าเราพบว่าสินค้า A นั้นขายดีมากๆ ในขณะที่สินค้า B นั้นขายไม่ค่อยออก เราก็จัดโปรโมชันซื้อสินค้า A คู่กับ B แล้วลดราคาพิเศษไปเลย

อันนี้ก็เป็นข้อมูลด้วยเหรอ แล้วอะไรอีกบ้างคือข้อมูล

          ทุกอย่างฟังดูดี จนกระทั่งไปลองทำจริงแล้วพบว่า สินค้าที่ขายดีที่สุดของร้านคือน้ำเปล่า ส่วนที่ขายไม่ดีเลยคือถุงขยะ กลายเป็นว่าโปรโมชันที่เราจะจัดคือ ‘ซื้อน้ำเปล่าคู่กับถุงขยะในราคาพิเศษ’ แค่ฟังก็รู้สึกแปลกแล้ว เพราะคนที่มาซื้อน้ำเปล่าน่าจะเป็นคนที่เดินผ่านไปมา แล้วแวะหาน้ำดื่มแก้กระหาย ส่วนคนที่ซื้อถุงขยะเป็นปกติคือลูกค้ากลุ่มแม่บ้านพ่อบ้าน ซึ่งเป็นคนละกลุ่มกัน การจัดโปรโมชันแบบนี้อาจจะไม่เวิร์ก ดังนั้นสิ่งที่เราต้องคิดอาจจะไม่ใช่แค่ อะไรขายดี อะไรขายไม่ดี แต่ต้องดูด้วยว่าส่วนใหญ่แล้ว คนจะซื้อสินค้าอะไรพร้อมกับอะไร

          Market basket analysis หรือการวิเคราะห์ตะกร้า เป็นหนึ่งในเครื่องมือที่นักการตลาดใช้ในการวิเคราะห์พฤติกรรมของลูกค้า หลักการของมันคือการหาความสัมพันธ์ระหว่างสินค้าที่ลูกค้ามักจะซื้อด้วยกัน นอกเหนือไปจากกรณีที่ความสัมพันธ์ระหว่างสินค้านั้นชัดเจน เช่น คนมักจะซื้อเค้กวันเกิดคู่กันกับเทียน ซึ่งเราไม่ต้องวิเคราะห์อะไรมากก็สามารถระบุได้

          การวิเคราะห์ตะกร้าจะทำให้ผู้ขายค้นพบความสัมพันธ์ที่อาจจะไม่เคยคาดคิดมาก่อน เช่น เราอาจจะไม่เคยรู้มาก่อนว่าลูกค้าคนหนึ่งที่เข้าร้านของเรามักจะซื้อถุงขยะพร้อมกับน้ำมันพืช ข้อค้นพบนี้ช่วยให้เราออกแบบโปรโมชันขายคู่ได้อย่างมีประสิทธิภาพมากขึ้น แทนที่เขาจะซื้อแค่น้ำมันพืชอย่างเดียว โปรโมชันนี้อาจจูงใจให้เขาซื้อถุงขยะติดมือกลับไปด้วยก็ได้ ไม่ใช่แค่นั้น แต่ Market basket analysis ยังถูกเอาไปประยุกต์ใช้เพื่อออกแบบการวางตำแหน่งสินค้าต่างๆ ในร้าน มีงานวิจัยที่ทดลองจัดสินค้าตามความสัมพันธ์โดยโยกสินค้าที่มีแนวโน้มว่าคนจะซื้อด้วยกันมาวางไว้ใกล้ๆ กัน ผลลัพธ์ที่ได้คือยอดขายของสินค้าเหล่านี้เพิ่มขึ้นอย่างมาก

          แต่การทำ Market basket analysis นั้น ต้องอาศัยข้อมูลที่มากกว่าสต็อกสินค้าในแต่ละวัน การจะวิเคราะห์อย่างนี้ได้ ต้องใช้ข้อมูลการซื้อของลูกค้าแต่ละคนว่าซื้ออะไรบ้าง ถ้าเป็นร้านของชำทั่วไปก็อาจต้องเก็บข้อมูลเพิ่มเติม แทนที่จะนับแค่ยอดขายในแต่ละวัน คนขายอาจต้องจดบันทึกว่าลูกค้าคนไหนซื้ออะไรบ้าง แต่ถ้าเป็นร้านสะดวกซื้อในปัจจุบันที่ใช้การสแกนบาร์โค้ดคิดราคาสินค้า ข้อมูลพวกนี้ก็จะถูกเก็บอยู่ในระบบอยู่แล้ว ขึ้นอยู่กับว่าจะมีใครมองเห็นว่ามันเป็นข้อมูลที่น่าเอามาใช้ประโยชน์หรือไม่ หรือพูดอีกอย่างคือ นิยามที่ว่า ‘ข้อมูล คือทุกอย่างของคนคนนั้น’ ครอบคลุมมาถึงตรงนี้ด้วยหรือเปล่านั่นเอง

อันนี้ก็เป็นข้อมูลด้วยเหรอ แล้วอะไรอีกบ้างคือข้อมูล
Photo: ScienceDirect

          ความพึงพอใจของลูกค้าหรือผู้ใช้บริการเป็นอีกหนึ่งในข้อมูลที่เจ้าของกิจการอยากรู้ ไม่ว่าจะเป็นความพึงพอใจต่อการบริการ การแสดง ร้านอาหาร ไปจนถึงห้องน้ำ เพราะมันจะช่วยให้เราสามารถปรับปรุงสินค้าหรือบริการของเราได้ถูกจุด แต่เนื่องจากความพึงพอใจเป็นของนามธรรม นับไม่ได้ วัดก็ไม่ได้ ข้อมูลความพึงพอใจจึงมักจะอยู่ในรูปของแบบสอบถามซึ่งเต็มไปด้วยอุปสรรคมากมาย แค่เรื่องคนไม่ค่อยอยากตอบแบบสอบถามก็เป็นด่านแรกที่แก้กันได้ยากแล้ว ลองนึกถึงสมัยที่สมาร์ตโฟนยังไม่แพร่หลาย ร้านอาหารบางแห่งมีกระดาษแผ่นเล็กๆ ให้เราประเมินความพึงพอใจ แต่ส่วนใหญ่เราก็ไม่ทำอยู่ดีเพราะขี้เกียจ ขนาดทุกวันนี้มีวิธีสแกนคิวอาร์โค้ด บางทีเรายังขี้เกียจทำเลย บางที่พยายามทำให้วิธีการง่ายขึ้น อย่างช่วงหนึ่งที่รถเมล์บางสายพยายามจะให้ผู้โดยสารเอาตั๋วมาหย่อนลงกล่องก่อนลงจากรถเพื่อประเมินความพึงพอใจ หรือบางที่ก็ใช้วิธีลุ้นรางวัลเพื่อกระตุ้นให้คนอยากตอบ

          เมื่อผ่านด่านนี้มาได้ ก็ต้องมาเจอกับด่านที่สอง คือการตอบคำถามแบบมั่วๆ ตอบส่งๆ ให้เสร็จเพื่อจะลุ้นรางวัล และตามมาด้วยด่านสุดท้าย ก็คือการตอบแบบสอบถามที่ไม่ตรงตามความเป็นจริง ในทางสถิติเราเรียกเหตุการณ์นี้ว่า response bias ที่มักเกิดขึ้นโดยที่ผู้ตอบแบบสอบถามก็ไม่รู้ตัว เช่น คนมักจะตอบแบบสอบถามในแบบที่ดูดีเกินจริง ตอบแบบตามมาตรฐานสังคม หรือตอบแบบไม่สุดโต่งนัก เพราะกลัวว่าผู้อ่านจะรู้สึกไม่ดี ซึ่งสิ่งนี้ทำให้ข้อมูลที่เราได้ไม่ได้สะท้อนความเป็นจริง เอาไปวิเคราะห์เพื่อปรับปรุงอะไรต่อไม่ได้มากอยู่ดี

อันนี้ก็เป็นข้อมูลด้วยเหรอ แล้วอะไรอีกบ้างคือข้อมูล

          ไม่ใช่แค่ในโลกออฟไลน์ แต่แอปพลิเคชันที่สร้างสังคมออนไลน์ก็อยากจะรู้ใจเราเหมือนกัน เพราะเป้าหมายของแอปเหล่านี้คือการทำให้เราอยู่ในแอปของเขานานที่สุด เพื่อจะได้ดูโฆษณาให้มากที่สุด ดังนั้นอัลกอริทึมจึงต้องถูกพัฒนาขึ้นเพื่อเลือกสิ่งที่เราน่าจะสนใจขึ้นมาแสดงบนหน้า news feed ของเรา และไม่เอาสิ่งที่เราไม่สนใจขึ้นมาแสดง หลักฐานที่ชัดเจนที่สุดของเรื่องนี้คือถ้าเราลองไปดู news feed ของเพื่อน จะพบว่ามันไม่เหมือนกับของเราเลยสักนิด ราวกับว่าเล่นกันอยู่คนละแอป นั่นเพราะมันถูกเลือกมาแล้วว่าจะทำให้ผู้ใช้งานแต่ละคนพอใจ คำถามคือ แล้วแอปพลิเคชันพวกนี้รู้ได้อย่างไรว่าเราสนใจอะไร

          คิดแบบตรงไปตรงมาที่สุดก็คือการทำแบบสอบถาม บางคนอาจจะเคยเห็นแอปพลิเคชันที่ถามเราตอนสมัครว่ามีไลฟ์สไตล์แบบไหน ชอบดูอะไร แต่ก็อย่างที่เล่าไปแล้วว่า บางทีคำถามเหล่านี้ก็ไม่ได้คำตอบที่จริงนัก บางคนไม่รู้ด้วยซ้ำว่าจริงๆ แล้วตัวเองชอบดูโพสต์แบบไหน ดังนั้นแอปพลิเคชันจึงต้องหาข้อมูลอื่นมาใช้แทน ไอเดียแรกที่น่าสนใจคือการปฏิสัมพันธ์ เช่น การกดไลก์ คอมเมนต์ หรือแชร์โพสต์แบบไหนที่คนมีปฏิสัมพันธ์ด้วยก็น่าจะแปลว่าเขาชอบ ดังนั้นถ้าแอปพลิเคชันเอาข้อมูลการปฏิสัมพันธ์รูปแบบต่างๆ มาวิเคราะห์แล้วเลือกโพสต์ที่ใกล้เคียงกันมาก็น่าจะตรงกับความสนใจของเรา

          อ้างอิงจากเอกสารภายในที่หลุดมาของ Facebook ในช่วงแรก การกด reaction อื่นๆ เช่น โกรธหรือหัวเราะนั้นจะถูกนับแต้มความสนใจมากกว่าการกดไลก์ ถึง 5 เท่า เพราะผู้พัฒนาแอปพลิเคชันมองว่าการกด reaction อื่นๆ นั้นแสดงถึงความรู้สึกร่วมที่พลุ่งพล่านมากกว่า เพราะมันต้องกดปุ่มที่ซับซ้อนกว่าไลก์ แต่ปรากฏว่า Facebook คิดผิด เพราะกลายเป็นว่าในความเป็นจริงผู้คนใช้ปุ่มโกรธเพื่อกดให้กับข่าวหรือโพสต์ที่ตนเองไม่ชอบ แต่เมื่อแอปมันเข้าใจว่ากดโกรธแปลว่าให้ความสนใจ มันก็จะพยายามเสิร์ฟเนื้อหาพวกนี้ขึ้นมาให้ผู้ใช้อีก ซึ่งไม่ส่งผลดีอย่างแน่นอน ภายหลัง Facebook จึงได้ลดค่าคะแนนความสนใจของการกดโกรธเหลือแค่ 0 คะแนน นั่นคือไม่รุนแรงเท่ากับการกดซ่อนโพสต์แต่ก็ไม่ได้แต้มบวก

อันนี้ก็เป็นข้อมูลด้วยเหรอ แล้วอะไรอีกบ้างคือข้อมูล

          ถ้าลองคิดไปให้ไกลกว่านั้น บางครั้งเราก็ไม่ได้กดไลก์ทุกโพสต์ที่เราชื่นชอบ โดยเฉพาะอย่างยิ่งกับแอปพลิเคชัน Instagram เพราะมันจะไปแจ้งเตือนให้อีกฝ่ายหรือคนอื่นที่ผ่านไปผ่านมารู้ว่าเรากำลังส่องอะไรอยู่ บางคนคาดเดาว่า Instagram ใช้ข้อมูลช่วงเวลาที่เราค้างหน้าจอไว้ที่ภาพนั้นหรือการซูมภาพ มาประกอบการเลือกเนื้อหาที่เราสนใจ ไอเดียนี้ดูน่าสนใจกว่าการเก็บข้อมูลโพสต์ที่เรากดไลก์ เพราะการที่เราหยุดอยู่ที่รูปนั้นนานๆ แถมยังซูมอีก น่าจะแสดงถึงความสนใจเนื้อหาทำนองนั้นเป็นอย่างมาก

          ทุกวันนี้เรามีเทคโนโลยีก้าวหน้าขึ้นกว่าเมื่อก่อนมาก กรอบความเป็นไปได้ของคำว่าทุกอย่างในนิยามของข้อมูลก็ยิ่งกว้างขึ้น อย่างเมื่อไม่นานมานี้ที่มีคนเสนอไอเดียให้ใช้เทคโนโลยีตรวจจับคนจากภาพกล้องวงจรปิดในร้านกาแฟเพื่อดูว่าพนักงานแต่ละคนเดินไปเดินมาในร้านหรือแอบอู้ด้วยการยืนเฉยๆ เป็นเวลานานเท่าไร นี่ก็คือการขยายกรอบความเป็นไปได้ของข้อมูลเช่นกัน ทุกวันนี้เราสามารถประเมินพื้นที่การเกษตรได้จากข้อมูลภาพถ่ายทางอากาศ ตรวจวัดกระแสของสังคมต่อประเด็นต่างๆ ได้จากข้อมูลข้อความใน Twitter หรือแม้แต่การเก็บข้อมูลคลื่นเสียงไอของคนไข้เพื่อเอามาวิเคราะห์โรค ทั้งหมดนี้คือข้อมูล และสิ่งพวกนี้ไปไกลเกินจากภาพข้อมูลที่บางคนจินตนาการถึง หลายครั้งที่ข้อมูลพวกนี้ถูกเก็บไว้อยู่แล้ว เพียงแต่ไม่มีใครมองเห็นว่ามันจะเป็นข้อมูลที่เอามาใช้ทำอะไรได้ จนมันถูกทิ้งไว้เฉยๆ อย่างนั้น

          ดังนั้นการมองหาความเป็นไปได้ของข้อมูลที่ไกลกว่าที่เราคุ้นเคย เพื่อนำมาใช้ตอบคำถามที่เราอยากรู้หรือแก้ปัญหาที่เราเผชิญอยู่ให้ดีที่สุดนั้น เป็นสิ่งที่สำคัญพอๆ กับวิธีการเก็บ การนำเสนอ หรือการวิเคราะห์ข้อมูลซึ่งมักถูกสอนในวิชาสถิติเบื้องต้นเสียด้วยซ้ำ

วิดีโอบันทึกภาพจากกล้องวงจรปิดในร้านกาแฟที่ใช้ดูการทำงานของพนักงาน


ที่มา

บทความ “What is market basket analysis?” จาก techtarget.com (Online)

บทความ “How the Instagram Algorithm Works in 2024: Everything You Need to Know” จาก buffer.com (Online)

บทความ “Likes, anger emojis and RSVPs: the math behind Facebook’s News Feed — and how it backfired” จาก cnn.com (Online)

บทความ “More internal documents show how Facebook’s algorithm prioritized anger and posts that triggered it” จาก niemanlab.org (Online)

บทความ “Why Facebook Reactions Affect Your Page Visibility?” จาก kontra.agency (Online)

บทความ “Researchers create an AI microphone that listens for coughs and sneezes in public spaces to predict how many people have respiratory illnesses at any given time even if they haven’t been to a doctor for treatment” จาก dailymail.co.uk (Online)

RELATED POST

แหล่งชุมนุมความคิดเรื่องพื้นที่สาธารณะเพื่อการเรียนรู้
และห้องสมุดกับการเปลี่ยนแปลงสังคม

                                                                                            

PDPA Icon

The KOMMON มีการใช้คุกกี้ เพื่อเก็บข้อมูลการใช้งานเว็บไซต์ไปวิเคราะห์และปรับปรุงการให้บริการที่ดียิ่งขึ้น คุณสามารถศึกษารายละเอียดได้ที่ นโยบายความเป็นส่วนตัว และสามารถจัดการความเป็นส่วนตัวเองได้ของคุณได้เองโดยคลิกที่ ตั้งค่า

Privacy Preferences

คุณสามารถเลือกการตั้งค่าคุกกี้โดยเปิด/ปิด คุกกี้ในแต่ละประเภทได้ตามความต้องการ ยกเว้น คุกกี้ที่จำเป็น

อนุญาตทั้งหมด
Manage Consent Preferences
  • คุกกี้ที่จำเป็น
    Always Active

    ประเภทของคุกกี้มีความจำเป็นสำหรับการทำงานของเว็บไซต์ เพื่อให้คุณสามารถใช้ได้อย่างเป็นปกติ และเข้าชมเว็บไซต์ คุณไม่สามารถปิดการทำงานของคุกกี้นี้ในระบบเว็บไซต์ของเราได้

  • คุกกี้สำหรับการวิเคราห์

    คุกกี้นี้เป็นการเก็บข้อมูลสาธารณะ สำหรับการวิเคราะห์ และเก็บสถิติการใช้งานเว็บภายในเว็บไซต์นี้เท่านั้น ไม่ได้เก็บข้อมูลส่วนตัวที่ไม่เป็นสาธารณะใดๆ ของผู้ใช้งาน

บันทึก