การวัดกระจายของข้อมูล

 2.5 การวัดการกระจายของข้อมูล

          ในการสรุปหรืออธิบายชุดข้อมูลโดยใช้ค่าสถิติ นอกจากการนำเสนอข้อมูลด้วยตาราง แผนภูมิและแผนภาพแล้ว ยังสามารถสรุปได้โดยใช้ค่ากลางชนิดต่าง ๆ ซึ่งถ้าพิจารณาให้ละเอียดจะเห็นว่า การทราบแต่เพียงค่ากลางของข้อมูลไม่เพียงพอที่จะอธิบายการแจกแจงของข้อมูลชุดนั้น ค่ากลางแต่ละชนิด มิได้บอกให้ทราบว่า ค่าจากการสังเกตทั้งหลายในข้อมูลชุดนั้นต่างจากค่ากลางมากน้อยเพียงใด และค่าส่วนใหญ่รวมกลุ่มกันหรือกระจายกันออกไป สมมุติว่าคะแนนสอบวิชาหนึ่งของนักเรียนสองห้อง ซึ่งใช้ข้อสองชุดเดียวกันมีค่าเฉลี่ยเลขคณิตเท่ากันคือ 67 คะแนน ห้องแรกมีคะแนนสูงสุด 72 คะแนน คะแนนต่ำสุด 62 คะแนน ส่วนห้องหลังมีคะแนนสูงสุด 97 คะแนน และคะแนนต่ำสุด 25 คะแนน จะเห็นว่าคะแนนสูงสุดกับคะแนนต่ำสุดของห้องแรกต่างกันเพียง 10 คะแนน แต่ห้องหลังคะแนนต่างกันถึง 72 คะแนน แสดงว่าคะแนนของห้องหลังมีการกระจายของคะแนนสูงกว่าคะแนนของห้องแรกมาก ซึ่งอาจกล่าวได้ว่านักเรียนห้องแรกส่วนใหญ่สอบได้คะแนนใกล้เคียงกัน แต่นักเรียนห้องหลังสอบได้คะแนนแตกต่างกัรมาก เพื่อให้เห็นลักษณะของข้อมูลชัดเจนขึ้นและสามารถได้ข้อสรุปเกี่ยวกับข้อมูลให้มากพอที่จะนำไปช่วยในการตัดสินใจบางอย่างได้ จึงจำเป็นต้องทราบทั้งค่ากลางและค่าแสดงการกระจายของข้อมูลด้วย

 

การกระจาย (Dispersion)

          ค่าการวัดการกระจายเป็นค่าสถิติที่อธิบายถึงการกระจายของข้อมูลในชุดข้อมูล ซึ่งการวัดการกระจายนี้อาจทำได้หลายลักษณะด้วยกัน ที่สำคัญคือการวัดการกระจายด้วยพิสัย ความแปรปรวน และส่วนเบี่ยงเบนมาตรฐาน การวัดการกระจายมีความสำคัญในลักษณะที่ทำให้ตัดสินใจเกี่ยวกับความเชื่อถือได้ของค่าวัดแนวโน้มสู่ส่วนกลางได้ดีมากขึ้นรวมทั้งสามารถเปรียบเทียบข้อมูลสองชุดได้ดีขึ้น

 

          2.5.5 พิสัย (Range)

          การทราบเพียงค่ากลางแต่ละชนิดไม่ได้บอกให้ทราบว่าค่าส่วนใหญ่อยู่รวมกลุ่มกันหรือกระจายกันออกไป แต่ถ้าทราบคะแนนสูงสุดและต่ำสุดของข้อมูลชุดนั้น จะบอกได้อย่างคร่าว ๆ ว่า ข้อมูลชุดนั้นมีการกระจายมากน้อยเพียงใด เช่น คะแนนสอบของนักเรียนสองกลุ่มซึ่งใช้ข้อสอบชุดเดียวกันในตัวอย่างต่อไปนี้

 

 

          จะเห็นว่า คะแนนสูงสุดกับคะแนนต่ำสุดของห้องแรกต่างกันเพียง 10 คะแนน แต่ห้องหลังต่างกัน 72 คะแนน กล่าวได้ว่า นักเรียนกลุ่มแรกส่วนใหญ่ได้คะแนนสอบใกล้เคียงกัน แต่นักเรียนกลุ่มที่สองได้คะแนนต่างกันมาก แสดงว่าข้อมูลที่เป็นคะแนนสอบของห้องที่สองมีการกระจายมากกว่ากลุ่มแรกมาก

          วิธีการวัดการกระจายของข้อมูลในตัวอย่างข้างต้น เป็นการวัดการกระจายของข้อมูลโดยใช้พิสัย

 

          การวัดการกระจายโดยใช้พิสัยนี้เป็นวิธีวัดการกระจายอย่างคร่าว ๆ เพราะค่าที่ได้ หามาจากค่าของข้อมูลเพียงสองค่าเท่านั้น ค่าอื่น ๆ ของข้อมูลไม่ได้นำมาใช้ในการคำนวณหาพิสัยเลย ดังนั้น ถ้าค่าของข้อมูลค่าใดค่าหนึ่งมีค่ามากหรือน้อนผิดปกติจากค่าของข้อมูลอื่น ๆ เช่น ค่าสังเกตที่ได้จากข้อมูลชุดหนึ่งมีดังนี้

                   10, 70, 71, 72, 73, 74, 75, 76, 77, 100

          พิสัยของข้อมูลชุดนี้ คือ 100 – 10 = 90 แต่ข้อมูลส่วนใหญ่จะมีค่าอยู่ระหว่าง 70-77 จะเห็นว่าการวัดการกระจายของข้อมูลชุดนี้โดยใช้พิสัยอาจทำให้ตีความได้คลาดเคลื่อน นอกจากนี้ในการเปรียบเทียบข้อมูลตั้งแต่สองชุดขึ้นไป เรายังไม่สามารถบอกได้ว่า ข้อมูลที่มีพิสัยเท่ากันจะต้องมีการกระจายของข้อมูลคล้ายกันหรือไม่ ดังตัวอย่างต่อไปนี้

          พิจารณาข้อมูลต่อไปนี้

1)              5, 7, 9, 11, 13, 15, 17

2)              5, 6, 7, 11, 15, 16, 17

3)              5, 5, 5, 11, 17, 17, 17

          จะเห็นว่า ข้อมูลทั้งสามชุดข้างต้นมีค่าเฉลี่ยเลขคณิต มัธยฐาน และพิสัยเท่ากัน การกระจายของข้อมูลชุดที่ 1) และ 2) ใกล้เคียงกัน แต่การกระจายของข้อมูลชุดที่ 3) ต่างจากข้อมูลทั้งสองชุดที่กล่าวมาค่อนข้างมาก

          การวัดการกระจายโดยใช้พิสัยมีข้อดีที่สามารถหาได้สะดวกและรวดเร็ว ส่วนใหญ่จึงมักใช้วัดการกระจายของข้อมูลในกรณีซึ่งไม่ต้องการความถูกต้องมากนัก

          นอกจากการวัดการกระจายที่กล่าวมาแล้วยังมีการวัดการกระจายโดยใช้วิธีอื่นอีกได้แก่การวัดการกระจายที่ใช้ค่ากลางของข้อมูลมาใช้ในการคำนวณดังนี้

          การวัดการกระจายที่จะกล่าวถึงต่อไปนี้เป็นการวัดการกระจายที่บอกให้ทราบว่าค่าจากการสังเกตแต่ละค่าต่างจากค่ากลาง (ซึ่งในที่นี้จะใช้ค่าเฉลี่ยเลขคณิต) มากน้อยเพียงใด

          พิจารณาข้อมูลสองชุดต่อไปนี้ ซึ่งมีค่าเฉลี่ยเลขคณิตเท่ากัน

 

ตัวอย่างที่ 4 พิจารณาแผนภาพต้น - ใบ ที่แสดงคะแนนสอบของนักเรียน 200 คน ที่มีคะแนนเต็ม 100 คะแนน ดังนี้

 

  2.5.3 ความสัมพันธ์ระหว่างการแจกแจงความถี่ ค่ากลาง และการกระจายของข้อมูล

          ลักษณะของการกระจายของข้อมูลอาจแบ่งได้เป็น 3 แบบ พิจารณาฮิสโทแกรมต่อไปนี้

รูปที่ (1) ลักษณะการกระจายของข้อมูลในแบบที่ (1) เป็นการกระจายแบบสมมาตร (symmetric distribution) ค่าเฉลี่ยเลขคณิต มัธยฐาน และฐานนิยม มีค่าเท่ากัน หรือยู่ที่จุดเดียวกันคือจุดที่มีความถี่สูงสุด

รูปที่ (2) เป็นการกระจายที่เบ้ทางขวา (righ-skewed distribution) แท่งสี่เหลี่ยมมุมฉากของฮิสโทแกรมที่มีความถี่น้อยและน้อยที่สุดอยู่ทางด้านขวา ค่าเฉลี่ยเลขคณิตจะมีค่ามากที่สุดรองลงมาเป็นมัธยฐาน และฐานนิยมตามลำดับ

รูปที่ (3) เป็นการกระจายเบ้ทางซ้าย (left-skewed distribution)  แท่งฮิสโทแกรมที่มีความถี่น้อยและน้อยที่สุดจะอยู่ทางด้านซ้าย ฐานนิยมจะมีค่ามากที่สุด รองลงมาเป็นมัธยฐาน และค่าเฉลี่ยเลขคณิตจะมีค่าน้อยที่สุด