Normal Distribution — Why Is It Important

Central Limit Theorem and Standard Error of the Mean

Pawut Jingjit
3 min readSep 27, 2021

ในครั้งแรกที่เพื่อนๆเรียนวิชาสถิติ(Statistics) ตอน ม.ปลาย เพื่อนๆน่าจะเคยมีความสงสัยว่า ทำไมอะไรๆก็ Normal Distribution ไปหมด ไม่มี Distribution แบบอื่นแล้วหรือ?

แน่นอนว่า เพื่อนๆน่าจะเคยเห็น Distribution ที่ไม่ใช่ Normal Distribution บ่อยๆ เผลอๆเพื่อนๆ อาจจะคิดไม่ออกเลยว่า ตั้งแต่เกิดมา เราเคยเห็นข้อมูลชุดไหนที่เรียงตัวแบบ Normal Distribution พอดีบ้าง

เช่นนี้แล้ว ทำไม Normal Distribution ถึงมีความสำคัญนัก แล้วมันจะมีประโยชน์อะไรในชีวิตจริง ที่แทบจะไม่มีข้อมูลที่มี Distribution เช่นนี้อยู่เลย เพื่อนๆสามารถหาคำตอบนั้นได้ ในบทความนี้

TL;NR

  • ในชีวิตจริง เราแทบไม่เห็นข้อมูลที่มีเรียงเป็น Normal Distribution เลย
  • Probability ของ ค่าเฉลี่ยข้อมูลที่ผ่านการ Sampling จะเป็น Normal Distribution
  • Normal Distribution ที่ได้จากกระบวนการในข้อบน จะมี Mean = Population Mean และ S.D. = Population S.D. / Sqrt(n) โดย n เป็นจำนวนข้อมูลที่นำมา Sampling
  • มีโอกาส 95.4 ที่ค่า μ จะอยู่ในช่วง x̄ ± 2 Sampling S.D.

Central Limit Theorem

Code เป็นกราฟที่ได้จากการ สุ่มข้อมูลจำนวน m มาหาค่า mean กระทำซ้ำ 1,000 ครั้ง จะได้ค่า mean 1,000 ค่า แล้วนำไปพลอทเป็น Distribution โดย m มีค่า 1,10,50,100 จะสังเกตได้ว่า จะกลายเป็น Normal Distribution ทั้งหมด (ใครบอกว่า stat n>30 ในความเป็นจริง แค่ n= 10 ก็คล้ายๆ Normal แล้ว)

ไม่ว่าข้อมูลกลุ่มหนึ่ง จะมี Distribution เช่นใดก็ตาม ถ้าเราสุ่มข้อมูลนั้นมาจำนวน m ข้อมูล แล้วนำมาค่าเฉลี่ย จะได้ค่าเฉลี่ยหนึ่ง

ถ้าเราทำกระบวนการข้างต้นนั้น N ครั้ง เราจะได้ ค่าเฉลี่ยมา N ค่า

เมื่อ N -> ∞ และ เรานำค่าเฉลี่ยทั้ง N ค่า มา Plot Distribution แล้ว Distribution Graph ที่ Plot ได้ จะมีหน้าตาเข้าใกล้ Distribution หนึ่ง

เราจะเรียก Distribution ที่ได้จากขั้นตอนนี้ว่า “Normal Distribution”

หลังจากนี้ จะเรียก ข้อมูลกลุ่มใหญ่ว่า Population และเรียกข้อมูลกลุ่มที่สุ่มมาว่า Sampling

และแทน Population Mean = μ , Population S.D. = σ , Sampling Mean =x̄

ที่น่าสนใจคือ

  • ไม่ว่า Population จะมี Distribution เช่นใด จะได้ผลลัพท์เป็น Normal Distribution นี้เสมอ (เน้นมากๆ)
  • ไม่ว่า Sampling จะมี m เป็นเท่าใด Sampling Distribution จะมีค่า Mean เท่ากับ μ เสมอ
  • ยิ่ง m มีค่ามาก S.D.(Standard Deviation) ของ Sampling Distribution จะมีค่าลดลง

แน่นอนว่า ในชีวิตจริง เราย่อมไม่ทำ Sampling หลายครั้งขนาดนั้น เพื่อให้ได้ Normal Distribution แล้ว Normal Distribution นี้จะมีประโยชน์อย่างไร ?

บทกลับของ Normal Distribution

ภาพจาก spss-tutorials

เพราะเราทราบดีว่า เมื่อเป็น Normal Distribution แล้ว เมื่อสุ่มหยิบ ค่า 1 ค่า จาก Population แล้ว จะมีโอกาศ 95.4% ที่ x̄จะอยู่ในช่วง μ ± 2 S.D.

สามารถพูดในทางกลับกันได้ว่า เมื่อสุ่มหยิบ 1 ค่าจาก Population แล้ว จะมีโอกาศ 95.4% ที่ μ จะอยู่ในช่วง x̄ ± 2 S.D.

เพราะเป็น Normal Distribution ที่มี σ เท่ากัน จึงสามารถสรุปข้างต้นได้

โดยเพื่อนๆสามารถพิสูจน์ได้ ด้วยการ สุ่มจุดบน Distribution หนึ่งจุด แล้วเลื่อนแกน X ของ Distribution ไปให้มีศูนย์กลางอยู่ที่ x̄ แทน

สามารถอ่านวิธีพิสูจน์สวยๆได้ที่ Link นี้

เน้นว่า S.D. ในที่นี้ คือ S.D. ของ Sampling Distribution ไม่ใช่ S.D. ของ Population (σ)

Standard Error of the Mean (SE)

จากหัวข้อ Central Limit Theorem สังเกตได้ว่า เมื่อ m = 1 แล้ว Sampling Distribution S.D. ย่อมมีค่าเท่ากับ Population S.D.

และ เมื่อ m มีค่าเข้าใกล้จำนวน Population แล้ว Sampling Distribution S.D. จะมีค่าเข้าใกล้ 0 (คิดสภาพว่า Mean ทุกค่าที่ sampling มา จะมีค่า Mean เข้าใกล้ Population Mean)

ค่า Sampling Distribution S.D. จะบอกถึง ‘ความน่าเชื่อถือในข้อมูลที่ Sampling’ คือ จะมี ‘ค่ามาก’ เมื่อเรา Sampling ด้วย m น้อยๆ และมีค่าเข้าใกล้ 0 เมื่อ m เข้าใกล้จำนวน Population

‘ความน่าเชื่อถือในการ Sampling’ นี้ ถูกเรียกว่า Standard Error of the Mean(S.E.)

เราสามารถคำนวณค่า SE ได้จากสมการดังภาพ

สามารถอ่านวิธีพิสูจน์ง่ายๆได้ที่ https://en.wikipedia.org/wiki/Standard_error

Back to Real World

สมมุติว่าเพื่อนๆอยากทราบว่า “Anime เรื่องไหน มีคนชอบเยอะสุด” แน่นอนว่า เพื่อนๆไม่สามารถเรียกคนทั้งโลกที่เคยดู Anime มาถามได้

สิ่งที่ทำได้คือ “สุ่มเก็บข้อมูล” คนกลุ่มหนึ่ง แล้วหวังว่า คนกลุ่มนั้นจะสามารถเป็นตัวแทนของกลุ่มประชากรได้ เรียกว่าการ Sampling

จากหัวที่แล้วๆมา สามารถสรุปได้ว่า

มีโอกาส 95.4 ที่ค่า μ จะอยู่ในช่วง x̄ ± 2SE

หรือกลายเป็นประโยคที่เพื่อนๆได้ยินกัน “ด้วยความเชื่อมั่น 95.4% Anime ที่ดีที่สุด คือ FMA Brotherhood”

ที่น่าสนใจคือค่า SE หาได้จาก σ

ซึ่งแน่นอน เราต้องไม่ทราบค่านี้อยู่แล้ว (ถ้าทราบ σ เราคงไม่มานั่งทำ Central Limit Theorem เพื่อหา μ)

ในบทความนี้ เราสามารถโมเมไปก่อนว่า σ สามารถแทนได้ด้วย Sampling S.D. ได้เลย

เพราะถ้าเราเก็บข้อมูลมาเยอะพอ Sampling S.D. ย่อมมีค่าเข้าใกล้ σ อยู่แล้ว ซึ่งในอดีตก็ใช้แบบนี้กัน จนกระทั่งได้รู้จักกับ ‘Student-t’

สรุป

ถ้าเราอยากจะทราบค่าเฉลี่ยใดๆของประชากร เราไม่จำเป็นต้องเก็บข้อมูลทุกตัว เราสามารถ Sampling ข้อมูล แล้วสรุปได้ว่า

มีโอกาส 95.4 ที่ค่า μ จะอยู่ในช่วง x̄ ± 2 Sampling S.D.

ส่งท้าย

ถือว่าจบไปแล้วนะครับกับบทความนี้ หลายๆคนน่าจะสงสัยว่า ทำไมถึงไม่ตั้งชื่อบทความว่า “Central Limit Theorem” หรือ “Find Population Mean — 1 Sampling”

ต้องบอกว่า เจ้าของบทความสงสัยว่า “ในโลกนี้ มันมี Normal Distribution อยู่จริงๆหรือ ถ้าไม่มี แล้วจะเรียนไปทำไม” โดยหาข้อมูลระหว่างเขียนบทความไปเรื่อยๆ จนมาถึงตรงนี้ครับ

ส่วนใครงงๆว่า เขียนมาตั้งนาน ทำไมสรุปได้ในบรรทัดเดียว เจ้าของบทความคิดว่า

“ความสวยงามของเส้นทาง ไม่ได้อยู่ที่ปลายทาง แต่อยู่ที่ระหว่างการเดินทาง”

พบกันในบทความต่อๆไปนะครับ ในโอกาสหน้าจะมาเล่าถึง “การที่เราใช้ Sampling SD เป็น σ เลย มีปัญหาอย่างไร” แล้ว Student-t คือใคร

ขอขอบคุณเพื่อนๆที่อ่านมาถึงตรงนี้นะครับ ถ้าเพื่อนๆมีข้อสงสัยใด แม้แต่สงสัยว่า บรรทัดนี้เจ้าของบทความมั่วรึเปล่า สามารถเข้ามาคุยชิวๆได้ที่ Page นะครับ

Reference

https://en.wikipedia.org/wiki/Central_limit_theorem

https://www.lucid-trader.com/standard-deviation/standard-normal-distribution-with-probabilities/

https://www.thepexcel.com/stats-05-central-limit-theorem/

--

--

No responses yet