การใช้ค่า P-value ผิดวิธีในงานวิจัย (ฉบับชีวกลศาสตร์การกีฬา)


🎯 รองเท้าจริงๆ หรือ 
🎲 แค่ความบังเอิญ?

จินตนาการสถานการณ์นี้:

คุณเป็นโค้ชวิ่ง และสงสัยว่า "รองเท้าวิ่งรุ่นใหม่ทำให้นักกีฬาวิ่งเร็วขึ้นจริงหรือ?"

คุณให้นักกีฬา 10 คนใส่รองเท้ารุ่นใหม่แล้ววิ่ง พบว่าเร็วขึ้นเฉลี่ย 0.3 วินาที

คำถามคือ: ความเร็วที่เพิ่มขึ้นนี้เกิดจาก:

นี่คือที่มาของ P-value!

P-value ตอบคำถามว่า:

"ถ้ารองเท้าไม่มีผลจริงๆ (null hypothesis:H0) แล้วเราจะได้ผลลัพธ์ดีขนาดนี้โดยบังเอิญบ้างไหม?"

P-value = 0.03 (3%) หมายความว่า ถ้ารองเท้าไม่มีผลจริง โอกาสที่จะได้ผลลัพธ์ดีขนาดนี้โดยบังเอิญมีแค่ 3%

P-value = 0.60 (60%) หมายความว่า ถ้ารองเท้าไม่มีผลจริง โอกาสที่จะได้ผลลัพธ์แบบนี้โดยบังเอิญมีถึง 60% (เกิดบ่อยมาก!)

กฎทั่วไป: ถ้า p-value < 0.05 (5%) เราถือว่า "น่าจะไม่ใช่ความบังเอิญ" แต่ไม่ได้แปลว่า "พิสูจน์แล้ว"

ค่า P-value คืออะไร? (คำจำกัดความ)

ค่า P-value คือความน่าจะเป็นที่จะได้ผลลัพธ์ที่รุนแรง (หรือมากกว่า) เท่ากับที่สังเกตได้ โดยสมมติว่าสมมติฐานหลัก (H0: null hypothesis = ไม่มีผล) เป็นจริง

4 ปัญหาหลักของการใช้ค่า P-value ผิดวิธี

1. เน้นความมีนัยสำคัญทางสถิติมากเกินไป (Overemphasis on significance)

นักวิจัยมักจะสนใจแค่ว่า p-value < 0.05 หรือไม่

แต่ลืมดู effect size (ขนาดของผลกระทบ) และความสำคัญในทางปฏิบัติ

ตัวอย่างชีวกลศาสตร์การกีฬา:

การศึกษาพบว่าการสวมอุปกรณ์ค้ำยันหัวเข่าลดแรงกระแทกที่ข้อเข่าอย่างมีนัยสำคัญทางสถิติ (p = 0.001)

แต่ลดได้เพียง 0.5% ของแรงทั้งหมด

✅ มีนัยสำคัญทางสถิติ ❌ แต่ไม่มีประโยชน์จริงในการป้องกันการบาดเจ็บ

2. P-hacking (การโกงค่า P)

บิดเบือนข้อมูลหรือเงื่อนไขการทดลอง เพื่อให้ได้ p-value ที่มีนัยสำคัญ

ตัวอย่างชีวกลศาสตร์การกีฬา:

นักวิจัยศึกษาผลของโปรแกรมฝึกกระโดดต่อแรงระเบิด (power output)

วัดผลลัพธ์ 15 ตัว: ความสูงกระโดด, peak force, rate of force development, ความเร็วเชิงมุมข้อเข่า, ข้อสะโพก, ข้อเท้า ฯลฯ

เลือกรายงานเฉพาะตัวที่ p < 0.05 เช่น "ความเร็วเชิงมุมข้อเท้าเพิ่มขึ้นอย่างมีนัยสำคัญ"

ซ่อน ตัวแปรอื่น 14 ตัวที่ไม่มีนัยสำคัญ

เปรียบเทียบ: เหมือนนักยิงธนูยิง 100 นัด แล้วเอาเป้าไปวางตรงรอยที่โดนเอง แล้วบอกว่า "ผมยิงเป๊ะกระดาน!"

3. การตีความผิด (Misinterpretation)

ความเข้าใจผิดที่พบบ่อย:

❌ ผิด: p = 0.02 แปลว่า "พิสูจน์แล้วว่าเทคนิคการวิ่งแบบใหม่ดีกว่า"

✅ ถูก: p = 0.02 แปลว่า "ถ้าเทคนิคนี้ไม่มีผลจริง โอกาสที่จะเห็นความแตกต่างมากขนาดนี้มีแค่ 2%"

❌ ผิด: p = 0.30 แปลว่า "ยืนยันแล้วว่าท่าสควอตแบบ A และ B เหมือนกัน"

✅ ถูก: p = 0.30 แปลว่า "เราไม่มีหลักฐานเพียงพอที่จะบอกว่าต่างกัน (อาจเป็นเพราะตัวอย่างน้อยเกินไป)"

ตัวอย่างชีวกลศาสตร์การกีฬา:

ทดสอบมุมเข่าที่ดีที่สุดในการปั่นจักรยาน ระหว่าง 25° vs 35°

ผลคือ p = 0.25 (ไม่มีนัยสำคัญ)

ไม่ได้หมายความว่า "ทั้งสองมุมเหมือนกันจริงๆ"

แต่หมายความว่า "การศึกษานี้ไม่สามารถแยกความแตกต่างได้" (อาจต้องเพิ่มจำนวนตัวอย่าง)

4. ละเลยบริบท (Ignoring context)

ไม่พิจารณางานวิจัยก่อนหน้า หลักฐานเดิมที่มี เช่นงานวิจัยก่อนหน้านั้นมีแนวโน้มไปในทิศทางเดียวกัน แต่งานวิจัยของคุณกลับได้ผลลัพธ์ที่แตกต่างออกไป เราสามารถสรุปว่างานวิจัยของเราเป็นองค์ความรู้ใหม่ได้หรือไม่อันนี้ก็ตอบยากเช่นกัน

ไม่คำนึงถึงการออกแบบการวิจัย ขนาดตัวอย่าง คุณภาพข้อมูล

ตัวอย่างชีวกลศาสตร์การกีฬา:

สถานการณ์ A: การศึกษา "ท่าลงสู่พื้นที่ปลอดภัย Safety Landing" ในนักกระโดดสูง

ตัวอย่าง: 8 คน (นักกีฬาสมัครเล่น)

อุปกรณ์: แผ่นวัดแรง 1 แผ่น

ได้ p = 0.04 ✓

สถานการณ์ B: การศึกษาเดียวกัน

ตัวอย่าง: 120 คน (นักกีฬาระดับชาติ)

อุปกรณ์: ระบบ motion capture 3 มิติ + force plate 4 แผ่น

ทำซ้ำใน 3 ห้องแล็บ

ได้ p = 0.04 ✓

คำถาม: P-value เท่ากัน แต่งานไหนน่าเชื่อถือกว่า? แน่นอนว่า B!

📊 Effect Size (ขนาดของผลกระทบ) คืออะไร?

ความหมาย

Effect Size คือตัวเลขที่บอกว่า "ความแตกต่างมีขนาดใหญ่แค่ไหน" หรือ "แรงของความสัมพันธ์มากแค่ไหน" โดยไม่ขึ้นกับจำนวนตัวอย่าง

เปรียบเทียบ:

P-value บอกว่า "ความแตกต่างน่าจะเป็นจริง (ไม่ใช่ความบังเอิญ) หรือไม่"

Effect Size บอกว่า "ความแตกต่างนั้นใหญ่แค่ไหน และมีความหมายในทางปฏิบัติไหม"

ตัวอย่างจากชีวกลศาสตร์การกีฬา

สถานการณ์: เปรียบเทียบแรงกระแทกเวลาลงจอดระหว่าง 2 เทคนิค

การศึกษา กลุ่ม A (N) กลุ่ม B (N) ความแตกต่าง     P-value         Effect Size

งานวิจัย 1 2,500 N         2,450 N         50 N (2%)     0.001***         d = 0.15 (เล็ก)

งานวิจัย 2 2,500 N         2,000 N         500 N (20%)     0.03*             d = 1.2 (ใหญ่มาก)

สังเกตว่า:

งานวิจัย 1: p-value ต่ำมาก (0.001) แต่ Effect Size เล็ก → ความแตกต่างน่าเชื่อถือแต่ไม่สำคัญในทางปฏิบัติ

งานวิจัย 2: p-value สูงกว่า (0.03) แต่ Effect Size ใหญ่ → ความแตกต่างมีนัยสำคัญทั้งทางสถิติและทางปฏิบัติ

วิธีการคำนวณ Effect Size

1️⃣ Cohen's d (สำหรับเปรียบเทียบค่าเฉลี่ย 2 กลุ่ม)

สูตร:

d = (M₁ - M₂) / SD_pooled

โดยที่:

  • M₁ = ค่าเฉลี่ยของกลุ่ม 1
  • M₂ = ค่าเฉลี่ยของกลุ่ม 2
  • SD_pooled = ส่วนเบี่ยงเบนมาตรฐานรวม

การคำนวณ SD_pooled:

        SD_pooled = √[(SD₁² + SD₂²) / 2]

ตัวอย่างคำนวณ:

การทดสอบความสูงกระโดดก่อนและหลังฝึก 8 สัปดาห์

ข้อมูล:

  • กลุ่มก่อนฝึก: ค่าเฉลี่ย (M₁) = 40 cm, SD₁ = 5 cm
  • กลุ่มหลังฝึก: ค่าเฉลี่ย (M₂) = 48 cm, SD₂ = 6 cm

ขั้นตอนที่ 1: คำนวณ SD_pooled

        SD_pooled = √[(5² + 6²) / 2]

         = √[(25 + 36) / 2]

         = √[61 / 2]

         = √30.5

         = 5.52 cm

ขั้นตอนที่ 2: คำนวณ Cohen's d

        d = (48 - 40) / 5.52

              = 8 / 5.52

               = 1.45

การแปลผล:

d = 0.2 = Effect Size เล็ก (ความแตกต่างน้อย)

d = 0.5 = Effect Size ปานกลาง

d = 0.8 = Effect Size ใหญ่

d = 1.45 = Effect Size ใหญ่มาก! (โปรแกรมฝึกมีประสิทธิภาพสูง)

2️⃣ Eta Squared (η²) หรือ Partial Eta Squared (ηp²) (สำหรับ ANOVA)

สูตร:

                η² = SS_effect / SS_total

โดยที่:

                SS_effect = Sum of Squares ของตัวแปรที่สนใจ

                SS_total = Sum of Squares ทั้งหมด

ตัวอย่าง:

เปรียบเทียบ peak torque ของหัวเข่า 3 กลุ่มนักกีฬา (นักวิ่ง, นักปั่นจักรยาน, นักว่ายน้ำ)

จาก ANOVA ได้:

             SS_effect (ระหว่างกลุ่ม) = 1,200

             SS_total = 4,000

            η² = 1,200 / 4,000 = 0.30 (30%)

การแปลผล:

                 η² = 0.01 = Effect Size เล็ก (1% ของความแปรปรวน)

                 η² = 0.06 = Effect Size ปานกลาง (6%)

                 η² = 0.14 = Effect Size ใหญ่ (14% ขึ้นไป)

                 η² = 0.30 = Effect Size ใหญ่มาก! (ประเภทกีฬาอธิบายความแปรปรวน 30%)

3️⃣ Pearson's r (สำหรับความสัมพันธ์)

สูตร:

        r = Covariance(X,Y) / (SD_x × SD_y)

ตัวอย่าง:

ศึกษาความสัมพันธ์ระหว่าง แรงกล้ามเนื้อต้นขา (Quadriceps) กับ ความสูงกระโดดแนวตั้ง

ผลการวิเคราะห์:

                     r = 0.75

การแปลผล:

                     r = 0.10 = ความสัมพันธ์อ่อนมาก

                     r = 0.30 = ความสัมพันธ์ปานกลาง

                     r = 0.50 = ความสัมพันธ์สูง

                     r = 0.75 = ความสัมพันธ์สูงมาก!

ความหมาย: r² = 0.75² = 0.56 → แรงกล้ามเนื้ออธิบายความสูงกระโดดได้ 56%

ตารางสรุปการแปลผล Effect Size

👥 Sample Size (ขนาดตัวอย่าง) คืออะไร?

ความหมาย

Sample Size (n) คือจำนวนคนหรือหน่วยที่เราศึกษาในการวิจัย

ทำไม Sample Size ถึงสำคัญ?

ตัวอย่างน้อยเกินไป → ผลลัพธ์ไม่น่าเชื่อถือ ง่ายต่อการเกิดความผิดพลาดจากความบังเอิญ

ตัวอย่างมากเกินไป → เสียเวลา ค่าใช้จ่าย และอาจทำให้ผลที่ไม่สำคัญกลายเป็นมีนัยสำคัญทางสถิติ

ตัวอย่างพอดี → ได้ข้อสรุปที่น่าเชื่อถือและคุ้มค่า

ความสัมพันธ์ระหว่าง Sample Size กับ P-value

กฎสำคัญ: เมื่อเพิ่ม Sample Size → P-value มักจะลดลง (แม้ Effect Size จะเท่าเดิม)

ตัวอย่าง: ทดสอบรองเท้าวิ่งรุ่นใหม่ ทำให้เร็วขึ้น 0.1 วินาที (Effect Size เล็ก)

สังเกต: ความแตกต่างเท่าเดิม (0.1 วินาที) แต่ตัวอย่างมากขึ้น → p-value ลดลง

ข้อควรระวัง: แม้ p < 0.05 แต่ 0.1 วินาทีอาจไม่สำคัญในทางปฏิบัติสำหรับนักวิ่ง!

วิธีการคำนวณ Sample Size ที่เหมาะสม

สูตรพื้นฐาน (สำหรับเปรียบเทียบ 2 กลุ่ม - Independent t-test)

    n = 2 × [(Zα + Zβ)² × σ²] / δ²

  • n = จำนวนตัวอย่างต่อกลุ่ม 
  • Zα = Z-score ที่ระดับนัยสำคัญ (α = 0.05 → Z = 1.96) 
  • Zβ = Z-score ที่ statistical power (Power = 0.80 → Z = 0.84) 
  • σ = ส่วนเบี่ยงเบนมาตรฐาน (SD) 
  • δ = ความแตกต่างที่ต้องการตรวจจับ (minimum detectable difference)ตัวอย่างการคำนวณ

สถานการณ์: ต้องการศึกษาว่า โปรแกรมฝึกแบบใหม่ เพิ่มความสูงกระโดดแนวตั้งได้หรือไม่

ข้อมูลที่มี:

  • SD ของความสูงกระโดด = 8 cm
  • ต้องการตรวจจับความแตกต่างอย่างน้อย = 5 cm (มีความหมายทางปฏิบัติ)
  • α = 0.05 (ระดับนัยสำคัญ)
  • Power = 0.80 (โอกาส 80% ที่จะตรวจจับผลได้ถ้ามีผลจริง)

ขั้นตอนที่ 1: หาค่า Z

  • Zα (สองทาง, α = 0.05) = 1.96
  • Zβ (Power = 0.80) = 0.84

ขั้นตอนที่ 2: แทนค่าในสูตร

n = 2 × [(1.96 + 0.84)² × 8²] / 5² 

= 2 × [(2.8)² × 64] / 25 

= 2 × [7.84 × 64] / 25

= 2 × 501.76 / 25 

= 1,003.52 / 25 

= 40.14

สรุป: ต้องการตัวอย่าง กลุ่มละ 41 คน (รวม 82 คน)

 ปัจจัยที่มีผล ต่อ Sample Size

1. Effect Size ที่คาดหวัง

  • Effect Size เล็ก → ต้องการตัวอย่างมาก 
  • Effect Size ใหญ่ → ต้องการตัวอย่างน้อย

ตัวอย่าง: ตรวจจับการเปลี่ยนแปลงความสูงกระโดด (SD = 8 cm)

2. Statistical Power

Power สูง (0.90) → ต้องการตัวอย่างมาก แต่มั่นใจมากกว่า

Power ต่ำ (0.70) → ต้องการตัวอย่างน้อย แต่เสี่ยงพลาดโอกาสมากกว่า

ตัวอย่าง: (Effect Size = 5 cm, SD = 8 cm)

3. ความแปรปรวนของข้อมูล (SD)

SD สูง → ต้องการตัวอย่างมาก

SD ต่ำ → ต้องการตัวอย่างน้อย

ตัวอย่าง: (ตรวจจับความแตกต่าง 5 cm, Power = 0.80)

SD ของความสูงกระโดด Sample Size (ต่อกลุ่ม)

SD = 5 cm (กลุ่มเดียวกัน) n = 16

SD = 8 cm (กลุ่มหลากหลาย) n = 41

SD = 12 cm (กลุ่มแตกต่างมาก) n = 92

เครื่องมือช่วยคำนวณ Sample Size

โปรแกรมฟรีที่แนะนำ:

1.G*Power (โปรแกรมคอมพิวเตอร์)

o ดาวน์โหลดฟรี: https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und-arbeitspsychologie/gpower

        o ใช้ง่าย มี interface ชัดเจน

        o รองรับหลายรูปแบบการทดสอบ

2. เว็บไซต์คำนวณออนไลน์:

         o ClinCalc: https://clincalc.com/stats/samplesize.aspx

         o Sample Size Calculator (Stat Trek)

3. R Package: pwr

library(pwr)

pwr.t.test(d = 0.63,         # Effect Size (Cohen's d)

           sig.level = 0.05,  # Alpha

           power = 0.80,      # Power

           type = "two.sample")

ตัวอย่างจริงจากชีวกลศาสตร์การกีฬา

กรณีศึกษา 1: การศึกษาแรกระหว่างท่า Landing

เป้าหมาย: เปรียบเทียบแรงกระแทกที่หัวเข่าระหว่างท่าลงสู่พื้นทั้ง  2 แบบ

ข้อมูลจากงานวิจัยก่อนหน้า:

     SD ของ peak knee force = 400 N

     ต้องการตรวจจับความแตกต่าง 200 N (มีความหมายทางคลินิก)

     α = 0.05, Power = 0.80

คำนวณ:

                    n = 2 × [(1.96 + 0.84)² × 400²] / 200²

                          = 2 × [7.84 × 160,000] / 40,000

                          = 2 × 1,254,400 / 40,000

                          = 62.72

สรุป: ต้องการนักกีฬา กลุ่มละ 63 คน (รวม 126 คน)

กรณีศึกษา 2: โปรแกรมฝึกเพิ่ม Sprint Speed

เป้าหมาย: ทดสอบโปรแกรมฝึก 12 สัปดาห์ เพิ่มความเร็ววิ่ง 40 เมตร

ข้อมูล:

     SD ของเวลาวิ่ง = 0.3 วินาที

     ต้องการตรวจจับการเร็วขึ้น 0.15 วินาที

     α = 0.05, Power = 0.90 (ต้องการความมั่นใจสูง)

คำนวณ:

                    n = 2 × [(1.96 + 1.28)² × 0.3²] / 0.15²

                             = 2 × [10.50 × 0.09] / 0.0225

                              = 2 × 0.945 / 0.0225

                              = 84

สรุป: ต้องการนักกีฬา กลุ่มละ 84 คน (รวม 168 คน)

สรุป: ความสัมพันธ์ของ P-value, Effect Size และ Sample Size


📌 Golden Rules สำหรับวิจัยชีวกลศาสตร์การกีฬา

1. รายงานทั้ง 3 ตัว: P-value, Effect Size และ Sample Size เสมอ

2. Effect Size สำคัญกว่า P-value ในการตัดสินใจนำไปใช้จริง

3. คำนวณ Sample Size ก่อนเริ่มวิจัย เพื่อไม่ให้เสียเวลาและทรัพยากร

4. ตีความในบริบท: ตัวเลขเดียวไม่เพียงพอ ต้องพิจารณาร่วมกับความเป็นไปได้ทางชีววิทยาและกลศาสตร์

ข้อควรจำสำหรับนักชีวกลศาสตร์การกีฬา

🔹 P-value ไม่ใช่ทุกอย่าง - ต้องดูร่วมกับ:

     Effect size (เช่น แรงกระแทกลดลง 15% มีความหมายมากกว่า 0.5%)

     Confidence interval

     การทำซ้ำได้

     ความเป็นไปได้ทางชีวกลศาสตร์

🔹 p < 0.05 ไม่ได้หมายความว่า "มีนัยสำคัญทางสถิติ หรือมีความสำคัญในเชิงคลินิก"

     การลด landing force 2% อาจมีนัยสำคัญทางสถิติ

     แต่ไม่เพียงพอต่อการป้องกันการบาดเจ็บ ACL

🔹 พิจารณาบริบทเสมอ:

         ขนาดตัวอย่างเพียงพอหรือไม่?

         ความแม่นยำของเครื่องมือวัด (motion capture, force plate, EMG)

         ประชากรที่ศึกษา (มืออาชีพ vs มือสมัครเล่น)

         สอดคล้องกับหลักชีวกลศาสตร์หรือไม่?

🔹 คิดเชิงปฏิบัติ:

        •  ข้อมูลนี้ช่วยให้โค้ช/นักกีฬาปรับปรุงการเคลื่อนไหวได้จริงหรือไม่?

        •  ช่วยลดการบาดเจ็บได้จริงหรือไม่?

        • เพิ่มประสิทธิภาพการแข่งขันได้จริงหรือไม่?

สรุป: ใช้ P-value อย่างชาญฉลาด

"P-value เป็นเครื่องมือหนึ่ง ไม่ใช่คำตอบสุดท้าย"

ในชีวกลศาสตร์การกีฬา การตัดสินใจควรอิงจาก:

    1. ✅ หลักฐานทางสถิติ (รวม p-value)

    2. ✅ ขนาดผลกระทบที่มีความหมาย (Effect Size)

    3. ✅ ขนาดตัวอย่างที่เหมาะสม (Sample Size)

    4. ✅ ความเป็นไปได้ทางชีวกลศาสตร์และวิทยาศาสตร์​การกีฬา    

    5. ✅ ประสบการณ์ภาคสนามจริง

    6. ✅ ความปลอดภัยของนักกีฬา

ตัวเลขบอกเรื่องราวได้เพียงบางส่วน – องค์ความรู้และประสบการณ์ของคุณ คือการตีความที่ดีที่สุด! 🎯🏃‍♂️



ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

Game Planning ที่คนส่วนใหญ่ไม่ค่อยตระหนัก

การลดน้ำหนักสำหรับ ONE Championship: แนวทางที่ปลอดภัยและมีประสิทธิภาพ