การใช้ค่า P-value ผิดวิธีในงานวิจัย (ฉบับชีวกลศาสตร์การกีฬา)
คุณเป็นโค้ชวิ่ง และสงสัยว่า "รองเท้าวิ่งรุ่นใหม่ทำให้นักกีฬาวิ่งเร็วขึ้นจริงหรือ?"
คุณให้นักกีฬา 10 คนใส่รองเท้ารุ่นใหม่แล้ววิ่ง พบว่าเร็วขึ้นเฉลี่ย 0.3 วินาที
คำถามคือ: ความเร็วที่เพิ่มขึ้นนี้เกิดจาก:
นี่คือที่มาของ P-value!
P-value ตอบคำถามว่า:
"ถ้ารองเท้าไม่มีผลจริงๆ (null hypothesis:H0) แล้วเราจะได้ผลลัพธ์ดีขนาดนี้โดยบังเอิญบ้างไหม?"
• P-value = 0.03 (3%) หมายความว่า ถ้ารองเท้าไม่มีผลจริง โอกาสที่จะได้ผลลัพธ์ดีขนาดนี้โดยบังเอิญมีแค่ 3%
• P-value = 0.60 (60%) หมายความว่า ถ้ารองเท้าไม่มีผลจริง โอกาสที่จะได้ผลลัพธ์แบบนี้โดยบังเอิญมีถึง 60% (เกิดบ่อยมาก!)
กฎทั่วไป: ถ้า p-value < 0.05 (5%) เราถือว่า "น่าจะไม่ใช่ความบังเอิญ" แต่ไม่ได้แปลว่า "พิสูจน์แล้ว"
ค่า P-value คืออะไร? (คำจำกัดความ)
ค่า P-value คือความน่าจะเป็นที่จะได้ผลลัพธ์ที่รุนแรง (หรือมากกว่า) เท่ากับที่สังเกตได้ โดยสมมติว่าสมมติฐานหลัก (H0: null hypothesis = ไม่มีผล) เป็นจริง
4 ปัญหาหลักของการใช้ค่า P-value ผิดวิธี
1. เน้นความมีนัยสำคัญทางสถิติมากเกินไป (Overemphasis on significance)
• นักวิจัยมักจะสนใจแค่ว่า p-value < 0.05 หรือไม่
• แต่ลืมดู effect size (ขนาดของผลกระทบ) และความสำคัญในทางปฏิบัติ
ตัวอย่างชีวกลศาสตร์การกีฬา:
• การศึกษาพบว่าการสวมอุปกรณ์ค้ำยันหัวเข่าลดแรงกระแทกที่ข้อเข่าอย่างมีนัยสำคัญทางสถิติ (p = 0.001)
• แต่ลดได้เพียง 0.5% ของแรงทั้งหมด
• ✅ มีนัยสำคัญทางสถิติ ❌ แต่ไม่มีประโยชน์จริงในการป้องกันการบาดเจ็บ
2. P-hacking (การโกงค่า P)
• บิดเบือนข้อมูลหรือเงื่อนไขการทดลอง เพื่อให้ได้ p-value ที่มีนัยสำคัญ
ตัวอย่างชีวกลศาสตร์การกีฬา:
• นักวิจัยศึกษาผลของโปรแกรมฝึกกระโดดต่อแรงระเบิด (power output)
• วัดผลลัพธ์ 15 ตัว: ความสูงกระโดด, peak force, rate of force development, ความเร็วเชิงมุมข้อเข่า, ข้อสะโพก, ข้อเท้า ฯลฯ
• เลือกรายงานเฉพาะตัวที่ p < 0.05 เช่น "ความเร็วเชิงมุมข้อเท้าเพิ่มขึ้นอย่างมีนัยสำคัญ"
• ซ่อน ตัวแปรอื่น 14 ตัวที่ไม่มีนัยสำคัญ
เปรียบเทียบ: เหมือนนักยิงธนูยิง 100 นัด แล้วเอาเป้าไปวางตรงรอยที่โดนเอง แล้วบอกว่า "ผมยิงเป๊ะกระดาน!"
3. การตีความผิด (Misinterpretation)
ความเข้าใจผิดที่พบบ่อย:
❌ ผิด: p = 0.02 แปลว่า "พิสูจน์แล้วว่าเทคนิคการวิ่งแบบใหม่ดีกว่า"
✅ ถูก: p = 0.02 แปลว่า "ถ้าเทคนิคนี้ไม่มีผลจริง โอกาสที่จะเห็นความแตกต่างมากขนาดนี้มีแค่ 2%"
❌ ผิด: p = 0.30 แปลว่า "ยืนยันแล้วว่าท่าสควอตแบบ A และ B เหมือนกัน"
✅ ถูก: p = 0.30 แปลว่า "เราไม่มีหลักฐานเพียงพอที่จะบอกว่าต่างกัน (อาจเป็นเพราะตัวอย่างน้อยเกินไป)"
ตัวอย่างชีวกลศาสตร์การกีฬา:
• ทดสอบมุมเข่าที่ดีที่สุดในการปั่นจักรยาน ระหว่าง 25° vs 35°
• ผลคือ p = 0.25 (ไม่มีนัยสำคัญ)
• ไม่ได้หมายความว่า "ทั้งสองมุมเหมือนกันจริงๆ"
• แต่หมายความว่า "การศึกษานี้ไม่สามารถแยกความแตกต่างได้" (อาจต้องเพิ่มจำนวนตัวอย่าง)
4. ละเลยบริบท (Ignoring context)
• ไม่พิจารณางานวิจัยก่อนหน้า หลักฐานเดิมที่มี เช่นงานวิจัยก่อนหน้านั้นมีแนวโน้มไปในทิศทางเดียวกัน แต่งานวิจัยของคุณกลับได้ผลลัพธ์ที่แตกต่างออกไป เราสามารถสรุปว่างานวิจัยของเราเป็นองค์ความรู้ใหม่ได้หรือไม่อันนี้ก็ตอบยากเช่นกัน
• ไม่คำนึงถึงการออกแบบการวิจัย ขนาดตัวอย่าง คุณภาพข้อมูล
ตัวอย่างชีวกลศาสตร์การกีฬา:
สถานการณ์ A: การศึกษา "ท่าลงสู่พื้นที่ปลอดภัย Safety Landing" ในนักกระโดดสูง
• ตัวอย่าง: 8 คน (นักกีฬาสมัครเล่น)
• อุปกรณ์: แผ่นวัดแรง 1 แผ่น
• ได้ p = 0.04 ✓
สถานการณ์ B: การศึกษาเดียวกัน
• ตัวอย่าง: 120 คน (นักกีฬาระดับชาติ)
• อุปกรณ์: ระบบ motion capture 3 มิติ + force plate 4 แผ่น
• ทำซ้ำใน 3 ห้องแล็บ
• ได้ p = 0.04 ✓
คำถาม: P-value เท่ากัน แต่งานไหนน่าเชื่อถือกว่า? แน่นอนว่า B!
📊 Effect Size (ขนาดของผลกระทบ) คืออะไร?
ความหมาย
Effect Size คือตัวเลขที่บอกว่า "ความแตกต่างมีขนาดใหญ่แค่ไหน" หรือ "แรงของความสัมพันธ์มากแค่ไหน" โดยไม่ขึ้นกับจำนวนตัวอย่าง
เปรียบเทียบ:
• P-value บอกว่า "ความแตกต่างน่าจะเป็นจริง (ไม่ใช่ความบังเอิญ) หรือไม่"
• Effect Size บอกว่า "ความแตกต่างนั้นใหญ่แค่ไหน และมีความหมายในทางปฏิบัติไหม"
ตัวอย่างจากชีวกลศาสตร์การกีฬา
สถานการณ์: เปรียบเทียบแรงกระแทกเวลาลงจอดระหว่าง 2 เทคนิค
การศึกษา กลุ่ม A (N) กลุ่ม B (N) ความแตกต่าง P-value Effect Size
งานวิจัย 1 2,500 N 2,450 N 50 N (2%) 0.001*** d = 0.15 (เล็ก)
งานวิจัย 2 2,500 N 2,000 N 500 N (20%) 0.03* d = 1.2 (ใหญ่มาก)
สังเกตว่า:
• งานวิจัย 1: p-value ต่ำมาก (0.001) แต่ Effect Size เล็ก → ความแตกต่างน่าเชื่อถือแต่ไม่สำคัญในทางปฏิบัติ
• งานวิจัย 2: p-value สูงกว่า (0.03) แต่ Effect Size ใหญ่ → ความแตกต่างมีนัยสำคัญทั้งทางสถิติและทางปฏิบัติ
วิธีการคำนวณ Effect Size
1️⃣ Cohen's d (สำหรับเปรียบเทียบค่าเฉลี่ย 2 กลุ่ม)
สูตร:
d = (M₁ - M₂) / SD_pooled
โดยที่:
- M₁ = ค่าเฉลี่ยของกลุ่ม 1
- M₂ = ค่าเฉลี่ยของกลุ่ม 2
- SD_pooled = ส่วนเบี่ยงเบนมาตรฐานรวม
การคำนวณ SD_pooled:
SD_pooled = √[(SD₁² + SD₂²) / 2]
ตัวอย่างคำนวณ:
การทดสอบความสูงกระโดดก่อนและหลังฝึก 8 สัปดาห์
ข้อมูล:
- กลุ่มก่อนฝึก: ค่าเฉลี่ย (M₁) = 40 cm, SD₁ = 5 cm
- กลุ่มหลังฝึก: ค่าเฉลี่ย (M₂) = 48 cm, SD₂ = 6 cm
ขั้นตอนที่ 1: คำนวณ SD_pooled
SD_pooled = √[(5² + 6²) / 2]
= √[(25 + 36) / 2]
= √[61 / 2]
= √30.5
= 5.52 cm
ขั้นตอนที่ 2: คำนวณ Cohen's d
d = (48 - 40) / 5.52
= 8 / 5.52
= 1.45
การแปลผล:
• d = 0.2 = Effect Size เล็ก (ความแตกต่างน้อย)
• d = 0.5 = Effect Size ปานกลาง
• d = 0.8 = Effect Size ใหญ่
• d = 1.45 = Effect Size ใหญ่มาก! (โปรแกรมฝึกมีประสิทธิภาพสูง)
2️⃣ Eta Squared (η²) หรือ Partial Eta Squared (ηp²) (สำหรับ ANOVA)
สูตร:
η² = SS_effect / SS_total
โดยที่:
SS_effect = Sum of Squares ของตัวแปรที่สนใจ
SS_total = Sum of Squares ทั้งหมด
ตัวอย่าง:
เปรียบเทียบ peak torque ของหัวเข่า 3 กลุ่มนักกีฬา (นักวิ่ง, นักปั่นจักรยาน, นักว่ายน้ำ)
จาก ANOVA ได้:
• SS_effect (ระหว่างกลุ่ม) = 1,200
• SS_total = 4,000
η² = 1,200 / 4,000 = 0.30 (30%)
การแปลผล:
• η² = 0.01 = Effect Size เล็ก (1% ของความแปรปรวน)
• η² = 0.06 = Effect Size ปานกลาง (6%)
• η² = 0.14 = Effect Size ใหญ่ (14% ขึ้นไป)
• η² = 0.30 = Effect Size ใหญ่มาก! (ประเภทกีฬาอธิบายความแปรปรวน 30%)
3️⃣ Pearson's r (สำหรับความสัมพันธ์)
สูตร:
r = Covariance(X,Y) / (SD_x × SD_y)
ตัวอย่าง:
ศึกษาความสัมพันธ์ระหว่าง แรงกล้ามเนื้อต้นขา (Quadriceps) กับ ความสูงกระโดดแนวตั้ง
ผลการวิเคราะห์:
• r = 0.75
การแปลผล:
• r = 0.10 = ความสัมพันธ์อ่อนมาก
• r = 0.30 = ความสัมพันธ์ปานกลาง
• r = 0.50 = ความสัมพันธ์สูง
• r = 0.75 = ความสัมพันธ์สูงมาก!
ความหมาย: r² = 0.75² = 0.56 → แรงกล้ามเนื้ออธิบายความสูงกระโดดได้ 56%
ตารางสรุปการแปลผล Effect Size
👥 Sample Size (ขนาดตัวอย่าง) คืออะไร?
ความหมาย
Sample Size (n) คือจำนวนคนหรือหน่วยที่เราศึกษาในการวิจัย
ทำไม Sample Size ถึงสำคัญ?
• ตัวอย่างน้อยเกินไป → ผลลัพธ์ไม่น่าเชื่อถือ ง่ายต่อการเกิดความผิดพลาดจากความบังเอิญ
• ตัวอย่างมากเกินไป → เสียเวลา ค่าใช้จ่าย และอาจทำให้ผลที่ไม่สำคัญกลายเป็นมีนัยสำคัญทางสถิติ
• ตัวอย่างพอดี → ได้ข้อสรุปที่น่าเชื่อถือและคุ้มค่า
ความสัมพันธ์ระหว่าง Sample Size กับ P-value
กฎสำคัญ: เมื่อเพิ่ม Sample Size → P-value มักจะลดลง (แม้ Effect Size จะเท่าเดิม)
ตัวอย่าง: ทดสอบรองเท้าวิ่งรุ่นใหม่ ทำให้เร็วขึ้น 0.1 วินาที (Effect Size เล็ก)
สังเกต: ความแตกต่างเท่าเดิม (0.1 วินาที) แต่ตัวอย่างมากขึ้น → p-value ลดลง
ข้อควรระวัง: แม้ p < 0.05 แต่ 0.1 วินาทีอาจไม่สำคัญในทางปฏิบัติสำหรับนักวิ่ง!
วิธีการคำนวณ Sample Size ที่เหมาะสม
สูตรพื้นฐาน (สำหรับเปรียบเทียบ 2 กลุ่ม - Independent t-test)
n = 2 × [(Zα + Zβ)² × σ²] / δ²
- n = จำนวนตัวอย่างต่อกลุ่ม
- Zα = Z-score ที่ระดับนัยสำคัญ (α = 0.05 → Z = 1.96)
- Zβ = Z-score ที่ statistical power (Power = 0.80 → Z = 0.84)
- σ = ส่วนเบี่ยงเบนมาตรฐาน (SD)
- δ = ความแตกต่างที่ต้องการตรวจจับ (minimum detectable difference)ตัวอย่างการคำนวณ
สถานการณ์: ต้องการศึกษาว่า โปรแกรมฝึกแบบใหม่ เพิ่มความสูงกระโดดแนวตั้งได้หรือไม่
ข้อมูลที่มี:
- SD ของความสูงกระโดด = 8 cm
- ต้องการตรวจจับความแตกต่างอย่างน้อย = 5 cm (มีความหมายทางปฏิบัติ)
- α = 0.05 (ระดับนัยสำคัญ)
- Power = 0.80 (โอกาส 80% ที่จะตรวจจับผลได้ถ้ามีผลจริง)
ขั้นตอนที่ 1: หาค่า Z
- Zα (สองทาง, α = 0.05) = 1.96
- Zβ (Power = 0.80) = 0.84
ขั้นตอนที่ 2: แทนค่าในสูตร
n = 2 × [(1.96 + 0.84)² × 8²] / 5²
= 2 × [(2.8)² × 64] / 25
= 2 × [7.84 × 64] / 25
= 2 × 501.76 / 25
= 1,003.52 / 25
= 40.14
สรุป: ต้องการตัวอย่าง กลุ่มละ 41 คน (รวม 82 คน)
ปัจจัยที่มีผล ต่อ Sample Size
1. Effect Size ที่คาดหวัง
- Effect Size เล็ก → ต้องการตัวอย่างมาก
- Effect Size ใหญ่ → ต้องการตัวอย่างน้อย
ตัวอย่าง: ตรวจจับการเปลี่ยนแปลงความสูงกระโดด (SD = 8 cm)
2. Statistical Power
• Power สูง (0.90) → ต้องการตัวอย่างมาก แต่มั่นใจมากกว่า
• Power ต่ำ (0.70) → ต้องการตัวอย่างน้อย แต่เสี่ยงพลาดโอกาสมากกว่า
ตัวอย่าง: (Effect Size = 5 cm, SD = 8 cm)
3. ความแปรปรวนของข้อมูล (SD)
• SD สูง → ต้องการตัวอย่างมาก
• SD ต่ำ → ต้องการตัวอย่างน้อย
ตัวอย่าง: (ตรวจจับความแตกต่าง 5 cm, Power = 0.80)
SD ของความสูงกระโดด Sample Size (ต่อกลุ่ม)
SD = 5 cm (กลุ่มเดียวกัน) n = 16
SD = 8 cm (กลุ่มหลากหลาย) n = 41
SD = 12 cm (กลุ่มแตกต่างมาก) n = 92
เครื่องมือช่วยคำนวณ Sample Size
โปรแกรมฟรีที่แนะนำ:
1.G*Power (โปรแกรมคอมพิวเตอร์)
o ดาวน์โหลดฟรี: https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und-arbeitspsychologie/gpower
o ใช้ง่าย มี interface ชัดเจน
o รองรับหลายรูปแบบการทดสอบ
2. เว็บไซต์คำนวณออนไลน์:
o ClinCalc: https://clincalc.com/stats/samplesize.aspx
o Sample Size Calculator (Stat Trek)
3. R Package: pwr
library(pwr)
pwr.t.test(d = 0.63, # Effect Size (Cohen's d)
sig.level = 0.05, # Alpha
power = 0.80, # Power
type = "two.sample")
ตัวอย่างจริงจากชีวกลศาสตร์การกีฬา
กรณีศึกษา 1: การศึกษาแรกระหว่างท่า Landing
เป้าหมาย: เปรียบเทียบแรงกระแทกที่หัวเข่าระหว่างท่าลงสู่พื้นทั้ง 2 แบบ
ข้อมูลจากงานวิจัยก่อนหน้า:
• SD ของ peak knee force = 400 N
• ต้องการตรวจจับความแตกต่าง 200 N (มีความหมายทางคลินิก)
• α = 0.05, Power = 0.80
คำนวณ:
n = 2 × [(1.96 + 0.84)² × 400²] / 200²
= 2 × [7.84 × 160,000] / 40,000
= 2 × 1,254,400 / 40,000
= 62.72
สรุป: ต้องการนักกีฬา กลุ่มละ 63 คน (รวม 126 คน)
กรณีศึกษา 2: โปรแกรมฝึกเพิ่ม Sprint Speed
เป้าหมาย: ทดสอบโปรแกรมฝึก 12 สัปดาห์ เพิ่มความเร็ววิ่ง 40 เมตร
ข้อมูล:
• SD ของเวลาวิ่ง = 0.3 วินาที
• ต้องการตรวจจับการเร็วขึ้น 0.15 วินาที
• α = 0.05, Power = 0.90 (ต้องการความมั่นใจสูง)
คำนวณ:
n = 2 × [(1.96 + 1.28)² × 0.3²] / 0.15²
= 2 × [10.50 × 0.09] / 0.0225
= 2 × 0.945 / 0.0225
= 84
สรุป: ต้องการนักกีฬา กลุ่มละ 84 คน (รวม 168 คน)
สรุป: ความสัมพันธ์ของ P-value, Effect Size และ Sample Size
📌 Golden Rules สำหรับวิจัยชีวกลศาสตร์การกีฬา
1. รายงานทั้ง 3 ตัว: P-value, Effect Size และ Sample Size เสมอ
2. Effect Size สำคัญกว่า P-value ในการตัดสินใจนำไปใช้จริง
3. คำนวณ Sample Size ก่อนเริ่มวิจัย เพื่อไม่ให้เสียเวลาและทรัพยากร
4. ตีความในบริบท: ตัวเลขเดียวไม่เพียงพอ ต้องพิจารณาร่วมกับความเป็นไปได้ทางชีววิทยาและกลศาสตร์
ข้อควรจำสำหรับนักชีวกลศาสตร์การกีฬา
🔹 P-value ไม่ใช่ทุกอย่าง - ต้องดูร่วมกับ:
• Effect size (เช่น แรงกระแทกลดลง 15% มีความหมายมากกว่า 0.5%)
• Confidence interval
• การทำซ้ำได้
• ความเป็นไปได้ทางชีวกลศาสตร์
🔹 p < 0.05 ไม่ได้หมายความว่า "มีนัยสำคัญทางสถิติ หรือมีความสำคัญในเชิงคลินิก"
• การลด landing force 2% อาจมีนัยสำคัญทางสถิติ
• แต่ไม่เพียงพอต่อการป้องกันการบาดเจ็บ ACL
🔹 พิจารณาบริบทเสมอ:
• ขนาดตัวอย่างเพียงพอหรือไม่?
• ความแม่นยำของเครื่องมือวัด (motion capture, force plate, EMG)
• ประชากรที่ศึกษา (มืออาชีพ vs มือสมัครเล่น)
• สอดคล้องกับหลักชีวกลศาสตร์หรือไม่?
🔹 คิดเชิงปฏิบัติ:
• ข้อมูลนี้ช่วยให้โค้ช/นักกีฬาปรับปรุงการเคลื่อนไหวได้จริงหรือไม่?
• ช่วยลดการบาดเจ็บได้จริงหรือไม่?
• เพิ่มประสิทธิภาพการแข่งขันได้จริงหรือไม่?
สรุป: ใช้ P-value อย่างชาญฉลาด
"P-value เป็นเครื่องมือหนึ่ง ไม่ใช่คำตอบสุดท้าย"
ในชีวกลศาสตร์การกีฬา การตัดสินใจควรอิงจาก:
1. ✅ หลักฐานทางสถิติ (รวม p-value)
2. ✅ ขนาดผลกระทบที่มีความหมาย (Effect Size)
3. ✅ ขนาดตัวอย่างที่เหมาะสม (Sample Size)
4. ✅ ความเป็นไปได้ทางชีวกลศาสตร์และวิทยาศาสตร์การกีฬา
5. ✅ ประสบการณ์ภาคสนามจริง
6. ✅ ความปลอดภัยของนักกีฬา
ตัวเลขบอกเรื่องราวได้เพียงบางส่วน – องค์ความรู้และประสบการณ์ของคุณ คือการตีความที่ดีที่สุด! 🎯🏃♂️
ความคิดเห็น
แสดงความคิดเห็น