📉
Z-통계량 또는 t-통계량 값
t-검정 시: 자유도 = 표본 크기 - 1
계산 공식
양측 Z검정 p값 = 2 × P(Z > |z|) = 2 × (1 - Φ(|z|))Z-통계량의 절댓값으로 표준정규분포에서 꼬리 확률을 계산합니다. 양측 검정은 두 꼬리를 합산합니다.
p-값(p-value)이란?
p-값(p-value, 유의확률)은 귀무가설(H₀)이 참이라고 가정할 때, 현재 관측된 결과 이상으로 극단적인 결과가 나올 확률입니다. 쉽게 말해, "이 실험 결과가 순전히 우연으로 나올 가능성"입니다.
- p-값이 작을수록 우연이 아닐 가능성이 높습니다 → 귀무가설 기각
- p-값이 클수록 우연으로도 충분히 나올 수 있습니다 → 귀무가설 유지
p-값 해석 기준
| p-값 범위 | 유의수준 기호 | 해석 | 결론 |
|---|---|---|---|
| p < 0.001 | *** | 매우 고도로 유의 | 귀무가설 강하게 기각 |
| 0.001 ≤ p < 0.01 | ** | 고도로 유의 | 귀무가설 기각 |
| 0.01 ≤ p < 0.05 | * | 유의 | 귀무가설 기각 (α=0.05) |
| 0.05 ≤ p < 0.10 | † | 약한 증거 | 일반적으로 유의하지 않음 |
| p ≥ 0.10 | n.s. | 유의하지 않음 | 귀무가설 기각 불가 |
p-값 0.05 기준의 역사적 배경
유의수준 α=0.05 (p < 0.05) 기준은 1920년대 통계학자 R.A. Fisher가 제안했습니다. "20번에 1번꼴로 발생할 확률이면 유의미하다"는 실용적 판단이었습니다. 이 기준이 절대적인 것은 아니며, 분야와 연구 목적에 따라 다른 기준을 사용합니다.
| 분야 | 일반적 유의수준 | 이유 |
|---|---|---|
| 사회과학, 의학 | α = 0.05 | 표준적 관행 |
| 물리학 (힉스 입자 발견) | 5σ (p < 3×10⁻⁷) | 극도로 엄격한 기준 |
| 게놈 연구(GWAS) | p < 5×10⁻⁸ | 다중비교 보정 |
| 품질 관리 | α = 0.01 | 제품 안전 중요 |
검정 유형 설명
Z-검정 (양측)
대립가설: 평균이 기준값과 다름 (방향 무관)- H₀: μ = μ₀ vs H₁: μ ≠ μ₀
- p-값 = 2 × P(Z > |z|) = 양쪽 꼬리 합산
- 예: 신약이 기존 약과 다른 효과가 있는지 검정
Z-검정 (단측)
대립가설: 평균이 기준값보다 크거나 작음- 우측 검정: H₁: μ > μ₀ (예: 신약이 기존 약보다 효과적인지)
- 좌측 검정: H₁: μ < μ₀ (예: 새 공정이 불량률을 줄이는지)
- 단측 검정은 방향을 미리 설정할 때만 사용
t-검정 (소표본, 양측)
- 표본 크기가 작거나(n < 30) 모분산을 모를 때 사용
- 자유도(df = n-1)에 따라 분포 모양이 달라짐
- df가 클수록 정규분포에 근접
p-값의 올바른 해석과 흔한 오해
올바른 해석
- p = 0.03: "귀무가설이 참일 때, 이 결과 이상으로 극단적인 관측치가 나올 확률이 3%이다"
- p < 0.05: "통계적으로 유의미한 차이가 있다" (귀무가설 기각)
흔한 오해
- ❌ "p = 0.03은 귀무가설이 참일 확률이 3%이다" → 틀림
- ❌ "p < 0.05면 중요한 결과이다" → 항상 그렇지 않음
- ❌ "p = 0.06이면 아무 의미가 없다" → 임계값은 편의상 기준일 뿐
통계적 유의성 vs 실질적 중요성
p-값이 작아도 효과 크기가 작으면 실질적으로 의미 없을 수 있습니다.
예시: 표본 100만 명으로 연구 시
- 수면 10분 늘리면 IQ 0.01점 향상 → p < 0.001 (매우 유의)
- 하지만 IQ 0.01점 차이는 실생활에서 의미 없음
자주 묻는 질문
p < 0.05면 무조건 의미 있는 결과인가요?
p < 0.05는 통계적으로 유의미하다는 의미이지, 실질적으로 중요하거나 효과가 크다는 의미가 아닙니다. 표본이 매우 크면 작은 차이도 통계적으로 유의미할 수 있습니다. 효과 크기(Cohen's d, η² 등)를 함께 보는 것이 중요합니다.
p-값과 신뢰구간의 관계는?
양측 검정에서 p < 0.05는 95% 신뢰구간에 귀무가설 값이 포함되지 않음을 의미합니다. p-값과 신뢰구간은 동일한 정보를 다른 방식으로 표현합니다. 신뢰구간은 효과의 크기와 방향 정보도 추가로 제공합니다.
Z-검정과 t-검정 중 어느 것을 써야 하나요?
표본 크기 n ≥ 30이고 모분산을 알면 Z-검정, n < 30이거나 모분산을 모르면 t-검정이 적합합니다. 실제로 사회과학 연구에서는 n이 30 미만인 경우 항상 t-검정을 사용하는 것을 권장합니다.
양측 검정과 단측 검정은 어떻게 다른가요?
양측 검정은 '차이가 있다(방향 무관)', 단측 검정은 '특정 방향으로 크다/작다'를 검정합니다. 단측 검정은 p-값이 양측의 절반이 되므로 더 쉽게 유의미해 보이지만, 미리 방향을 설정한 경우에만 사용해야 합니다. 결과를 보고 사후적으로 단측 검정을 선택하는 것은 통계적 오류입니다.
p-값이 0.05 경계에 있을 때 어떻게 해석하나요?
p = 0.049와 p = 0.051은 통계적으로 거의 차이가 없습니다. 0.05 기준선은 편의상의 관습이며, 정밀과학적 경계가 아닙니다. 이런 경우 p-값과 함께 효과 크기, 신뢰구간, 연구의 맥락을 종합적으로 해석해야 합니다.
자유도(df)는 무엇이고 왜 필요한가요?
자유도(Degrees of Freedom)는 자유롭게 변할 수 있는 값의 수입니다. t-검정에서 df = n-1입니다. 표본 크기 10이면 df=9. 자유도가 클수록 t-분포가 정규분포에 가까워집니다. df가 작을수록(표본이 작을수록) 더 극단적인 t-값이 필요합니다.
다중비교 문제란 무엇인가요?
여러 가설을 동시에 검정하면 우연히 유의미한 결과가 나올 확률이 높아집니다. 20번 검정하면 1번은 우연히 p < 0.05가 나옵니다(α=0.05 기준). 이를 해결하려면 본페로니(Bonferroni) 보정 등을 적용해 유의수준을 검정 수로 나눕니다.