p-값 계산기

p-값(p-value)이란?

p-값(p-value, 유의확률)은 귀무가설(H₀)이 참이라고 가정할 때, 현재 관측된 결과 이상으로 극단적인 결과가 나올 확률입니다. 쉽게 말해, "이 실험 결과가 순전히 우연으로 나올 가능성"입니다.

p-값이 작을수록 우연이 아닐 가능성이 높습니다 → 귀무가설 기각
p-값이 클수록 우연으로도 충분히 나올 수 있습니다 → 귀무가설 유지

p-값 해석 기준

p-값 범위	유의수준 기호	해석	결론
p < 0.001	***	매우 고도로 유의	귀무가설 강하게 기각
0.001 ≤ p < 0.01	**	고도로 유의	귀무가설 기각
0.01 ≤ p < 0.05	*	유의	귀무가설 기각 (α=0.05)
0.05 ≤ p < 0.10	†	약한 증거	일반적으로 유의하지 않음
p ≥ 0.10	n.s.	유의하지 않음	귀무가설 기각 불가

p-값 0.05 기준의 역사적 배경

유의수준 α=0.05 (p < 0.05) 기준은 1920년대 통계학자 R.A. Fisher가 제안했습니다. "20번에 1번꼴로 발생할 확률이면 유의미하다"는 실용적 판단이었습니다. 이 기준이 절대적인 것은 아니며, 분야와 연구 목적에 따라 다른 기준을 사용합니다.

분야	일반적 유의수준	이유
사회과학, 의학	α = 0.05	표준적 관행
물리학 (힉스 입자 발견)	5σ (p < 3×10⁻⁷)	극도로 엄격한 기준
게놈 연구(GWAS)	p < 5×10⁻⁸	다중비교 보정
품질 관리	α = 0.01	제품 안전 중요

검정 유형 설명

Z-검정 (양측)

대립가설: 평균이 기준값과 다름 (방향 무관)

H₀: μ = μ₀ vs H₁: μ ≠ μ₀
p-값 = 2 × P(Z > |z|) = 양쪽 꼬리 합산
예: 신약이 기존 약과 다른 효과가 있는지 검정

Z-검정 (단측)

대립가설: 평균이 기준값보다 크거나 작음

우측 검정: H₁: μ > μ₀ (예: 신약이 기존 약보다 효과적인지)
좌측 검정: H₁: μ < μ₀ (예: 새 공정이 불량률을 줄이는지)
단측 검정은 방향을 미리 설정할 때만 사용

t-검정 (소표본, 양측)

표본 크기가 작거나(n < 30) 모분산을 모를 때 사용
자유도(df = n-1)에 따라 분포 모양이 달라짐
df가 클수록 정규분포에 근접

p-값의 올바른 해석과 흔한 오해

올바른 해석

p = 0.03: "귀무가설이 참일 때, 이 결과 이상으로 극단적인 관측치가 나올 확률이 3%이다"
p < 0.05: "통계적으로 유의미한 차이가 있다" (귀무가설 기각)

흔한 오해

❌ "p = 0.03은 귀무가설이 참일 확률이 3%이다" → 틀림
❌ "p < 0.05면 중요한 결과이다" → 항상 그렇지 않음
❌ "p = 0.06이면 아무 의미가 없다" → 임계값은 편의상 기준일 뿐

통계적 유의성 vs 실질적 중요성

p-값이 작아도 효과 크기가 작으면 실질적으로 의미 없을 수 있습니다.

예시: 표본 100만 명으로 연구 시

수면 10분 늘리면 IQ 0.01점 향상 → p < 0.001 (매우 유의)
하지만 IQ 0.01점 차이는 실생활에서 의미 없음

따라서 p-값과 함께 효과 크기(Cohen's d, η², r² 등) 를 함께 보고하는 것이 중요합니다.

자주 묻는 질문

p < 0.05면 무조건 의미 있는 결과인가요?

p < 0.05는 통계적으로 유의미하다는 의미이지, 실질적으로 중요하거나 효과가 크다는 의미가 아닙니다. 표본이 매우 크면 작은 차이도 통계적으로 유의미할 수 있습니다. 효과 크기(Cohen's d, η² 등)를 함께 보는 것이 중요합니다.

p-값과 신뢰구간의 관계는?

양측 검정에서 p < 0.05는 95% 신뢰구간에 귀무가설 값이 포함되지 않음을 의미합니다. p-값과 신뢰구간은 동일한 정보를 다른 방식으로 표현합니다. 신뢰구간은 효과의 크기와 방향 정보도 추가로 제공합니다.

Z-검정과 t-검정 중 어느 것을 써야 하나요?

표본 크기 n ≥ 30이고 모분산을 알면 Z-검정, n < 30이거나 모분산을 모르면 t-검정이 적합합니다. 실제로 사회과학 연구에서는 n이 30 미만인 경우 항상 t-검정을 사용하는 것을 권장합니다.

양측 검정과 단측 검정은 어떻게 다른가요?

양측 검정은 '차이가 있다(방향 무관)', 단측 검정은 '특정 방향으로 크다/작다'를 검정합니다. 단측 검정은 p-값이 양측의 절반이 되므로 더 쉽게 유의미해 보이지만, 미리 방향을 설정한 경우에만 사용해야 합니다. 결과를 보고 사후적으로 단측 검정을 선택하는 것은 통계적 오류입니다.

p-값이 0.05 경계에 있을 때 어떻게 해석하나요?

p = 0.049와 p = 0.051은 통계적으로 거의 차이가 없습니다. 0.05 기준선은 편의상의 관습이며, 정밀과학적 경계가 아닙니다. 이런 경우 p-값과 함께 효과 크기, 신뢰구간, 연구의 맥락을 종합적으로 해석해야 합니다.

자유도(df)는 무엇이고 왜 필요한가요?

자유도(Degrees of Freedom)는 자유롭게 변할 수 있는 값의 수입니다. t-검정에서 df = n-1입니다. 표본 크기 10이면 df=9. 자유도가 클수록 t-분포가 정규분포에 가까워집니다. df가 작을수록(표본이 작을수록) 더 극단적인 t-값이 필요합니다.

다중비교 문제란 무엇인가요?

여러 가설을 동시에 검정하면 우연히 유의미한 결과가 나올 확률이 높아집니다. 20번 검정하면 1번은 우연히 p < 0.05가 나옵니다(α=0.05 기준). 이를 해결하려면 본페로니(Bonferroni) 보정 등을 적용해 유의수준을 검정 수로 나눕니다.

계산 공식