TL;DR

  • 모수적(parametric) 방법은 데이터가 고정된 수의 모수로 정의되는 분포족(정규분포 등)을 따른다고 가정한다. 가정이 맞으면 적은 데이터로 효율적이고 해석이 쉽지만, 틀리면 편향된다.
  • 비모수적(non-parametric) 방법은 특정 분포족을 미리 고정하지 않는다. “모수가 없다”가 아니라 “모수의 수를 미리 못박지 않는다”는 뜻으로, 분포 형태에 덜 얽매이는 대신 유연한 모델일수록 데이터·계산 부담이 커진다.

Parametric(모수적) vs Non-parametric(비모수적)

여기서 모수(parameter)는 분포를 규정하는 고정된 수의 값이다. 정규분포는 평균과 분산 두 개로 완전히 정해지므로 모수가 2개다. 모수적 방법은 데이터가 이런 분포족을 따른다고 가정하고, 모수의 개수는 표본 크기와 무관하게 고정된다.

비모수적 방법은 정규분포처럼 특정한 유한 차원 분포족을 미리 고정하지 않는다. 흔한 오해와 달리 모수가 아예 없는 것이 아니라, 모델의 유효 복잡도(사실상의 모수 수)가 데이터가 늘면 함께 자랄 수 있다는 의미다. 다만 비모수 방법도 독립성, 동일분포, 교환가능성 같은 절차상의 가정은 여전히 필요할 수 있다.


비교

모수적 (parametric)비모수적 (non-parametric)
분포 가정특정 분포족 가정(정규 등)특정 분포족을 강하게 가정하지 않음
모수 수고정 (표본과 무관)데이터에 따라 증가 가능
데이터 효율가정이 맞으면 적은 데이터로 충분유연한 모델일수록 더 많이 필요
가정 위반편향·왜곡에 취약특정 분포 가정 위반에는 상대적으로 덜 민감
해석모수로 직접 해석덜 직접적
계산 비용가볍다무겁다

예시

단, 부트스트랩은 보통 경험분포에서 재표집하는 non-parametric bootstrap을 뜻하지만, 특정 분포를 가정해 그 분포에서 재표집하는 parametric bootstrap도 있다.

상관 분석이 좋은 대조다. Pearson 상관계수의 p-value는 보통 이변량 정규성 가정 아래 상관계수의 t-검정을 쓰므로 모수적 절차이고, Spearman 순위상관계수나 그 위에 얹는 순열 검정은 특정 분포족을 가정하지 않는 비모수적 대안이다.


언제 무엇을 쓰나

  • 모수적: 분포 가정이 합리적이고 표본이 작을 때. 분포 가정이 데이터 부족을 메워, 적은 표본에서도 효율과 해석을 얻는다.
  • 비모수적: 분포를 모르거나 가정이 의심스러울 때, 순서형·이상치가 섞인 데이터. KDE·KNN·트리 같은 비모수 모델은 유연한 만큼 데이터가 더 필요하지만, 순위검정(Mann–Whitney·Wilcoxon·Spearman)처럼 작은 표본에서도 쓰는 절차도 있다.

둘 사이에 준모수적(semi-parametric)도 있다. 일부는 모수로, 일부는 비모수로 다룬다. 예컨대 Cox 비례위험모형은 회귀계수는 모수로 추정하지만 기저위험함수는 분포 형태를 가정하지 않는다.


Connections

  • 순열 검정 — 특정 분포족을 가정하지 않고 데이터를 재배열해 p-value를 구하는 비모수 가설검정.
  • 부트스트랩 — 경험분포에서 재표집해 표준오차·신뢰구간을 추정하는 비모수 방법.
  • Spearman 순위상관계수 — 순위 기반 비모수 상관계수.
  • Pearson 상관계수 — 이변량 정규성 가정에 기댄 모수적 상관 p-value의 대표 예.