TL;DR
- 표준편차는 분산의 제곱근이다.
- 분산은 단위가 제곱되어 직관적으로 읽기 어렵기 때문에, 원래 데이터와 같은 단위로 퍼짐을 해석하려고 표준편차를 사용한다.
표준편차
표준편차(standard deviation)는 데이터가 평균 주변에서 보통 어느 정도 떨어져 있는지를 원래 데이터 단위로 나타내는 값이다.
분산이 “평균에서 떨어진 정도의 제곱 평균”이라면, 표준편차는 그 제곱근이다.
그래서 표준편차는 분산보다 해석이 쉽다. 예를 들어 키를 cm로 측정했다면 분산의 단위는 가 되지만, 표준편차의 단위는 다시 cm가 된다.
직관
두 반의 시험 점수를 비교해보자.
| 반 | 평균 | 표준편차 | 해석 |
|---|---|---|---|
| A반 | 74 | 작음 | 점수가 평균 근처에 몰려 있음 |
| B반 | 74 | 큼 | 점수가 평균 주변에 넓게 퍼져 있음 |
평균은 중심 위치를 말한다. 표준편차는 그 중심 주변으로 값들이 얼마나 퍼져 있는지 말한다.
표준편차가 작으면 값들이 평균 근처에 촘촘히 모여 있다. 표준편차가 크면 값들이 평균에서 멀리 흩어져 있다.
정규분포에서의 해석
[[정규분포]] 또는 정규분포에 가까운 분포에서는 [[68-95-99.7 규칙]]으로 표준편차를 해석할 수 있다. 평균을 기준으로 안에는 약 68.27%, 안에는 약 95.45%, 안에는 약 99.73%가 들어온다.
이 해석은 모든 데이터에 자동으로 적용되지 않는다. 분포가 정규분포에 가깝다는 전제가 필요하다.
수식
표본표준편차는 표본분산의 제곱근이다.
모표준편차는 모분산의 제곱근이다.
여기서 표본은 , 모집단은 으로 나누는 분산 정의를 그대로 따른다.
분산과의 차이
| 기준 | 분산 | 표준편차 |
|---|---|---|
| 계산 | 평균과의 차이를 제곱해 평균냄 | 분산의 제곱근 |
| 단위 | 원래 단위의 제곱 | 원래 데이터와 같은 단위 |
| 해석 | 수학적으로 다루기 좋음 | 사람이 읽기 쉬움 |
| 예 | cm |
분산은 계산과 이론 전개에 편하고, 표준편차는 해석에 편하다.
Pearson 상관계수와의 관계
Pearson 상관계수는 공분산을 두 변수의 표준편차 곱으로 나누어 표준화한 값이다.
공분산은 단위와 단위가 곱해진 값을 갖는다. 여기에 의 표준편차 와 의 표준편차 를 나누면 단위가 사라지고, 결과가 부터 사이의 비교 가능한 값이 된다.
구현
import numpy as np
x = [70, 72, 74, 76, 78]
population_std = np.std(x)
sample_std = np.std(x, ddof=1)np.std(x)의 기본값은 ddof=0이므로 모표준편차 형태다. 표본표준편차는 np.std(x, ddof=1)로 계산한다.
주의할 점
이상치에 민감하다
표준편차는 분산의 제곱근이므로, 분산과 마찬가지로 평균에서 멀리 떨어진 이상치에 민감하다.
표준편차는 항상 0 이상이다
표준편차는 제곱근 값이므로 음수가 될 수 없다. 모든 값이 같으면 표준편차는 0이다.
표준화에서 자주 쓰인다
데이터를 평균 0, 표준편차 1로 바꾸는 [[표준화]]에서는 표준편차로 값을 나눈다.
이렇게 하면 변수의 단위와 스케일 차이를 줄일 수 있다.
영어 표현과 [[정규화]]와의 차이는 [[표준화]]에서 따로 정리한다.
Connections
- 분산 — 표준편차의 제곱.
- 공분산 — 두 변수의 동반 움직임. Pearson 상관계수에서 표준편차로 표준화된다.
- Pearson 상관계수 — 공분산을 두 변수의 표준편차 곱으로 나눈 값.
- [[68-95-99.7 규칙]] — 정규분포에서 표준편차 단위로 값의 포함 비율을 해석하는 규칙.
- [[정규분포]] — 68-95-99.7 규칙이 적용되는 대표적인 분포 가정.
- [[표준화]] — 평균을 빼고 표준편차로 나누어 평균 0, 표준편차 1로 변환하는 절차.
- [[batch normalization vs layer normalization]] — 딥러닝 정규화에서 평균과 표준편차를 사용한다.


Discussion
Comments
댓글은 승인 후 공개됩니다.