TL;DR

  • 표준편차분산의 제곱근이다.
  • 분산은 단위가 제곱되어 직관적으로 읽기 어렵기 때문에, 원래 데이터와 같은 단위로 퍼짐을 해석하려고 표준편차를 사용한다.

표준편차

표준편차(standard deviation)는 데이터가 평균 주변에서 보통 어느 정도 떨어져 있는지를 원래 데이터 단위로 나타내는 값이다.

분산이 “평균에서 떨어진 정도의 제곱 평균”이라면, 표준편차는 그 제곱근이다.

그래서 표준편차는 분산보다 해석이 쉽다. 예를 들어 키를 cm로 측정했다면 분산의 단위는 가 되지만, 표준편차의 단위는 다시 cm가 된다.


직관

두 반의 시험 점수를 비교해보자.

평균표준편차해석
A반74작음점수가 평균 근처에 몰려 있음
B반74점수가 평균 주변에 넓게 퍼져 있음

평균은 중심 위치를 말한다. 표준편차는 그 중심 주변으로 값들이 얼마나 퍼져 있는지 말한다.

표준편차가 작으면 값들이 평균 근처에 촘촘히 모여 있다. 표준편차가 크면 값들이 평균에서 멀리 흩어져 있다.


정규분포에서의 해석

[[정규분포]] 또는 정규분포에 가까운 분포에서는 [[68-95-99.7 규칙]]으로 표준편차를 해석할 수 있다. 평균을 기준으로 안에는 약 68.27%, 안에는 약 95.45%, 안에는 약 99.73%가 들어온다.

이 해석은 모든 데이터에 자동으로 적용되지 않는다. 분포가 정규분포에 가깝다는 전제가 필요하다.


수식

표본표준편차는 표본분산의 제곱근이다.

모표준편차는 모분산의 제곱근이다.

여기서 표본은 , 모집단은 으로 나누는 분산 정의를 그대로 따른다.


분산과의 차이

기준분산표준편차
계산평균과의 차이를 제곱해 평균냄분산의 제곱근
단위원래 단위의 제곱원래 데이터와 같은 단위
해석수학적으로 다루기 좋음사람이 읽기 쉬움
cm

분산은 계산과 이론 전개에 편하고, 표준편차는 해석에 편하다.


Pearson 상관계수와의 관계

Pearson 상관계수공분산을 두 변수의 표준편차 곱으로 나누어 표준화한 값이다.

공분산은 단위와 단위가 곱해진 값을 갖는다. 여기에 의 표준편차 의 표준편차 를 나누면 단위가 사라지고, 결과가 부터 사이의 비교 가능한 값이 된다.


구현

import numpy as np
 
x = [70, 72, 74, 76, 78]
 
population_std = np.std(x)
sample_std = np.std(x, ddof=1)

np.std(x)의 기본값은 ddof=0이므로 모표준편차 형태다. 표본표준편차는 np.std(x, ddof=1)로 계산한다.


주의할 점

이상치에 민감하다

표준편차는 분산의 제곱근이므로, 분산과 마찬가지로 평균에서 멀리 떨어진 이상치에 민감하다.

표준편차는 항상 0 이상이다

표준편차는 제곱근 값이므로 음수가 될 수 없다. 모든 값이 같으면 표준편차는 0이다.

표준화에서 자주 쓰인다

데이터를 평균 0, 표준편차 1로 바꾸는 [[표준화]]에서는 표준편차로 값을 나눈다.

이렇게 하면 변수의 단위와 스케일 차이를 줄일 수 있다.

영어 표현과 [[정규화]]와의 차이는 [[표준화]]에서 따로 정리한다.


Connections