TL;DR

  • Pearson 상관계수는 두 숫자 변수가 같이 커지고 같이 작아지는지부터 사이 숫자로 요약한다. 정확히는 두 변수의 선형 관계(linear relationship) 를 측정한다.
  • 핵심은 “두 변수가 평균을 기준으로 같은 방향으로 벗어나는가?”다. 수식은 공분산을 단위 없이 표준화한 것이다.

Pearson 상관계수

Pearson 상관계수 은 두 변수 , 가 평균으로부터 함께 얼마나 같은 방향으로 움직이는지를 측정한다. 어렵게 말하면 “표준화된 공분산”이고, 쉽게 말하면 “두 숫자 목록이 같은 방향으로 출렁이는 정도”다.

여기서 중요한 제한은 Pearson이 선형 관계를 본다는 점이다. 선형 관계란 산점도에서 점들이 대체로 하나의 직선 주변에 놓이는 관계다. 즉, 가 증가할 때 가 일정한 방향과 비율에 가깝게 증가하거나 감소하는 패턴이다.


직관

학생 5명의 공부 시간과 시험 점수가 있다고 하자.

학생공부 시간시험 점수
A150
B255
C365
D475
E590

이 데이터에서는 공부 시간이 평균보다 큰 학생이 시험 점수도 평균보다 큰 편이고, 공부 시간이 평균보다 작은 학생은 시험 점수도 평균보다 작은 편이다. 두 변수가 평균을 기준으로 같은 방향으로 움직인다. 이런 경우 Pearson 상관계수는 양수다.

반대로 공부 시간이 늘수록 시험 점수가 줄어드는 패턴이면 음수다. 한 변수는 평균보다 큰데 다른 변수는 평균보다 작은 식으로 서로 반대 방향으로 움직이기 때문이다.

아무 패턴 없이 흩어져 있으면 0에 가깝다. 단, 0에 가깝다는 말은 “직선 패턴, 즉 선형 관계가 약하다”는 뜻이지 “관계가 전혀 없다”는 뜻은 아니다.


수식이 하는 일

Pearson 수식은 세 가지 일을 한다.

  1. 각 값을 평균과 비교한다.
  2. 두 변수가 평균에서 같은 방향으로 벗어나면 양수, 반대 방향으로 벗어나면 음수로 누적한다.
  3. 변수의 단위와 크기 차이를 제거해서 결과를 부터 사이로 만든다.

그래서 키와 몸무게처럼 단위가 다른 변수도 하나의 상관계수로 비교할 수 있다.

표본 Pearson 상관계수는 다음과 같이 계산한다.

이는 표본 공분산을 두 변수의 표준편차 곱으로 나눈 값과 같은 의미다.


해석

Pearson 은 항상 범위에 있다.

의미
완전한 양의 선형 관계
양의 선형 관계. 가 커질수록 도 커지는 경향
선형 관계 없음
음의 선형 관계. 가 커질수록 는 작아지는 경향
완전한 음의 선형 관계

절댓값이 클수록 선형 관계가 강하다. 여기서 선형 관계는 “한 변수가 커질 때 다른 변수가 대체로 직선적으로 함께 커지거나 작아지는 관계”를 뜻한다. 다만 “강하다”의 기준은 분야와 데이터 맥락에 따라 달라진다. 같은 라도 실험실 통제 데이터와 사회과학 관측 데이터에서의 의미가 다를 수 있다.


단순 선형 회귀와의 관계

절편을 포함한 [[단순 선형 회귀]]에서 설명변수 하나와 반응변수 하나만 있을 때, 결정계수는 Pearson 상관계수의 제곱과 같다.

회귀 기울기와 Pearson 의 부호도 같다. 기울기가 양수이면 은 양수이고, 기울기가 음수이면 은 음수다.

이 관계 때문에 Pearson 은 단순 선형 회귀의 적합 정도를 직관적으로 요약할 수 있다. 하지만 자체는 기울기를 말하지 않는다. 단위가 제거된 지표이므로, “가 1 증가할 때 가 얼마나 변하는가”는 회귀계수로 해석해야 한다.


언제 적합한가

Pearson 상관계수는 다음 조건에서 해석이 가장 자연스럽다.

  • 두 변수가 연속형 또는 적어도 간격 척도에 가까운 수치형 변수다.
  • 관심 있는 관계가 직선에 가까운 선형 관계다.
  • 산점도에서 극단적 이상치가 관계를 지배하지 않는다.
  • p-value나 신뢰구간까지 해석하려면 표본 수, 정규성, 독립성 가정을 함께 검토한다.

실무에서는 Pearson 값을 계산하기 전에 산점도를 먼저 보는 것이 안전하다. 산점도는 비선형 구조, 이상치, 집단 혼합, 범위 제한을 드러내지만, 단일 상관계수 값은 이를 숨길 수 있다.


한계와 주의점

비선형 관계를 놓칠 수 있다

은 선형 관계가 없다는 뜻이다. 예를 들어 U자형 관계처럼 명확한 비선형 패턴이 있어도 양의 기울기 구간과 음의 기울기 구간이 서로 상쇄되면 Pearson 은 0에 가까워질 수 있다.

이상치에 민감하다

Pearson 상관계수는 평균과 제곱 편차를 사용하므로 이상치에 민감하다. 관측치 하나가 전체 기울기와 공분산을 크게 바꾸면, 실제 다수 표본의 패턴보다 이상치의 위치가 을 지배할 수 있다.

단조이지만 비선형인 관계에서는 약하게 보일 수 있다

의 증가에 따라 일관되게 증가하지만 그 형태가 로그, 지수, 포화 곡선처럼 비선형이면 Pearson 은 관계를 과소평가할 수 있다. 이 경우에는 Spearman 순위상관계수가 더 적합할 수 있다.

상관은 인과가 아니다

Pearson 은 두 변수의 동반 변동을 요약할 뿐이다. 숨은 교란변수, 역인과, 공통 원인, 표본 선택 편향이 있으면 높은 상관이 있어도 인과관계를 뜻하지 않는다.


구현

from scipy import stats
 
res = stats.pearsonr(x, y)
print(res.statistic, res.pvalue)

scipy.stats.pearsonr는 Pearson 과 “모상관계수가 0이다”라는 귀무가설에 대한 p-value를 반환한다. 기본 p-value 계산은 표본이 독립인 정규분포에서 왔다는 가정에 기대므로, 표본이 작거나 분포 가정이 의심스러우면 permutation test나 bootstrap 신뢰구간을 함께 검토한다.

상수 벡터처럼 분산이 0인 입력에서는 상관계수가 정의되지 않는다.


Connections

  • Spearman 순위상관계수 — 원값이 아니라 순위에 Pearson을 적용해 단조 관계를 측정한다.
  • 공분산 — Pearson 상관계수의 핵심 재료. 단위가 남아 있는 동반 움직임을 측정한다.
  • 표준편차 — 공분산을 단위 없는 값으로 표준화할 때 사용하는 각 변수의 퍼짐 단위.
  • [[Pearson vs Spearman 상관계수]] — 선형 관계와 단조 관계 중 무엇을 측정할지 결정하는 비교 노트 후보.
  • [[상관계수]] — 두 변수 간 연관성의 방향과 강도를 요약하는 상위 개념 후보.
  • [[단순 선형 회귀]] — 단일 설명변수 회귀에서 관계가 성립한다.