TL;DR
- 자기상관은 현재 값과 과거 값 사이의 상관이다.
- 자기상관 때문에 시계열에서는 random split이 위험해지고, lag feature가 효과를 갖는다.
- ACF는 현재 값과 과거 값의 전체적인 상관을 보고, PACF는 중간 lag의 영향을 제거한 뒤 남는 직접적인 관계를 본다.
자기상관
자기상관(autocorrelation)은 같은 시계열 안에서 현재 값과 과거 값이 얼마나 관련되는지를 나타낸다.
lag 의 자기상관은 현재 값 와 시점 전 값 의 상관이다. 예를 들어 lag 7의 자기상관이 크면 현재 값이 7일 전 값과 강하게 같이 움직인다는 뜻이다. daily retail demand에서는 요일 패턴 때문에 lag 7의 자기상관이 나타날 수 있다.
ACF(Autocorrelation Function)는 여러 lag에 대해 와 의 상관을 계산한 것이다. ACF lag 3은 “오늘 값과 3일 전 값이 같이 움직이는가?”를 묻는다.
중간 lag를 분리하지 않고 현재 값과 3일 전 값의 단순 상관을 본다.
PACF(Partial Autocorrelation Function)는 중간 lag의 영향을 제거한 뒤에도 가 를 추가로 설명하는지 본다. PACF lag 3은 “어제 값과 2일 전 값을 이미 알고 있어도, 3일 전 값이 오늘 값을 추가로 설명하는가?”를 묻는다.
수식에서 세미콜론 뒤는 영향을 제거(통제)하는 중간 lag들이다.
PACF lag 3을 직관적으로 쓰면 다음과 같다.
즉 과 의 설명력을 제거한 뒤, 과 사이에 남는 관계를 본다.
더 정확히 말하면 PACF lag 는 를 중간 lag들로 설명하고 남은 잔차와, 를 같은 중간 lag들로 설명하고 남은 잔차 사이의 상관이다. 따라서 PACF의 “직접 관계”는 인과 효과를 의미하지 않는다. 중간 lag를 통제한 뒤에도 남는 선형 예측 관계에 가깝다.
예를 들어 다음처럼 과거 값의 영향이 순차적으로 전달되는 구조가 있다고 하자.
이 경우 ACF에서는 와 이 관련 있어 보일 수 있다. 하지만 그 관계가 와 을 거쳐 나타난 간접 관계라면, PACF lag 3은 작아질 수 있다. 반대로 중간 lag를 제거한 뒤에도 이 를 추가로 설명하면 PACF lag 3은 크게 남는다.
전통 시계열 모델에서는 ACF와 PACF를 AR, MA 차수 판단의 힌트로 사용한다. 회귀 기반 시계열 모델에서는 어떤 lag feature를 후보로 둘지 판단하는 진단 도구로 쓸 수 있다. 다만 ACF/PACF는 선형 상관 구조를 보는 도구이므로, 계절성, trend, 구조적 변화(regime shift) 가 강한 데이터에서는 정상성 변환이나 분해 관점과 함께 해석해야 한다.
모델링에서의 의미
- lag feature는 자기상관이 있다는 가정 위에서 의미가 있다.
- lag를 만들 때 cutoff 이후 값을 참조하면 데이터 leakage가 된다.
- 강한 자기상관이 있는 데이터는 random split 성능이 실제 운영 성능보다 과대평가될 수 있다.
Connections
- 시계열 데이터 — 자기상관이 시계열을 일반 tabular 데이터와 구분한다.
- 시계열 예측의 기준 시점과 예측 기간 — lag feature는 cutoff 이전 정보로만 계산해야 한다.
- 시계열 검증에서 예측 기준일을 이동시키는 방법 — 자기상관이 있는 데이터의 평가에서 시간 순서를 보존한다.


Discussion
Comments
댓글은 승인 후 공개됩니다.