TL;DR

  • 정상성은 시계열의 통계적 성질이 시간에 따라 변하지 않는다는 가정이다.
  • 실제 수요·트래픽 데이터는 trend, seasonality, regime shift 때문에 비정상인 경우가 많다.

정상성

정상성(stationarity)은 시계열의 확률적 성질이 시간 이동에 대해 변하지 않는 상태를 말한다.

  • Strong stationarity (strict stationarity): 모든 joint distribution이 시간 이동에 대해 동일하다.
  • Weak stationarity: 평균, 분산, autocovariance가 시간에 따라 변하지 않는다.

실제 예측 문제에서는 weak stationarity가 더 자주 쓰인다. 평균 수준이 올라가거나, 계절 패턴이 바뀌거나, 특정 이벤트 이후 변동성이 커지면 정상성 가정이 깨진다.

비정상 시계열을 다룰 때는 차분, 로그 변환, detrending, seasonal adjustment 같은 전처리를 고려할 수 있다. 다만 트리 기반 회귀나 딥러닝 모델에서는 반드시 정상화된 시계열만 사용해야 하는 것은 아니다. 대신 모델이 어떤 비정상 구조를 feature로 설명할 수 있는지, 평가 cutoff에서 같은 구조가 유지되는지 확인해야 한다.

모델링에서의 의미

  • 모델이 과거 평균만 학습하고 최근 수준 변화를 따라가지 못하면 level shift 또는 trend change를 의심한다.
  • normalization이나 scaler를 전체 기간에 fit하면 미래 정보가 들어갈 수 있다.
  • rolling 또는 expanding validation으로 시간이 지나며 성능이 무너지는지 확인해야 한다.

Connections