TL;DR
- 정상성은 시계열의 통계적 성질이 시간에 따라 변하지 않는다는 가정이다.
- 실제 수요·트래픽 데이터는 trend, seasonality, regime shift 때문에 비정상인 경우가 많다.
정상성
정상성(stationarity)은 시계열의 확률적 성질이 시간 이동에 대해 변하지 않는 상태를 말한다.
- Strong stationarity (strict stationarity): 모든 joint distribution이 시간 이동에 대해 동일하다.
- Weak stationarity: 평균, 분산, autocovariance가 시간에 따라 변하지 않는다.
실제 예측 문제에서는 weak stationarity가 더 자주 쓰인다. 평균 수준이 올라가거나, 계절 패턴이 바뀌거나, 특정 이벤트 이후 변동성이 커지면 정상성 가정이 깨진다.
비정상 시계열을 다룰 때는 차분, 로그 변환, detrending, seasonal adjustment 같은 전처리를 고려할 수 있다. 다만 트리 기반 회귀나 딥러닝 모델에서는 반드시 정상화된 시계열만 사용해야 하는 것은 아니다. 대신 모델이 어떤 비정상 구조를 feature로 설명할 수 있는지, 평가 cutoff에서 같은 구조가 유지되는지 확인해야 한다.
모델링에서의 의미
- 모델이 과거 평균만 학습하고 최근 수준 변화를 따라가지 못하면 level shift 또는 trend change를 의심한다.
- normalization이나 scaler를 전체 기간에 fit하면 미래 정보가 들어갈 수 있다.
- rolling 또는 expanding validation으로 시간이 지나며 성능이 무너지는지 확인해야 한다.
Connections
- 시계열 데이터 — 정상성은 시계열의 기본 통계 가정이다.
- Regime Shift와 Structural Break — 정상성이 깨지는 대표적 원인.
- 시계열 검증에서 예측 기준일을 이동시키는 방법 — 시간에 따른 성능 안정성을 확인한다.


Discussion
Comments
댓글은 승인 후 공개됩니다.