TL;DR

  • Rolling-origin evaluation은 예측 기준일을 시간 순서대로 이동시키며 여러 번 평가하는 방법이다.
  • 단일 cutoff의 운을 줄이고, 미래 정보가 과거 학습에 섞이는 것을 막는다.

시계열 검증에서 예측 기준일을 이동시키는 방법

그림의 숫자 예시는 cutoff가 100, 130, 160이고 forecast horizon이 14인 경우다. Expanding window는 1-100, 1-130, 1-160처럼 학습 시작점을 고정하고, rolling/sliding window는 1-100, 31-130, 61-160처럼 학습 구간 전체를 앞으로 밀어낸다. 각 cutoff 뒤의 101-114, 131-144, 161-174는 평가할 forecast horizon이다.

Rolling-origin evaluation은 cutoff 또는 forecast origin을 시간 순서대로 여러 번 이동시키며 예측 성능을 평가하는 방식이다. walk-forward validation 또는 time series cross-validation이라고도 부른다.

일반 K-fold cross-validation은 데이터를 무작위로 섞거나 fold로 나누기 때문에 미래 데이터가 과거 예측 평가에 섞일 수 있다. 시계열에서는 이 방식이 실제 운영 조건을 깨뜨린다.

Rolling-origin에서는 각 cutoff마다 그 시점까지 알려진 과거만 사용하고, cutoff 이후 horizon 구간을 예측한다. 여러 cutoff의 성능을 평균하면 특정 이벤트나 특정 날짜 하나에 과적합된 판단을 줄일 수 있다.

관련 용어

  • Expanding window: cutoff가 진행될수록 학습 데이터가 누적된다.
  • Fixed/sliding window: 항상 최근 일정 길이만 학습에 사용한다.
  • Rolling-retrain: 각 cutoff마다 모델을 다시 학습한다.
  • Rolling forecast: 운영 중 매일 또는 매주 cutoff를 갱신해 예측을 새로 만든다.

모델링에서의 의미

  • 평가 loop는 cutoff list를 명시적으로 가져야 한다.
  • 각 cutoff에서 scaler, calibration, feature engineering이 과거 데이터에만 fit되어야 한다.
  • 단일 cutoff 성능만으로 모델 winner를 고르면 이벤트 운에 취약하다.

Connections