TL;DR
- 시계열 예측에서는 언제 예측을 시작하는지와 얼마나 먼 미래를 예측하는지를 먼저 정해야 한다.
- 시계열 feature와 target은 항상 cutoff 기준으로 정의해야 한다.
시계열 예측의 기준 시점과 예측 기간
시계열 예측에서는 언제 예측을 시작하는가와 얼마나 먼 미래를 예측하는가를 먼저 정해야 한다. 전자는 cutoff 또는 forecast origin, 후자는 forecast horizon이라고 부른다.
Cutoff 또는 forecast origin은 예측 시점의 “지금”을 뜻한다. cutoff 이전은 모델이 관측할 수 있는 과거이고, cutoff 이후는 예측해야 할 미래다.
Forecast horizon은 cutoff 이후 몇 시점 앞을 예측하는지 나타낸다. daily 예측에서 horizon 1은 다음 날, horizon 14는 14일 뒤를 의미한다.
Lookback window는 모델이 입력으로 참조하는 과거 길이다. 예를 들어 lookback이 90일이면 cutoff 이전 90일의 값으로 lag, moving average, sequence input 등을 만든다.
이 세 개념이 명확하지 않으면 시계열 코드에서는 쉽게 leakage가 생긴다. 특히 feature 계산 함수가 현재 날짜가 아니라 전체 데이터프레임만 받아서 rolling mean을 계산하면, 평가 시점 이후 값이 암묵적으로 들어갈 수 있다.
모델링에서의 의미
- 모든 feature 생성은
feature = f(data, cutoff, horizon)구조로 생각하는 것이 명확하다. - target은
cutoff + horizon시점의 값이다. - lag와 moving average는
cutoff이전 정보로만 계산해야 한다. - multi-horizon 데이터셋에서는 같은 cutoff에서 horizon별로 여러 row가 만들어질 수 있다.
Connections
- 시계열 예측에서 예측 시점에 알 수 있는 변수와 알 수 없는 변수 — cutoff 기준으로 사용 가능한 feature가 갈린다.
- 여러 미래 시점을 예측하는 Multi-Horizon Forecasting — 여러 horizon을 어떻게 모델링할지 결정한다.
- 시계열 검증에서 예측 기준일을 이동시키는 방법 — cutoff를 여러 시점으로 움직이며 평가한다.


Discussion
Comments
댓글은 승인 후 공개됩니다.