TL;DR

  • 시계열 예측에서 feature는 예측 시점에 알 수 있었는지를 기준으로 나눠야 한다.
  • Future-known feature는 미래 기간의 값을 미리 알 수 있는 변수이고, past-only feature는 시간이 지나야 관측되는 변수다.

시계열 예측에서 예측 시점에 알 수 있는 변수와 알 수 없는 변수

시계열 예측에서 feature는 단순히 값이 존재하는지가 아니라, 예측 시점에 그 값을 알 수 있었는지로 판단해야 한다.

Future-known feature는 미래 기간의 값이 예측 시점에 이미 알려진 변수다. 요일, 공휴일, 사전에 확정된 가격, 예정된 행사 일정 등이 여기에 속한다.

Past-only feature는 예측 시점 이후의 값을 알 수 없는 변수다. 미래 판매량, 미래 영수증 수, 미래 재고 부족 여부처럼 실제 시간이 지나야 관측되는 값은 past-only다.

같은 외생변수라도 future-known인지 past-only인지가 다를 수 있다. 예를 들어 날씨 예보는 예측 시점에 사용할 수 있는 forecasted exogenous input이지만, 실제 관측 날씨는 미래에만 알 수 있으므로 그대로 쓰면 leakage가 될 수 있다.

모델링에서의 의미

  • feature 생성 함수는 cutoff를 인자로 받아야 한다.
  • cutoff 이후 actual에서 계산한 평균, scaler, category encoding은 leakage가 될 수 있다.
  • calendar feature는 미래 날짜에 대해 계산 가능하지만, target-derived feature는 cutoff 이전으로 제한해야 한다.

Connections