TL;DR

  • 내생변수는 예측 대상 자체 또는 그 과거에서 나온 정보이고, 외생변수는 시스템 밖에서 주어지는 설명 변수다.
  • 외생변수도 예측 시점에 알 수 있는지에 따라 사용 가능성이 달라진다.

외생변수와 내생변수

시계열 예측에서 내생변수(endogenous variable)는 예측 대상 자체 또는 그 과거값에서 파생된 변수다. 판매량 예측에서는 과거 판매량, lag feature, moving average가 내생 정보에 해당한다.

외생변수(exogenous variable)는 예측 대상 밖에서 주어지는 설명 변수다. 캘린더, 휴일, 가격, 프로모션, 날씨, 거시 지표 등이 예시다.

참고로 계량경제학에서 내생성(endogeneity)은 설명 변수가 오차항과 상관되는 문제를 가리키는 별개 개념이다. 이 노트의 내생/외생 구분은 statsmodels 같은 예측 라이브러리의 endog/exog 관용을 따른다.

외생변수가 있다는 말은 그 변수를 항상 안전하게 쓸 수 있다는 뜻이 아니다. 핵심은 그 외생변수의 미래값을 예측 시점에 알 수 있는가다. 이 구분은 시계열 예측에서 예측 시점에 알 수 있는 변수와 알 수 없는 변수에서 다룬다.

모델링에서의 의미

  • 내생 feature는 반드시 cutoff 이전 관측값으로만 계산한다.
  • 외생 feature도 예측 시점에 알려져 있지 않은 미래값이면 leakage가 된다.
  • 모델 명세에는 target, endogenous features, exogenous features를 분리해 적는 것이 좋다.

Connections