*이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다.
강의 내용으로 들어가기 전, 먼저 관련 개념들을 명확히 하는 것이 좋을 것 같아 정리해보았다.
추세(Trend): 데이터가 장기적으로 증가하거나 감소하는 경우 이를 추세(Trend)가 존재한다고 한다. 트랜드는 위로 상향하는 upward 일 수도, 아래로 감소하는 downward 일 수도 있으며, 수평적 형태를 띈다면 이를 stationary trend 혹은 horizontal trend라고 한다.
일반적으로 추세를 표현하기 위해, 평균의 변화 즉 선형함수에서의 기울기(Slope)가 존재하면 이를 트랜드라고 하지만, 이것만이 추세의 전부는 아니다. Linear (선형)뿐만 아니라 Quadratic (2차항)이 될 수도 있고 그 이상의 차수일 수도 있으며, Exponential하게 증가하는 경우(EXP^(a+bt))에도 이를 추세라고 일컫는다. 또한 random walking과 같은 stochastic한 변화에도 Trend라는 용어를 사용한다.
수학적으로는 시계열데이터의 평균 E[X1, X2, ... Xt]이 t시점이 증가할 때 변화하는 경우, 이를 추세가 존재한다고 표현한다.


계절성(Seasonality): 계절성은 일정한 주기에 따라 데이터가 동일한 패턴을 띄는 경우를 의미한다. 예를 들면, 우산 판매량 데이터에서 여름마다 판매량이 증가하는 것이나, 매주 토요일 저녁에 방송 시청자 수가 최대를 달성하는 것 등. 일정한 빈도 (년, 월, 주, 혹은 요일)에 따라 증감의 패턴이 관측되는 경우에 이를 계절성이라고 한다.
주기성(Cycle): 계절성이 일정한 주기에 따라 동일한 패턴을 띄었다면, 주기성의 경우 주기는 일정하지 않으나 동일한 패턴을 띄는 경우라고 보면된다. 간단한 예시로 경제사이클의 경우, 언제 호황기가 올지 불황기가 올지는 정해지지 않았으나, 결국엔 호황 -> 후퇴 -> 불황 -> 회복의 패턴이 유지된다.
*추세를 평균의 변화라고 정의하게 되면, 계절성과 주기성 역시 추세라는 개념에 속해있다고 볼 수도 있다.
시계열의 비정상성 (nonstationary)
- 시계열에 분산의 변화가 있거나 추세 또는 계절성이 포함되는 경우, 정상성을 만족하지 않는다.
- 수학적으로는 시계열 데이터의 평균, 분산, Autocorrelation의 structure가 변화하는 경우 정상성을 만족하지 않는다.

이번 강의에서는 이러한 비정상성에 대응하는 방법 중 하나인 ARIMA에 대해 다룬다.
기본적인 비정상성 대응방안들은 다음과 같다.
비정상성 대응 방안
- 차분을 통해 정상적 시계열로 변환
- 로그함수 등 함수 변환을 통해 분산 안정화
- 분해법으로 추세, 계절성 제거
Differencing (차분) : 시계열 데이터 집합을 한시점 뒤로 당겨서 (lagging)이를 원래 데이터에서 빼주는 작업.
아래 그림을 살펴보면, Zt는 시계열 데이터 {X1,X2,...Xt}의 집합을 의미한다.
즉 Zt-1은 이러한 집합 Zt를 한 시점씩 앞당긴 {X1, X2, ... Xt-1}이 되고, Zt - Zt-1은 {X2-X1, X3-X2, ... Xt-Xt-1}이 된다.
(X0가 존재하지 않으므로, 차분 계산시에는 이를 고려해 Zt는 X2부터, Zt-1은 X1부터로 정의해야한다. )
Backshift operator를 이용하면 이러한 차분과정을 아래와 같이 일반화 할 수 있다.

실제 정상성을 위해 차분을 사용하는 경우 1차 차분을 해보고, 만약 정상적이지 않은 경우 2차 차분을 진행한다.
그 이상으로 차분할 수 있으나, 대부분이 2차차분 내에서 문제가 해결된다. 간단한 AR이나 MA모델의 차분의 평균을 직접 구해보면 실제로 평균이 일정해지고, ACF역시 대부분 0으로 변환되는 것을 확인해 볼 수 있다.
아래 그림을 확인해보면, 비정상 시계열에 차분을 진행하면서 평균이 거의 일정해지고, ACF 역시 0에 근접하여 정상성이 충족됨을 볼 수 있다.

ARIMA
이전강의까지는 ARMA모델에 대해 다루었는데, ARMA모델의 경우, 시계열의 정상성 조건이 충족되어야 했다. 비정상성 시계열 데이터에도 적용될 수 있도록 ARMA모델에 Difference 즉 차분을 적용시킨 모델이 바로 ARIMA이다.
여기서 I는 integerated로 아래 그림을 보면, 차수 d 누적시계열이 영어로 integrated process of order d로, 즉 위에서 설명한 데로, 차분이 추가됨을 의미한다.
*차수 d 누적시계열의 개념이 약간 어려운데, 예를 들어 차수 2누적 시계열의 경우, Zt를 2차 차분을 해야 시계열이 처음으로 정상적인 시계열을 의미하며 I(2)로 표기한다.

차분된 시계열이 ARMA(p,q)를 따를 때, 원 시계열 Zt를 ARIMA(p,d,q)모형을 따른다고 얘기할 수 있다.
아래 예시를 통해 조금 더 직관적으로 이해할 수 있다.

'데이터 과학 스터디 > 시계열 스터디' 카테고리의 다른 글
시계열 분석 기법과 응용[Postec 전치혁 교수] Week5-1 오차의 조건부 분산 개념 및 ARCH 모형 (0) | 2023.03.28 |
---|---|
시계열 분석 기법과 응용[Postec 전치혁 교수] Week4-2 계절성을 반영한 ARIMA 모형 이해 (0) | 2023.03.22 |
시계열 분석 기법과 응용[Postec 전치혁 교수] Week3-3 최소평균오차 기반의 ARMA 모형 예측치 유도 (0) | 2023.03.15 |
시계열 분석 기법과 응용[Postec 전치혁 교수] Week3-2 ARMA모형의 파라미터 추정을 위한 최우추정법 (0) | 2023.03.15 |
시계열 분석 기법과 응용[Postec 전치혁 교수] Week3-1 ARMA모형의 식별: 시차판정 (0) | 2023.03.15 |