본문 바로가기

데이터 과학 스터디/시계열 스터디

시계열 분석 기법과 응용[Postec 전치혁 교수] Week2-1 정상적 시계열과 자기상관함수

*이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다.

 

정상적 시계열 (Stationary Time Series)

- 실제 시계열은 추세, 계절성을 포함하는 비정상적(non-stationary)인 것이 많다.

- 비정상적 시계열은 적절한 변환을 통해 정상적 시계열로 바꿀 수 있다.

 

  • 강 정상성 (Strong Stationarity)

*여기서 결합확률분포(Joint Distribution)란 $X$와 $Y$ 두 개의 변수가 있을 때 그 순서쌍 $(X_i, Y_i)$ 가 동시에 특정한 값을 갖는 확률 $P(X=X_i, Y=Y_i)$을 의미하며, 이를 함수로 나타내면 $f(X,Y)$ 즉 joint probability mass function이 된다.

즉 강 정상성이란 $m$개의 변수집합 $Z_a = (Z1, \ldots  , Zm)$와 $Z_b = (Z_{1+k}, \ldots  Z_{m+k})$에 대해서 $f(Z_1, \ldots , Z_m) = f(Z_{1+k}, \ldots  , Z_{m+k})$ 인 경우 성립되는 것. 

 

  • 약 정상성 (Weak Stationarity)

약 정상성의 경우 강정상성과 마찬가지로 기대치가 시간에 따라 일정하나, 임의 두 시점 자기 공분산이 시간 간격에만 의존하고 유한하다는 가정하에 약 정상성이라고 한다. 즉 강 정상성을 포함하는 개념. 

 

 

자기 공분산 (autocovatiance)

  • 시계열의 시간에 따른 연관 패턴을 자기공분산으로 요약
  • 공분산의 정의에 따라 $Z_t, Z_{t-k}$에서 각각의 평균을 빼나, 약 정상성 가정(기대치가 시간에 따라 일정)에 따라 동일한 평균을 빼는 방식으로 구할 수 있다. 
  • 여기에 편의를 위해 평균이 0이라는 가정을 추가해 주게 되면(평균이 0이 되도록 수직이동), 현재시점 $\times k$이전시점의 시계열 데이터의 곱셈에 대한 평균으로 쉽게 계산할 수 있다. 
  • 공분산은 diagonal을 기준으로 대칭성을 가지므로, $r(k)$는 $r(-k)$와 같다. 
  • $r(k)$를 $k$의 함수라고 가정하면, 시간 t에 상관없이 시점의 차이만으로 함수 값이 정의된다(아래 표그림 참조)

자기상관함수(autocorrelation function : ACF)

- 자기 공분산을 correlation으로 변환시켜준 개념

원래 Correlation 정의에 의하면 두 변수의 공분산을 각 변수의 표준편차로 나누어 주어야 하는데, $Z_t$와 $Z_{t+k}$의 표준편차가 동일하기 때문에 $std(Z_t)^2 = Var[Z_t]$가 되어 그냥 분산의 form으로 나타낼 수 있다. 즉 자기공분산 함수로 $r(k)/r(0)$로 정리할 수 있다.

자기상관함수의 첫번째 시점 $k = 0$ 일때는 무조건 값이 1이 되며, 결국엔 자기공분산 함수에 $r(0)$로 scaling을 진행한 form이므로 당연히 $k = 0$에 대해 대칭이며 마찬가지로 시점$t$와 상관없이 떨어진 시간 거리에 따라 함수가 정의된다.

 

자기상관 함수 산출 예제

(예제 1)

*백색잡음은 다른 변수와는 독립이며, 평균 0을 가진다는 성질이 있다.

풀이 1, 2, 3에 대한 자세한 증명은 아래와 같다. 

분산에 대한 증명은 아래와 같다.

(예제 2)

자세한 증명은 아래와 같다.