본문 바로가기

데이터 과학 스터디/시계열 스터디

시계열 분석 기법과 응용[Postec 전치혁 교수] Week2-1 정상적 시계열과 자기상관함수

*이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다.

 

정상적 시계열 (Stationary Time Series)

- 실제 시계열은 추세, 계절성을 포함하는 비정상적(non-stationary)인 것이 많다.

- 비정상적 시계열은 적절한 변환을 통해 정상적 시계열로 바꿀 수 있다.

 

  • 강 정상성 (Strong Stationarity)

*여기서 결합확률분포(Joint Distribution)란 XY 두 개의 변수가 있을 때 그 순서쌍 (Xi,Yi) 가 동시에 특정한 값을 갖는 확률 P(X=Xi,Y=Yi)을 의미하며, 이를 함수로 나타내면 f(X,Y) 즉 joint probability mass function이 된다.

즉 강 정상성이란 m개의 변수집합 Za=(Z1,,Zm)Zb=(Z1+k,Zm+k)에 대해서 f(Z1,,Zm)=f(Z1+k,,Zm+k) 인 경우 성립되는 것. 

 

  • 약 정상성 (Weak Stationarity)

약 정상성의 경우 강정상성과 마찬가지로 기대치가 시간에 따라 일정하나, 임의 두 시점 자기 공분산이 시간 간격에만 의존하고 유한하다는 가정하에 약 정상성이라고 한다. 즉 강 정상성을 포함하는 개념. 

 

 

자기 공분산 (autocovatiance)

  • 시계열의 시간에 따른 연관 패턴을 자기공분산으로 요약
  • 공분산의 정의에 따라 Zt,Ztk에서 각각의 평균을 빼나, 약 정상성 가정(기대치가 시간에 따라 일정)에 따라 동일한 평균을 빼는 방식으로 구할 수 있다. 
  • 여기에 편의를 위해 평균이 0이라는 가정을 추가해 주게 되면(평균이 0이 되도록 수직이동), 현재시점 ×k이전시점의 시계열 데이터의 곱셈에 대한 평균으로 쉽게 계산할 수 있다. 
  • 공분산은 diagonal을 기준으로 대칭성을 가지므로, r(k)r(k)와 같다. 
  • r(k)k의 함수라고 가정하면, 시간 t에 상관없이 시점의 차이만으로 함수 값이 정의된다(아래 표그림 참조)

자기상관함수(autocorrelation function : ACF)

- 자기 공분산을 correlation으로 변환시켜준 개념

원래 Correlation 정의에 의하면 두 변수의 공분산을 각 변수의 표준편차로 나누어 주어야 하는데, ZtZt+k의 표준편차가 동일하기 때문에 std(Zt)2=Var[Zt]가 되어 그냥 분산의 form으로 나타낼 수 있다. 즉 자기공분산 함수로 r(k)/r(0)로 정리할 수 있다.

자기상관함수의 첫번째 시점 k=0 일때는 무조건 값이 1이 되며, 결국엔 자기공분산 함수에 r(0)로 scaling을 진행한 form이므로 당연히 k=0에 대해 대칭이며 마찬가지로 시점t와 상관없이 떨어진 시간 거리에 따라 함수가 정의된다.

 

자기상관 함수 산출 예제

(예제 1)

*백색잡음은 다른 변수와는 독립이며, 평균 0을 가진다는 성질이 있다.

풀이 1, 2, 3에 대한 자세한 증명은 아래와 같다. 

분산에 대한 증명은 아래와 같다.

(예제 2)

자세한 증명은 아래와 같다.