본문 바로가기

데이터 과학 스터디/시계열 스터디

시계열 분석 기법과 응용[Postec 전치혁 교수] Week1-2 지수평활법 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 지수평활법(Exponential Smoothing) 평활치를 구하는데 전체 데이터를 사용하며 시간에 따라 다른 가중치를 줌 과거로 갈수록 지수적으로 감소하는 가중치 사용 단순 지수평활(Simple Exponential Smoothing) 시계열 데이터가 수평적 패턴인 경우 사용 $\alpha$ = $[0,1]$, $\alpha$가 클 수록 현재 시점에 더 가중치를 둔다 알파가 작을 수록 변동이 심한 현재 시점보다는 과거의 시점에 더 가중치를 둠으로서 Smoothing 효과가 더 커진다. 최근 데이터와 이전 지수평활의 가중평균 아래 그림을 통해 볼 수 있듯이, $\alpha$가 적을 때가 훨씬 평활.. 더보기
시계열 분석 기법과 응용[Postec 전치혁 교수] Week1-1 이동평균법 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 시계열 분석 (Time Series Analysis) 하나의 변수에 대한 시간에 따른 관측치를 시계열 또는 시계열 데이터라 함. 회귀모형과는 달리 다른 변수를 도입하지 않고 자신의 변수의 과거 패턴이 미래에도 계속된다는 가정하에 변수의 과거값을 바탕으로 미래값 예측 시계열 패턴은 수평, 추세, 계절성이 복합된 것으로 간주 시계열 분석의 목적: 시계열의 특성(추세, 계절성)을 요약하고 시간에 따른 패턴(자기 상관성)을 분석 시간에 따른 패턴을 바탕으로 모형화하고 미래값을 예측 시계열 분석 모형의 종류: 평활화 모형: 이동평균, 지수평활, 윈터스 모형, 분해법 정상적 ARMA 모형: AR, MA, A.. 더보기
시계열 데이터 EDA (실전 시계열 분석 3장) *이 글은 실전 시계열 분석 책을 기반으로 작성되었습니다. 시계열 데이터의 EDA 3장에서는 탐색적 자료 분석 즉 EDA 과정에 대해 다룬다. 데이터간 어떤 상관관계? 데이터의 평균과 분산은? 이를 확인하기 위해, 도표, 요약 통계, 히스토그램, 산점도 등을 '시간'과 함께 고려해야 한다. 히스토그램 히스토그램 Draw 시에 X축을 시간, Y축을 변수 정보로 그릴 수도 있으나, Y축에 이전 변수와의 차이를 매핑하는 방법으로 새로운 아이디어를 얻을 수 있다. (R 코드에서 diff() 함수로 쉽게 구현 가능하다.) 산점도 시간의 흐름에 맞춰서 산점도를 mapping 하면 상관관계를 엿볼 수 있다. 두 주가 사이의 상관관계를 파악하기 위해 산점도를 그냥, 차분해서 매핑 했을 때, 상관관계가 높아 보일 수 있.. 더보기
시계열 데이터 전처리 방법(실전 시계열 분석 2장) *이 글은 실전 시계열 분석 책을 기반으로 작성되었습니다. 시계열 데이터의 전처리 Flow 일변량 시계열 vs 다변량 시계열 - 일변량 (univariate) : 시간에 대해 측정된 변수가 하나인 경우 - 다변량 (multivariate) : 시간에 대해 측정된 변수가 여러개인 경우 저자는 시간에 따라 정렬된 데이터셋 (EX: Kaggle과 같은 대회용 데이터셋) 이 아니라, 시계열로 주어지지는 않았으나, Time stamp, "시간" 은 없지만 시간을 대체할 수 있는 데이터 혹은 물리적 흔적이 남은 데이터 셋을 일컬어 발견된 시계열 found time series라고 명칭한다. 2 장에서는 발견된 시계열을 어떻게 전처리 하는지를 예제와 함께 다룬다. 먼저 예제를 통해 큰 흐름을 살펴보자. 발견된 시계열.. 더보기