본문 바로가기

실전 시계열 분석

시계열 데이터 EDA (실전 시계열 분석 3장) *이 글은 실전 시계열 분석 책을 기반으로 작성되었습니다. 시계열 데이터의 EDA 3장에서는 탐색적 자료 분석 즉 EDA 과정에 대해 다룬다. 데이터간 어떤 상관관계? 데이터의 평균과 분산은? 이를 확인하기 위해, 도표, 요약 통계, 히스토그램, 산점도 등을 '시간'과 함께 고려해야 한다. 히스토그램 히스토그램 Draw 시에 X축을 시간, Y축을 변수 정보로 그릴 수도 있으나, Y축에 이전 변수와의 차이를 매핑하는 방법으로 새로운 아이디어를 얻을 수 있다. (R 코드에서 diff() 함수로 쉽게 구현 가능하다.) 산점도 시간의 흐름에 맞춰서 산점도를 mapping 하면 상관관계를 엿볼 수 있다. 두 주가 사이의 상관관계를 파악하기 위해 산점도를 그냥, 차분해서 매핑 했을 때, 상관관계가 높아 보일 수 있.. 더보기
시계열 데이터 전처리 방법(실전 시계열 분석 2장) *이 글은 실전 시계열 분석 책을 기반으로 작성되었습니다. 시계열 데이터의 전처리 Flow 일변량 시계열 vs 다변량 시계열 - 일변량 (univariate) : 시간에 대해 측정된 변수가 하나인 경우 - 다변량 (multivariate) : 시간에 대해 측정된 변수가 여러개인 경우 저자는 시간에 따라 정렬된 데이터셋 (EX: Kaggle과 같은 대회용 데이터셋) 이 아니라, 시계열로 주어지지는 않았으나, Time stamp, "시간" 은 없지만 시간을 대체할 수 있는 데이터 혹은 물리적 흔적이 남은 데이터 셋을 일컬어 발견된 시계열 found time series라고 명칭한다. 2 장에서는 발견된 시계열을 어떻게 전처리 하는지를 예제와 함께 다룬다. 먼저 예제를 통해 큰 흐름을 살펴보자. 발견된 시계열.. 더보기