본문 바로가기

데이터 과학 스터디

[Forecasting at Scale] Facebook 시계열 패키지 prophet 논문 리뷰 https://peerj.com/preprints/3190.pdf 2017년 9월에 발표한 Article로서, "at Scale"은 '대규모로', 혹은 '전체의' 등으로 해석된다. 논문 내용을 살펴보면 Prophet이 지향하는 바는 다양한 시계열 예측 프로세스의 모든 과정을 시계열 데이터 분석을 할 줄 모르는 사람도 할 수 있도록 시계열 분석의 A-to-Z를 진행할 수 있게끔 만든 패키지라고 보면 된다. Introduction 대부분의 기업에서는 capacity planning (다음 달 생산을 위해 사람이 얼마나 필요한지, 원자재가 얼마나 필요한지) 등 다양한 이유로 Forecasting 즉 예측을 진행한다. 하지만 완전히 자동화된 예측 모듈은 튜닝하기가 어렵고 대부분 유동적이지 못해 새로운 가정(as.. 더보기
시계열 분석 기법과 응용[Postec 전치혁 교수] Week6-3 공적분의 개념과 가성회귀, 오차수정모형의 이론 및 응용 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 지난번에는 왼쪽 즉 정상적 시계열 분석에 대해 알아보았다면, 이번에는 비정상적 시계열 분석에 대해 다룬다. 비정상적 시계열 분석 가장 먼저 당연히 정상적 시계열보다는 비정상적 데이터가 훨씬 많다. 경제/금융 시계열 각각은 비정상적이나, 소득과 소비처럼 장기적으로는 서로가 서로를 따라가는 관계가 있는 경우가 있고, 이를 공적분(Cointegration) 관계라고한다. 차분을 통해 정상적 시계열 변환보다는 이를 그대로 사용하는게 더 많은 정보를 얻을 수 있다. 비정상적 시계열인데 서로 관련이 없는 경우에도 함께 증가하는 경우 이를 상관관계가 있다고 해버리는 가짜 상관관계를 가성 회귀(spurious .. 더보기
시계열 분석 기법과 응용[Postec 전치혁 교수] Week6-2 충격-반응함수의 이론과 응용, 예측오차 분산분해 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 이번 장에서는 VAR 모형이 어떤 종류의 분석을 할 수 있는지에 대해 다룬다. VAR모형 분석 가장 먼저 Granger Causality Test를 진행한다. 이는 여러 시계열이 있을 때, 한 시계열이 다른 시계열에 어떤 영향을 주는지 인과관계(Causality)를 확인하는 것이다. 만약 Causality가 존재하면 ->VAR모형을 구축하고, 아니라면 -> 단일 시계열 모형을 구축하는 것으로 판단한다. 단위근 검정으로 정상성 비정상성을 확인한다. (이 장에서는 그림의 왼쪽 방향에 대해서만 다룬다.) 원 시계열이 비정상성이면 차분을 통해 정상적으로 만들고, 최우 추정법으로 VAR모형을 추정하고 p를.. 더보기
시계열 분석 기법과 응용[Postec 전치혁 교수] Week6-1 VAR 모형의 식별 및 추정 이론 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 지금까지는 하나의 시계열 데이터를 고려한 모형을 다루었다면 이번 장에서는 여러 시계열(다변량 시계열, 벡터 시계열)을 고려하는 모형에 대해 다루어 보려고 한다. 시계열 $Z_{1t}, Z_{2t}, Z_{3t}$가 서로 독립적이라면 지금까지 해 왔던 것처럼 단일 시계열 모형을 구축하면 되지만, 대부분의 경우 서로 다른 시계열 끼리 상관 관계가 있는 경우가 존재한다. 위의 예시 처럼, 분기별 소비와 소득 그리고 자산은 서로간의 상관관계가 당연히 존재할 수 밖에 없다. 이런 경우 사용하는 모형이 바로 VAR 벡터 자기 회귀 모형이다. *또 다른 예시로, 연준의 금리와 S&P500은 서로 영향을 주는 .. 더보기
시계열 분석 기법과 응용[Postec 전치혁 교수] Week5-3 GARCH 모형의 추정과 관련 검정 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 이번에는 GARCH, ARCH모형의 추정에 대해 살펴보자. ARCH 모형의 추정 먼저 조건부 오차 $u_t|u_t-1,...$이 정규분포를 따를 때, 이를 이용해서 아래와 같은 로그우도함수를 유도할 수 있고, 평균방정식이 회귀모형인 경우 $y_t = x_t\beta + u_t$인데, 이를 다시 $u_t$에 대해 정리하면 아래와 같은 $u_t = y_t - x_t\beta$를 얻을 수 있다. 문제는 시차 q를 정해야하는데, ARMA 모형처럼 ACF 등 어떤 형태를 보고 판단하는 것이 아니라, 직접 넣어보고 결정하는 방식을 선택한다고 한다. 아래 예시를 보면 AR(1)-ARCH(q)모형의 파라미터를 .. 더보기
시계열 분석 기법과 응용[Postec 전치혁 교수] Week5-2 GARCH: ARCH의 일반화 형태 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. GARCH (Generalized autoregressive conditional heteroskedasticity) 모형 말그대로 ARCH 모형의 Generalized 된 버전을 의미한다. 기존의 ARCH 모형은 조건부 분산$\sigma_t^2$이 아래와 같이 제곱오차항들에 대한 MA형태였다면 , $$\sigma_t^2 = \alpha_0 + \alpha_1u_{t-1}^2 + \dots + \alpha_qu_{t-1}^2$$ GARCH는 기존 ARCH의 항 뒤에 조건부 분산항의 과거 시차를 추가한 개념이다. $$\sigma_t^2 = \alpha_0 + \alpha_1u_{t-1}^2 + \d.. 더보기
시계열 분석 기법과 응용[Postec 전치혁 교수] Week5-1 오차의 조건부 분산 개념 및 ARCH 모형 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. ARCH 모형 이번 장에서는 ARCH(Autoregressive Conditional heteroskedasticity) 모형에 대해서 다룬다. week 1~4까지는 오차항 $a_t$이 white noise라는 가정을 통해 시계열 모델을 구축했으나, 현실에서는 잔차 역시 완전히 설명되지 않은 경우가 많다. 금융데이터가 대표적으로 잔차의 ACF&PACF는 0의 형태를 띄는 것으로 보이나, 잔차에 절대값이나 제곱을 씌워서 다시 그려보면 위 그림처럼 자기상관관계가 존재하는 경우가 많다고 한다. 또한 연구결과에 따르면 오차항(Residual)의 분산이 시간에 따라 일정하지 않고 변한다는 관측이 존재한다... 더보기
시계열 분석 기법과 응용[Postec 전치혁 교수] Week4-2 계절성을 반영한 ARIMA 모형 이해 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 대부분의 데이터는 추세 뿐만 아니라 계절성 또한 띈다. 아래 그래프를 살펴보면, 평균이 변하는 Trend도 보이지만, 일별이다보니, 요일에 따라 위 아래로 그래프가 진동하면서 이동하는 패턴을 확인할 수 있다. (평일에는 비슷한 수준이나 주말마다 오르는 형태.) ARIMA에서 차분을 통해 추세를 제거할 수 있었으나, 문제는 차분만으로는 계절성이 완전히 제거되지 않을 수 있다는 점이다. 직관적으로 생각해봐도, 만약 12개월 주기가 있다면, $X_t$와 $X_{t+12}$ 사이에 관계가 있을 텐데, 차분의 경우 한 시점간의 차이만을 고려하므로, 이를 따로 다루어 주어야 함을 생각해 볼 수 있다. 계절성.. 더보기