데이터 과학 스터디 썸네일형 리스트형 시계열 분석 기법과 응용[Postec 전치혁 교수] Week1-3 홀트-윈터스와 분해법 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 추세와 계절성이 있는 시계열에 적용 윈터스 (Winters) 모형 홀트 모형에 계절성 (seasonality)을 추가반영하여 확장시킴 가법 (additive) 모형과 승법 (multiplicative) 모형이 있음 - 강의에서는 승법만 설명 -$s_t$ : 기존 홀트 방법에서는 추세 $bt$ 변수 까지만 존재하였음. Winters에는 계절성 지수 $s_t$가 추가됨. $t=1, \ldots ,m$ -$m$ : 계절성 공식의 $m$은 계절의 주기를 나타내는 것으로, 분기별 데이터의 경우 $m=4$, 월별이면 12, 주별이면 7 $\alpha, \beta, \gamma$의 최적값을 찾는 소프트웨어도 .. 더보기 시계열 분석 기법과 응용[Postec 전치혁 교수] Week1-2 지수평활법 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 지수평활법(Exponential Smoothing) 평활치를 구하는데 전체 데이터를 사용하며 시간에 따라 다른 가중치를 줌 과거로 갈수록 지수적으로 감소하는 가중치 사용 단순 지수평활(Simple Exponential Smoothing) 시계열 데이터가 수평적 패턴인 경우 사용 $\alpha$ = $[0,1]$, $\alpha$가 클 수록 현재 시점에 더 가중치를 둔다 알파가 작을 수록 변동이 심한 현재 시점보다는 과거의 시점에 더 가중치를 둠으로서 Smoothing 효과가 더 커진다. 최근 데이터와 이전 지수평활의 가중평균 아래 그림을 통해 볼 수 있듯이, $\alpha$가 적을 때가 훨씬 평활.. 더보기 시계열 분석 기법과 응용[Postec 전치혁 교수] Week1-1 이동평균법 *이 포스트는 포스택 전치혁 교수님의 K-mooc 강의, 시계열 분석 기법과 응용을 기반으로 작성되었습니다. 시계열 분석 (Time Series Analysis) 하나의 변수에 대한 시간에 따른 관측치를 시계열 또는 시계열 데이터라 함. 회귀모형과는 달리 다른 변수를 도입하지 않고 자신의 변수의 과거 패턴이 미래에도 계속된다는 가정하에 변수의 과거값을 바탕으로 미래값 예측 시계열 패턴은 수평, 추세, 계절성이 복합된 것으로 간주 시계열 분석의 목적: 시계열의 특성(추세, 계절성)을 요약하고 시간에 따른 패턴(자기 상관성)을 분석 시간에 따른 패턴을 바탕으로 모형화하고 미래값을 예측 시계열 분석 모형의 종류: 평활화 모형: 이동평균, 지수평활, 윈터스 모형, 분해법 정상적 ARMA 모형: AR, MA, A.. 더보기 시계열 데이터 EDA (실전 시계열 분석 3장) *이 글은 실전 시계열 분석 책을 기반으로 작성되었습니다. 시계열 데이터의 EDA 3장에서는 탐색적 자료 분석 즉 EDA 과정에 대해 다룬다. 데이터간 어떤 상관관계? 데이터의 평균과 분산은? 이를 확인하기 위해, 도표, 요약 통계, 히스토그램, 산점도 등을 '시간'과 함께 고려해야 한다. 히스토그램 히스토그램 Draw 시에 X축을 시간, Y축을 변수 정보로 그릴 수도 있으나, Y축에 이전 변수와의 차이를 매핑하는 방법으로 새로운 아이디어를 얻을 수 있다. (R 코드에서 diff() 함수로 쉽게 구현 가능하다.) 산점도 시간의 흐름에 맞춰서 산점도를 mapping 하면 상관관계를 엿볼 수 있다. 두 주가 사이의 상관관계를 파악하기 위해 산점도를 그냥, 차분해서 매핑 했을 때, 상관관계가 높아 보일 수 있.. 더보기 시계열 데이터 전처리 방법(실전 시계열 분석 2장) *이 글은 실전 시계열 분석 책을 기반으로 작성되었습니다. 시계열 데이터의 전처리 Flow 일변량 시계열 vs 다변량 시계열 - 일변량 (univariate) : 시간에 대해 측정된 변수가 하나인 경우 - 다변량 (multivariate) : 시간에 대해 측정된 변수가 여러개인 경우 저자는 시간에 따라 정렬된 데이터셋 (EX: Kaggle과 같은 대회용 데이터셋) 이 아니라, 시계열로 주어지지는 않았으나, Time stamp, "시간" 은 없지만 시간을 대체할 수 있는 데이터 혹은 물리적 흔적이 남은 데이터 셋을 일컬어 발견된 시계열 found time series라고 명칭한다. 2 장에서는 발견된 시계열을 어떻게 전처리 하는지를 예제와 함께 다룬다. 먼저 예제를 통해 큰 흐름을 살펴보자. 발견된 시계열.. 더보기 [Pre-training of Deep Bidirectional Transformers for Language Understanding] BERT 논문 리뷰 [Pre-training of Deep Bidirectional Transformers for Language Understanding] BERT https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding We introduce a new language representation model called BERT, which stands for Bidirectional Encoder Representations from Transformers. Unlike recent language representation models, BERT is designed to .. 더보기 [NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE] Attention 논문 리뷰 [NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE] Attention https://arxiv.org/abs/1409.0473 Neural Machine Translation by Jointly Learning to Align and Translate Neural machine translation is a recently proposed approach to machine translation. Unlike the traditional statistical machine translation, the neural machine translation aims at building a single neural network tha.. 더보기 [Word2Vec] CBOW, Skip-gram 논문 리뷰 [Efficient Estimation of Word Representations in Vector Space] Efficient Estimation of Word Representations in Vector Space We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best per arxiv.org Introduc.. 더보기 이전 1 2 3 4 다음 목록 더보기