[시계열] 시계열 데이터의 전처리 –

앞선 글에서 살펴본 시계열 데이터는 동분산성, 자기상관성, 정상성 등 데이터 통계의 가장 기본적인 가정을 깨는 고유한 데이터임을 알 수 있다.
이 데이터의 경우 기존 머신러닝 기법인 ARIMA 계열에 데이터를 통합하기 어려우므로 이 데이터의 특이성을 제거한 후 머신러닝에 삽입해야 한다.
이 시간은 다음과 같습니다

1. 차별화

데이터를 차별화하는 것은 시간 t와 시간 t-1의 값 사이의 차이를 찾는 것으로 구성됩니다.

간단히 말해서, 데이터를 차별화하면 데이터의 가변성 값을 알 수 있고, 전후 데이터의 영향을 제거할 수 있으며, 임의의 데이터만을 사용하여 기계 학습 예측을 할 수 있습니다.

그 차이를 수학 공식으로 표현하면 다음과 같습니다.


수정값 = 현재값 – 이전값

이때 차이 데이터의 첫 번째 값에서 빼야 할 이전 값이 없으므로 변화 값을 얻을 수 없다.
따라서 데이터를 미분하면 결과적으로 t-1개의 데이터 항목을 얻을 수 있다.

다음은 Google의 주가 데이터입니다.
왼쪽은 차이 전의 데이터(트렌드가 있기 때문에 고정적이라고 말하기는 어렵습니다)이고 오른쪽은 차이 후의 데이터입니다.


미분 전 / 미분 후

차이 이후의 데이터는 지난 장에서 논의한 백색 잡음 데이터 유형으로 완전히 변환됩니다.
이러한 방식으로 우리는 차이에 의한 완전히 무작위적인 변동으로 데이터를 추출할 수 있습니다.
(데이터가 이전 데이터와 상관관계가 없다고 가정하면 분석 가능)

*때로는 하나의 차이가 아직 고정되지 않았기 때문에 두세 개의 차이가 사용됩니다.

2. 로그 변환

로그 변환은 시계열 데이터뿐만 아니라 데이터의 변동성이 너무 커서 분석이 어려운 데이터에도 적용되는 경우가 많습니다.
이 방법은 특히 데이터의 분산이 클 때 고려할 수 있으며, 이는 데이터의 전체 범위를 줄이는 원리이다.
다음 포스팅을 참고하여 사진과 함께 알아보도록 하겠습니다.

https://datasciencefromsebi.12

데이터 분석 시 로그 유지(세상에서 가장 간단한 설명)

우리는 때때로 이상한 데이터를 접하게 됩니다… (하지만 실제로는 자주). 예를 들어 데이터는 다음과 같을 수 있습니다…? 아니면 이럴까요………….? 참으로 기이한 현상이 아닐 수 없습니다.
이것은 나의

datasciencefromsebi.tistory.com

3. 로그 변환 + 차이

대부분의 경우 로그 변환은 데이터 전처리에서 먼저 수행됩니다.
대수 변환으로 분산을 안정화시킨 후, 그 차이에 의해 데이터가 정상이 되도록 변경됩니다.
관련 예로, 시계열이 아닌 데이터를 전처리할 때 로그 변환 후 스케일러를 적용하는 일반적인 방법을 기억하면 이해하기 쉽습니다.

4. 내 데이터는 정상입니다

이렇게 변환된 내 데이터는 (마침내) 기계 학습으로 전환할 수 있는 정규성을 갖습니다.
이를 확인하는 방법은 보통 2가지가 있는데, 하나는 차트의 모양을 확인하여 육안으로 확인하는 것이고, 하나는 수치로 확인하는 것입니다.

먼저 “눈으로 보는 방법”에 앞서 방법을 설명하겠습니다.
이전 게시물의 이 표에서는 b와 g만 ​​고정 데이터로 표시했습니다.
그래프를 시각화하여 추세, 계절성 등이 제거되었는지, 분산이 얼마나 넓은지 쉽게 확인할 수 있습니다.


다음으로 두 번째 방법인 숫자 확인 방법에 대해 설명하겠습니다.

1, 자기상관 함수 (ACF; Autocorrelation Function): 차이 값이 ACF 범위 내에 있으면 데이터가 고정된 것으로 간주할 수 있습니다.


k만큼 빠른 시간 t와 시간 tk 사이의 상관 계수

이 복잡한 공식을 이해할 필요는 없지만 시각화할 때 신뢰 구간에 속하는지 시각적으로 확인하기만 하면 됩니다.
이에 대해서는 추후 포스팅에서 자세히 다루도록 하겠습니다.

2. 디키 풀러 테스트

다음은 시계열 데이터가 안정적이지 않다는 귀무가설에서 p-값이 0.05를 초과할 때 사용하는 일반적인 방법입니다.


다음 장에서는 다양한 시계열 모델에 대한 개요를 제공합니다.