Welcome to Time Series!
예측은 현실 세계에서 머신러닝의 가장 일반적인 응용 분야일 것이다. (정부 경제, 인구 예측, 기후 예측...)
이 과정을 마치면 다음 방법을 알 수 있습니다:
- 주요 시계열 구성요소(trends, 계절 및 주기)를 모델링하기 위한 엔지니어 기능
- 다양한 종류의 시계열 그림으로 시계열을 시각화합니다.
- 보완 모델의 강점을 결합한 예측 하이브리드를 개발하고
- 기계 학습 방법을 다양한 예측 작업에 적용합니다.
What is a Time Series?
예측의 기본 대상은 시계열인데, 시계열은 시간이 지남에 따라 기록된 관측치의 집합.
예측 응용 프로그램에서 관측치는 일반적으로 매일 또는 매월과 같이 규칙적인 빈도로 기록된다.
Linear Regression with Time Series
이 과정의 첫 번째 부분에서는 선형 회귀 알고리즘을 사용하여 예측 모델을 구성할 것입니다. 선형 회귀는 실제로 널리 사용되며 복잡한 예측 작업에도 자연스럽게 적응합니다.
선형 회귀 알고리즘은 입력된 특징으로부터 가중합을 만드는 방법을 배웁니다. 두 가지 특징에 대해 우리는 다음을 가질 것입니다:
훈련 중에 회귀 알고리즘은 목표에 가장 적합한 모수 weight_1, weight_2 및 bias에 대한 값을 학습합니다. (이 알고리즘은 목표와 예측 간의 제곱 오차를 최소화하는 값을 선택하기 때문에 보통 최소 제곱이라고도 합니다.) 가중치는 회귀 계수라고도 하며 bias는 이 함수의 그래프가 y축과 교차하는 위치를 알려주기 때문에 절편이라고도 합니다.
Time-step features
시계열 고유의 기능에는 두 가지가 있습니다 : time-step features and lag features
시간 단계 특징은 우리가 시간 인덱스에서 직접 도출할 수 있는 특징입니다. 가장 기본적인 시간 단계 특징은 처음부터 끝까지 시계열의 시간 단계를 카운트하는 시간 더미입니다.
Time-step features을 사용하면 시간 의존성을 모형화할 수 있습니다. 발생한 시간으로부터 그 값을 예측할 수 있다면 급수는 시간에 따라 달라집니다. 하드커버 판매 시리즈에서 우리는 일반적으로 월의 후기 판매가 월의 초기 판매보다 더 높다고 예측할 수 있습니다.
Lag features
Lag feature를 만들기 위해 우리는 대상 계열의 관측치를 나중에 발생한 것처럼 보이도록 이동합니다.
일반적으로 Lag feature을 사용하면 시계열 종속성을 모형화할 수 있습니다. 시계열은 이전 관측치를 통해 관측치를 예측할 수 있을 때 직렬 종속성(serial dependence)을 갖습니다.
Example - Tunnel Traffic
Time-step feature
시계열에 누락된 날짜가 없으면 시계열의 길이를 카운트하여 시간 더미를 만들 수 있습니다.
scikit-learn을 통한 선형 회귀 fitting
Vehicles = 22.5 * Time + 98176
이라는 결과 도출 --> plotting
Lag feature
pandas가 shift 메서드를 제공한다.
lag feature를 생성하면 missing values가 생성하기 때문에 이를 처리해야한다.
정리해서 다음과 같이 쓸 수 있다.
The best time series models = time-step features 와 lag features의 조합
'Kaggle Learn' 카테고리의 다른 글
Time Series - Seasonality (1) | 2024.05.21 |
---|---|
Time Series - Trend (0) | 2024.05.21 |
Data Visualization - Choosing Plot Types and Custom Styles (0) | 2024.03.23 |
Data Visualization - Distributions (0) | 2024.03.23 |
Data Visualization - Scatter Plots (1) | 2024.03.21 |