1.2.3 Time-series Learning
-
"정확성 vs. 설명력 반비례 관계 존재"
* 데이터마이닝 알고리즘 : KNN RF SVM 등은 조금씩 정확성이 상승하지만 그만큼 결과가 왜 그렇게 나왔는지 설명해주는 포인트는 부족해짐
* 실제로 Tree계열 알고리즘은 최대한 데이터를 세분화 시켜서 구분을 짓는것 -> 구분을 Ratio를 보면서 변수의 특성을 추론 하는 것이지 각각의 변수가 모델의 정확성에 얼마나 기여했는지는 표시하지 못하는 것이 현실
* 최근에 화두인 DNN(딥러닝)은 정확성이 높음과 반대로 불운하게도 설명력은 거의 없다라고 할정도로 이론적 근거가 뚜렷하게 있지가 않다.. (점추정 형태로 정확도가나왔다)이지 왜 그런 정확성이 나왔는지 통계적인 범위가 나왔다거나 이런것 이없음 bias나 variance가 나왔지만 이것은 반복적인 computation 작업이지 이론적 기반은 아님
* 시계열은 주로 회귀분석이 나온 후 충분한 설명력과 정확성을 두루 갖춘게 시계열 알고리즘의 정체(딥러닝도 있음)
* 회귀 분석만 쓰기엔 정확성이 부족하여 데이터마이닝 알고리즘을 써서 정확도를 보완
구체적으로는 리니어 리그레션과 뉴럴네트워크 사이에 TIme series가 있다고 하면 되는데 어쨋든 뿌리는 리그레션
-
분석단계 비교: 선형(회귀분석) vs 비선형(신경망)
-Linear ModelNeural Network Model
모델특징 | - | - |
분석목적 | 선형성파악(설명가능) | 비선형성파악(설명불가) |
이론적(수학적) 근거 | 존재 | 미존재 |
분석단계 특징(전처리) | - | - |
데이터 로딩 | Panel Data | 다양(운이좋으면 Panel) |
데이터 빈칸 채우기/삭제 | 분석필요 | 분석필요 |
데이터 컬럼 추가/삭제 | 분석필요+민감 | 분석필요+덜민감 |
데이터 분리 | Train/Validate/Test | Train/Validate/Test |
데이터 스케일링 | 분석필요/미필요 | 분석필요 |
분석단계 특징(모델링) | - | - |
입력 확인 및 변환 | Panel Data | 다양(정해지지 않음) |
데이터 모델연결 | 자동화 | 반자동화 |
비용함수(Cost) | 최소제곱에러(MSE) | 다양 |
추정함수(Optimizer) | 고정(미분1회 대체가능) | 다양(미분지속) |
분석단계 특징(검증) | - | - |
정확성지표 | 다양 | 다양 |
잔차진단활용 | 가능(분석필요) | 불가 |
분석단계 특징(결과해석) | - | - |
관계성 시각화/영향력 해석 | 가능(분석필요) | 불가 |
반응형
'Deep Learning' 카테고리의 다른 글
BERT의 학습 원리 및 transferlearning (0) | 2021.04.14 |
---|---|
keras - Image generator (0) | 2020.11.27 |
Hypothesis, Cost, Loss Function (0) | 2020.08.30 |
최적화 알고리즘 - Gradient Descent (0) | 2020.06.30 |
LDA -linear Discriminant Analysis (0) | 2020.06.26 |