Deep Learning

전통 데이터마이닝 vs 딥러닝

robin0309 2020. 10. 4. 14:28

1.2.3  Time-series Learning

  • "정확성 vs. 설명력 반비례 관계 존재"

  •  

* 데이터마이닝 알고리즘 : KNN RF SVM 등은 조금씩 정확성이 상승하지만 그만큼 결과가 왜 그렇게 나왔는지 설명해주는 포인트는 부족해짐

* 실제로 Tree계열 알고리즘은 최대한 데이터를 세분화 시켜서 구분을 짓는것 -> 구분을 Ratio를 보면서 변수의 특성을 추론 하는 것이지 각각의 변수가 모델의 정확성에 얼마나 기여했는지는 표시하지 못하는 것이 현실

* 최근에 화두인 DNN(딥러닝)은 정확성이 높음과 반대로 불운하게도 설명력은 거의 없다라고 할정도로 이론적 근거가 뚜렷하게 있지가 않다.. (점추정 형태로 정확도가나왔다)이지 왜 그런 정확성이 나왔는지 통계적인 범위가 나왔다거나 이런것 이없음  bias나 variance가 나왔지만 이것은 반복적인 computation 작업이지 이론적 기반은 아님

* 시계열은 주로 회귀분석이 나온 후 충분한 설명력과 정확성을 두루 갖춘게 시계열 알고리즘의 정체(딥러닝도 있음)

* 회귀 분석만 쓰기엔 정확성이 부족하여 데이터마이닝 알고리즘을 써서 정확도를 보완

구체적으로는 리니어 리그레션과 뉴럴네트워크 사이에 TIme series가 있다고 하면 되는데 어쨋든 뿌리는 리그레션 

  • 분석단계 비교: 선형(회귀분석) vs 비선형(신경망)

-Linear ModelNeural Network Model

모델특징 - -
분석목적 선형성파악(설명가능) 비선형성파악(설명불가)
이론적(수학적) 근거 존재 미존재
분석단계 특징(전처리) - -
데이터 로딩 Panel Data 다양(운이좋으면 Panel)
데이터 빈칸 채우기/삭제 분석필요 분석필요
데이터 컬럼 추가/삭제 분석필요+민감 분석필요+덜민감
데이터 분리 Train/Validate/Test Train/Validate/Test
데이터 스케일링 분석필요/미필요 분석필요
분석단계 특징(모델링) - -
입력 확인 및 변환 Panel Data 다양(정해지지 않음)
데이터 모델연결 자동화 반자동화
비용함수(Cost) 최소제곱에러(MSE) 다양
추정함수(Optimizer) 고정(미분1회 대체가능) 다양(미분지속)
분석단계 특징(검증) - -
정확성지표 다양 다양
잔차진단활용 가능(분석필요) 불가
분석단계 특징(결과해석) - -
관계성 시각화/영향력 해석 가능(분석필요) 불가
반응형

'Deep Learning' 카테고리의 다른 글

BERT의 학습 원리 및 transferlearning  (0) 2021.04.14
keras - Image generator  (0) 2020.11.27
Hypothesis, Cost, Loss Function  (0) 2020.08.30
최적화 알고리즘 - Gradient Descent  (0) 2020.06.30
LDA -linear Discriminant Analysis  (0) 2020.06.26
반응형