반응형

Machine Learning 23

AUC-ROC 심화 이해

AUC-ROC 곡선이란? 1. AUC-ROC 곡선은 다양한 임계 값 설정에서 분류 문제에 대한 성능 측정 2. ROC 곡선은 TPR이 y 축에 있고 FPR이 x 축에있는 FPR에 대한 TPR 값을 Plotting 한 것 모델의 성능 측정 방법 *우수한 모델은 AUC가 1에 가까워 분리 성이 우수,불량 모델은 AUC가 0에 가까워서 분리성이 낮음 1. 이상적 상황 -> 두 곡선이 겹치지 않아 이상적 분리 가능성 측정. 2. 두 분포가 겹치는 경우 유형 1 및 유형 2 오류가 발생 -> Cutoff 값을 통해 최소화하거나 최대화 할 수있음 ex)AUC가 0.7이면 모델이 포지티브 클래스와 네거티브 클래스를 구분할 수있는 확률이 70 % 3. AUC가 약 0.5 인 경우 모델은 positive 클래스와 neg..

Machine Learning 2020.08.30

모델의 정확도 지표(Accuracy,Recall,Precision,F1 Score)

분류를 수행하는 머신러닝 알고리즘으로 모델링을 하면 분류기의 예측력을 검증/평가 해야한다. Accuracy Recall Precision F1 Score 1. Accuracy (정확도) accuracy는 다음과 같이 정의할 수 있다. 전체 예측 건수에서 정답을 맞힌 건수의 비율이다. (여기서 정답을 맞힐 때 답이 Positive든 Negative든 상관 없다. 맞히기만 하면 된다.) Accuracy의 단점 예를 들어 내일 서울에 시간당 1m 이상의 눈이 내릴지 여부를 예측한다고 해보자. 그땐 뭐 머신러닝이고 뭐고 할 거 없이 나 혼자서도 매우 정확한 분류기를 만들 수 있다. 그냥 무조건 Negative를 예측하면 이 분류기는 99.9% 정도의 accuracy를 나타낼 거다. 그 정도 눈 내리는 날은 거의..

Machine Learning 2020.08.30

Shap value - 중요 변수 추출 방법

* 앙상블의 "인자" 추출에 대한 약점 보안 1. 복잡한 모델은 해석이 쉽지 않음 ex) Bagging, RF, GB, NN 모델 해석과 prediction 해석이 어려움 * 문제점 -> 중요하다 정도만 알 수있지 양의방향인지 음의방향인지 얼마나 영향을 끼치는지 알 수 없음 * feature attribution -> 플레이어의 기여도(중요변수) shap value ->실제 예측치와 평균예측치의 차이를 설명하는것 양수이면 긍정적 효과, 음수이면 부정적 효과 * 선형관계가 있을뿐 인과관계가 있는 것은아님 shap value는 다양한 변수의 조합의 영향력도 판단하기 쉽고 하나의 컬럼도 해석이 쉬워 다양하게 사용할 수 있음 feature importance 는 항상 중요하고 앙상블러닝은 특히 복잡한모델이라 i..

Machine Learning 2020.06.30

Hierachical , DBscan Clustering

좀 더 크게 볼 수 있고 세세하게 볼 수 있는 것이 장점 1.Process 2. 3. * 데이터와 데이터 간의 거리구하고 군집과 데이터 간의 유사도 구하고 업데이트하고 반복 2.DBSCAN Clustering * 군집의 수를 설정할 필요없이 데이터의 밀도 기반으로 군집을 알아서 형성하고 군집에 속하지 않으면 Outlier 취급 해버린다. 한 데이터를 중심으로 엡실론(E, 최소거리) 거리 이내의 데이터들을 한 군집으로 구성하고 군집은 민 포인트보다 많거나 같은 수로 데이터가 구성됨. 만약 민 포인트보다 적은 수의 데이터가 군집을 형성하면 노이즈나 이상치로 취급함

Machine Learning 2020.06.28

K-means , medoids Clustering (unsupervised learning)

1. K-means Clustering -> 유사한 데이터 끼리 뭉치게 해서 그룹의 특성을 규명하는 것이 주목적이지 classification의 목적은 강하지 않음 -> k를 설정 초기 좌표는 Random 해당 데이터가 다른데이터로 할당 되지않을 때까지 계속 진행 -> 직관적인 장점 *거리 측정 기준 * 가장 좋은예시는 사전의 군집갯수(K)를 알고 시작하는것 ex) 기사 -정치,연예,스포츠 하지만 보통의 경우에는 사전 군집갯수를 알 수 없음 inertia -> 군집내 분산이 적어지는 시점이 최적의 K k-means clustering 단점 -> 데이터의 차원이 커질 수록 잘 맞지않음 . 2차원 3차원 까지는 알 수 있지만 4차원 부터는 거리에 대한 개념이 무감각해짐(컴퓨터도) 물론 구할 수는 있지만 실제..

Machine Learning 2020.06.28

KNN - K-nearest neighborhood

종속 변수 1. 범주형변수 -> knn 중 가장많이 나타나는 범주로 Y를 추정 -> Tie 문제를 막기 위해 k는 홀수로 정하는 것이 좋다. 2. 연속형 변수 -> K-nearest neighbors 의 대표 값(평균)으로 y를 추정 -> inverse distance weighted average 고려 가능. 거리가 가까우면 크고 멀머는 작게끔 역수형태로 weight 를 줌 ex) 너무 큰 K -> 미세한 경계부분 분류가 아쉬 움 너무 작은 K -> 나눠진 것이 복잡해서 과적합우려 -> 이상치의 영향을 크게 받을 것 -> 패턴이 직관적이지 않음 K의 결정 1.training error ->k=1에서 가장 낮음 -> 과적합의 가능성 2.Test error ->데이터에 따라 최적의 k가 존재 3.k의 결정..

Machine Learning 2020.06.27

SVM - Support Vector Machine

* 데이터의 분포가정이 힘들 때, 아래의 데이터를 잘 나누려면 쓰는 것 -> Boundary에 집중하여 margin을 최대화 하는 Boundary를 찾는 것 기본 개념-> 선을 기준으로 점에 닿지 않으면서 기울기도 바꿔보고 평행이동도 해보면서 margin을 최대한 늘리는 것 Q1. 빨간 점과 초록점이 정확히 구분되지 않는 경우가 존재한다면? A1. 적당한 error를 허용하고 ,이를 최소화하는 Boundary 결정 -> SVM은 기본적으로 범주형 변수일 때 쓰임 연속형은 SVR 개념에서 가능 기본적 IDEA-> 삐져나가는 점들에 대해 에러를 줘서 이러한 에러를 최소화하자는 방향으로 진행 회귀분석의 경우 선을 하나 긋고 그것에서의 에러를 다계산해서 모든에러를 반영해서 fitting을 하는거지만 SVM은 초..

Machine Learning 2020.06.23

의사결정나무 - Decision Tree

정의 : 장점 -> 해석력이 높음, 직관적, 범용성(X,Y가 연속형이든 분류형이든 다 활용 가능) 단점 -> 높은 변동성(sample 이 조금만 바뀌어도 트리구조 바뀜). 샘플에 민감함 class: 분류 value : 평균값 Cross Entropy : -plog2p-(1-p)log2(1-p) -> 직관정 정의는 0또는 1일 확률이 최소고 0.5일 확률이 최대가 되게 하는 함수 Information Gain = Entropy before - Entropy after -> information gain 값으로 각각의 변수들 평가 -> 각각의 노드에 대해 다음 식 처럼 가중치를 주어 계산 information gain 값을 outlook humidity wind에 대해 각각 구하고 IG 가 가장 높은 변수를..

Machine Learning 2020.06.23
반응형
반응형