반응형

분류 전체보기 164

사내 직원 이탈 모델링

0.1 사내 직원 이탈률에 대한 Churn management 분석 이번 캐글 주제는 사내 직원들이 기업을 떠나는 패턴을 파악해 Churn rate를 예측하는 것 import pandas as pd df=pd.read_csv(r"C:\Users\robin\Desktop\캐글데이터\churn.csv") #대략적인 데이터는 이렇다. # 결측치는 없는 것으로 확인 # 성별을 label encoding으로 수치화 # 다른 범주형 변수들도 label encoding 시각화 한다 # 원핫 인코딩 범주형 변수를 모두 원핫 인코딩 해준다. 그중 num of frequency 는 -> frequent encoding # 이후 수치형 데이터들의 heat map 을 살펴서 상관 관계를 확인 # y=churn 으로 잡고 트레..

Project & Kaggle 2020.09.04

Hypothesis, Cost, Loss Function

가설 함수 : H(x) = W * X + b -> H(x) = Y Predict 손실함수 : W * X + b - Y -> 손실 = Y Predict - Y 손실의 총합은 3개씩 짤라서 ex1) W=0.5 ,b =0.5 -> -2+(-3.5)+(-5)=-10.5 ex2) W=1,b=1 -> -1+-2+-3 = -6 ex3) W=2,b=1 -> 0+0+0 =0 -> 최고의 알고리즘을 구하기 위해서는 손실의 총합이 0에 가깝게 만드는 W 와 B를 구할 수 있었음 손실함수 (W=2,b=1) = W * X + b – Y = (2X + 1 – Y)2 But , 손실의 총합이 0이 되게끔 만드는 것이 최적의 해이지만 -1+0+1 = 0 과 같은 오류가 나올 때가 있음 그래서 나온 해법이 아래와 같이 손실 함수에 제..

Deep Learning 2020.08.30

AUC-ROC 심화 이해

AUC-ROC 곡선이란? 1. AUC-ROC 곡선은 다양한 임계 값 설정에서 분류 문제에 대한 성능 측정 2. ROC 곡선은 TPR이 y 축에 있고 FPR이 x 축에있는 FPR에 대한 TPR 값을 Plotting 한 것 모델의 성능 측정 방법 *우수한 모델은 AUC가 1에 가까워 분리 성이 우수,불량 모델은 AUC가 0에 가까워서 분리성이 낮음 1. 이상적 상황 -> 두 곡선이 겹치지 않아 이상적 분리 가능성 측정. 2. 두 분포가 겹치는 경우 유형 1 및 유형 2 오류가 발생 -> Cutoff 값을 통해 최소화하거나 최대화 할 수있음 ex)AUC가 0.7이면 모델이 포지티브 클래스와 네거티브 클래스를 구분할 수있는 확률이 70 % 3. AUC가 약 0.5 인 경우 모델은 positive 클래스와 neg..

Machine Learning 2020.08.30

모델의 정확도 지표(Accuracy,Recall,Precision,F1 Score)

분류를 수행하는 머신러닝 알고리즘으로 모델링을 하면 분류기의 예측력을 검증/평가 해야한다. Accuracy Recall Precision F1 Score 1. Accuracy (정확도) accuracy는 다음과 같이 정의할 수 있다. 전체 예측 건수에서 정답을 맞힌 건수의 비율이다. (여기서 정답을 맞힐 때 답이 Positive든 Negative든 상관 없다. 맞히기만 하면 된다.) Accuracy의 단점 예를 들어 내일 서울에 시간당 1m 이상의 눈이 내릴지 여부를 예측한다고 해보자. 그땐 뭐 머신러닝이고 뭐고 할 거 없이 나 혼자서도 매우 정확한 분류기를 만들 수 있다. 그냥 무조건 Negative를 예측하면 이 분류기는 99.9% 정도의 accuracy를 나타낼 거다. 그 정도 눈 내리는 날은 거의..

Machine Learning 2020.08.30

Azure Steaming Analytics

Azure Stream Analytics -> 원본에서 빠르게 대량의 스트리밍 데이터를 분석 및 처리 하도록 설계된 이벤트 처리 엔진 특징 1. 기기, 센서, 클릭스트림, 소셜 미디어 피드, 어플리케이션 등 다양한 입력 소스에서 추출한 정보에서 패턴과 관계를 확인할 수 있다. 2.이러한 패턴은 경고 생성, report 툴에 정보 제공 또는 나중에 사용하기 위해 변환된 데이터 저장과 같은 작업을 트리거하고 워크플로우를 시작하는 데 사용 됨 3. Stream Analytics는 또한 Azure IoT Edge 런타임에 제공되어 IoT 기기에서 데이터를 처리할 수 있다. 작동 방식 1. 입력, 쿼리 및 출력으로 구성 2. Azure Event Hubs, Azure IoT Hub 또는 Azure Blob Sto..

BigQuery 2020.08.25

SQL 문법 + GCP 예제

SQL data type 인덱스의 종류 primary : 중복되지 않는 유일한 키 normal : 중복을 허용하는 인덱스 unique : 중복을 허용하지 않는 유일한 키 foreign : 다른 테이블과의 관계성을 부여하는 키 인덱스의 정의 방법 자주 조회되는 칼럼에 적용 조회 시 오랜시간을 소모하는 컬럼에 적용 데이터가 긴 경우 인덱스를 사용하지 않는다. 인덱스 생성 CREATE INDEX index_name ON table_name (index_col_name,...) primary key 테이블 전체를 통틀어서 중복되지 않는 값을 지정해야 한다. where 문을 이용해서 데이터를 조회할 때 가장 고속으로 데이터를 가져올 수 있다. 테이블마다 딱 하나의 primary key를 가질 수 있다. 여러개의 ..

BigQuery 2020.08.08

최적화 알고리즘 - Gradient Descent

학습 매개변수 - a,b가 조금식 달라짐 손실함수(lost function, cost function)의 예 : MSE (평균제곱에러) , Cross entropy error (교차엔트로피 오차) 가능한 모든 수를 대입해서 출력 값을 확인해보는 것 - 여러문제들로인해 실제 사용 불가 이렇게 많이 대입하는 것이 아니라 적게 대입하고 최적값을 찾을 수는 없을까? 해서 나온게 Gradient Descent GD는 1.시작점은 랜덤하게 정해줘야함 2. 사진의 시작점을 미분하면 음수가 나왔기에 왼쪽으로 가면 더 내려가겠구나를 알 수있음 3. 왼쪽으로 내려가다보면 경사하강법을 통해 최저값을 알아 낼 수 있음 학습률(learning rate,a) , (a * 기울기) 해서 이동함 그래서 학습률 a 가 너무작거나 크지..

Deep Learning 2020.06.30

Shap value - 중요 변수 추출 방법

* 앙상블의 "인자" 추출에 대한 약점 보안 1. 복잡한 모델은 해석이 쉽지 않음 ex) Bagging, RF, GB, NN 모델 해석과 prediction 해석이 어려움 * 문제점 -> 중요하다 정도만 알 수있지 양의방향인지 음의방향인지 얼마나 영향을 끼치는지 알 수 없음 * feature attribution -> 플레이어의 기여도(중요변수) shap value ->실제 예측치와 평균예측치의 차이를 설명하는것 양수이면 긍정적 효과, 음수이면 부정적 효과 * 선형관계가 있을뿐 인과관계가 있는 것은아님 shap value는 다양한 변수의 조합의 영향력도 판단하기 쉽고 하나의 컬럼도 해석이 쉬워 다양하게 사용할 수 있음 feature importance 는 항상 중요하고 앙상블러닝은 특히 복잡한모델이라 i..

Machine Learning 2020.06.30
반응형
반응형