반응형

분류 전체보기 164

Hierachical , DBscan Clustering

좀 더 크게 볼 수 있고 세세하게 볼 수 있는 것이 장점 1.Process 2. 3. * 데이터와 데이터 간의 거리구하고 군집과 데이터 간의 유사도 구하고 업데이트하고 반복 2.DBSCAN Clustering * 군집의 수를 설정할 필요없이 데이터의 밀도 기반으로 군집을 알아서 형성하고 군집에 속하지 않으면 Outlier 취급 해버린다. 한 데이터를 중심으로 엡실론(E, 최소거리) 거리 이내의 데이터들을 한 군집으로 구성하고 군집은 민 포인트보다 많거나 같은 수로 데이터가 구성됨. 만약 민 포인트보다 적은 수의 데이터가 군집을 형성하면 노이즈나 이상치로 취급함

Machine Learning 2020.06.28

K-means , medoids Clustering (unsupervised learning)

1. K-means Clustering -> 유사한 데이터 끼리 뭉치게 해서 그룹의 특성을 규명하는 것이 주목적이지 classification의 목적은 강하지 않음 -> k를 설정 초기 좌표는 Random 해당 데이터가 다른데이터로 할당 되지않을 때까지 계속 진행 -> 직관적인 장점 *거리 측정 기준 * 가장 좋은예시는 사전의 군집갯수(K)를 알고 시작하는것 ex) 기사 -정치,연예,스포츠 하지만 보통의 경우에는 사전 군집갯수를 알 수 없음 inertia -> 군집내 분산이 적어지는 시점이 최적의 K k-means clustering 단점 -> 데이터의 차원이 커질 수록 잘 맞지않음 . 2차원 3차원 까지는 알 수 있지만 4차원 부터는 거리에 대한 개념이 무감각해짐(컴퓨터도) 물론 구할 수는 있지만 실제..

Machine Learning 2020.06.28

KNN - K-nearest neighborhood

종속 변수 1. 범주형변수 -> knn 중 가장많이 나타나는 범주로 Y를 추정 -> Tie 문제를 막기 위해 k는 홀수로 정하는 것이 좋다. 2. 연속형 변수 -> K-nearest neighbors 의 대표 값(평균)으로 y를 추정 -> inverse distance weighted average 고려 가능. 거리가 가까우면 크고 멀머는 작게끔 역수형태로 weight 를 줌 ex) 너무 큰 K -> 미세한 경계부분 분류가 아쉬 움 너무 작은 K -> 나눠진 것이 복잡해서 과적합우려 -> 이상치의 영향을 크게 받을 것 -> 패턴이 직관적이지 않음 K의 결정 1.training error ->k=1에서 가장 낮음 -> 과적합의 가능성 2.Test error ->데이터에 따라 최적의 k가 존재 3.k의 결정..

Machine Learning 2020.06.27

LDA -linear Discriminant Analysis

가정 1. 각 숫자 집단은 정규분포 형태의 확률분포를 갖는다 2. 각 숫자 집단은 비슷한 형태의 공분산 구조를 갖는다 * 1,2,3 을 잘나누는 방법은? LDA 결과 얻게되는 Decision Boundary 특징 1. 기본적으로 평균의 차이를 가장 크게하는 축 -> 차이를 극대화하려면 두 평균 Vector의 차이 벡터를 이용 2. 두 분포의 각각의 분산은 최소화 * 결국 분산대비 평균의 차이를 극대화 하는 Boundary를 찾고자 하는 것

Deep Learning 2020.06.26

통계학 기본

모수(parameter)는 모집단(population)의 특성을 나타내는 수치로 모평균, 모분산, 모표준편차, 모비율, 모상관관계 등 표본 통계량(sample statistics)은 표본(sample)의 특성을 나타내는 수치로 표본평균, 표본분산, 표본표준편차, 표본비율, 표본상관관계 등, (표본) 통계량은 표본에서 얻은 모수에 대한 정보의 요약이므로 통계량은 모집단에서 추출한 특정 표본에 따라 달라지는 확률변수로 이 통계량의 확률 분포를 표본 분포(sampling distribution)라고 부른다. 표본 분포는 모집단 분포와 사뭇 다른 개념이다. 표본 분포는 통계량의 확률 분포였다면, 모집단 분포(population distribution)는 모집단을 구성하는 데이터의 확률 분포를 의미한다. 현실적으..

SVM - Support Vector Machine

* 데이터의 분포가정이 힘들 때, 아래의 데이터를 잘 나누려면 쓰는 것 -> Boundary에 집중하여 margin을 최대화 하는 Boundary를 찾는 것 기본 개념-> 선을 기준으로 점에 닿지 않으면서 기울기도 바꿔보고 평행이동도 해보면서 margin을 최대한 늘리는 것 Q1. 빨간 점과 초록점이 정확히 구분되지 않는 경우가 존재한다면? A1. 적당한 error를 허용하고 ,이를 최소화하는 Boundary 결정 -> SVM은 기본적으로 범주형 변수일 때 쓰임 연속형은 SVR 개념에서 가능 기본적 IDEA-> 삐져나가는 점들에 대해 에러를 줘서 이러한 에러를 최소화하자는 방향으로 진행 회귀분석의 경우 선을 하나 긋고 그것에서의 에러를 다계산해서 모든에러를 반영해서 fitting을 하는거지만 SVM은 초..

Machine Learning 2020.06.23

의사결정나무 - Decision Tree

정의 : 장점 -> 해석력이 높음, 직관적, 범용성(X,Y가 연속형이든 분류형이든 다 활용 가능) 단점 -> 높은 변동성(sample 이 조금만 바뀌어도 트리구조 바뀜). 샘플에 민감함 class: 분류 value : 평균값 Cross Entropy : -plog2p-(1-p)log2(1-p) -> 직관정 정의는 0또는 1일 확률이 최소고 0.5일 확률이 최대가 되게 하는 함수 Information Gain = Entropy before - Entropy after -> information gain 값으로 각각의 변수들 평가 -> 각각의 노드에 대해 다음 식 처럼 가중치를 주어 계산 information gain 값을 outlook humidity wind에 대해 각각 구하고 IG 가 가장 높은 변수를..

Machine Learning 2020.06.23

앙상블- Stacking , ensemble 의 ensemble

Stacking Meta Learner라고 부르며, 다양한 모델을 결합하여 사용하는 기법 1.stacking은 비효율적(학습시간이 오래걸림)이지만 성능면에서 좋음 2. 각 fold별로 여러개 모델을 만들고 하나의 fold(학습,검증) 에 대해 예측을하고 예측 값으로 새로운 컬럼을 추가함 -> 이것을 5fold 반복 3. 기존의 학습 데이터에 + 각 모델별 prediction값을 추가해서 학습,검증데이터를 만듬 4. 이 새로운 학습데이터에대해 다시한번 학습시키고 새로운 검증데이터에서 예측을함 5. 기존 feature 사용하지 않고 각 모델별 prediction 값만을 사용하기도 하는데 이경우는 일반적으로regression모델사용 Ensemble의 Ensemble -> 새로 만들어낸 개념 1. ensembl..

Machine Learning 2020.06.18
반응형
반응형