KNN - K-nearest neighborhood

Machine Learning

KNN - K-nearest neighborhood

robin0309 2020. 6. 27. 01:42

종속 변수

1. 범주형변수

-> knn 중 가장많이 나타나는 범주로 Y를 추정

-> Tie 문제를 막기 위해 k는 홀수로 정하는 것이 좋다.

2. 연속형 변수

-> K-nearest neighbors 의 대표 값(평균)으로 y를 추정

-> inverse distance weighted average 고려 가능.

거리가 가까우면 크고 멀머는 작게끔 역수형태로 weight 를 줌

ex)

너무 큰 K

-> 미세한 경계부분 분류가 아쉬 움

너무 작은 K

-> 나눠진 것이 복잡해서 과적합우려

-> 이상치의 영향을 크게 받을 것

-> 패턴이 직관적이지 않음

K의 결정

1.training error

->k=1에서 가장 낮음

-> 과적합의 가능성

2.Test error

->데이터에 따라 최적의 k가 존재

3.k의 결정

-> test error 를 작게하는 k

-> cross-validation을 이용

K-fold Cross-validation

* 네이버안에있더라도 가까우면 weight 더 주고 멀면 덜줘서 distance로 웨이트를 준것이 2번

2번이 uniform(weight를 주지 않은 것) 보다 퍼포먼스가 잘 나와있는 것을 볼 수 있음

저작자표시 비영리 변경금지 (새창열림)

'Machine Learning' 카테고리의 다른 글

Hierachical , DBscan Clustering (0)	2020.06.28
K-means , medoids Clustering (unsupervised learning) (0)	2020.06.28
나이브 베이즈 분류기 - Naive Bayesian classifier (0)	2020.06.25
SVM - Support Vector Machine (0)	2020.06.23
Classification Tree , Regression Tree (0)	2020.06.23

현재글KNN - K-nearest neighborhood

Data Science 관련 지식들에 대해 정리하는 공간입니다.

시계열, LEVEL1, feature importance, 딥러닝, deeplearning, deepfm, 앙상블, LEVEL2, Kaggle, 알고리즘, LEVEL 1, ARIMA, Classification, Word2Vec, 추천시스템, 강화학습, Keras, 프로그래머스, matrix factorization, pytorch,

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

AI/ML 기술 블로그