반응형

분류 전체보기 164

Collaborative Filtering

* 협업 필터링 (Collaborative Filtering) 협업 필터링은 어떤 특정한 인물 A가 한가지 이슈에 관해서 인물 B와 같은 의견을 갖는다면 다른 이슈에 대해서도 비슷한 의견을 가질 확률이 높을 것 Memory-based 협업 필터링의 추천 시스템은 유사도를 기반으로 동작 Movie Lense Dataset 1. ratings.dat 2. movies.dat -> 위의 두가지의 데이터셋을 통해 Rating Matrix를 만드는 것이 목표 Object : 특정 시간 이전에 시청했던 영화들을 통해 앞으로 어떤 영화를 볼 지 예측하는 것 user = 7명 (u) 영화 = 5개 (i) 7*5=35개의 총 평가지표(유저 x 아이템) ->1번 유저가 보지않은 2번과 5번 등 아직 빈칸이 있는 곳을 예측..

지니 계수 (Gini Coefficient)

지니 계수 * 어떤값의 분배 상태를 표현하기 위해 로렌츠 곡선을 이용하여 값의 분배 정도를 수치화 하는 방법 -> 보통 경제적 불평등을 계수화 한 것이라 표현 -> 머신러닝에서는 Decision Tree model의 성능 평가를 하는데 사용 Gini index =A/(A+B) 코드 구현의 예시 def gini(list_of_values): sorted_list = sorted(list_of_values) height, area = 0, 0 for value in sorted_list: height += value area += height - value / 2. fair_area = height * len(list_of_values) / 2. return (fair_area - area) / fair_a..

Machine Learning 2021.06.04

AWS - RDBMS 생성 기초

AWS 클라우드 내에서 pyspark 및 아파치 스파크 사용을 위한 기초 단계로 먼저 AWS를 익혀보면서 DB를 핸들링 해보자 * AWS - RDBMS 생성하기 us-east-2.console.aws.amazon.com/console/home?region=us-east-2# https://us-east-2.console.aws.amazon.com/console/home?region=us-east-2 us-east-2.console.aws.amazon.com 1. 위의 URL 로 들어가 AWS 가입 후 로그인 가입 이후 왼쪽 상단에 있는 서비스를 클릭하여 -> RDS 서비스 선택 및 생성 docs.aws.amazon.com/ko_kr/AmazonRDS/latest/UserGuide/CHAP_Tutorial..

BigQuery 2021.04.19

Word2VeC (Cbow , Skip-gram)

* Sparse Representation 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법 -> 희소표현 -> 이것은 각 단어간 유사성을 표현 할 수 없음 그래서 나온 것이 단어의 '의미'를 다차원 공간에 벡터화하는 방법인 분산표현이 나옴 이렇게 분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업 -> 워드 임베딩(embedding) * 분산 표현(Distributed Representation) 기본적으로 분포 가설(distributional hypothesis)이라는 가정 하에 만들어진 표현 방법 -> '비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다'라는 가정 분포 가설에 따라서 저런 내용을 가진 텍스트를 벡터화한다면 저 단어들은 의미적으로 가까운 단어가 되고 원핫이 아..

Deep Learning 2021.04.14

BERT의 학습 원리 및 transferlearning

BERT : Pre-training of Deep Bidirectional Trnasformers for Language Understanding 구글에서 개발한 NLP(자연어처리) pre-trained model 로 모든 자연어 처리 분야에서 좋은 성능을 내는 범용 language model 2. 데이터가 충분히 많다면 Embedding이 성능에 큰 영향을 미치는데- 임베딩이 잘 된 단어들이 훈련과정에서 당연히 좋은 성능을 낼 수 밖에없음 3. 데이터의 전처리 임베딩을 Word2Vec, GloVe, Fasttext 방식을 많이 사용했지만, 요즘의 고성능을 내는 대부분의 모델에서 BERT를 많이 사용 4.기존 단방향성 모델은 성능 향상, 문맥 파악에 한계점이 존재했었고, 이를 해결하기 위해 Bert는 양..

Deep Learning 2021.04.14

철판 제조 공정 데이터를 활용한 분류모형 생성 및 성능 비교

데이터 소개¶ Steel Plates Faults 데이터는 1941개의 샘플을 가지며 아래의 종속변수들과 나머지 설명변수들로 구성됩니다. 종속변수 (7개) - 어떠한 불량이 나타났는지를 나타내고, 다음과 같습니다. Pastry, Z_Scratch, K_Scatch, Stains, Dirtiness, Bumps, Other_Faults 설명변수 (27개) - 철판의 길이, 반짝이는 정도, 두께, 타입 등 등 다양한 변수들을 가집니다. 첫번째 칼럼 X_Minimum ~ 27번째 칼럼 SigmoidOfAreas 데이터출처: https://www.kaggle.com/mahsateimourikia/faults-nna/notebooks 제조 공정 데이터의 전반적 특성 제조 공정 데이터는 주로 불량률을 예측하여 불량..

Project & Kaggle 2021.04.07

유럽 축구 경기 및 선수 특징 추출을 통한 승부 예측

데이터 소개¶ - 이번 주제는 European Soccer Database 데이터셋을 사용합니다. - 다음 1개의 sqlite 데이터베이스를 사용합니다. database.sqlite - 데이터 베이스 내 총 7개의 Table을 사용합니다. Country: 국가 정보 League: 리그 정보 Match: 경기 정보 (주 데이터셋) Player: 플레이어 정보 Player_Attributes: 플레이어의 특성 Team: 팀 정보 Team_Attributes: 팀의 특성 데이터 출처: https://www.kaggle.com/hugomathien/soccer Step 0. 데이터베이스와 SQL¶ SQL과 Query¶ Step 1. 데이터셋 준비하기¶ In [1]: import pandas as pd impor..

Project & Kaggle 2021.04.02

Cost sensitve model (cutoff 설정)

위음성 비용: 긍정 클래스를 부정 클래스로 오 분류할 때 발생하는 비용 위양성 비용: 부정 클래스를 긍정 클래스로 오 분류할 때 발생하는 비용 위 두 개의 비용을 다르게 설정하는 모델이 비용 민감 모델로 보통 위음성 비용보다 위양성 비용을 크게 설정 W가 커지면 커질수록 정확도가 떨어짐 부정 클래스가 다수이므로 부정 클래스로 분류했을 때 성능이 나쁘지 않음 W가 커진다는것은 긍정 클래스에 신경 쓰는 것이니까 정확도는 떨어지게 됨 로지스틱 회귀, 나이브베이즈 등의 확률 모델들은 Cut-Off value, C를 조정하는 방식으로 비용 민감 모델 구현 가능 정확한 확률 추정은 불가능 하지만 KNN,NN,Decision tree, ensemble 에도 적용 가능 C= cutoff value로 조정 가능한 대상 ..

Machine Learning 2021.04.01

가장 큰 수_정렬

정렬은 보통 다 풀 수 있었는데 이 문제는 착안을 성공하고도 시간초과로 못 풀었다. 일단 나는 itertools permutation 으로 ex) 6 10 2의 모든 조합 경우의; 수를 파악하여 놓고 max로 결과 값을 구했는데 - 시간초과에 걸렸다 실제 시간도 엄청 걸린다 정답은 이 풀이 아스키코드로 바꿔서 비교를 하는데 착안이 엄청 어렵다 특히 X*3부분이 이해가 가지않았는데 같은 문자를 3번반복 ex) 6-> 666 이렇게 해서 비교를 한다 좀 더 제대로 공부해야겠다... programmers.co.kr/learn/courses/30/lessons/42746

반응형
반응형