반응형

전체 글 164

데이터로 알아보는 리그 오브 레전드의 승리 예측 및 인사이트

주제 : 롤 좀 하니? '이것'만 하면 무조건 이긴다! - 데이터로 알아보는 리그 오브 레전드의 승리 공식 . 데이터 소개¶ - 이번 주제는 League of Legends Diamond Ranked Games (10 min) 데이터셋을 사용합니다. - 다음 1개의 csv 파일을 사용합니다. high_diamond_ranked_10min.csv - 각 파일의 컬럼은 아래와 같습니다. gameId: 게임 판의 고유 ID blueWins: 블루팀의 승리 여부 (0: 패배, 1: 승리) xxxWardsPlaced: xxx팀에서 설치한 와드의 수 xxxWardsDestroyed: xxx팀에서 파괴한 와드의 수 xxxFirstBlood: xxx팀의 첫번째 킬 달성 여부 xxxKills: xxx팀의 킬 수 xxxD..

Project & Kaggle 2021.02.09

학생들의 수업 시간 행동 분석을 통한 성적 예측

데이터로 살펴보는 학생들의 행동연구를 통한 성적 예측 ¶데이터 소개¶ - 각 파일의 컬럼은 아래와 같습니다. gender: 학생의 성별 (M: 남성, F: 여성) NationaliTy: 학생의 국적 PlaceofBirth: 학생이 태어난 국가 StageID: 학생이 다니는 학교 (초,중,고) GradeID: 학생이 속한 성적 등급 SectionID: 학생이 속한 반 이름 Topic: 수강한 과목 Semester: 수강한 학기 (1학기/2학기) Relation: 주 보호자와 학생의 관계 raisedhands: 학생이 수업 중 손을 든 횟수 VisITedResources: 학생이 과목 공지를 확인한 횟수 Discussion: 학생이 토론 그룹에 참여한 횟수 ParentAnsweringSurvey: 부모가 학..

Project & Kaggle 2021.02.02

심부전증 환자 데이터를 통한 사망 여부 Classification

주제 : 데이터 분석으로 심부전증을 예방할 수 있을까?¶ 데이터 소개¶ - 이번 주제는 Heart Failure Prediction 데이터셋을 사용합니다. - 다음 1개의 csv 파일을 사용합니다. heart_failure_clinical_records_dataset.csv - 각 파일의 컬럼은 아래와 같습니다. age: 환자의 나이 anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈) creatinine_phosphokinase: 크레아틴키나제 검사 결과 diabetes: 당뇨병 여부 (0: 정상, 1: 당뇨) ejection_fraction: 박출계수 (%) high_blood_pressure: 고혈압 여부 (0: 정상, 1: 고혈압) platelets: 혈소판 수 (kiloplatelets..

Project & Kaggle 2021.02.01

빈발 패턴 탐색

* 연관 규칙이란 -> 'A가 발생하면 B도 발생하더라' 라는 형태의 규칙으로, 트랜잭션 데이터를 탐색하는 곳에 사용 A : 부모 아이템 집합 B : 자식 아이템 집합 A와 B는 모두 공집합이 아닌 집합이고 둘의 교집합은 공집합을 만족함 * 연관 규칙 탐색이란? -> 거래 데이터에서 의미있는 연관규칙을 효율적으로 탐색하는 작업 * 실제로 wall mart에서 연관규칙으로 매출 향상 ex) * 연관 규칙의 평가 척도 * 지지도에 대한 Apori 원리 * AB가 빈발하지 않다면 ABC , ABD , ABCD 도 빈발하지 않으므로 탐색 할 필요가 없음 * 지지도에 대한 Apriori 원리 : 후보 규칙 생성 * 신뢰도에 대한 Apriori 원리 * 신뢰도에 대한 Apriori 원리 적용 * 구현 가능 모듈 =..

Machine Learning 2021.01.01

계층적 군집화

기본 개념 * 개별 샘플을 군집으로 간주하여. 거리가 가장 가까운 두 군집을 순차적으로 묶는 방식으로 큰 군집을 생성 군집 간 거리 측정 법 1. 최단 연결 법 (가장 가까운 샘플간의 거리를 군집간의 거리로 보는 법) 2. 최장 연결 법 (가장 먼 샘플간의 거리를 군집간의 거리로 보는 법) 3. 평균 연결 법 (전체 거리에 대한 평균 거리를 군집간의 거리로 보는 법) 4. 중심 연결 법 (각 군집에 대해 중심을 구하고 중심간의 거리 계산) 5. 와드 연결법 (c1,c2를 하나의 군집으로 보았을 때의 중심과 각 중심과의 거리를 구하는 방식) -군집끼리 합쳐졌을 때 어떤 효과가 있는지 까지 측정 가능하여 sckit learn 계층 군집화의 default로 많이 쓰임 6. 덴드로그램 -> 샘플 수 가 많으면 ..

Machine Learning 2020.12.28

군집화 (Clustering )

* 군집화 : 하나 이상의 특징을 바탕으로 유사한 샘플을 하나의 그룹으로 묶는 작업 - 군집화의 목적 * 군집화의 필수 개념 - 거리와 유사도는 완벽하게 반대 개념 * 유사도 척도 1. 유클리디안 거리 2. 맨하탄 거리 (리커트 척도란 설문조사 같은 데이터를 말함,ex)매우만족,만족,불 만족 ) 3. 코사인 유사도 4. 매칭유사도 (이진형 데이터만 사용) 5. 자카드 유사도(희소한 이진형 데이터에 자주 사용)

Machine Learning 2020.12.28

상관 분석 및 실습

* 상관 분석 -> 두 연속형 변수 간에 어떠한 선형 관계를 가지는지 파악 , 피어슨, 스피어만 등이 있음 * 상관 계수 시각화 예시 * 단조 관련성 ->순위에 대한 상관계수를 측정할 때 쓰는 것 , r(x), r(y)는 x와 y에 대한 오름차순 순위 이것 r(x), r(y)을 가지고 식에 대입함 * 상관 분석 실습 p-value를 보면 모두 유의하므로 모두 관계가 있다고 볼 수 있다.

일원 분산 분석 및 실습(Anova)

* 일원 분산 분석 -> 셋 이상의 그룹간 차이가 존재하는 지를 확인하기 위한 가설 검정 방법 * 일원 분산 분석은 T검정을 사용하면 안된다 ? YES ->일원 분산 분석은 독립 표본 t검정을 여러 번 사용한 것과 같은 결과를 낼 것 처럼 보임 * 일원 분산 분석의 선행 조건 *일원 분산 분석 실습 Reject 결과가 True 면 유의미한 차이가 있다고 볼 수 있다 - > 귀무가설 기각

단일 ,독립, 쌍체 표본 t검정 ( 데이터 정규성 검정)

* 통계적 가설 검정 개요 * t 검정의 목적 -> 모집단의 분산이나 표준편차를 알지 못할 때 모집단을 대표하는 표본으로부터 추정된 분산이나 표준편차를 가지고 검정하는 방법 쉽게말하면 그룹의 평균이 기준 평균과의 차이가 있는지를 확인 하기 위함 1. 단일 표본 T검정의 선행 조건 - 기본적으로 단일 표본 t 검정은 해당 변수가 정규 분포를 따라야 수행 가능하므로 kolmogorov-smornov나 shapiro-wilk를 사용한 정규성 검정이 선행 되어야 함. - 하지만 정규성 샘플 수가 많을 때에는 보통 정규성을 가정하므로 샘플 수가 부족한 경우에만 정규성 검정을 한 뒤에 정규성을 띄지 않는 다면 비모수적 방법인 부호검정(sign test)나 윌콕슨 부호-순위 검정을 수행해야함 * 단일표본 t 검정 실..

Spotify Web API request

Rate Limiting : 어떤 유저가 1초에 몇 만개의 Request를 보내면 서버가 부하가 되니 제한을 시켜놓은 것 Response Status Codes : 요청 시 요청 값에 대해 어떤 식으로 나오는지에 대한 코드 API 코드 예시 ex) curl -X GET "https://api.spotify.com/v1/artists/0OdUWJ0sBjDrqHygGUXeCF" -H "Authorization: Bearer {your access token}" 을 보내면 이런 식의 Json 파일을 Response 받을 수 있음 참조: developer.spotify.com/documentation/web-api/reference/artists/get-artist/ API 실습 1. spotify Docs g..

DevOps study 2020.12.25

REST API (Application programming Interface) 정리

API : 두개의 시스템이 서로 상호 작용하기 위한 인터페이스 * 데이터를 주고받는 인터페이스 , 보통 API 는 Rest API를 뜻 함 application(내컴퓨터) : HTTP라는 프로토콜을 통해Rest api에 주소를 요청 -> 서버는 해당 값을보고 다시 application(내컴퓨터)에 어떠한값을 리턴 값을 던져주게됨 HTTP : W3 상에서 정보를 주고받을 수 있는 프로토콜 (주로 HTML) Request : 웹브라우저(클라이언트)를 통해 서버에 어떤 정보를 요청하는 것 Response : 요청 한 것에 대한 응답 값(Json 형태의 데이터로 들어옴)으로 들어 올 것 Authorization ( 권한 ) Authentication: Identity(정체)가맞다는 증명을 하는 것 Authori..

DevOps study 2020.12.25

Dog and cat Classification with CNN

* 특정 그림에 개와 고양이가 포함되어 있는지 분류하는 kaggle 과제 * 전체적인 EDA 및 모델링 목차는 이렇다 1. 먼저 parameter를 정의하고 그림 file을 확인한다 2. 이후에 Training data 및 데이터를 담을 리스트를 만든다 3. 랜덤한 샘플 이미지는 이렇다 4. 이후 CNN 모델을 정의한다. * 위의 모델 layer 가 이런식으로 구성 되어있다고 생각하면 된다 5. 과적합을 방지하고 최상의 accuracy 지점을 찾기위해 callback 을 정의한다 * Image data generator 사용하는 이유 -> 기본적으로는 이미지데이터 학습을 쉽게 하기 위해서인데 ImageDataGenerator 클래스를 통해 객체를 생성할 때 파라미터를 전달해주는 것으로 데이터의 전처리를 ..

Project & Kaggle 2020.12.15

Permutation Feature Importance

* Permutation Feature Importnace 1. 특정 모델에 특화된 방법이 아닌 , 어느 모델이든(model-agnostic) 학습 후 적용(post-hoc) 하는 방법. 2. Black-box 모델에 대하여, 특정 feature를 안 썼을 때, 이것이 성능 손실에 얼마만큼의 영향을 주는지를 통해 그 feature의 중요도를 파악하는 방법 * 주요 특징 1. 재학습 시킬 필요가 없음 (특정 feature의 값들을 무작위로 섞어서(permutation) 그 feature를 노이즈로 만드는 것) 1-1. 무작위로 섞게 되면, 목표 변수와 어떠한 연결고리를 끊게 되는 것이므로, 그 feature를 안 쓴다고 할 수 있음 1-2. 이렇게 섞었을 때 예측값이 실제 값보다 얼마나 차이가 더 생겼는지..

Machine Learning 2020.12.15
반응형
반응형