반응형

Project & Kaggle 12

불량 타이어 검출을 위한 CNN 모델 개발 및 PYQT(EXE 실행 프로그램) 배포 프로젝트

Project 타이어 정상/불량 판정 자동화를 위한 이미지 처리 + 설비 내장 가능한 서비스 구현 프로젝트 관련 설명 1. 딥러닝 모델 개발 다음과 같은 최적의 딥러닝 모델을 구하기 위해 30여번의 실험을 진행 대략적인 코드는 다음과 같다 CNN 모델 최적화 과정을 간단하게 정리하자면 1. 먼저 data를 argumentaion 진행 (코드1, 이미지를 증폭, 변화를 주어 모델 적용 -> 보통 데이터 부족 할 때 사용) 2. 각각의 이미지에 대해 폴더별로 labeling( 정상 /비정상) 3. 이후 일반적인 딥러닝 모델을 정의한다 ( 지금 같은경우는 Vggnet 을 기본으로잡고 거기서 변화를 주고 실험) 4. 정의된 모델을 테스트 해가며 accuracy를 확인하고 이 과정에서 val acc set의 과적..

Project & Kaggle 2021.06.21

철판 제조 공정 데이터를 활용한 분류모형 생성 및 성능 비교

데이터 소개¶ Steel Plates Faults 데이터는 1941개의 샘플을 가지며 아래의 종속변수들과 나머지 설명변수들로 구성됩니다. 종속변수 (7개) - 어떠한 불량이 나타났는지를 나타내고, 다음과 같습니다. Pastry, Z_Scratch, K_Scatch, Stains, Dirtiness, Bumps, Other_Faults 설명변수 (27개) - 철판의 길이, 반짝이는 정도, 두께, 타입 등 등 다양한 변수들을 가집니다. 첫번째 칼럼 X_Minimum ~ 27번째 칼럼 SigmoidOfAreas 데이터출처: https://www.kaggle.com/mahsateimourikia/faults-nna/notebooks 제조 공정 데이터의 전반적 특성 제조 공정 데이터는 주로 불량률을 예측하여 불량..

Project & Kaggle 2021.04.07

유럽 축구 경기 및 선수 특징 추출을 통한 승부 예측

데이터 소개¶ - 이번 주제는 European Soccer Database 데이터셋을 사용합니다. - 다음 1개의 sqlite 데이터베이스를 사용합니다. database.sqlite - 데이터 베이스 내 총 7개의 Table을 사용합니다. Country: 국가 정보 League: 리그 정보 Match: 경기 정보 (주 데이터셋) Player: 플레이어 정보 Player_Attributes: 플레이어의 특성 Team: 팀 정보 Team_Attributes: 팀의 특성 데이터 출처: https://www.kaggle.com/hugomathien/soccer Step 0. 데이터베이스와 SQL¶ SQL과 Query¶ Step 1. 데이터셋 준비하기¶ In [1]: import pandas as pd impor..

Project & Kaggle 2021.04.02

데이터로 알아보는 리그 오브 레전드의 승리 예측 및 인사이트

주제 : 롤 좀 하니? '이것'만 하면 무조건 이긴다! - 데이터로 알아보는 리그 오브 레전드의 승리 공식 . 데이터 소개¶ - 이번 주제는 League of Legends Diamond Ranked Games (10 min) 데이터셋을 사용합니다. - 다음 1개의 csv 파일을 사용합니다. high_diamond_ranked_10min.csv - 각 파일의 컬럼은 아래와 같습니다. gameId: 게임 판의 고유 ID blueWins: 블루팀의 승리 여부 (0: 패배, 1: 승리) xxxWardsPlaced: xxx팀에서 설치한 와드의 수 xxxWardsDestroyed: xxx팀에서 파괴한 와드의 수 xxxFirstBlood: xxx팀의 첫번째 킬 달성 여부 xxxKills: xxx팀의 킬 수 xxxD..

Project & Kaggle 2021.02.09

학생들의 수업 시간 행동 분석을 통한 성적 예측

데이터로 살펴보는 학생들의 행동연구를 통한 성적 예측 ¶데이터 소개¶ - 각 파일의 컬럼은 아래와 같습니다. gender: 학생의 성별 (M: 남성, F: 여성) NationaliTy: 학생의 국적 PlaceofBirth: 학생이 태어난 국가 StageID: 학생이 다니는 학교 (초,중,고) GradeID: 학생이 속한 성적 등급 SectionID: 학생이 속한 반 이름 Topic: 수강한 과목 Semester: 수강한 학기 (1학기/2학기) Relation: 주 보호자와 학생의 관계 raisedhands: 학생이 수업 중 손을 든 횟수 VisITedResources: 학생이 과목 공지를 확인한 횟수 Discussion: 학생이 토론 그룹에 참여한 횟수 ParentAnsweringSurvey: 부모가 학..

Project & Kaggle 2021.02.02

심부전증 환자 데이터를 통한 사망 여부 Classification

주제 : 데이터 분석으로 심부전증을 예방할 수 있을까?¶ 데이터 소개¶ - 이번 주제는 Heart Failure Prediction 데이터셋을 사용합니다. - 다음 1개의 csv 파일을 사용합니다. heart_failure_clinical_records_dataset.csv - 각 파일의 컬럼은 아래와 같습니다. age: 환자의 나이 anaemia: 환자의 빈혈증 여부 (0: 정상, 1: 빈혈) creatinine_phosphokinase: 크레아틴키나제 검사 결과 diabetes: 당뇨병 여부 (0: 정상, 1: 당뇨) ejection_fraction: 박출계수 (%) high_blood_pressure: 고혈압 여부 (0: 정상, 1: 고혈압) platelets: 혈소판 수 (kiloplatelets..

Project & Kaggle 2021.02.01

Dog and cat Classification with CNN

* 특정 그림에 개와 고양이가 포함되어 있는지 분류하는 kaggle 과제 * 전체적인 EDA 및 모델링 목차는 이렇다 1. 먼저 parameter를 정의하고 그림 file을 확인한다 2. 이후에 Training data 및 데이터를 담을 리스트를 만든다 3. 랜덤한 샘플 이미지는 이렇다 4. 이후 CNN 모델을 정의한다. * 위의 모델 layer 가 이런식으로 구성 되어있다고 생각하면 된다 5. 과적합을 방지하고 최상의 accuracy 지점을 찾기위해 callback 을 정의한다 * Image data generator 사용하는 이유 -> 기본적으로는 이미지데이터 학습을 쉽게 하기 위해서인데 ImageDataGenerator 클래스를 통해 객체를 생성할 때 파라미터를 전달해주는 것으로 데이터의 전처리를 ..

Project & Kaggle 2020.12.15

주택 가격 예측 with Deep Neural network

* Keras regressor로 Regression 진행 보통 딥러닝은 Classification에 초점을 맞추지만 이번에 진행할 예제는 Regression이다 . 딥러닝으로 회귀를 진행하는 방법이 여럿 있겠지만 여기서는 마지막 레이어에서 actiation function을 제거하는 방법으로 진행하겠다. 딥러닝을 통한 Regression으로 Insight 보다는 modelling이 목적이며 그러므로 columns 명은 따로 집어넣지 않음. 1~12 : 설명변수 13: 가격 --------------------------------------------------------------------------------------------------------------------------------- ..

Project & Kaggle 2020.12.11

Deep learning( CNN을 활용한 Mnist classification kernel)

Mnist 데이터 로드 후 tensorflow를 통한 train/test split. from tensorflow.keras import datasets (train_x, train_y), (test_x, test_y) = datasets.mnist.load_data() 28바이28 의 데이터가 6만개 쌓여있다 라는 뜻 from tensorflow.keras import datasets (train_x, train_y), (test_x, test_y) = datasets.mnist.load_data() image=train_x[0] image.shape (60000, 28, 28) plt.imshow(image,'gray') plt.show() # 차원 수 높이기 image=image[tf.newaxis..

Project & Kaggle 2020.11.30

사내 직원 이탈 모델링

0.1 사내 직원 이탈률에 대한 Churn management 분석 이번 캐글 주제는 사내 직원들이 기업을 떠나는 패턴을 파악해 Churn rate를 예측하는 것 import pandas as pd df=pd.read_csv(r"C:\Users\robin\Desktop\캐글데이터\churn.csv") #대략적인 데이터는 이렇다. # 결측치는 없는 것으로 확인 # 성별을 label encoding으로 수치화 # 다른 범주형 변수들도 label encoding 시각화 한다 # 원핫 인코딩 범주형 변수를 모두 원핫 인코딩 해준다. 그중 num of frequency 는 -> frequent encoding # 이후 수치형 데이터들의 heat map 을 살펴서 상관 관계를 확인 # y=churn 으로 잡고 트레..

Project & Kaggle 2020.09.04
반응형
반응형