반응형

전체 글 164

철판 제조 공정 데이터를 활용한 분류모형 생성 및 성능 비교

데이터 소개¶ Steel Plates Faults 데이터는 1941개의 샘플을 가지며 아래의 종속변수들과 나머지 설명변수들로 구성됩니다. 종속변수 (7개) - 어떠한 불량이 나타났는지를 나타내고, 다음과 같습니다. Pastry, Z_Scratch, K_Scatch, Stains, Dirtiness, Bumps, Other_Faults 설명변수 (27개) - 철판의 길이, 반짝이는 정도, 두께, 타입 등 등 다양한 변수들을 가집니다. 첫번째 칼럼 X_Minimum ~ 27번째 칼럼 SigmoidOfAreas 데이터출처: https://www.kaggle.com/mahsateimourikia/faults-nna/notebooks 제조 공정 데이터의 전반적 특성 제조 공정 데이터는 주로 불량률을 예측하여 불량..

Project & Kaggle 2021.04.07

유럽 축구 경기 및 선수 특징 추출을 통한 승부 예측

데이터 소개¶ - 이번 주제는 European Soccer Database 데이터셋을 사용합니다. - 다음 1개의 sqlite 데이터베이스를 사용합니다. database.sqlite - 데이터 베이스 내 총 7개의 Table을 사용합니다. Country: 국가 정보 League: 리그 정보 Match: 경기 정보 (주 데이터셋) Player: 플레이어 정보 Player_Attributes: 플레이어의 특성 Team: 팀 정보 Team_Attributes: 팀의 특성 데이터 출처: https://www.kaggle.com/hugomathien/soccer Step 0. 데이터베이스와 SQL¶ SQL과 Query¶ Step 1. 데이터셋 준비하기¶ In [1]: import pandas as pd impor..

Project & Kaggle 2021.04.02

Cost sensitve model (cutoff 설정)

위음성 비용: 긍정 클래스를 부정 클래스로 오 분류할 때 발생하는 비용 위양성 비용: 부정 클래스를 긍정 클래스로 오 분류할 때 발생하는 비용 위 두 개의 비용을 다르게 설정하는 모델이 비용 민감 모델로 보통 위음성 비용보다 위양성 비용을 크게 설정 W가 커지면 커질수록 정확도가 떨어짐 부정 클래스가 다수이므로 부정 클래스로 분류했을 때 성능이 나쁘지 않음 W가 커진다는것은 긍정 클래스에 신경 쓰는 것이니까 정확도는 떨어지게 됨 로지스틱 회귀, 나이브베이즈 등의 확률 모델들은 Cut-Off value, C를 조정하는 방식으로 비용 민감 모델 구현 가능 정확한 확률 추정은 불가능 하지만 KNN,NN,Decision tree, ensemble 에도 적용 가능 C= cutoff value로 조정 가능한 대상 ..

Machine Learning 2021.04.01

가장 큰 수_정렬

정렬은 보통 다 풀 수 있었는데 이 문제는 착안을 성공하고도 시간초과로 못 풀었다. 일단 나는 itertools permutation 으로 ex) 6 10 2의 모든 조합 경우의; 수를 파악하여 놓고 max로 결과 값을 구했는데 - 시간초과에 걸렸다 실제 시간도 엄청 걸린다 정답은 이 풀이 아스키코드로 바꿔서 비교를 하는데 착안이 엄청 어렵다 특히 X*3부분이 이해가 가지않았는데 같은 문자를 3번반복 ex) 6-> 666 이렇게 해서 비교를 한다 좀 더 제대로 공부해야겠다... programmers.co.kr/learn/courses/30/lessons/42746

타겟넘버 DFS

사실 이 문제는 5분 정도 고민하고 풀이를 바로 봤다 이유는 DFS로 풀 만한 단서가 전혀 보이지 않았기 때문.. 근데 풀이를 보니 너무 쉬워보이지만 저것을 착안해 내는게 실력... itertools product는 예를들어 arr1=[1,2] arr2=[3,4]면 product(arr1,arr2) -> 1,2 1,3 2,3 2,4 처럼 모든 가능한 조합의 수를 다 찾아주는 함수 programmers.co.kr/learn/courses/30/lessons/43165

전화번호 목록 - 해시 테이블

코드 최신화 -> 다시 풀어봤는데 이렇게 푸는 것이 가장 직관적 phonebook[1:] 는 처음 구조대를 빼고 생각하기 위해 선언 startwith -> 왼쪽에서 부터 찾고 같은게 있으면 True 범위를 지정해 줄 수도 있음 def solution(phone_book): answer = True hash_map = {} for phone_number in phone_book: hash_map[phone_number] = 1 for phone_number in phone_book: temp = "" for number in phone_number: temp += number if temp in hash_map and temp != phone_number: answer = False return answe..

위장

문제 보통 이문제는 from functools import reduce 로 많이 푸는데 따로 저 모듈을 떠올리기가 쉽지 않아서 일단 정석대로 풀어보고 .... 안되면 찾아본다음에 모듈을 쓰는게 맞다. 그래서 모듈도 (해답을 봤지만) 한번 코드 필사를 했다 *참고 from functools import reduce -> 왼쪽에서 오른쪽으로 누적으로 더 해주는것 ex) sum(sum(sum(sum(1, 2), 3), 4), 5) programmers.co.kr/learn/courses/30/lessons/42578

게임 Industry - 이탈 여부 예측 알고리즘

Target : 단순히 이탈할지 말지 예측하는 것이 아니라 언제 이탈할지 까지 예측하는 것 * Activity Data 1. 파생 변수 생성 1-1. 파생변수 생성 원리 1-2 시계열 데이터 정제 2. 이사람이 왜 이탈할까 에 대한 이유 2-1 설문조사 바탕 파생변수 생성 2-2 Play_time과 payment_amount 변수 보정 2-3 Activity data 로부터 각각 다른 의미를 지닌 6개의 파생 데이터를 생성 2-4 길드 데이터 전처리 2-5 파티 데이터 전처리 2-6 거래 데이터 종류

Industry 분석 2021.03.11

Pyqt 기초 문법

PYQT5 란? uic.loadUiType() 본 Qt designer를 이용해서 원하는 GUI를 구성하고 이 UI파일을 파이썬 코드를 이용하여 로드 qpix_map=QPixmap() 화면에 이미지를 표시하는 인스턴스 -> 이미지 시각화 QFileDialog.getExistingDirectory Directory를 설정 하고 원하는 폴더 지정하기 lineEdit.setText 한줄짜리 글자를 입력받을 수 있는 입력 위젯 self.move move() 메서드는 이 위젯을 스크린의 x=300px, y=300px의 위치로 이동 setWindowTitle() 타이틀바에 나타나는 실행 프로그램의 제목을 설정 if name == 'main':한 줄의 코드를 통해 프로그램이 직접 실행되는지 혹은 모듈을 통해 실행되는..

DevOps study 2021.03.11

H-Index

인덱스를 이용하여 citations[i]>=len(citations)-i 를 생각해내는 것이 포인트 ->H번이상 인용된 논문이 H편이므로 이런식으로 코드를 짜게 됨 H번이상 H편 이란 것이 결국 index를 하나씩세서 즉 0 1 2 3 4가 h편이되는 것이고 H번이상이 citation[i]를 말하는 것.. 그리고 이 비교를 정확하게 하기위해 처음에 오름차순으로 sorting하는 것 결국 return은 3 2 1 0 0 순으로 나오게 됨( 착안이 쉽지 않음..) programmers.co.kr/learn/courses/30/lessons/42747

반응형
반응형