반응형

전체 글 164

앙상블 - Bagging

Ensemble -> 조화라는 사전적인 의미 Ensemble learning 1.여러개의 기본모델(예측모형)을 생성한 후 이 모델의 예측 결과를 종합하여 하나의 최종 예측 결과를 도출해 내는 법 2. 다중 분류자 조합 기법 * 기본모델 -> weak learner , classifier, base learner , single learner 1. 배깅(bagging) -> Bootstrap aggregating Bootstrap( 원본데이터에서 중복을 허용하여 무작위로 N개의 데이터 추출한다는 의미) (1) 기계 학습 알고리즘의 안정성과 정확도를 향상시키기 위해 고안 샘플을 여러번 뽑아(bootstrap) 각 모델을 학습시켜 결과를 집계(aggregating) (추출 되지 않은 나머지 것들의 error ..

Machine Learning 2020.06.18

힙-HEAP

1. 힙 (Heap) 이란? 힙: 데이터에서 최대값과 최소값을 빠르게 찾기 위해 고안된 완전 이진 트리(Complete Binary Tree) 완전 이진 트리: 노드를 삽입할 때 최하단 왼쪽 노드부터 차례대로 삽입하는 트리 힙을 사용하는 이유 배열에 데이터를 넣고, 최대값과 최소값을 찾으려면 O(n) 이 걸림 이에 반해, 힙에 데이터를 넣고, 최대값과 최소값을 찾으면, 𝑂(𝑙𝑜𝑔𝑛)O(logn) 이 걸림 우선순위 큐와 같이 최대값 또는 최소값을 빠르게 찾아야 하는 자료구조 및 알고리즘 구현 등에 활용됨 2. 힙 (Heap) 구조 힙은 최대값을 구하기 위한 구조 (최대 힙, Max Heap) 와, 최소값을 구하기 위한 구조 (최소 힙, Min Heap) 로 분류할 수 있음 힙은 다음과 같이 두 가지 조건을..

전설의 포켓몬 Classification

%matplotlib inline import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import warnings warnings.filterwarnings("ignore") df = pd.read_csv("https://raw.githubusercontent.com/yoonkt200/FastCampusDataset/master/Pokemon.csv") df.head() Feature Description Name : 포켓몬 이름 Type 1 : 포켓몬 타입 1 Type 2 : 포켓몬 타입 2 Total : 포켓몬 총 능력치 (Sum of Attack, Sp. Atk, Defense, Sp...

Project & Kaggle 2020.05.06

이진 트리-binary Tree

1. 트리 (Tree) 구조 트리: Node와 Branch를 이용해서, 사이클을 이루지 않도록 구성한 데이터 구조 실제로 어디에 많이 사용되나? 트리 중 이진 트리 (Binary Tree) 형태의 구조로, 탐색(검색) 알고리즘 구현을 위해 많이 사용됨 2. 알아둘 용어 Node: 트리에서 데이터를 저장하는 기본 요소 (데이터와 다른 연결된 노드에 대한 Branch 정보 포함) Root Node: 트리 맨 위에 있는 노드 Level: 최상위 노드를 Level 0으로 하였을 때, 하위 Branch로 연결된 노드의 깊이를 나타냄 Parent Node: 어떤 노드의 다음 레벨에 연결된 노드 Child Node: 어떤 노드의 상위 레벨에 연결된 노드 Leaf Node (Terminal Node): Child No..

보스턴 집 값 예측 - Boston Housing price Regression

1. 분석 목적 Linear Regression을 활용하여 Boston Price를 예측하기 2.변수 설명 : Feature Description TOWN : 지역 이름 LON, LAT : 위도, 경도 정보 CMEDV : 해당 지역의 집값(중간값) CRIM : 근방 범죄율 ZN : 주택지 비율 INDUS : 상업적 비즈니스에 활용되지 않는 농지 면적 CHAS : 경계선에 강에 있는지 여부 NOX : 산화 질소 농도 RM : 자택당 평균 방 갯수 AGE : 1940 년 이전에 건설된 비율 DIS : 5 개의 보스턴 고용 센터와의 거리에 다른 가중치 부여 RAD : radial 고속도로와의 접근성 지수 TAX : 10000달러당 재산세 PTRATIO : 지역별 학생-교사 비율 B : 지역의 흑인 지수 (10..

Project & Kaggle 2020.04.24

딥러닝 기초

1.데이터 (2. 모델 적용 3.예측 4.에러 최소화 5.최적화)*반복 6.결과 1.Data • 학습 시키기 위한 데이터 . 이 데이터가 모델에 들어감 • 데이터가 생성되고 , 데이터에 Transform 변형을 준다거나 모델에 들어가기 전에 데이터 전처리가 들어감 • 이 때 들어갈 때는 Batch 로 만들어서 Model 에 넣어줌 2.Model • LeNet , AlexNet , VGG 나 ResNet 등 다양하게 설계된 모델 • Convolution Layer, Pooling 등 다양한 Layer 층들로 구성 • 이 모델 안에 학습 파라미터가 있고 , 이 모델이 학습하는 대상 3.Prediction / Logit • 각 Class 별로 예측한 값 . • 여기서 가장 높은 값이 모델이 예상하는 class..

Machine Learning 2020.04.15

Hash Table- 해쉬 테이블

1. 해쉬 구조 Hash Table: 키(Key)에 데이터(Value)를 저장하는 데이터 구조 Key를 통해 바로 데이터를 받아올 수 있으므로, 속도가 획기적으로 빨라짐 파이썬 딕셔너리(Dictionary) 타입이 해쉬 테이블의 예: Key를 가지고 바로 데이터(Value)를 꺼냄 보통 배열로 미리 Hash Table 사이즈만큼 생성 후에 사용 (공간과 탐색 시간을 맞바꾸는 기법) 단, 파이썬에서는 해쉬를 별도 구현할 이유가 없음 - 딕셔너리 타입을 사용하면 됨 2. 알아둘 용어 해쉬(Hash): 임의 값을 고정 길이로 변환하는 것 해쉬 테이블(Hash Table): 키 값의 연산에 의해 직접 접근이 가능한 데이터 구조 해싱 함수(Hashing Function): Key에 대해 산술 연산을 이용해 데이터..

시간복잡도

알고리즘 복잡도 계산이 필요한 이유 하나의 문제를 푸는 알고리즘은 다양할 수 있음 정수의 절대값 구하기 1, -1 ->> 1 방법1: 정수값을 제곱한 값에 다시 루트를 씌우기 방법2: 정수가 음수인지 확인해서, 음수일 때만, -1을 곱하기 다양한 알고리즘 중 어느 알고리즘이 더 좋은지를 분석하기 위해, 복잡도를 정의하고 계산함 2. 알고리즘 복잡도 계산 항목 시간 복잡도: 알고리즘 실행 속도 공간 복잡도: 알고리즘이 사용하는 메모리 사이즈 가장 중요한 시간 복잡도를 꼭 이해하고 계산할 수 있어야 함 알고리즘 성능 표기법 Big O (빅-오) 표기법: O(N) 알고리즘 최악의 실행 시간을 표기 가장 많이/일반적으로 사용함 아무리 최악의 상황이라도, 이정도의 성능은 보장한다는 의미이기 때문 Ω (오메가) 표..

Linked List -링크드 리스트

1. 링크드 리스트 (Linked List) 구조연결 리스트라고도 함배열은 순차적으로 연결된 공간에 데이터를 나열하는 데이터 구조링크드 리스트는 떨어진 곳에 존재하는 데이터를 화살표로 연결해서 관리하는 데이터 구조본래 C언어에서는 주요한 데이터 구조이지만, 파이썬은 리스트 타입이 링크드 리스트의 기능을 모두 지원배열 -> 미리 특정한 연결된 공간을 예약하고 데이타를 씀 링크드리스트-> 미리 예약을 안하고 필요할 때 마다 추가 (배열의 단점을 극복)-> 데이타+ 다음 데이타 부르는 주소 2. 링크드 리스트 기본 구조와 용어 노드(Node): 데이터 저장 단위 (데이터값, 포인터) 로 구성포인터(pointer): 각 노드 안에서, 다음이나 이전의 노드와의 연결 정보를 가지고 있는 공간 * 일반적인 링크드 리..

Stack- 스택

스택 (Stack) 데이터를 제한적으로 접근할 수 있는 구조 한쪽 끝에서만 자료를 넣거나 뺄 수 있는 구조 가장 나중에 쌓은 데이터를 가장 먼저 빼낼 수 있는 데이터구조 *가장중요 큐: FIFO 정책 스택: LIFO 정책 2. 스택 구조와 프로세스 스택 스택 구조는 프로세스 실행 구조의 가장 기본 함수 호출시 프로세스 실행 구조를 스택과 비교해서 이해 필요 3. 자료 구조 스택의 장단점 장점 구조가 단순해서, 구현이 쉽다. 데이터 저장/읽기 속도가 빠르다. 단점 (일반적인 스택 구현시) 데이터 최대 갯수를 미리 정해야 한다. 파이썬의 경우 재귀 함수는 1000번까지만 호출이 가능함 저장 공간의 낭비가 발생할 수 있음 미리 최대 갯수만큼 저장 공간을 확보해야 함 스택은 단순하고 빠른 성능을 위해 사용되므로..

QUEUE - 큐

1. 큐 구조 줄을 서는 행위와 유사 가장 먼저 넣은 데이터를 가장 먼저 꺼낼 수 있는 구조 음식점에서 가장 먼저 줄을 선 사람이 제일 먼저 음식점에 입장하는 것과 동일 FIFO(First-In, First-Out) 또는 LILO(Last-In, Last-Out) 방식으로 스택과 꺼내는 순서가 반대 4가 먼저 들어왔으니 4 부터 OUT 2. 알아둘 용어 Enqueue: 큐에 데이터를 넣는 기능 - > 숫자가 들어가는것은 OUTPUT 지점부터 Dequeue: 큐에서 데이터를 꺼내는 기능 -> 숫자를 꺼내는것은 INPUT 지점부터 3.파이썬 queue 라이브러리 활용해서 큐 자료 구조 사용하기 queue 라이브러리에는 다양한 큐 구조로 Queue(), LifoQueue(), PriorityQueue() 제공..

Level 1 완주하지 못한 선수

이 문제의 정답 코드는 이렇다 def solution(a, b): a.sort() # a 와 b를 같은 것 끼리 맞춰주기 위해 솔팅을 실행함 b.sort() for i,j in zip(a,b) : # a,b 를 같은 괄호 안에 넣기위해 zip을 사용 if i != j : # a,b가 같지않다면 바로출력 return(i) return a[-1] # 동명이인이 있는 경우 마지막사람을 남기기 위해 #중복 값 유지 이슈 → 순서 맞춰주고 그냥 빼버리기

파이썬을 통한 머신러닝 모델 배포

1. 애져 포탈 로그인 2. 리소스 만들기 ( 작업영역 이름은 마음대로~~) 3. 리소스 그룹 -> docs-aml 4. 작업영역 : Basic -> 검토 + 만들기 5. 배포 성공하면 -> 리소스 이동 선택 -> azure 머신러닝 스튜디오 로그인 후 시작 6. 왼쪽에서 노트북 선택 -> 샘플 폴더 열기 -> 파이썬 폴더 열기 -> 1.0.85 -> 튜토리얼 ... 눌러 복제 7. 8. VM(컴퓨팅)찾을 수 없는 경우 -> +새 컴퓨팅(vm) 눌러 인스턴스 vm 설치( 이름 입력 :2~16자 사이 ,5분 정도 걸림) 9. 튜토리얼 - 첫번째 모델 훈련 (1) 작업 공간 연결 및 실험 생성 from azureml.core import Workspace ws = Workspace.from_config() ..

BigQuery 2020.04.06
반응형
반응형