반응형

전체 글 164

Sigmoid vs Softmax

이진분류(Sigmoid) 이중 분류는 어떤 물체인지 표현할 필요 X 다중분류(Softmax) 다중 분류는 '어떤 물체'인지 표현해야 함 결국 정답을 어떻게 표현할 것인가? -> one hot encoding 실제 알고리즘 출력을 확률로 변환 하기 위해 softmax 사용 정답과 출력을 비교 결국 하위 식이 1이 되게끔 학습을 하는것 (밑에 시에서는 1 X 0.7) 결국 잘맞추면 1 , 못 맞추면 log식이 (1x 무한대) 무한대로 치솟는 형태로 나타남

Deep Learning 2023.11.01

최적화 개념과 gradient descent

1. 최적화 개념 딥러닝 분야에서 최적화란 손실함수 값을 최소화하는 파라미터를 구하는 과정. 딥러닝에서는 학습데이터를 입력해서 네트워크 구조를 거쳐 예측 값(y^)을 얻음 이 예측 값과 실제 정답을 비교하는 함수가 손실함수, 즉 모델이 예측한 값과 실제값 차이를 최소화하는 네트워크 구조의 파라미터를 찾는 과정이 최적화 2. 기울기 개념 경사 하강법을 알아보기 전에 기울기를 먼저 이해하고 넘어가야 됨. 기울기란 미분 가능한 N개의 다변수 함수 f를 각 축이 가리키는 방향마다 편미분 한 것 2. 경사 하강법 개념 경사 하강법이란 딥러닝 알고리즘 학습시 사용되는 최적화 방법 중 하나 딥러닝 알고리즘 학습 시 목표는 예측값과 정답값 차이인 손실 함수의 크기를 최소화 시키는 파라미터를 찾는 것 학습데이터의 입력을..

Deep Learning 2023.09.23

퍼셉트론 개념

퍼셉트론 개념퍼셉트론은 인공신경망의 구성요소로서 다수의 값을 입력받아 하나의 값으로 출력하는 알고리즘. 입력값 X 가중치, 편향(bias)은 퍼셉트론으로 전달됩니다. 퍼셉트론은 입력받은 값을 모두 합산하는데, 합산된 결과값을 가중합이라 부릅니다. 앞서 생물학적 뉴런은 신경세포체에 저장한 신호의 크기가 임계값(세타)보다 클 때 신호를 출력한다고 했습니다. 퍼셉트론에서도 가중합의 크기를 임계값(세타)과 비교하는 활성화 함수(Activation Function)를 거쳐 최종 출력값을 결정. weight의 크기는 bias의 크기로 조절할 수 있으므로, bias가 퍼셉트론의 출력값 y를 결정짓는 중요 변수인 셈 퍼셉트론 종류퍼셉트론의 종류는 input layer ,output layer 사이에 hidden lay..

Deep Learning 2023.09.22

손실함수 , 활성함수 정리

Loss function 개념 loss function,objective function,cost function(손실함수)는 지도 학습시 알고리즘이 예측한 값과 실제 정답의 차이를 비교하기 위한 함수즉 학습 중에 알고리즘이 얼마나 잘못 예측하는 정도를 확인하기 위한 함수로서 최적화(optimization)를 위해 최소화 하는 것이 그 목적인 함수 . 손실함수를 통해 모델 학습 중에 손실이 커질 수록 학습이 잘 안되고 있다고 해석할 수 있고, 반대로 손실이 작아질 수록 학습이 잘 이루어지고 있다고 해석합니다. 손실 함수는 성능 척도와는 다른 개념으로, 성능 척도는 학습된 알고리즘의 성능을 정량적으로 평가하기 위한 지표로서 accuracy,f1스코어 등이 있음 즉, 성능 지표는 알고리즘의 학습이 끝났을 때..

Deep Learning 2023.09.06

상태 공간 모형 기반의 로컬 레벨 모형 및 시계열 구조화 모형

로컬 레벨 모형(Local Level Model) 랜덤워크 모형에 관측잡음이 추가된 것으로 랜덤워크 과정을 따르는 단변수 상태변수 𝜇𝑡를 가짐 로컬레벨 모형 = >ARIMA 모형 로컬레벨 모형은 ARIMA(0,1,1)의 다른 표현 ARIMA 모형과의 차이점: ARIMA(0,1,1)이 아닌 로컬 레벨 모형을 사용하는 이유는 다음과 같이 이유와 가정 때문 요약하자면 y = 랜덤워크 + 잡음 이라 이것이 항상 랜덤워크 모형을 따르지는 않는데, 잡음이 추가 됐으므로 확실하지 않다는 이야기 우리가 관심을 가지는 값은 어떤 이유에 의해 반드시 랜덤 워크 모형을 따라야 한다. 그런데 시계열 자료 𝑌𝑡는 랜덤 워크 모형을 따르지 않는다. (ARIMA(0,1,1) 모형을 따름) 그러므로 시계열 자료 𝑌𝑡는 우리가 원하는..

Time Series Model 2023.05.22

일반 선형 확률 과정(General Linear Process) - WN,AR,MA

일반 선형 확률 과정(General Linear Process) 일반 선형 확률 과정이란 시계열 데이터가 가우시안 백색잡음의 현재값과 과거값의 선형조합 - 가우시안 노이즈 : 정규분포를 갖는 잡음, 일반적인 잡음으로 갑자기 튀는 잡음이 아님 - e_t : 잡음의 현재값, e_t-1 : 잡음의 과거 값 , w : 특정한 비율 결국 잡음의 현재값과 과거값에 특정비율을 곱한 것들의 합, 변수는 서로 독립이며 정규분포 기준으로 평균이 0이고분산이 특정한 범위에 있음, weight값의 제곱의 합이 무한대 보다 작다 -> 제곱합을 무한대로 더해서 무한대보다 작으려면1보다 작아야함(1미만을 제곱해서 무한대로 더하면 무한대보다 작기 때문)결국 어떠한 타임포인트 던지 다 쪼개서 작은 값으로 백색잡음에 비율(웨이트)을 곱..

Time Series Model 2023.05.19

상태 공간 모형 기반의 지수 평활법 및 선형 추세 알고리즘

상태공간 모형 (State Space Models) 시계열 생성 구조를 관측식(observation equation)과 상태 전이식(state transition equation) 두 개의 수식으로 정의하는 시계열 모형 관측식 (Obsevation Equation): 현재의 상태 x_t와 잡음(에러) v_t에 의해 실제로 측정 가능한 출력 y_t를 생성하는 관계식 상태 전이식(State Transition Equation) : 이전의 상태 x_t-1와 현재 생성된 잡음(에러) w_t에 의해 현재의 상태 x_t가 생성되는 관계식 동적 시스템 (Dynamic System) :입력 시계열을 받아 출력 시계열을 내놓는 시스템 (예시) ARMA 모형의 경우 백색잡음 𝜖𝑡를 입력받아 𝑦𝑡를 출력하는 동적 시스템 상..

Time Series Model 2023.05.17

DeepFM 논문 리뷰

DeepFM : A Factorization - Machine based Neural network for CTR Prediction Abstract CTR(Click Through Rate)를 예측하는 모델로 Low와 High - order interactions 모두 학습 가능 Factorization Machine의 장점과 Deep Learning의 장점을 모두 합친 모델이 DeepFM 추가 featrue engineering 없이 raw featrue를 그대로 사용할 수 있음(fe가 없어서 도메인지식이 필요X) 이 부분이 wide&deep 과 deepfm의 중요한 차이점 deepfm의 최종 목표는 CTR을 높이는 것이고 CTR을 높이는 item을 최종적으로 추천하는 것 Introduction 1...

Singular Value Decomposition 수학적 정리

Singular Value Decomposition (SVD) n X p 매트릭스 X를 위와 같은 요소로 나누는 것이 SVD 어떠한 행렬을 U , D ,V 3개의 값으로 decomposition 할 수 있는 것이 SVD U : n X p , D : p X p (정방 행렬), V: p X p(정방 행렬) 기본적으로는 SVD를 하지않으면 계산이 복잡하기에 적용 (SVD 적용에 따라 모델의 속도차이가 큼, ex) pca는 속도가 빠르다) -> 곱 연산을 할 때 많은 연산들을 줄여주는 효과가 있음 위와 같이 SVD를 통해 임의의 matrix 공분산 구조행렬의 eigen vector, eigen value를 얻을 수 있음 X가 centered 되어있다면 , X^T * X 는 X의 공분산 구조 SVD와 eigen ..

Eigen vector 개념 정리

Eigen value, Eigen vector 정방행렬 A에 대해서 아래 식을 만족 할 경우 v는 고유 벡터 (eigen vector) 그리고 람다는 고유값 (eigen value) Av = 람다v 행렬식이 0 일 때 존재 함 위 그래프와 같이 A는 v를 선형변환한다 ( 선형 변환을 해도 방향은 유지되는 벡터가 고유 벡터고 늘어난 정도가 고유 값) 기하학적으로는 임의의 점 A라는 변형을 할 때 고유 벡터는 방향이 바뀌지 않는다는 것이 그 의미이고 변화 되는 스케일이 고유 값 수식으로 표현 위의 식에서 , x =0이 아닌 다른 해가 존재하려면, A- 람다*I 가 역행렬이 존재하지 않아야함 행렬식 |A| = 0 이 되는 람다 값을 계산 참고 ) 역행렬 행렬식과 역행렬의 존재성 관계 행렬식 |A| = 0 인 ..

Factorization Machine 논문 리뷰

Abstract Factorization machine은 SVM과 Factorization Model의 장점을 합친 모델 FM 예시 : Matrix Factorization, Parallel factor analysis, specialized model(SVD ++, PITF or FPMC) SVM : 큰 데이터에서 support vector를 찾아서 support vector를 기준으로 데이터를 classification/regression 일반적으로 머신러닝에서 자주 쓰이는 알고리즘 Real valued Feature Vector를 활용한 General Predictor FM은 classification/regression 등 다양한 문제들을 general하게 풀 수있는 모델 Factorization..

GPT-3 학습 방법 - Context Learning

Context Learning 대부분의 PLM은 사전학습 이후에 파인튜닝을 통해 Task를 학습하는데 파인튜닝 없이 PLM만으로 동작이 가능할까? parameter update (back -prop)없이 feed - forward 만을 통해 학습 수행 Few shot example을 주고 학습을 하고 Query를 받고 결과를 산출 Context Learning 정의 각 time - step의 hidden representation은 해당 step 까지의 정보가 담겨 있음 비록 파라미터 업데이트는 없지만 , 이것을 학습의 일환으로 볼수 있지 않을까? 이전의 정보가 잘 인코딩 되어 있다면, 이후에 이 정보를 바탕으로 추론을 수행 할 수 있을 것이라는 원리 Few shot learning (finetuning..

Matrix Factorization 적용 - SGD , ALS

Matrix Factorization R을 X와 Y로 나누고 분해한 X와 Y를 곱해서 실제 빈 공간에 어떤 평점이겠구나 하는 예측을 하는 f 를 찾는 과정 User - item matrix는 sparse 할 수 밖에 없음 , 채워져있는 관측 데이터를 사용해서 비어있는 것들을 채워 넣는 것이 주 개념 임의의 차원 수 f는 직접 정한다 R(원래 rating matrix) 와 R`(예측 matrix) 가 서로 유사하도록 학습하는 과정 관측된 데이터만 사용 True rating - predicted rating 으로 근사값을 추론하는 문제라고도 설명 가능 predicted rating을 이용한 matrix completion 문제 (stochastic) Gradient Descent, Alternating Le..

Latent Factor model

Latent Factor Model 사용자/아이템 특성을 벡터로 간략화(요약) 하는 모델링 사용자/아이템 특성 간 복잡한 관계를 학습 하고 factor로 나타내는 방법 사용자와 아이템이 같은 vector 공간에 표현되고, 같은 벡터 공간에 사용자와 아이템이 가까우면 유사, 멀리 떨어져 있으면 유사 하지않은 것으로 판단 Singular Value Decomposition (SVD) 쉽게 말해서 우리가 가진 행렬을 분해 -> 유저 / 아이템의 rating matrix를 분해하겠다는 뜻 분해를 함으로서 얻을 수 있는 vector 값이 있는데 이것을 -> latent vector로 이해 행렬 U는 user와 latent factor간의 관계 , 행렬 V는 item과 latent factor간의 관계 Latent..

Association Rules + FP Growth

Association Rule - 데이터 속에서 상호 연관 관계를 찾을 수 있다. - 기존 데이터를 기반으로 Association rule (연관규칙) 을 만드는 것 1.정의 minimum support 와 minimum confidence 값을 넘는 Rule을 찾는 과정 데이터에서 흥미로운 관계를 찾는 Rule-based 기법 특정 measure를 통해 interestingness를 평가하여 strong rules를 찾는 과정 2. association rule의 support(지지도) 데이터 관계 설정을 위해 아이템이 동시에 발생할 확률 전체 데이터 중 규칙(A,B)를 포함하는 데이터 비율 (A,B 동시 구매) 0과 1사이의 값이고 1에 가까울수록 A와 B의 관계가 중요하고 0에 가까우면 중요하지 않..

반응형
반응형