반응형

분류 전체보기 164

Sigmoid vs Softmax

이진분류(Sigmoid) 이중 분류는 어떤 물체인지 표현할 필요 X 다중분류(Softmax) 다중 분류는 '어떤 물체'인지 표현해야 함 결국 정답을 어떻게 표현할 것인가? -> one hot encoding 실제 알고리즘 출력을 확률로 변환 하기 위해 softmax 사용 정답과 출력을 비교 결국 하위 식이 1이 되게끔 학습을 하는것 (밑에 시에서는 1 X 0.7) 결국 잘맞추면 1 , 못 맞추면 log식이 (1x 무한대) 무한대로 치솟는 형태로 나타남

Deep Learning 2023.11.01

최적화 개념과 gradient descent

1. 최적화 개념 딥러닝 분야에서 최적화란 손실함수 값을 최소화하는 파라미터를 구하는 과정. 딥러닝에서는 학습데이터를 입력해서 네트워크 구조를 거쳐 예측 값(y^)을 얻음 이 예측 값과 실제 정답을 비교하는 함수가 손실함수, 즉 모델이 예측한 값과 실제값 차이를 최소화하는 네트워크 구조의 파라미터를 찾는 과정이 최적화 2. 기울기 개념 경사 하강법을 알아보기 전에 기울기를 먼저 이해하고 넘어가야 됨. 기울기란 미분 가능한 N개의 다변수 함수 f를 각 축이 가리키는 방향마다 편미분 한 것 2. 경사 하강법 개념 경사 하강법이란 딥러닝 알고리즘 학습시 사용되는 최적화 방법 중 하나 딥러닝 알고리즘 학습 시 목표는 예측값과 정답값 차이인 손실 함수의 크기를 최소화 시키는 파라미터를 찾는 것 학습데이터의 입력을..

Deep Learning 2023.09.23

퍼셉트론 개념

퍼셉트론 개념퍼셉트론은 인공신경망의 구성요소로서 다수의 값을 입력받아 하나의 값으로 출력하는 알고리즘. 입력값 X 가중치, 편향(bias)은 퍼셉트론으로 전달됩니다. 퍼셉트론은 입력받은 값을 모두 합산하는데, 합산된 결과값을 가중합이라 부릅니다. 앞서 생물학적 뉴런은 신경세포체에 저장한 신호의 크기가 임계값(세타)보다 클 때 신호를 출력한다고 했습니다. 퍼셉트론에서도 가중합의 크기를 임계값(세타)과 비교하는 활성화 함수(Activation Function)를 거쳐 최종 출력값을 결정. weight의 크기는 bias의 크기로 조절할 수 있으므로, bias가 퍼셉트론의 출력값 y를 결정짓는 중요 변수인 셈 퍼셉트론 종류퍼셉트론의 종류는 input layer ,output layer 사이에 hidden lay..

Deep Learning 2023.09.22

손실함수 , 활성함수 정리

Loss function 개념 loss function,objective function,cost function(손실함수)는 지도 학습시 알고리즘이 예측한 값과 실제 정답의 차이를 비교하기 위한 함수즉 학습 중에 알고리즘이 얼마나 잘못 예측하는 정도를 확인하기 위한 함수로서 최적화(optimization)를 위해 최소화 하는 것이 그 목적인 함수 . 손실함수를 통해 모델 학습 중에 손실이 커질 수록 학습이 잘 안되고 있다고 해석할 수 있고, 반대로 손실이 작아질 수록 학습이 잘 이루어지고 있다고 해석합니다. 손실 함수는 성능 척도와는 다른 개념으로, 성능 척도는 학습된 알고리즘의 성능을 정량적으로 평가하기 위한 지표로서 accuracy,f1스코어 등이 있음 즉, 성능 지표는 알고리즘의 학습이 끝났을 때..

Deep Learning 2023.09.06

상태 공간 모형 기반의 로컬 레벨 모형 및 시계열 구조화 모형

로컬 레벨 모형(Local Level Model) 랜덤워크 모형에 관측잡음이 추가된 것으로 랜덤워크 과정을 따르는 단변수 상태변수 𝜇𝑡를 가짐 로컬레벨 모형 = >ARIMA 모형 로컬레벨 모형은 ARIMA(0,1,1)의 다른 표현 ARIMA 모형과의 차이점: ARIMA(0,1,1)이 아닌 로컬 레벨 모형을 사용하는 이유는 다음과 같이 이유와 가정 때문 요약하자면 y = 랜덤워크 + 잡음 이라 이것이 항상 랜덤워크 모형을 따르지는 않는데, 잡음이 추가 됐으므로 확실하지 않다는 이야기 우리가 관심을 가지는 값은 어떤 이유에 의해 반드시 랜덤 워크 모형을 따라야 한다. 그런데 시계열 자료 𝑌𝑡는 랜덤 워크 모형을 따르지 않는다. (ARIMA(0,1,1) 모형을 따름) 그러므로 시계열 자료 𝑌𝑡는 우리가 원하는..

Time Series Model 2023.05.22

일반 선형 확률 과정(General Linear Process) - WN,AR,MA

일반 선형 확률 과정(General Linear Process) 일반 선형 확률 과정이란 시계열 데이터가 가우시안 백색잡음의 현재값과 과거값의 선형조합 - 가우시안 노이즈 : 정규분포를 갖는 잡음, 일반적인 잡음으로 갑자기 튀는 잡음이 아님 - e_t : 잡음의 현재값, e_t-1 : 잡음의 과거 값 , w : 특정한 비율 결국 잡음의 현재값과 과거값에 특정비율을 곱한 것들의 합, 변수는 서로 독립이며 정규분포 기준으로 평균이 0이고분산이 특정한 범위에 있음, weight값의 제곱의 합이 무한대 보다 작다 -> 제곱합을 무한대로 더해서 무한대보다 작으려면1보다 작아야함(1미만을 제곱해서 무한대로 더하면 무한대보다 작기 때문)결국 어떠한 타임포인트 던지 다 쪼개서 작은 값으로 백색잡음에 비율(웨이트)을 곱..

Time Series Model 2023.05.19

상태 공간 모형 기반의 지수 평활법 및 선형 추세 알고리즘

상태공간 모형 (State Space Models) 시계열 생성 구조를 관측식(observation equation)과 상태 전이식(state transition equation) 두 개의 수식으로 정의하는 시계열 모형 관측식 (Obsevation Equation): 현재의 상태 x_t와 잡음(에러) v_t에 의해 실제로 측정 가능한 출력 y_t를 생성하는 관계식 상태 전이식(State Transition Equation) : 이전의 상태 x_t-1와 현재 생성된 잡음(에러) w_t에 의해 현재의 상태 x_t가 생성되는 관계식 동적 시스템 (Dynamic System) :입력 시계열을 받아 출력 시계열을 내놓는 시스템 (예시) ARMA 모형의 경우 백색잡음 𝜖𝑡를 입력받아 𝑦𝑡를 출력하는 동적 시스템 상..

Time Series Model 2023.05.17

DeepFM 논문 리뷰

DeepFM : A Factorization - Machine based Neural network for CTR Prediction Abstract CTR(Click Through Rate)를 예측하는 모델로 Low와 High - order interactions 모두 학습 가능 Factorization Machine의 장점과 Deep Learning의 장점을 모두 합친 모델이 DeepFM 추가 featrue engineering 없이 raw featrue를 그대로 사용할 수 있음(fe가 없어서 도메인지식이 필요X) 이 부분이 wide&deep 과 deepfm의 중요한 차이점 deepfm의 최종 목표는 CTR을 높이는 것이고 CTR을 높이는 item을 최종적으로 추천하는 것 Introduction 1...

Singular Value Decomposition 수학적 정리

Singular Value Decomposition (SVD) n X p 매트릭스 X를 위와 같은 요소로 나누는 것이 SVD 어떠한 행렬을 U , D ,V 3개의 값으로 decomposition 할 수 있는 것이 SVD U : n X p , D : p X p (정방 행렬), V: p X p(정방 행렬) 기본적으로는 SVD를 하지않으면 계산이 복잡하기에 적용 (SVD 적용에 따라 모델의 속도차이가 큼, ex) pca는 속도가 빠르다) -> 곱 연산을 할 때 많은 연산들을 줄여주는 효과가 있음 위와 같이 SVD를 통해 임의의 matrix 공분산 구조행렬의 eigen vector, eigen value를 얻을 수 있음 X가 centered 되어있다면 , X^T * X 는 X의 공분산 구조 SVD와 eigen ..

Eigen vector 개념 정리

Eigen value, Eigen vector 정방행렬 A에 대해서 아래 식을 만족 할 경우 v는 고유 벡터 (eigen vector) 그리고 람다는 고유값 (eigen value) Av = 람다v 행렬식이 0 일 때 존재 함 위 그래프와 같이 A는 v를 선형변환한다 ( 선형 변환을 해도 방향은 유지되는 벡터가 고유 벡터고 늘어난 정도가 고유 값) 기하학적으로는 임의의 점 A라는 변형을 할 때 고유 벡터는 방향이 바뀌지 않는다는 것이 그 의미이고 변화 되는 스케일이 고유 값 수식으로 표현 위의 식에서 , x =0이 아닌 다른 해가 존재하려면, A- 람다*I 가 역행렬이 존재하지 않아야함 행렬식 |A| = 0 이 되는 람다 값을 계산 참고 ) 역행렬 행렬식과 역행렬의 존재성 관계 행렬식 |A| = 0 인 ..

반응형
반응형