Markov Reward Process

Deep Learning

Markov Reward Process

robin0309 2022. 5. 15. 14:03

개념 설명

return -> 리워드의 감가삼각을 적용하여 합친 것

ex) Reward 4개가 있다면 4가지 행동들에 대해서 일어날수 있는 확률들과 보상값들의 평균적인 보상이 value function

-> + 감가삼각까지 고려

*s= state

value function을 정의했으면 판단지표가 설정이 된건데 밸류펑션을 직접적으로 정의를 하는것이

bellman Equation

s -> s` (위의 그림은 이전스테이트에서 다음스테이트의 관계식을 설명하는 식, state transition matrix)

저작자표시 비영리 변경금지 (새창열림)

'Deep Learning' 카테고리의 다른 글

Embedding Vector 과정 및 정의 (0)	2022.11.19
Dynamic programming (0)	2022.05.15
강화학습 (Reinforcement Learning) (0)	2022.05.13
Word2VeC (Cbow , Skip-gram) (0)	2021.04.14
BERT의 학습 원리 및 transferlearning (0)	2021.04.14

현재글Markov Reward Process

Data Science 관련 지식들에 대해 정리하는 공간입니다.

feature importance, 알고리즘, 시계열, Classification, 강화학습, LEVEL1, LEVEL 1, 추천시스템, 앙상블, Keras, ARIMA, 딥러닝, pytorch, deepfm, LEVEL2, matrix factorization, Word2Vec, deeplearning, 프로그래머스, Kaggle,

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

AI/ML 기술 블로그