Deep Learning

Markov Reward Process

robin0309 2022. 5. 15. 14:03

 

개념 설명

return -> 리워드의 감가삼각을 적용하여 합친 것

ex) Reward 4개가 있다면 4가지 행동들에 대해서 일어날수 있는 확률들과 보상값들의 평균적인 보상이 value function

-> + 감가삼각까지 고려

 

*s= state 

value function을 정의했으면 판단지표가 설정이 된건데 밸류펑션을 직접적으로 정의를 하는것이 

bellman Equation

s -> s` (위의 그림은 이전스테이트에서 다음스테이트의 관계식을 설명하는 식, state transition matrix)

 

 

반응형

'Deep Learning' 카테고리의 다른 글

Embedding Vector 과정 및 정의  (0) 2022.11.19
Dynamic programming  (0) 2022.05.15
강화학습 (Reinforcement Learning)  (0) 2022.05.13
Word2VeC (Cbow , Skip-gram)  (0) 2021.04.14
BERT의 학습 원리 및 transferlearning  (0) 2021.04.14
반응형