개념 설명
return -> 리워드의 감가삼각을 적용하여 합친 것
ex) Reward 4개가 있다면 4가지 행동들에 대해서 일어날수 있는 확률들과 보상값들의 평균적인 보상이 value function
-> + 감가삼각까지 고려
*s= state
value function을 정의했으면 판단지표가 설정이 된건데 밸류펑션을 직접적으로 정의를 하는것이
bellman Equation
s -> s` (위의 그림은 이전스테이트에서 다음스테이트의 관계식을 설명하는 식, state transition matrix)
반응형
'Deep Learning' 카테고리의 다른 글
Embedding Vector 과정 및 정의 (0) | 2022.11.19 |
---|---|
Dynamic programming (0) | 2022.05.15 |
강화학습 (Reinforcement Learning) (0) | 2022.05.13 |
Word2VeC (Cbow , Skip-gram) (0) | 2021.04.14 |
BERT의 학습 원리 및 transferlearning (0) | 2021.04.14 |