개념 설명 return -> 리워드의 감가삼각을 적용하여 합친 것 ex) Reward 4개가 있다면 4가지 행동들에 대해서 일어날수 있는 확률들과 보상값들의 평균적인 보상이 value function -> + 감가삼각까지 고려 *s= state value function을 정의했으면 판단지표가 설정이 된건데 밸류펑션을 직접적으로 정의를 하는것이 bellman Equation s -> s` (위의 그림은 이전스테이트에서 다음스테이트의 관계식을 설명하는 식, state transition matrix)