Deep Learning

Dynamic programming

robin0309 2022. 5. 15. 15:22

 

*Learning -> 환경의 모델을 모르지만 상호작용을 통해서 문제를 푸는 것

 

* value function이 작은 문제들의 해

 

1. optimal policy를 구하기위해서 policy를 랜덤하게 설정하고 이것이 수렴할 떄까지 반복할때

value function을 최대화 하는 것이 최적의 policy다 라는 의미

 

어느정도 수렴 (무한대) 가 되면 value function을 알 수 있음

 

value iteration은 앞의 두가지 과정을 한꺼번에 하는 것

 

반응형
반응형