Dynamic programming

Deep Learning

Dynamic programming

robin0309 2022. 5. 15. 15:22

*Learning -> 환경의 모델을 모르지만 상호작용을 통해서 문제를 푸는 것

* value function이 작은 문제들의 해

1. optimal policy를 구하기위해서 policy를 랜덤하게 설정하고 이것이 수렴할 떄까지 반복할때

value function을 최대화 하는 것이 최적의 policy다 라는 의미

어느정도 수렴 (무한대) 가 되면 value function을 알 수 있음

value iteration은 앞의 두가지 과정을 한꺼번에 하는 것

저작자표시 비영리 변경금지 (새창열림)

'Deep Learning' 카테고리의 다른 글

Embedding layer와 Embedding Vector의 Output 차이 정리 (0)	2023.02.14
Embedding Vector 과정 및 정의 (0)	2022.11.19
Markov Reward Process (0)	2022.05.15
강화학습 (Reinforcement Learning) (0)	2022.05.13
Word2VeC (Cbow , Skip-gram) (0)	2021.04.14

현재글Dynamic programming

Data Science 관련 지식들에 대해 정리하는 공간입니다.

matrix factorization, Classification, 추천시스템, 딥러닝, feature importance, LEVEL2, 알고리즘, LEVEL 1, Word2Vec, LEVEL1, deepfm, Kaggle, 강화학습, 프로그래머스, pytorch, deeplearning, 시계열, 앙상블, Keras, ARIMA,

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

AI/ML 기술 블로그