반응형

강화학습 3

Dynamic programming

*Learning -> 환경의 모델을 모르지만 상호작용을 통해서 문제를 푸는 것 * value function이 작은 문제들의 해 1. optimal policy를 구하기위해서 policy를 랜덤하게 설정하고 이것이 수렴할 떄까지 반복할때 value function을 최대화 하는 것이 최적의 policy다 라는 의미 어느정도 수렴 (무한대) 가 되면 value function을 알 수 있음 value iteration은 앞의 두가지 과정을 한꺼번에 하는 것

Deep Learning 2022.05.15

Markov Reward Process

개념 설명 return -> 리워드의 감가삼각을 적용하여 합친 것 ex) Reward 4개가 있다면 4가지 행동들에 대해서 일어날수 있는 확률들과 보상값들의 평균적인 보상이 value function -> + 감가삼각까지 고려 *s= state value function을 정의했으면 판단지표가 설정이 된건데 밸류펑션을 직접적으로 정의를 하는것이 bellman Equation s -> s` (위의 그림은 이전스테이트에서 다음스테이트의 관계식을 설명하는 식, state transition matrix)

Deep Learning 2022.05.15

강화학습 (Reinforcement Learning)

강화학습이란 -> 어떤 환경안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법 supervised learning -> 답을 알려주고 모델 학습을 시키고 이후에 인퍼런스를 하는구조 unsupervised learning -> 라벨이 없지만 데이터의 특징을 스스로 분석을해서 군집을 나누는 구조 Reinforement learning -> 데이터들은 이미 확보가 되어있고 그것을 분석하는 과정으로 지속적으로 변하는 환경에대해 옳은 결정이면 + 옳지않으면 - 와 같은 reward 시스템 즉 어떠한 action에 대해 Rule을 스스로 만들어 가는 과정이라고 생각하면 됨 강화학습의 예시 -> 쥐가 지렛대를 통해 먹이를 먹는 과정으로 함수를..

Deep Learning 2022.05.13
반응형
반응형