강화학습이란
-> 어떤 환경안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택가능한 행동들 중 보상을
최대화하는 행동 혹은 행동 순서를 선택하는 방법
supervised learning
-> 답을 알려주고 모델 학습을 시키고 이후에 인퍼런스를 하는구조
unsupervised learning
-> 라벨이 없지만 데이터의 특징을 스스로 분석을해서 군집을 나누는 구조
Reinforement learning
-> 데이터들은 이미 확보가 되어있고 그것을 분석하는 과정으로
지속적으로 변하는 환경에대해 옳은 결정이면 + 옳지않으면 - 와 같은 reward 시스템
즉 어떠한 action에 대해 Rule을 스스로 만들어 가는 과정이라고 생각하면 됨
강화학습의 예시
-> 쥐가 지렛대를 통해 먹이를 먹는 과정으로 함수를 학습하는 과정을 설명
강화학습의 수식
RL Components
RL 종류
- 게임 캐릭터를 강화학습으로 학습시키면 -> 게임을 잘하는 캐릭터를 만들 수 있음
-> open AI에서 공개한 모델로 큐브를 만지다가 결국 try and error 를 거쳐 제대로된 모양을 찾는 것
반응형
'Deep Learning' 카테고리의 다른 글
Dynamic programming (0) | 2022.05.15 |
---|---|
Markov Reward Process (0) | 2022.05.15 |
Word2VeC (Cbow , Skip-gram) (0) | 2021.04.14 |
BERT의 학습 원리 및 transferlearning (0) | 2021.04.14 |
keras - Image generator (0) | 2020.11.27 |