머신러닝 종류2 아두이노 강화학습(가위바위보AI) 2 - Q learning 저번시간에 가위바위보 문제를 Q learning(Q 학습)으로 해결해 본다고 하였습니다. 가장 먼저 가위바위보가 이루어지는 환경(Environment)을 정의해야 합니다. 1. 환경(Environment) 가. 상태(State) 가위바위보는 상대편의 가위, 바위, 보를 예측하여 이기기 위해 세가지 중 하나를 선택하는 게임입니다. 인공지능은 환경의 상태 (State) 를 관찰합니다. 여기서 환경의 상태는 '상대편의 가위, 바위, 보'로 정의해 볼 수 있습니다. 인공지능 입장에서 플레이어가 상대이니까 상대의 가위, 바위, 보 중 어떤 것을 내었는지가 환경의 상태가 되겠습니다. 나. 행동(Action) 인공지능은 상태를 관찰하고 현재 상태에 대한 최적의 행동(Action)을 하기 위해 Q함수에게 현재 상태에서.. 2024. 1. 26. 아두이노 강화학습(가위바위보AI) 1 - 강화학습이란? 강화학습을 이용하여 가위바위보 패턴을 분석하고 항상 이기는 AI를 아두이노로 만들어보고자 합니다. 그렇다면 강화학습이 무엇인지 알고 가야 겠지요? 이번 포스팅은 '심층 강화학습 인 액션' 심층 강화학습 인 액션 - 예스24 (yes24.com) 심층 강화학습 인 액션 - 예스24 프로젝트로 배우는 심층 강화학습의 이론과 실제!이 책 『심층 강화학습 인 액션』은 환경이 제공하는 직접적인 피드백에 기반해서 환경에 적응하고 자신을 개선해 나가는 에이전트의 구현 방 www.yes24.com '모두를 위한 RL'강좌 Lecture 1: RL 수업소개 (Introduction) (youtube.com) MATLAB 및 Simulink를 사용한 강화 학습 - MATLAB & Simulink (mathworks.com.. 2024. 1. 25. 이전 1 다음