강화학습: 기초.

Slides:



Advertisements
Similar presentations
6 장. printf 와 scanf 함수에 대한 고찰 printf 함수 이야기 printf 는 문자열을 출력하는 함수이다. – 예제 printf1.c 참조 printf 는 특수 문자 출력이 가능하다. 특수 문자의 미 \a 경고음 소리 발생 \b 백스페이스 (backspace)
Advertisements

이차방정식의 풀이 근의 공식을 이용한 이차방정식의 풀이 만덕중학교 이미경 수업 열기 선수학습 확인 방법 1 방법 2 방법 3 이차방정식의 풀이법 인수분해 이용 제곱근 이용 완전제곱식 이용.
4강: 세일즈 ‘깔때기’ 관리, 게임의 법칙.
2015 개정교육과정 (제2차 수학교육 종합계획).
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
Chapter 3. Dynamic programming
(Numerical Analysis of Nonlinear Equation)
Chapter 5. Q-LEARNING & DEEP SARSA
Z 변환의 사용 처 제05장 Z 변환. z 변환의 사용 처 제05장 Z 변환 임의의 임펄스 응답 임의의 임펄스 응답에 대한 DTFT 공비의 절대값이 1보다 작아야 수열의 합이 존재 등비수열의 합 : 등비수열의 합 : 제05장 Z 변환.
#include <stdio.h> int main(void) { float radius; // 원의 반지름
컴퓨터 프로그래밍 기초 [Final] 기말고사
REINFORCEMENT LEARNING
Dynamic Programming (Multi-Stage Programming)
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
비선형 방정식 김영광.
제 12장 난수 예측 불가능성의 원천.
6장. printf와 scanf 함수에 대한 고찰
602 LAB FDTD 를 이용한 Acoustic Simulation 지도: 이형원 교수님 차진형.
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
임피던스 측정 B실험실 일반물리실험 (General Physics Experiment).
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
소프트컴퓨팅 연구실 소개자료 . 소프트컴퓨팅연구실 조성배.
9. 강화 학습.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
사용자 함수 사용하기 함수 함수 정의 프로그램에서 특정한 기능을 수행하도록 만든 하나의 단위 작업
정부자료수집 및 입력 설문자료수집 및 입력 자세한 SPSS 사용법은 교과서를 참조
영진직업전문학교 (금) TensorFlow & 머신러닝.
군집 분석.
이름 : 황 상 두 전화번호 : 이메일 : PinTool 이름 : 황 상 두 전화번호 : 이메일 :
[예제] 의사결정나무 현재의 공장을 기술적 진부화에 대비하여 현대화하는 문제를 고려 중인 상태에서,
제 10 장 의사결정이란 의사결정은 선택이다.
Quiz #7 다음 수들을 합병 정렬과 퀵 정렬 알고리즘을 이용하여 오름 차순으로 정렬하였을 때, 데이터 이동 회수를 각각 구하라. 여러분은 정렬 과정을 단계별로 보이면서 이동 회수를 추적해야 한다. 단, 퀵 정렬시에 피봇으로 배열의 왼쪽 첫 번째 원소를 선택한다. 5.
플립플롭, 카운터, 레지스터 순서회로 플립플롭 카운터 레지스터.
2차시: 달의 공전 지구과학
Metal Forming CAE Lab., Gyeongsang National University
고등학생을 위한 성교육 4단원: 나는 이성친구에게 피임 Policy를 제안한다
8장. spss statistics 20의 데이터 변환
7. 전자석 센 전자석 만들기 2007 과학수업평가포럼.
Choi Seong Yun 컴퓨터 프로그래밍 기초 #06 : 반복문 Choi Seong Yun
Decision Tree & Ensemble methods
MECHATRONICS 한경대학교 정보제어공학과 담당교수 : 조재훈.
컴퓨터 프로그래밍 기초 - 8th : 함수와 변수 / 배열 -
5장 선택제어문 if 선택문 switch-case 선택문 다양한 프로그램 작성 조건 연산자.
⊙ 이차방정식의 활용 이차방정식의 활용 문제 풀이 순서 (1)문제 해결을 위해 구하고자 하는 것을 미지수 로 정한다.
Fucntion 요약.
미분방정식.
수학10-나 1학년 2학기 Ⅳ.삼각함수 4. 삼각방정식과 삼각부등식(9/12) 삼각함수 수업계획 수업활동.
제3장 함수와 배열수식 전진환
이차방정식과 이차함수의 관계 이차함수의 그래프와 축의 위치 관계 이차방정식 의 그래프와 축이 만나는 점의 좌표는 이차방정식
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Support Vector Machine
7주차: Functions and Arrays
1. 접선의 방정식 2010년 설악산.
광합성에 영향을 미치는 환경 요인 - 생각열기 – 지구 온난화 해결의 열쇠가 식물에 있다고 하는 이유는 무엇인가?
학습 주제 p 끓는점은 물질마다 다를까.
생체 신호의 실시간 디지털 처리 7조 홍윤호( )-1등
논리회로 설계 및 실험 4주차.
수학10-나 1학년 2학기 Ⅰ. 도형의 방정식 4. 도형의 이동 (20/24) 도형의 평행이동 수업계획 수업활동.
수치해석 (Numerical Analysis)
통계학 R을 이용한 분석 제 2 장 자료의 정리.
미 술 5 학년 4.이야기 세상 (5-6/6) 초기화면 마술 그림을 그리고 작품 감상하기.
3-5 Friction Prof. Seewhy Lee.
Chapter 7. A3C Ho-Bin Choi A3C.
회로 전하 “펌핑”; 일, 에너지, 그리고 기전력 1. 기전력(electro-motive force: emf)과 기전력장치
수학 2 학년 1 학기 문자와 식 > 미지수가 2개인 연립방정식 ( 4 / 4 ) 계수가 소수 분수인 연립방정식.
수학 2 학년 1 학기 문자와 식 > 미지수가 2개인 연립방정식 ( 3 / 4 ) 대입법으로 풀기.
합리적 의사결정이론(rational decision-making theory)
Presentation transcript:

강화학습: 기초

마코프 과정 Markov Process 상태  상태 한 상태에서 다른 상태로 변화는 확률적으로 결정 변화 확률은 직전 상태에 따라 달라짐 직전 상태 이전의 과거는 영향X

마코프 과정 수업 잠 밥 과제

마코프 보상 과정 Markov Reward Process 각 상태에 보상(reward)이 있음

마코프 보상 과정 수업 잠 -10 +10 밥 과제 +5 -5

Return 보상(reward)의 할인된(discounted) 합 예를 들어 할인이 0.9일 경우 수업  잠  밥: -10 + 0.9*10 + 0.92*5 = 3.05 밥  잠  수업: +5 + 0.9*10 - 0.92*10 = 5.9

가치 함수 현재 상태에서 앞으로 Return의 기대값

벨만 방정식 Bellman equation 현재 상태의 가치 = 현재 상태의 보상 + 할인 * 다음 상태의 가치

마코프 결정 과정 Markov Decision Process 마코프 보상 과정 + 행동 상태와 행동에 따라 변화 확률과 보상이 결정

마코프 결정 과정 10% 에라 모르겠다 90% 수업 잠 20% 힘내자! 80%

마코프 결정 과정 -10 에라 모르겠다 5 수업 잠 -10 힘내자! 5

정책 policy 현재 상태에서 어떤 행동을 할 확률

정책 에라 모르겠다 60% 수업 40% 힘내자!

가치 함수 현재 상태에서 특정 행동을 할 때 앞으로 Return의 기대값 벨만 방정식

가치 함수 상태 가치 함수: v 상태-행동 가치 함수: q

최적의 정책 모든 상태에서 가치 함수의 값이 다른 정책보다 높은 정책 바꿔 말하면 모든 상태에서 기대 Return이 다른 정책보다 높은 정책

결정론적 정책 현재 상태에서 최선의 행동을 100%한다

벨만 최적 방정식 현재 상태의 최선의 v = 최선의 행동을 할 때 q 현재상태의 최선의 q = 다음 상태의 v의 기대값

V의 벨만 최적 방정식 현재 상태의 최선의 v는 최선의 행동을 하고 난 상태의 v들의 기대값

Q의 벨만 최적 방정식 현재 상태에서 최선의 q는 다음 상태에서 최선의 행동을 할 때 q들의 기대값

벨만 최적 방정식을 푸는 방법 푸는 공식이 없음 반복해서 푸는 방법 Value Iteration Policy Iteration Q-learning SARSA

동적 계획법 dynamic programming 문제를 작은 문제들로 나누어 푸는 방법

Iterative Policy Evaluation 모든 상태의 가치를 초기화한다 벨만 방정식을 이용해 모든 상태의 가치를 수정 2의 과정을 반복한다

Policy Iteration 모든 상태의 가치를 초기화한다, 초기 정책은 무작위 행동 벨만 방정식을 이용해 모든 상태의 가치를 수정 각 상태에서 가장 가치가 큰 행동을 하도록 정책을 수정 2-3의 과정을 반복

예시: 그리드월드 4×4의 상태 할인 없음(1) 행동은 동서남북 4가지 항상 원하는 결과(변화확률 = 1) 왼쪽위 또는 오른쪽 아래에 도달하면 종료

예시: 그리드월드

Value Iteartion 모든 상태의 가치를 초기화한다 벨만 최적 방정식을 이용해 모든 상태의 가치를 수정 2의 과정을 반복

Model-free 그리드월드는 변화 확률이 알려져 있음(p = 1) 변화 확률을 모를 경우  Model-free Monte-Carlo Temporal-Difference

Value function approximation 그리드월드는 상태의 수가 적음(16개) 상태의 수가 많아지면  value function approx. 기계학습을 이용해 가치 함수를 예측