9. 강화 학습.

Slides:



Advertisements
Similar presentations
Commitment Training Self- Preparation Leadership Practice Self Assessment PROCESS.
Advertisements

버킷 리스트 중 하나였던 “ 남도 맛 기행 ”.. 이라고 하면 왠지 거창한 느낌이지만, 사실 저주받은 미각으로써 왠만한 건 다 맛있는 나로써는 “ 맛 기행 ” 이라는 표현은 어울리지 않다. 그럼에도 불구하고 “ 맛 기행 ” 이라는 테마를 잡은 건 남도하면 역시 “ 맛 ”
취업, 막막하세요 ? 걱정되십니까 ? 성공취업으로 가는 길 『경기청년뉴딜』이 함께 동행해 드립니다 ~ 일시 : ~ 대상 : 2013 년 2 월 졸업예정자 ( 기 졸업자 포함 ) 로서 경기도 거주자 문의 ∙ 접수 : 취업지원센터
학생증 발급 안내. 2 목 차목 차목 차목 차 Ⅰ. 개요 Ⅱ. 모바일 학생증 1. 신청 및 발급 2. 신청 방법 Ⅱ. 스마트 학생증 (ID 카드 ) 1. 신청 및 발급 2. 신청 방법 3. 제출 서류 4. 유의 사항.
Commitment Training Self- Preparation Leadership Practice Self Assessment PROCESS.
성경읽기 (10) ■ 판관기 ☞ 신명기계 역사서 - ▲ 신학적 주제 ① 역사의식 - ‘ 신명기계 역사가 ’ 가 바라본 역사의 틀. 배신 → 벌 → 회개 → 구원 → 평화 → 배신 이 틀 안에서 ‘ 하느님과의 계약에 대한 철저한 준수 ’ 를 강조한다. 용의주도한 이런 이야기.
제 6 장 네트워크 모형 (Network Model)
담당교수 : 김경원.
2. 추진사례(2) 나. 모집단위 광역화 추진절차 1) 모집단위 광역화를 대비한 기초연구 및 조정안 마련
내용: 북스타트 후속프로그램으로 영,유아에 맞는 그림책을 읽어주고 다양한 활동을 한다.
One-Stop Business Solution
1_4. 프로그램 개요 1. 「 2008 순천향대학교 사회과학대 취업캠프」 행사명
☞ 전자출결 사용자 안내 “학생용” 전자출결 앱 다운로드 [안드로이드폰] Play 스토어 다운로드 [아이폰]
엠보팅 주민참여예산 투표방법 안내 ■ 앱에서 투표하기 1. 핸드폰 전면에서 앱스(삼성) 찾아 누르기
대통령비서실 고령사회대책 및 사회통합기획단
Shortest Path Algorithm
Dialogue System Seminar
Routing.
서 론 금융소득종합과세제도 제 1 절 이자소득 제 2 절 배당소득
이번 강의는 어떤 내용일까? 제1장 왜 창업을 하는가?.
But, 성공하려면 과정이 필요합니다. 목표달성을 위해 정해진 기간이 필요~! 어떤 노력을 기울여야 할가요~?
경기도시흥교육청 유치원평가 연수 시화유치원 남궁 상.
Chapter 5. Q-LEARNING & DEEP SARSA
Marketing 제 2장 마케팅 환경분석.
REINFORCEMENT LEARNING
PART 01 케어복지의 이론과 기초 CHAPTER 02 케어복지의 개념과 구조.
라우팅 기술 (RIP, OSPF) 컴퓨터공학과 강지훈 윤인선 이고운
노 인 복 지.
교육 일정표 시 간 1일차 2일차 09:00-10:00 품질 경영에 대한 이해 품질 도구 활용 _원인분석 2
엽기토끼 죽이기 팀명 : 청순가련.
간호관리Ⅱ Chapter 5. 지휘 동아인재대학교 장 광 심.
All about Travel 하나샵 즉당 검색 이벤트
제5강 가족복지의 이해1(개념,기능,목표).
수동 설치시는 설치 방법 1. 두번에 설치 CD 속에 fscommand 폴더 밑에 Osstem 이라는 폴더를
응급의학과 설명회 국내 응급의학의 역사, 현황 및 전망
대학생의 놀이 문화.
-Managment Information System-
스마트폰 전자신고 방법 국세청 모바일 통합 앱 다운로드(갤럭시S) 가. 교재 15~19페이지
성공리더의 덕목 2 권한위임 [제 4 강 ] 강사: 박동익
Part3 . 경영관리 Week 4 경영학배움터 (The Future of Business) 6인공역 2판.
1.
3장. 다층 퍼셉트론.
친구와 사이좋게 지내기 바른 생활 1학년 2학기 1. 사이좋은 친구 (3/4) [본차시의 주요내용]
고등학생을 위한 성교육 4단원: 나는 이성친구에게 피임 Policy를 제안한다
미술로 만드는 가족사랑 1회기 오리엔테이션 및 활동 안 명 현.
현대 사회복지행정의 이해 제5장 기획과 의사결정.
작성 요령 본 제안서는 1회전 제출물로, 제출된 제안서를 검토한 후 2회전 참가팀을 선별함
게임인공지능 제 5 장 그래프의 비밀 2008년 4월 28일.
The Party-State (1) 영 어 학 부 강물결 영 어 학 부 박우인
「프뢰벨의 유아교육」 유혜미, 심재능 1조.
국제의료관광 마케팅 / 의료 커뮤니케이션 스킬
동적계획법과 최적화 문제 Dynamic Programming을 사용한 최적화 문제를 해결하는 알고리즘 설계 절차
쓰레기를 바르게 처리하기 바른 생활 1학년 2학기 4.쓰레기를 바르게 처리해요(4/4) [본차시의 주요내용]
쓰레기분리해서 버리는 방법 알기 바른 생활 1학년 2학기 4.쓰레기를 바르게 처리해요(3/4) [본차시의 주요내용]
“서울시랑 즐거웁게, 시민이랑 어울리게, 모바일로 만나는 스마트한 서울라이프”
국제물류.
그린토마토 앱 사용자 메뉴얼.
제5장 사회복지조직의 환경과 관리전략.
전략적 사고 요약 발표.
지역사회복지론 Community welfare
경력개발제도 타사 사례 검토 ………………………… ………………… ……………… ……………… ……………… ……………… ………………
7장_ 유럽 특허출원 등록절차 학습 목차 유럽특허제도의 개요 유럽특허조약의 체약국
가. 4대 가이드라인 도입 및 운용 ② 협력업체 선정 ∙ 운용 가이드라인.
생산성 Level-Up을 위한 변화관리와 문제해결 실무 본 과정은 체계적인 변화관리와 문제 해결 방법론을 기반으로
현대 직장인의 셀프 리더십 -가장 효과적이고 근본적인 에너지 1.
강한 조직을 만드는 리더십.
지역복지실천을 위한 이론적 기초 사회체계이론과 생태이론.
삼성생명 브라보7080 연금보험 신상품 개발이익보호 신청 제안서 삼성생명 브라보7080연금보험은
수동 설치시는 설치 방법 1. 두번에 설치 CD 속에 fscommand 폴더 밑에 Osstem 이라는 폴더를
Chapter 1 인간행동의 이해와 사회복지실천
Presentation transcript:

9. 강화 학습

PREVIEW 강화 학습의 과업 사례 [그림 9-1]의 과업은 상태 변화와 행동을 번갈아 수행하면서 목적을 달성 지도 학습이나 비지도 학습으로는 과업 달성 불가능  강화 학습으로 해결

PREVIEW 강화 학습의 응용 스타크래프트와 같은 온라인 게임 장기나 바둑, 윷놀이 같은 게임 엘리베이터 최적 제어, 자동차의 자율 주행, 정유 생산 라인의 제어, 로켓 발사 제어 등 바둑(알파고와 알파고 제로)

9.1 강화 학습의 원리와 성질 9.1.1 계산 모형 9.1.2 탐험과 탐사 9.1.3 마르코프 결정 프로세스

9.1.1 계산 모형 강화 학습의 핵심 연산 시간에 따른 상태state, 행동action, 보상reward 의 순차적 처리 t=0, 1, 2, 3, …, T 𝑠 0 , 𝑟 0 𝑎 0 𝑠 1 , 𝑟 1 𝑎 1 𝑠 2 , 𝑟 2 𝑎 2 ⋯⋯ 𝑎 𝑇−1 𝑠 𝑇 , 𝑟 𝑇 식으로 쓰면,

9.1.1 계산 모형 보상 책정 방안 매 순간 보상액 책정이 어려우면 중간에는 보상액을 0으로 설정하고 마지막 순간에 보상 액 결정 예, [그림 9-2]에서 중간에는 보상액 0이고, 마지막 순간에는 아빠에게 안기면 1, 넘어지면 -1 부여 예, 바둑에서 중간에는 보상액 0, 마지막에 이기면 1, 지면 -1 부여

9.1.1 계산 모형 에이전트와agent 환경environment 강화 학습의 목표는 누적 보상액을 최대화하는 것 에이전트는 정책을 가지고 행동을 결정(정책은 학습으로 알아내야 함) 환경은 MDP를 가지고 상태 전환과 보상액 결정(MDP는 주어지는 것: 지도 학습의 훈련집 합에 비유할 수 있음) 강화 학습의 목표는 누적 보상액을 최대화하는 것 이를 달성하려면 매 순간 좋은 행동을 취할 수 있어야 함  정책에 따라 행동을 결정하므 로 좋은 정책이 필요한 셈 강화 학습은 주어진 MDP를 가지고 최적 정책을 찾아야 함(지도 학습이 훈련집합을 가지 고 최적 매개변수를 찾는 것에 비유할 수 있음)

9.1.1 계산 모형 상태, 행동, 보상의 표현 대부분 응용에서는 이산 값을 가짐 상탯값 집합 𝒮= 𝓈 1 , 𝓈 2 ,⋯, 𝓈 𝑛 , 행동값 집합 𝒜= 𝒶 1 , 𝒶 2 ,⋯, 𝒶 𝑚 , 보상값 집합 ℛ= 𝓇 1 , 𝓇 2 ,⋯, 𝓇 𝑙 으로 표기 예, 𝑃( 𝑠 𝑡+1 = 𝓈 58 | 𝑠 𝑡 = 𝓈 122 )는 t 순간에 𝓈 122 상태에 있다가 다음 순간에 𝓈 58 상태로 바뀔 확 률 예, 𝑃( 𝑠 𝑡+1 = 𝓈 58 | 𝑠 𝑡 = 𝓈 122 , 𝑎 𝑡 = 𝒶 2 )는 t 순간에 𝓈 122 상태에서 행동 𝒶 2 를 취했을 때 𝓈 58 상 태로 바뀔 확률

9.1.1 계산 모형

9.1.1 계산 모형

9.1.1 계산 모형 정책policy 에이전트는 확률 규칙으로 행동을 결정하는데, 이 규칙을 정책이라 부름 [예제 9-1]이 동, 서, 남, 북이라는 4가지 행동에 대해 동일 확률을 사용한다고 가정하면, 이 정책을 다음과 같이 쓸 수 있음 동일 확률을 쓰는 이 정책이 좋은 정책인가?

9.1.1 계산 모형 더 좋은 정책 밖으로 나가는 행동을 배제하면 누적 보상액이 항상 5가 됨

9.1.2 탐험과 탐사 탐험과 탐사 갈등 현상 강화 학습에서는 탐사로 치우치지 않게 주의를 기울여야 함 탐험은 전체 공간을 골고루 찾아보는 전략 탐사는 특정한 곳 주위를 집중적으로 찾아보는 전략 [알고리즘 2-2](무작위 탐색 알고리즘)은 극단적인 탐험 방식, [알고리즘 2-3]과 지금까 지 사용한 경사 하강법은 탐사 방식 탐험은 시간이 너무 오래 걸리고, 탐사는 지역 최적해에 머무는 문제 강화 학습에서는 탐사로 치우치지 않게 주의를 기울여야 함 예, k-손잡이 밴딧 문제

9.1.2 탐험과 탐사 처음에 탐험 방식으로 게임을 하다가, 12번 만에 2번 손잡이에서 잭팟이 터졌다고 가정하 면, 처음에 탐험 방식으로 게임을 하다가, 12번 만에 2번 손잡이에서 잭팟이 터졌다고 가정하 면, 극단적인 탐사와 극단적인 탐험을 예시하면, 균형 방식을 예시하면, 강화 학습은 균형 방식을 사용함(9.4~9.5절)

9.1.3 마르코프 결정 프로세스 마르코프 성질 행동을 결정할 때 이전 이력이 중요하지 않다면 마르코프 성질을 만족함 [예제 9-1]의 격자 세계와 [그림 9-7]의 바둑은 마르코프 성질을 만족

9.1.3 마르코프 결정 프로세스 마르코프 성질을 수식으로 표현하면, 마르코프 성질을 만족하지 못하는 문제 첨자를 생략하여 간략히 표기하면, 마르코프 성질을 만족하지 못하는 문제 크게 벗어나면 강화 학습 적용할 수 없음 근사하게 만족하도록 상태 표현 설계 가능 예, 날씨에 따른 행동 결정 문제에서는 이틀 날씨를 상태로 표현 예, 로켓 발사 제어 문제에서 위치 정보만 사용하는 대신 위치, 속도, 가속도 정보로 상태 를 표현

9.1.3 마르코프 결정 프로세스 환경 모델로서 MDP(Markov decision process) 예, [예제 9-1]의 경우(상태 10에서 동쪽이라는 행동을 취하면 항상 11상태로 전환하고 보상은 0) 스토캐스틱 MDP 예, 가끔 돌풍이 불어 동쪽 행동을 취했는데 일정한 확률로 11이 아니라 7이나 15로도 갈 수 있는 경우

9.2 정책과 가치함수 9.2.1 정책 9.2.2 가치함수 9.2.3 최적 가치함수

9.2 정책과 가치함수 강화 학습의 핵심은 좋은 정책을 찾는 것 좋은 정책 좋은 정책이 있으면 누적 보상액을 최대로 만들 최적 행동을 매 순간 선택할 수 있음 좋은 정책을 찾는 일은 지도 학습이 목적함수의 최적해 찾는 일에 비유할 수 있음 좋은 정책 누적 보상을 최대화하려고 일부러 함정에 빠지는 행동까지 추론 가능해야 함 예, 바둑에서 작은 말을 희생하여 대마를 잡는 상황

9.2.1 정책 정책 𝜋는 상태 s에서 행동 a를 취할 확률을 명시한 것 예, [예제 9-1]의 정책 𝜋 1 ([그림 9-4])

9.2.1 정책

9.2.1 정책

9.2.1 정책

9.2.1 정책 학습 알고리즘이 할 일 정책 공간이 방대하여 모든 정책을 일일이 평가하고 그중 제일 좋은 것을 선택하는 방법 은 현실성이 없음  따라서 가치함수를 이용하는 전략 사용

9.2.2 가치함수 가치함수는 특정 정책의 좋은 정도를 측정하는 함수 좋은 정도는 상태 𝑠로부터 종료 상태에 이르기까지 누적 보상액의 추정치 특정 정책 𝜋에서 추정하며 상태 𝑠의 함수이므로 𝑣 𝜋 (𝑠)로 표기

9.2.2 가치함수

9.2.2 가치함수 식 (9.7)을 다시 쓰면, 가치함수 𝑣 𝜋 (𝑠)를 구하는 식 누적 보상액을 계산하는 식 가치함수 𝑣 𝜋 (𝑠)를 구하는 식 𝑃 𝑧 는 경로 𝑧의 발생 확률, 𝕣(𝑧)는 경로 𝑧의 누적 보상액 누적 보상액을 계산하는 식 예, [예제 9-3]의 정책 𝜋 5 에 따라 상태 11에서 출발하여 북북서서를 거쳐 상태 1에 도달하 는 경로는 -1-1-1+5=2라는 누적 보상액을 받음

9.2.2 가치함수 에피소드 과업과 영구 과업 영구 과업이 사용하는 할인 누적 보상액 아래와 같이 유한 경로 (파란 부분)가 발생하는 과업을 에피소드 과업이라 부름 아래와 같이 무한 경로 (파란 부분)가 발생하는 과업을 영구 과업이라 부름 영구 과업이 사용하는 할인 누적 보상액 할인율 𝛾는 0≤𝛾≤1 0이면 𝑟 𝑡+1 만 남으므로 매우 근시안적 보상액(탐욕 방법이 됨), 1이면 식 (9.10)과 같음 현재 순간에서 멀어질수록 보상을 할인하여 공헌도를 낮추는 셈(예, 𝛾=0.9이면 50만큼 지난 순간은 0.9 50 =0.52%만 남음)

9.2.2 가치함수 가치함수 추정을 위한 순환식 벨만 수식 식 (9.9)는 모든 경로를 나열하는 방식이라 그대로 적용은 현실성이 없는데, 순환 구조를 이용하여 순환식으로 바꾸어 쓸 수 있음 예, 정책 𝜋 5 에서 상태 11의 가치함숫값 𝑣 𝜋5 (11)은 일반화하면, (𝑠에서 𝑎를 실행했을 때 𝑠 ′ 로 전환) 벨만 수식

9.2.2 가치함수 현재까지는 결정론적 프로세스를 다룸 스토캐스틱 프로세스 어떤 상태에서 특정 행동을 취하면 항상 같은 상태로 전환하고 같은 보상을 받음 예, 격자 세계 예제, 바둑, 장기 등 스토캐스틱 프로세스 어떤 상태에서 특정 행동을 취하면 확률에 따라 다른 상태로 전환하고 다른 보상을 받음 예, 격자 세계에서 6번 지점은 가끔 바람이 불어 동쪽이라는 행동을 선택했을 때 0.9 확률 로 상태 7, 0.05 확률로 11, 0.05 확률로 10으로 전환

9.2.2 가치함수 스토캐스틱 프로세스에서 가치함수 추정 영구 과업인 경우는, 상태 가치함수 𝑣와 상태-행동 가치함수 𝑞 벨만 수식 스토캐스틱 프로세스에서 가치함수 추정 𝑃( 𝑠 ′ ,𝑟|𝑠,𝑎)는 스토캐스틱 정보를 표현(이 확률분포는 식 (9.4)의 MDP) 영구 과업인 경우는, 상태 가치함수 𝑣와 상태-행동 가치함수 𝑞 식 (9.13)과 식 (9.14)는 상태의 함수이므로 상태 가치함수라 부름 식 (9.15)는 상태와 행동의 함수이므로 상태-행동 가치함수라 부름 두 가치함수 사이에 𝑣 𝜋 𝑠 = 𝑎∈𝒜(𝑠) 𝑝 𝑎|𝑠 𝑞 𝜋 𝑠,𝑎 가 성립

9.2.3 최적 가치함수 최적 정책을 찾는 식 (9.8)을 가치함수를 이용하여 다시 쓰면, 계산이 가능하도록 바꿔 쓰면, 이들 식은 선언적 의미일 뿐 실제 계산 방법은 제시하지 않음 계산이 가능하도록 바꿔 쓰면, 식 (9.17)은 식 (9.13)의 평균 연산자를 max 연산자로 바꾼 것

9.2.3 최적 가치함수 영구 과업으로 바꿔 쓰면, 식 (9.17)과 식 (9.18)을 어떻게 계산하나? 상태들이 순환적으로 연결되어 있는데, 어느 상태도 값이 정해져 있지 않음 이들을 푸는 보편적 방법 정책을 임의로 설정하고 출발  가치함수 계산  정책 개선  가치함수 계산  … 9.3절(동적 프로그래밍), 9.4절(몬테카를로 방법), 9.5절(시간차 학습)은 이 방식을 사용

9.3 동적 프로그래밍 9.3.1 정책 반복 알고리즘 9.3.2 가치 반복 알고리즘 강화 학습에서 동적 프로그래밍 초창기 강화 학습이 사용한 고전적 방법 MDP 확률분포가 주어져야 하며, 상태와 행동의 개수가 적어야 한다는 강한 제약 조건 하 에서 작동 현대적 알고리즘의 토대를 이루는 핵심 개념과 아이디어 제공

9.3 동적 프로그래밍 문제해결 방법론으로서 동적 프로그래밍 강화 학습에서는 스토캐스틱 동적 프로그래밍 모든 쌍 최단 경로 찾기all-pair shortest path, 행렬 곱셈 순서matrix chain multiplication 문제 등을 효율적 으로 푸는 문제해결 방법론(상향식 방법론) 예, 행렬 곱셈 순서 문제 가장 작은 단위의 부분 문제로 분해한 후, 2개 행렬의 답을 구하여 표에 기록, 표를 보고 3개 조합에 대한 답을 구하여 표에 기록, 표를 보고 4개 조합에 대한 답을 구하여 표에 기록하는 과정을 반복 𝑖번째 단계의 답을 가지고 𝑖+1번째 답을 구하기 위한 순환식 필요 강화 학습에서는 스토캐스틱 동적 프로그래밍 식 (9.13)이나 식 (9.17)과 같은 확률을 포함한 순환식을 사용

9.3.1 정책 반복 알고리즘 정책 반복 알고리즘이 사용하는 평가-개선 사이클 평가 단계: 현재 정책에서 가치함수를 계산 개선 단계: 가치함수를 이용하여 정책을 갱신

9.3.1 정책 반복 알고리즘 정책 반복 알고리즘의 과다한 시간 소요 라인 4의 복잡성 등이 요인

9.3.2 가치 반복 알고리즘 가치 반복 알고리즘의 전략 MDP에 따라 가치함수를 더 좋은 가치함수로 갱신하는 식 (9.19) 식 (9.17)을 개조하여 얻음

9.3.2 가치 반복 알고리즘

9.3.2 가치 반복 알고리즘

9.3.2 가치 반복 알고리즘

9.3.2 가치 반복 알고리즘

9.3.2 가치 반복 알고리즘 [알고리즘 9-1]과 [알고리즘 9-2]는 부트스트랩 방식 제자리 연산으로 구현 수렴하기 이전에는 모든 상태가 불완전한 상황  다른 상태의 불완전한 추측값으로 자신 의 추측값을 정하는 셈 [그림 9-14]를 보면, 목표 지점에 인접한 상태(2, 5, 12, 15번 칸)가 가장 먼저 가치함숫값을 확정. 이 값이 이웃 상태로 전파되는 과정이 동적 프로그래밍의 핵심 원리 제자리 연산으로 구현 부트스트랩 방식은 모든 상태가 이전 값을 이용하여 현재 값을 계산해야 공평  배열 하 나만 써서 갱신하는 제자리 연산이 불가능하여, 두 개 배열을 번갈아 사용 그럼에도 제자리 연산으로 구현하면 성능 저하 없음

9.3.2 가치 반복 알고리즘 제자리 버전 [알고리즘 9-2]에서 반복 수를 제어하는 변수 t를 제거함

9.3.2 가치 반복 알고리즘 동적 프로그래밍의 한계 상태 공간이 방대한 경우 계산 불가능 예, 백가몬은 1020 가량의 상태가 있음 상태 하나 처리하는 데 1초가 걸린다면, 모든 상태를 처리하는 데 300만 년 가량 걸림

9.4 몬테카를로 방법 9.4.1 훈련집합의 수집과 정책 평가 9.4.2 최적 정책 탐색 환경 모델에 대한 정보가 부족한 상황에서는, 즉 MDP가 없는 상황(확률분포 𝑃( 𝑠 ′ ,𝑟|𝑠,𝑎)가 주어지지 않은 상황) MDP를 요구하는 [알고리즘 9-1]과 [알고리즘 9-2]의 동적 프로그래밍은 적용 불가능 다행히 불완전한 모델로부터 샘플을 생성하거나 수집할 수 있는 경우 많음 예, 바둑에서 이전 기보를 샘플로 활용 또는 프로그램과 프로그램을 대결시켜 샘플을 만 들어 냄 몬테카를로 방법은 샘플을 훈련집합으로 사용하여 최적 정책을 알아내는 ‘학습’ 기반

9.4.1 훈련집합의 수집과 정책 평가 에피소드로부터 훈련집합 구축 에피소드 예, [그림 9-4]에서 이동 경로의 사례, 바둑에서 기보 하나 에피소드는 식 (9.20)처럼 표기 에피소드로부터 샘플 수집(첫 방문과 모든 방문 방식) 예, 상태 10이 두 군데서 발생하는데 첫 방문은 앞에 것만 수집, 모든 방문은 둘 다 수집 모든 방문의 수집 예

9.4.1 훈련집합의 수집과 정책 평가 상태-행동 샘플을 수집하면, 실제 수집 방법 현장에서 수집 시뮬레이션 예, 바둑 기보 수집(알파고는 16만 개 기보에서 대략 3천만 개 샘플을 수집) 또는 두 개 프로그램을 대결시켜 기보 생성 시뮬레이션 MDP가 있는 경우 확률분포에 따라 에피소드 생성

9.4.1 훈련집합의 수집과 정책 평가 훈련집합으로 정책 평가 훈련집합 Z로 가치함수를 추정하는 식

9.4.1 훈련집합의 수집과 정책 평가 몬테카를로 방법과 동적 프로그래밍의 비교 몬테카를로는 훈련집합을 사용하므로 특정 상태에 대해서만 가치함수 계산이 가능

9.4.2 최적 정책 탐색 탐험과 탐사 조절 학습 과정에서 탐사에 치우칠 위험 어떤 상태에서 우연히 열등한 행동이 발생하였다면 이후 그 행동만 선택할 가능성([그림 9-6]의 k-손잡이 밴딧 문제의 사례) 탐사에 따른 조기 수렴을 피하는 2가지 방법 탐험형 시작exploring starts: 상태-행동 쌍이 골고루 발생하도록 배려 𝜖-소프트: 주류에서 벗어난 상태 행동에 일정한 확률을 배정하여 선택 가능성 열어둠

9.4.2 최적 정책 탐색

9.4.2 최적 정책 탐색

9.4.2 최적 정책 탐색 몬테카를로 방법의 장점 환경 모델이 없어도 적용 가능(에피소드를 수집할 수 있다면) 부트스트랩 방식이 아니므로 관심 있는 상태에 대해서만 최적 가치와 최적 정책을 추정할 수 있음 마르코프 성질에서 크게 벗어나도 적용 가능(에피소드가 문제의 특성을 반영함)

9.5 시간차 학습 9.5.1 정책 평가 9.5.2 Sarsa 9.5.3 Q-학습 시간차 학습은 동적 프로그래밍과 몬테카를로 방법의 중간 동적 프로그래밍은 MDP 확률분포를 사용하며 부트스트랩 방식 몬테카를로는 MDP 확률분포 대신 훈련집합을 사용하며 부트스트랩 방식이 아님  시간차 학습은 훈련집합을 사용하며 부트스트랩 방식(동적 프로그래밍과 몬테카를로의 장점을 겸비한 셈)

9.5.1 정책 평가 새로운 샘플로 가치함수를 갱신하는 수식 유도 에피소드 𝑒=[ 𝑠 0 , 𝑟 0 ] 𝑎 0 [ 𝑠 1 , 𝑟 1 ] 𝑎 1 ⋯ [ 𝑠 𝑡 , 𝑟 𝑡 ] 𝑎 𝑡 ⋯ [ 𝑠 𝑇 , 𝑟 𝑇 ] 에서 샘플 𝑧 𝑡 =[ 𝑠 𝑡 , 𝑟 𝑡 ] 𝑎 𝑡 ⋯ [ 𝑠 𝑇 , 𝑟 𝑇 ]를 처리하는 절차 이 샘플을 𝑍( 𝑠 𝑡 )에 추가한 다음 다음 식을 적용하여 가치함수를 갱신 샘플 𝑧 𝑡 가 k번째로 추가되었다면 다음 식이 성립 𝑣 𝜋 (𝑜𝑙𝑑) 는 직전까지 가치함숫값, 즉 먼저 추가된 k-1개 샘플의 평균

9.5.1 정책 평가 간략한 표기로 식을 다시 쓰면, 식 (9.21)의 몬테카를로 방법은 종료 상태 𝑠 𝑇 에 도달해야만 갱신이 일어나는데, 식 (9.23)을 이용하여 매 순간 갱신할 수 있나?  시간차 학습의 핵심 아이디어 식 (9.23)에서는 𝕣 𝑛𝑒𝑤 때문에 매 순간 갱신 불가능 그런데 식 (9.12)~(9.15)에서 사용한 순환 관계를 적용하면 식 (9.24)로 바꿔 쓸 수 있음(매 순간 갱신하는 시간차 아이디어 실현됨) 상태-행동 버전으로 바꿔 쓰면,

9.5.1 정책 평가 라인 5는 라인 3이 만든 샘플을 사용하므로 학습 기반이고 다른 상태의 값을 사용하므로 부트스트랩 방식  동적 프로그래밍과 몬테카를로 방법의 장점을 겸비

9.5.1 정책 평가

9.5.1 정책 평가

9.5.2 Sarsa 최적 정책을 찾는 Sarsa 알고리즘

9.5.3 Q-학습 Q-학습이 사용하는 수식 켜진 정책 방식과 꺼진 정책 방식 식 (9.25)와 다른 점은 𝑞 𝜋 ( 𝑠 𝑡+1 , 𝑎 𝑡+1 )이 max 𝑎 𝑞 𝜋 ( 𝑠 𝑡+1 ,𝑎) 로 바뀐 것 켜진 정책 방식과 꺼진 정책 방식 Sarsa는 정책을 사용하므로 켜진 정책 방식이라 부르고, Q-학습은 정책 대신 max 연산을 사용하므로 꺼진 정책 방식이라 부름

9.5.3 Q-학습

9.6 근사 방법 참조표 방식 9.3~9.5절의 알고리즘은 모두 가치함수 𝑣 또는 𝑞를 표에 저장하는 참조표 방식([알고리즘 9-1~9.9]의 출력은 𝑣 또는 𝑞 ) 𝑣와 𝑞를 저장하려면 각각 𝒮 와 𝒮 × 𝒜 크기의 배열이 필요 𝒮 는 상태의 개수로서 백가몬 게임의 경우 1020개 가량  참조표 방식이 현실적으로 불가능한 문제가 많음 근사 방식 선형 방정식(식 (9.27)) 또는 신경망([그림 9-17])을 사용하여 가치 함수를 근사 추정 신경망을 주로 사용(9.7.1절의 TD-gammon에서 구체적인 입출력 사례 제시)

9.7 응용 사례 9.7.1 TD-gammon 9.7.2 DQN: 아타리 비디오 게임 인공지능에서 이 둘의 중요한 의미

9.7.1 TD-gammon 백가몬 게임 규칙

9.7.1 TD-gammon 백가몬 프로그램 TD-gammon Tesauro가 1990년대 초에 신경망을 사용하여 NeuroGammon 제작(낮은 성능) 이후 강화 학습을 사용한 TD-gammon으로 발전 TD-gammon 은닉층이 하나인 다층 퍼셉트론으로 가치함수를 근사 입력층은 198개 노드 검은 말과 빨간 말이 놓인 위치를 표현하는 데 2*24*4=192개 노드 말의 차례를 표시하는 데 2개 노드 빠져나온 말의 개수를 표현하는 데 2개 노드 잡힌 말의 개수를 표현하는 데 2개 노드 출력층은 4개 노드 승리한 측을 표시하는 데 2개 노드 대승한 측을 표시하는 데 2개 노드 학습은 시간차 학습으로 해결 자가 플레이로self-play 학습(사람이 사용하는 전략을 알려주지 않음)

9.7.1 TD-gammon 강화 학습과 보드게임 세계 챔피언 수준의 보드 게임 프로그램을 제작하려 많은 노력을 기울임. 그 결과 가장 어 려운 보드 게임인 바둑에서 이세돌을 이기는 성과 이룩 기계 학습을 게임에 활용한 역사를 살피려면 [Kurenkov2016] 참조 틱텍토: 상태의 수가 39=19683가지이므로 간단한 추론 프로그램으로 최적 정책을 알아낼 수 있음 체커: 사무엘이 1950년대 컴퓨터에서 고전적인 알고리즘으로 제작[Samuel1959] 체스: 수를 평가하는 특수 목적용 VLSI 개발. 발전된 기계 학습 알고리즘보다는 특수 목적 용 슈퍼 컴퓨터로 세계 챔피언 물리침[Campbell2002] 바둑: 알파고는 강화 학습과 딥러닝을 결합하여 이세돌 물리침[Silver2016]

9.7.2 DQN: 아타리 비디오 게임 아타리 비디오 게임 프로그램 Atari2600 기종에서 실행되는 49종 게임을 골라 자동으로 플레이하는 프로그램 개발 게임마다 상태 표현과 게임 전략, 입력 방식이 크게 다름 강화 학습을 사용한 프로그램은 동일한 입력, 동일한 신경망 구조, 동일한 하이퍼 매개변 수를 사용했음에도 거의 모든 게임에서 전문 플레이어 수준을 달성 이전에는 사람이 게임마다 적합한 신경망 구조를 따로따로 설계한 점에 비추면, 과업간 일 반화 능력이 크게 발전한 셈(사람은 몇 가지 과업에 익숙해지면 유사한 다른 과업도 잘함)  인공지능 발전에 기여

9.7.2 DQN: 아타리 비디오 게임 DQN(deep Q-network) 컨볼루션 신경망과 Q-학습을 결합한 모델 입력층은 게임 스크린 영상(최근 4장의 영상 84*84*4 텐서)  이 텐서가 상태를 표현 출력층은 18개 노드(게임마다 4~18개 조이스틱 행동이 있는데 게임마다 필요한 만큼 사 용)