Chapter 5. Q-LEARNING & DEEP SARSA

Slides:



Advertisements
Similar presentations
비즈쿨 - 정 성 욱 - - 금오공고 비즈쿨 - 정 성 욱 1. 나는 각 단원들의 활동들에 성실하게 참여 하겠습니다. 우리의 다짐 2. 나는 나와 전체의 발전을 위해 각 멘토들의 지도에 순종하겠습니다. 3. 나는 각 단원들을 숙지함으로써 비즈니스 마인드를 함양하고 자신의.
Advertisements

김수연 Capstone Design Realization Cost Reduction through Deep Artificial Neural Network Analysis.
노인복지론 담당교수 : 최 병태 교수님 학과 : 보건복지경영학과 학번 : 이름 : 김 태인 날짜 :
폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
인공지능과 예술 <PUBLIC ART 5월호> 뇌 과학자 김대식
노령화/저성장/위험사회의 청년 -지속가능한 삶을 위한 조건과 연대 2015년 12월 3일 대구사회 혁신 아카데미 조한 혜정.
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
Introduction of Deep Learning
Regularization 과적합(overfitting) 문제 Machine Learning.
Training Neural Networks
Machine Learning to Deep Learning_2
Multiple features Linear Regression with multiple variables (다변량 선형회귀)
Lec 4 Backpropagation & Neural Network
Neural Network - Perceptron
미국경제의 신용위기가 한국경제에 미치는 영향
①신생아기의 신체발달 ②신생아기의 운동발달 ③신생아기의 감각기관의 발달 ☞차례. ①신생아기의 신체발달 ②신생아기의 운동발달 ③신생아기의 감각기관의 발달 ☞차례.
MIS Report 2 제출일: 2008년 11월 04일 과목명: 경영정보시스템 교수명: 이 건창 교수님 성 명:조재선.
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
REINFORCEMENT LEARNING
소형화된 인공두뇌의 제작과 생물학적 이용에 관한 탐구
Word2Vec Tutorial 박 영택 숭실대학교.
1장. 인공 지능 개론 인공 지능(Artificial Intelligence: AI)이란 무엇일까?
수학과 학술강연회 (2010년도 2학기) 기초과학연구소 9월 16일(목)
Technological Forecasting & social change(2014)
소형화된 인공두뇌의 제작과 생물학적 이용에 관한 탐구
개요 신경회로망(Neural Networks)
제 3 장 신경회로망 (Neural Networks)
Machine Learning to Deep Learning
개요 신경회로망(Neural Networks)
인공 신경망의 종류 Hopfield Self-Organizing Map Perceptron
쉬운 표준원가.
Parallel software Lab. 박 창 규
AI 전문 인력 양성 교육 교육명 : Embedded Deep Learning (CNN을 이용한 영상인식)
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
정보 추출기술 (Data Mining Techniques ) : An Overview
칼빈의 생애와 개혁자로의 변모 사학과 김종식.
3장. 다층 퍼셉트론.
딥러닝의 개념들.
Ch06_인공 신경망.
민감도 자료를 이용해 학습한 신경망 제어기를 이용한 강구조물의 진동제어
국제의료관광 관련 법, 제도.
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
4 장. 신경망 오일석, 패턴인식, 교보문고. © 오일석, 전북대학교 컴퓨터공학.
남아메리카 선교 김수정, 이하정 전희진, 장성경.
Ch13_ 신경 세포 모델링 : 인공 신경망.
체크포인트 가정 내 일어나는 사고에 대해 알아보고 사고예방을 위해 주의한다. | 예방법 장소별 사고 – 방과 거실 1 2 높은 곳 에 물건 두지 않기! 날카로운 모서리는 천으로 씌우기!
Intelligent Machinery (1948) Alan Turing
성공적인 시간관리 전략 Wisdom21 강사 양승경
인공신경망 실제 적용사례 및 가상사례 조사.
MR 댐퍼의 동특성을 고려한 지진하중을 받는 구조물의 반능동 신경망제어
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
CHAPTER 9-1 한국의 사회복지정책 - 사회보험제도 -
Neural Networks & Deep Learning
학습전략의 이해 학습전략의 이해 김 기 원 PhD Original Kim.
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
Advanced Data Analytics 데이터분석 전문가
다층 퍼셉트론의 학습과 최적화 알고리즘 부산대학교 전자전기컴퓨터공학과 김민호.
신경망 (Neural Networks) (Lecture Note #23)
Progress Seminar 선석규.
Progress Seminar 선석규.
[ 딥러닝 기초 입문 ] 2. 통계적이 아니라 시행착오적 회귀분석 by Tensorflow - Tensorflow를 사용하는 이유, 신경망 구조 -
경찰학 세미나 제 5 강 경찰관직무집행법 2조 5호의 의미 신라대학교 법경찰학부 김순석.
Python 라이브러리 딥러닝 강의소개 정성훈 연락처 : 이메일 :
Deep Learning Basics Junghwan Goh (Kyung Hee University)
Model representation Linear regression with one variable
체력 운동과 건강.
Presentation transcript:

Chapter 5. Q-LEARNING & DEEP SARSA Young-Gyu Kim LINK@KoreaTech http://link.koreatech.ac.kr

살사의 한계 살사는 온폴리시 시간차 제어이다. 즉, 자신이 행동하는 대로 학습하는 시간차 제어이다. 충분한 탐험을 위해 𝜀-탐욕 정책을 사용하지만, 𝜀-탐욕 정책으로 잘못된 정책을 학습하게 된다. (탐험 vs 최적 정책 학습의 딜레마) 𝑄 𝑆 𝑡 , 𝐴 𝑡 ←𝑄 𝑆 𝑡 , 𝐴 𝑡 +𝛼( 𝑅 𝑡+1 +𝛾𝑄 𝑆 𝑡+1 , 𝐴 𝑡+1 −𝑄( 𝑆 𝑡 , 𝐴 𝑡 )) * 살사에서 큐함수의 업데이트 다음상태에서 또 다시 엡실론 탐욕 정책에 따라 다음 행동을 선택한 후 그것을 학습 샘플로 사용한다. 책 142p * 갇힘 현상 발생의 예

Q-Learning 딜레마를 해결하기 위해 오프폴리시 시간차 제어(큐러닝) 사용 오프폴리시(Off-Policy) : 행동하는 정책과 학습하는 정책 분리 큐러닝을 통한 큐함수의 업데이트 현재상태 s에서 행동 a를 𝜀-탐욕 정책에 따라 선택. 환경으로부터 보상 r 과 다음상태 s’를 받고 s’의 상태에서 가장 큰 큐함수를 현재 큐 함수의 업데이트에 사용. 큐러닝은 벨만 최적 방정식을 사용 𝑄 𝑆 𝑡 , 𝐴 𝑡 ←𝑄 𝑆 𝑡 , 𝐴 𝑡 +𝛼( 𝑅 𝑡+1 +𝛾 𝑚𝑎𝑥 𝑎′ 𝑄 𝑆 𝑡+1 ,𝑎′ −𝑄( 𝑆 𝑡 , 𝐴 𝑡 )) * 큐러닝을 통한 큐함수의 업데이트 𝑞∗ 𝑠,𝑎 =𝐸[ 𝑅 𝑡+1 +𝛾 𝑚𝑎𝑥 𝑎 ′ 𝑞∗ 𝑆 𝑡+1 , 𝑎 ′ | 𝑆 𝑡 =𝑠, 𝐴 𝑡 =𝑎] * 큐함수에 대한 벨만 최적 방정식

살사와 큐러닝의 차이 살사 큐러닝 <s,a,r,s’,a’> <s,a,r,s’> 큐함수를 업데이트 하기 위한 샘플 <s,a,r,s’,a’> <s,a,r,s’> 큐함수를 업데이트 하기 위한 방정식 벨만 기대 방정식 ⇒ 정책 이터레이션 벨만 최적 방정식 ⇒ 가치 이터레이션 정책 온폴리시 시간차 제어 오프폴리시 시간차 제어 * 살사 에이전트와 환경의 상호작용 * 큐러닝 에이전트와 환경의 상호작용

살사와 큐러닝 결과 비교 * 살사 에이전트(좌)는 큐함수 값에 따라 갇힘 현상이 발생하였고, 큐러닝 에이전트(우)는 갇히지 않고 목표에 도달하였다.

고전 강화학습 알고리즘의 한계 다이내믹 프로그래밍의 한계 1, 2번 문제는 근사함수(Function Approximator)로 계산 복잡도 차원의 저주 환경에 대한 완벽한 정보가 필요 고전 강화학습 알고리즘(몬테카를로, 살사, 큐러닝)으로 3번의 문제를 해결한 것이다. 1, 2번의 문제는 해결되지 않았다. 큐러닝까지의 알고리즘은 상태가 적은 문제에만 적용 가능하다. 1, 2번 문제는 근사함수(Function Approximator)로 근사(Approximation)를 하여 해결 가능. 근사함수 : 기존의 데이터를 매개변수를 통해 근사하는 함수 * 근사함수로 근사의 예

DEEP SARS’A’ Q-function(큐함수)을 Neural Network(인공신경망)에 근사 근사함수 중의 한 종류. 동물의 뇌를 모델링 한 것. 각 노드(node)는 층(Layer)을 쌓는 구조로 하나의 모델을 형성. 오류 역전파(Back-Propagation)로 학습함. 책 154-172p 참고 Q-function(큐함수)을 Neural Network(인공신경망)에 근사 Neural Network는 Gradient descent(경사하강법)를 사용하여 업데이트 Loss function(오차함수)은 MSE(평균제곱오차) 사용. 경사하강법의 종류 : SGD, RMSprop, Adam (문제에 따라 맞는 방법 선택) 모든 경사하강법은 Learning Rate 변수를 가짐 기존의 살사 알고리즘을 사용하여 큐함수를 인공신경망에 근사. 인공신경망을 통해 큐함수를 구함. 경사 하강법을 사용해 큐함수를 업데이트 하려면 오차함수를 정의해야한다. 수식에서 정답과 예측에 해당하는 것으로 오차함수를 구할 수 있다. * 경사하강법의 예 𝑄 𝑆 𝑡 , 𝐴 𝑡 ←𝑄 𝑆 𝑡 , 𝐴 𝑡 +𝛼( 𝑅 𝑡+1 +𝛾𝑄 𝑆 𝑡+1 , 𝐴 𝑡+1 −𝑄( 𝑆 𝑡 , 𝐴 𝑡 )) * 살사에서 큐함수의 업데이트 정답 예측 𝑀𝑆𝐸= (정답−예측) 2 = ( 𝑅 𝑡+1 +𝛾𝑄 𝑆 𝑡+1 , 𝐴 𝑡+1 −𝑄( 𝑆 𝑡 , 𝐴 𝑡 )) 2 * 오차함수

장애물이 움직이는 그리드 월드 세 개의 장애물이 같은 속도(한 스텝마다 한 칸씩 움직임)와 같은 방향으로 움직이고, 벽에 부딪힐 경우에 다시 튕겨 나와 반대 방향으로 움직인다. 장애물을 만날 경우 보상은 (-1)이다. 도착했을 경우 보상은 (+1)이고 한 에피소드가 끝난다.

상태 정의와 딥살사의 인공신경망 상태 정의 Neural Network 에이전트에 대한 도착지점의 상대위치 x, y 도착지점의 라벨 에이전트에 대한 장애물의 상대 위치 x, y 장애물의 라벨 장애물의 속도 장애물이 3개 이므로 ③, ④, ⑤는 3배를 하면 12개 이고 ①, ②를 더하면 총 15개의 상태 Neural Network Input layer Hidden layer Output layer 노드 수 15 30 5 Layer 수 1 2 Activation fuction relu linear https://tykimos.github.io/2017/01/27/MLP_Layer_Talk/ 케라스 설명