Chapter 3. Dynamic programming

Slides:



Advertisements
Similar presentations
비즈쿨 - 정 성 욱 - - 금오공고 비즈쿨 - 정 성 욱 1. 나는 각 단원들의 활동들에 성실하게 참여 하겠습니다. 우리의 다짐 2. 나는 나와 전체의 발전을 위해 각 멘토들의 지도에 순종하겠습니다. 3. 나는 각 단원들을 숙지함으로써 비즈니스 마인드를 함양하고 자신의.
Advertisements

노인복지론 담당교수 : 최 병태 교수님 학과 : 보건복지경영학과 학번 : 이름 : 김 태인 날짜 :
10장. 시기별 학급경영 11조 염지수 이 슬 권용민 신해식.
일본 근세사. (1) 에도막부의 개창 ( ㄱ ) 세키가하라의 전투 (1600) - 히데요시의 사후 다섯 명의 다이로 ( 大老 ) 가운데 최대 영지 (250 만석 ) 를 보유하고 있던 도쿠가와 이에야스가 급부상. 이에 이에야스와 반목해 온 이시다 미쓰나리 ( 石田三成 ),
사 진 성명 학교 휴대폰 전공 / 학년 / 학번 ●교내 외 활동내역 활동명활동기간주요내용 ●공모전 수상경력 년 월 일년 월 일내 용내 용시행처 재학 / 휴학 본 주소 ※ 공모전 수상경력은 참고사항일 뿐 평가에 반영되지 않습니다 수상내용 생년월일 SNS/ 미니홈피.
아니마 / 아니무스 송문주 조아라. 아니마 아니마란 ? 남성의 마음속에 있는 여성적 심리 경향이 인격화 한 것. 막연한 느낌이나 기분, 예견적인 육감, 비합리적인 것에 대 한 감수성, 개인적인 사랑의 능력, 자연에 대한 감정, 그리.
대구가톨릭대학교 체육교육과 06 학번 영안중학교 체육교사 신웅섭 반갑습니다. 반야월초등학교 축구부 대륜중학교 축구부 대륜고등학교 대구가톨릭대학교 차석 입학 대구가톨릭대학교 수석 졸업 2014 년 경북중등임용 체육 차석 합격 영안중학교 체육교사 근무 소개.
교수님 영상 제 2 장 관세법 일반 제 1 절 통칙 제 2 절 법 해석의 원칙 등 제 3 절 기한과 기간 제 4 절 서류의 송달 등 제 5 절 관세의 부과 및 징수 제 6 절 납세의무의 소멸 등.
일장 - 1 일 24 시간 중의 명기 ( 낮 ) 의 길이 ( 밤은 암기, 낮은 명기 ) 광주기성 - 하루 중 낮의 길이의 장단에 따라 식물의 꽃눈 형성이 달라지는 현상 일장이 식물의 개화현상을 조절하는 중요한 요인 단일식물 - 단일조건에서 개화가 촉진되는 식물 장일식물.
2 학년 6 반 1 조 고은수 구성현 권오제 김강서.  해당 언어에 본디부터 있던 말이나 그것에 기초하여 새로 만들어진 말  어떤 고장 고유의 독특한 말  Ex) 아버지, 어머니, 하늘, 땅.
2014년도 교원 및 기간제교사 성과상여금 전달교육 개 회 국기에 대한 경례 - 인사말
선진 고양교육 “유아교육 행정 업무 연수” 유치원 회계실무 및 유아학비 연수 경기도고양교육청.
서울시 ‘찾아가는 동 주민센터’ 사업 시행 이후 지역사회의 변화
4장. 교실환경 지희라.
묵자 겸애, 비명, 비공, 상현, 상동, 천지, 명귀, 삼표 법.
미국경제의 신용위기가 한국경제에 미치는 영향
제5장 산업재해 보상보험 ☞ 목적 : 근로자의 업무와 관련하여 발생한 재해근로자의 재활 및 사회복귀를 촉진시키기 위하여 이에 필요한 보험시설을 설치 운영하며, 피해를 예방하고 근로자의 복지증진을 위한 사업을 행함으로써 근로자의 보호에 이바지함을 목적으로 함. 산재보험은.
내 아이를 위한 구강관리.
14주차 1교시 강화계획 [학습목표] 1. 강화계획의 정의를 안다 [학습내용] 1. 단순한 강화계획 2. 간헐적 강화 3. 복합 계획 4. 선택과 대응법칙 [사전학습] 강화계획이 일어날 수 있는 사례를 생각해본다.
제16장 원무통계 • 분석 ☞ 통계란 특정의 사실을 일정한 기준에 의하여 숫자로 표시한 것을 말한다.통계로서 활용할 수 있는 조건으로는 ① 동질성을 지녀야 하고 ② 기준이 명확하고 ③ 계속성이 지속되어야 하며 ④ 숫자로 표시하여야 한다 경영실적의.
연장근로와 야간·휴일근로 김영호 노무사 나눔 노사관계연구소 소장 연세대 일반대학원 박사 수료 고려사이버대 법학과 외래교수
경영환경의 중요성 일반 경영환경 구체적 경영환경 환경 적응노력
서울지방세무사회 부가세 교육 사진클릭-자료 다운 세무사 김재우.
Chapter 5. Q-LEARNING & DEEP SARSA
치매의 예방 김 은민 윤금 노인요양원 치매의.
REINFORCEMENT LEARNING
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 14. 포인터와 함수에 대한 이해.
프리젠테이션 활용 및 데이터활용 Chapter 6 인쇄 미리 보기와 인쇄 김 정 석
제7장 추정과 가설 검정.
마산에 대하여 만든이 : 2204 김신우, 2202 권성헌.
안전한 생활 교과용도서의 이해 2015 개정 교육과정 초등학교 1~2학년군 (화)
Choi Younghwan CSE HUFS
장애학생 인권보호 범죄예방교육 00초등학교 도움반.
2017년 1학기 국가근로장학금 장학생 교육 1.
과학 탐구 토론 대회 1학년 2반 박승원 1학년 5반 권민성.
칼빈의 생애와 개혁자로의 변모 사학과 김종식.
국제의료관광 관련 법, 제도.
고등학생을 위한 성교육 4단원: 나는 이성친구에게 피임 Policy를 제안한다
아침교실 장학퀴즈 1.
■ 화성공장 산학인턴 버스 노선 확인 안내 문의 전화 : 안내페이지 접속 1
2d game pRogramming 1차 발표 이재남.
작성 요령 본 제안서는 1회전 제출물로, 제출된 제안서를 검토한 후 2회전 참가팀을 선별함
독립성금증(χ2)-교차표 분석 수집된 자료가 명목척도로 측정된 경우 두 변수의 관계를 조사하는 통계기법으로 χ2독립성 검증(chi-square independence test)이 있다. 예를 들어, 특정 속성에 대하여 집단별로 어떤 차이가 있는지를 알아보기 위해서 사용하는.
CHAPTER 06 청소년의 행동문화 : 폭력(따돌림), 위험행동, 참여.
유비쿼터스 계획보고서 Smart bicycle 1조 – 강성민 김수용 이승철 최병수 최소라.
최초의 생명체는 어떤 생물이었을까? 최초의 생명체 광합성 세균의 진화 진핵 세포의 진화.
남아메리카 선교 김수정, 이하정 전희진, 장성경.
호서대학교 조교 사용자 설명(종합정보) 2014년 05월 15일.
지구 온난화 원재환.
장애인단체 간담회 마스터 제목 스타일 편집 마스터 제목 스타일 편집 장애인 단체 간담회 마스터 부제목 스타일 편집
교육방법 및 평가방법 안내.
6장 마케팅 조사 박소현, 김중호, 박기찬.
Private & Confidential
한밭대학교 창업경영대학원 회계정보학과 장 광 식
CHAPTER 9-1 한국의 사회복지정책 - 사회보험제도 -
음양오행과 물리학 조 원 : 김용훈, 양범길, 박수진, 윤진희, 이경남, 박미옥, 박지선 (11조)
한양인 주차정기권 신청 안내 2018년 2학기 관리처 관재팀.
이야기 치료에 대하여 <8조 학문적 글쓰기 발표> 주희록 최은지
정보활용실무 김호중 (금).
문제행동 지도 사례를 통한 중재방법 연구.
간호관리Ⅱ Chapter 4. 인적자원관리 동아인재대학교 장 광 심.
유아교육기관의 부모교육 수행계획 & 내용 및 형태
9장. 프로그램 평가.
정부조직론 Team 1 발표 제5장 제1절, 제2절 공공정책학부 강철욱 권지호
착한가게 광고 제안 착한 매출, 착한 광고! 돈벌리는 착한 어플!.
Chapter 2. 경영분석을 위한 재무제표 재무제표의 공시.
강화학습: 기초.
중국문학개론 한부와 겅건안문학 중어중국학과 ㅇ이진원 한부와 건안문학.
Chapter 1 인간행동의 이해와 사회복지실천
경찰학 세미나 제 5 강 경찰관직무집행법 2조 5호의 의미 신라대학교 법경찰학부 김순석.
Presentation transcript:

Chapter 3. Dynamic programming Policy Iteration(벨만 기대 방정식) Value Iteration(벨만 최적 방정식) Ho-Bin Choi LINK@KoreaTech http://link.koreatech.ac.kr 순차적 행동 문제를 푸는 다이내믹 프로그래밍의 기본적인 아이디어는 큰 문제 안에 작은 문제들이 중첩된 경우에 전체 큰 문제를 작은 문제로 쪼개서 푸는 것입니다. 이때 각각의 작은 문제들이 별개가 아니기 때문에 작은 문제들의 해답을 서로서로 이용할 수 있는 특성을 이용하면 결과적으로 계산량을 줄일 수 있습니다. 다이내믹 프로그래밍에는 Policy Iteration과 Value Iteration이 있는데 Policy Iteration은 벨만 기대 방정식을 이용해 순차적 행동 결정 문제를 풀고 Value Iteration은 벨만 최적 방정식을 이용해 순차적 행동 결정 문제를 풉니다. 2018-01-17 Dynamic programming

Environment Environment.py 그리드월드 예제의 화면을 구성하고 실태,보상 등을 포함한 환경에 대한 정보를 제공하기 위한 함수로 구성되어 있다. 2018-01-17 Dynamic programming

■그리드월드에서 에이전트가 알고 있는 환경의 정보 Environment ■그리드월드에서 에이전트가 알고 있는 환경의 정보 2018-01-17 Dynamic programming

Iteration Policy_iteration.py PolicyIteration 클래스를 포함하며, 클래스에는 정책이터레이션의 알고리즘 관련 함수와 main 함수가 정의되어 있다. Value_iteration.py ValueIteration 클래스를 포함하며, 클래스에는 가치이터레이션의 알고리즘 관련 함수와 main 함수가 정의되어 있다. 2018-01-17 Dynamic programming

Policy_improvement() Policy Iteration 모든 상태에 대해 벨만 기대 방정식을 계산하여 모든 상태의 가치함수를 업데이트 Policy_evaluation() 새로운 가치함수를 통해 탐욕 정책 발전으로 정책을 업데이트(정책 출력) Policy_improvement() 정책 평가와 정책 발전을 통해 얻은 정책에 따라 에이전트를 움직임 get_action(state) 모든 변수 초기화 2018-01-17 Dynamic programming

Policy Iteration Value Iteration 명시적인 정책이 있음 정책을 평가(evaluation)하는 도구로서 가치함수를 사용 정책과 가치함수는 명확히 분리되어 있음 확률적인(stochastic) 정책(기댓값) → 벨만 기대 방정식을 사용 가치함수를 현재 정책에 대한 가치함수라고 가정 Value Iteration 정책이 명시적으로 표현되지 않음 정책의 발전(Improvement) 없이 가치함수를 업데이트 정책이 가치함수 안에 내재적(implicit)으로 포함되어 있음 결정적인(deterministic) 정책(틀린 가정) → 벨만 최적 방정식을 사용 가치함수를 최적 정책에 대한 가치함수라고 가정 → 정책 발전 필요 X 2018-01-17 Dynamic programming

Value Iteration value_iteration() get_action(state) get_action(state) 모든 상태에 대해 벨만 최적 방정식을 계산하여 모든 상태의 가치함수를 업데이트 value_iteration() 현재 가치함수를 바탕으로 최적 행동을 반환(정책 출력) get_action(state) 최적 정책에 따라 에이전트를 움직임 get_action(state) 모든 변수 초기화 2018-01-17 Dynamic programming

환경을 모르지만 환경과의 상호작용을 통해 경험을 바탕으로 모델 없이 학습 다이내믹 프로그래밍의 한계 계산 복잡도 – 상태 크기의 3제곱에 비례 ex) 경우의 수가 우주의 원자 수보다 많은 바둑 Curse of Dimentionality(차원의 저주) - 상태의 차원이 늘어나면 상태의 수가 지수적으로 증가 환경에 대한 완벽한 정보가 필요 - 보통 보상과 상태 변환 확률은 정확히 알 수 없음 현실 세계의 환경에 놓인 문제를 풀어내는 데는 위의 세 가지 한계가 치명적으로 작용합니다. 이러한 한계를 극복하기 위해서는 근본적으로 문제에 대한 접근 방식이 달라야 합니다. 환경을 모르지만 환경과의 상호작용을 통해 경험을 바탕으로 모델 없이 학습 강화 학습 2018-01-17 Dynamic programming