Presentation is loading. Please wait.

Presentation is loading. Please wait.

Chapter 7. A3C Ho-Bin Choi LINK@KoreaTech http://link.koreatech.ac.kr 2018-02-28 A3C.

Similar presentations


Presentation on theme: "Chapter 7. A3C Ho-Bin Choi LINK@KoreaTech http://link.koreatech.ac.kr 2018-02-28 A3C."— Presentation transcript:

1 Chapter 7. A3C Ho-Bin Choi LINK@KoreaTech http://link.koreatech.ac.kr
A3C

2 Asynchronous Advantage Actor-Critic
⇒ 경험 리플레이를 사용하지 않고 에이전트를 여러 개 사용 액터러너 : 샘플을 모으는 각 에이전트 + 글로벌신경망 Deep-Q-Network DQN ⇒ 샘플끼리의 연관성을 없애기 위해 경험 리플레이를 사용 ⇒ 메모리를 많이 차지해 느린 학습 속도의 원인 ⇒ 오프폴리시 강화학습만을 사용해야함 A3C

3 글로벌신경망의 생성과 여러 개의(환경+액터러너) 생성 각 액터러너는 일정 타입스텝 동안 환경에서 자신의 모델로 샘플을 모음
일정 타입스텝이 끝나면 각 액터러너는 글로벌 네트워크를 모은 샘플로 업데이트 글로벌 신경망을 업데이트한 액터러너는 다시 글로벌신경망으로 자신을 업데이트 A3C

4 ■ 액터러너의 run 함수의 순서 (환경과의 상호작용)
액터러너의 로컬신경망에 따라 행동을 선택 환경으로부터 다음 상태와 보상을 받음 샘플을 저장 에이전트가 목숨을 읽거나 t_max 타임스텝 동안 반복 저장한 샘플로 글로벌신경망으로 보냄 글로벌신경망은 로컬신경망으로부터 받은 샘플로 자신을 업데이트 업데이트된 글로벌신경망으로 액터러너를 업데이트 A3C


Download ppt "Chapter 7. A3C Ho-Bin Choi LINK@KoreaTech http://link.koreatech.ac.kr 2018-02-28 A3C."

Similar presentations


Ads by Google