Chapter 7. A3C Ho-Bin Choi LINK@KoreaTech http://link.koreatech.ac.kr 2018-02-28 A3C
Asynchronous Advantage Actor-Critic ⇒ 경험 리플레이를 사용하지 않고 에이전트를 여러 개 사용 액터러너 : 샘플을 모으는 각 에이전트 + 글로벌신경망 Deep-Q-Network DQN ⇒ 샘플끼리의 연관성을 없애기 위해 경험 리플레이를 사용 ⇒ 메모리를 많이 차지해 느린 학습 속도의 원인 ⇒ 오프폴리시 강화학습만을 사용해야함 2018-02-28 A3C
글로벌신경망의 생성과 여러 개의(환경+액터러너) 생성 각 액터러너는 일정 타입스텝 동안 환경에서 자신의 모델로 샘플을 모음 일정 타입스텝이 끝나면 각 액터러너는 글로벌 네트워크를 모은 샘플로 업데이트 글로벌 신경망을 업데이트한 액터러너는 다시 글로벌신경망으로 자신을 업데이트 2018-02-28 A3C
■ 액터러너의 run 함수의 순서 (환경과의 상호작용) 액터러너의 로컬신경망에 따라 행동을 선택 환경으로부터 다음 상태와 보상을 받음 샘플을 저장 에이전트가 목숨을 읽거나 t_max 타임스텝 동안 반복 저장한 샘플로 글로벌신경망으로 보냄 글로벌신경망은 로컬신경망으로부터 받은 샘플로 자신을 업데이트 업데이트된 글로벌신경망으로 액터러너를 업데이트 2018-02-28 A3C