Optimization for Training Deep Models

Slides:



Advertisements
Similar presentations
연천 새둥지마을 체재형 주말농장 준공식 초청장 오시는 길 주제 일시 장소 21C 경기농촌희망심기 2005년 제1기 교육수료마을
Advertisements

SPARCS Wheel Seminar Mango X Sugoi
출석수업 자료 교과서 범위: 제1장-4장.
10월 충북노회 남선교회 순회 헌신예배 묵 도 기 도 성 경 봉 독 특 송 찬 양 설 교 찬양 / 봉헌 봉 헌 기 도
글에 나타난 시대적 사회적 배경을 파악할 수 있다. 배경 지식과 의미 해석의 관련성을 이해할 수 있다.
패널자료 분석
라오디게아 교회의 교훈 본문 계 3: ○라오디게아 교회의 사자에게 편지하라 아멘이시요 충성되고 참된 증인이시요 하나님의 창조의 근본이신 이가 이르시되 15. 내가 네 행위를 아노니 네가 차지도 아니하고 뜨겁지도 아니하도다 네가 차든지 뜨겁든지 하기를 원하노라.
한알Ⅱ「더불어 살기」전국대회 일정표 날짜 시간 7월 26일(목) 7월 27일(금) 7월 28일(토) 7월 29일(일)
2013학년도 전라북도고등학교신입생 입학전형 기본계획
선거관리위원회 위원 공개모집 4차 공고 제4기 선거관리위원회를 구성하는 위원 모집의
2015학년도 1학기 버디 프로그램 오리엔테이션 (목) 16:00.
열왕기하 1장을 읽고 묵상으로 예배를 준비합시다..
오늘의 학습 주제 Ⅱ. 근대 사회의 전개 4. 개항 이후의 경제와 사회 4-1. 열강의 경제 침탈 4-2. 경제적 구국 운동의 전개 4-3. 사회 구조와 의식의 변화 4-4. 생활 모습의 변화.
전도축제 계획서 *일시 : 2013년 4월 21, 28일 주일 (연속 2주)
2009학년도 가톨릭대학교 입학안내.
한국 상속세 및 증여세 과세제도 한국 국세공무원교육원 교 수 최 성 일.
중세시대의 의복 학번 & 이름.
다문화가정의 가정폭력의 문제점 연세대학교 행정대학원 정치행정리더십 2학기 학번 이름 홍 진옥.
이공계의 현실과 미래 제조업 立國 / 이공계 대학생의 미래 준비
신앙의 기초를 세우는 중고등부 1부 대 예 배 : 11 : 00 ~ 12 : 층 본당
신앙의 기초를 세우는 중고등부 1부 대 예 배 : 11 : 00 ~ 12 : 층 본당
◆ 지난주 반별 출석 보기 ◆ 제 56 권 26호 년 6월 26일 반 선생님 친구들 재적 출석 5세 화평 김성희 선생님
第1篇 자치입법 개론.
교직원 성희롱·성폭력·성매매 예방교육 벌교중앙초등학교 박명희
제5장 새로운 거버넌스와 사회복지정책 사회복지정책이 어떤 행위자에 의해 형성되고 집행되는지, 어떤 과정에서 그러한 일들이 이루어지는지, 효과적인 정책을 위해서는 어떤 일들이 필요한지 등을 본 장에서 알아본다 개인들이 생활을 개선하는 가장 효과적인고 궁극적인 방법은 개별적.
임상시험 규정 (최근 변경 사항 중심으로) -QCRC 보수 교육 과정 전달 교육
서울특별시 특별사법경찰 수사 송치서류 유의사항 서울특별시 특별사법경찰과 북부수사팀장 안   진.
특수학교용 아동학대! 제대로 알고 대처합시다..
사회복지현장의 이해 Generalist Social Worker 사회복지입문자기초과정 반포종합사회복지관 김한욱 관장
학교보건 운영의 실제 한천초등학교 이 채 금.
제 출 문 고용노동부 귀중 본 보고서를 ’ ~ ‘ 까지 실시한 “근로감독관 직무분석 및 교육프로그램 개발에 관한 연구”의 최종보고서로 제출합니다  연구기관 : 중앙경영연구소  프로젝트 총괄책임자 : 고병인 대표.
학습센터란? 기도에 관해 배울 수 있는 다양한 학습 코너를 통하여 어린이들이 보다 더 쉽게 기도를 알게 하고, 기도할 수 있게 하며, 기도의 사람으로 변화될 수 있도록 하는 체험학습 프로그램이다. 따라서 주입식이지 않으며 어린이들이 참여할 수 있는 역동적인 프로그램으로.
Digital BibleⅢ 폰속의 성경 디지털 바이블 2008년 12월 ㈜씨엔커뮤니케이션 ㈜씨엔엠브이엔오.
후에 70인역(LXX)을 좇아 영어 성경은 본서의 중심 주제인 “엑소도스”(출애굽기)라 하였다.
성 김대건 피츠버그 한인 성당 그리스도왕 대축일 공지사항
예배에 대하여.
말씀 듣는 시간입니다..
하나님은 영이시니 예배하는 자가 신령과 진정으로 예배할지니라.
지금 나에게 주신 레마인 말씀 히브리서 13장 8절.
예수의 제자들 담당교수 : 김동욱.
Lecture Part IV: Ecclesiology
KAINOS 날마다 더하여지는 Kainos News 이번 주 찬양 20 / 300 – 20개의 셀, 300명의 영혼
예배의 외부적인 틀II - 예배 음악 조광현.
영성기도회 렉시오 디비나와 묵상기도 2.
성인 1부 성경 공부 지도목사: 신정우 목사 부 장: 오중환 집사 2010년. 5월 9일
남북 탑승객 150명을 태운 디젤기관차가 2007년 5월 17일 오전 경의선 철길을 따라 남측 최북단 역인 도라산역 인근 통문을 통과하고 있다. /문산=사진공동취재단.
성경 암송 대회 한일교회 고등부 (일).
천주교 의정부교구 주엽동본당 사목협의회 사목활동 보고서
III. 노동조합과 경영자조직 노동조합의 이데올로기, 역할 및 기능 노동조합의 조직형태 노동조합의 설립과 운영
여수시 MICE 산업 활성화 전략 ( 중간보고 )
1. 단위사업 관리, 예산관리 사업설정 (교직원협의/의견수렴) 정책 사업 학교 정책 사업 등록 사업 기본정보 목표 설정
※과정 수료자에 한하여 수강료의 80~100% 차등 환급함
평생학습중심대학 프로그램 수강지원서 접수안내 오시는 길 관악구&구로구민을 위한 서울대학교 -- 접수 일정 및 방법 안내--
서비스산업의 선진화, 무엇이 필요한가? 김 주 훈 한 국 개 발 연 구 원.
기존에 없던 창업을 하고 싶은데, 누구의 도움을 받아야 할지 모르겠어요
전시회 개요 Ⅰ. 전시명칭 개최기간 개최장소 개최규모 주 최 참 관 객 현 지 파 트 너 General Information
Homeplus 일 家 양 득 프로그램 소개 2015년 12월.
Home Network 유동관.
통신이론 제 1 장 : 신호의 표현 2015 (1학기).
I. 기업과 혁신.
Chapter 4 – 프로그래밍 언어의 구문과 구현 기법

ESOCOM – IPIX 고정IP서비스 제안서 Proposer ㈜이소컴.
화장품 CGMP 한국콜마㈜.
초화류 종자 시장 규모 100억원 이상(추정, 생산액의 10%정도 차지)
COMPUTER ARCHITECTIRE
[ 한옥 실측 ] 1. 약실측 2. 정밀실측 조선건축사사무소.
14. 컴파일러 자동화 도구 스캐너 생성기 파서 생성기 코드 생성의 자동화
A제조용수/B환경관리/C시설관리 ㈜ 에이플러스 코리아
Introduction to Network Security
Presentation transcript:

Optimization for Training Deep Models 8.3 ~ 8.6.3 병렬소프트웨어설계 연구실 오찬영

8.3.1 Stochastic Gradient Descent Stochastic Gradient Descent (SGD)? takes the average gradient on a minibatch of m examples drawn i.i.d (independent and identically distributed) from the data generating distribution 즉, data의 일부(minibatch)만을 이용해서 update

8.3.1 Stochastic Gradient Descent Algorithm: Note: Learning rate가 iteration (k)에 따라 달라짐

8.3.1 Stochastic Gradient Descent 변하는 learning rate? Batch gradient와는 다르게, minimum에 도달해도 gradient 값이 0이 되지 않음 아래 조건을 만족하는 경우 SGD 수렴 (충분 조건) 주로 아래와 같이 사용 여기서 α = k/τ τ iteration 이후 constant learning rate 사용

8.3.1 Stochastic Gradient Descent Algorithm: Note: Learning rate가 iteration (k)에 따라 달라짐

8.3.1 Stochastic Gradient Descent 장점 Computation time per update does not grow with the number of training examples 단점 전체 training 시간은 느릴 수 있다.

8.3.2 Momentum Momemtum은 high curvature, small but consistent gradients, or noisy gradients인 경우 효과적 gradient의 과거 변화를 어느정도 유지함

8.3.2 Momentum SGD는 순간의 gradient에 의해서만 업데이트하므 로 좌우로 진동하게 됨  느림

8.3.2 Momentum gradient가 같은 방향으로 정렬된 경우 momentum의 step size 증가 α는 작은 값에서 점점 커지는 값

8.3.2 Momentum algorithm:

8.3.3 Nesterov Momentum 현재 velocity가 적용된 이후의 gradient를 사용 일종의 correction factor로 해석 가능

8.4 Parameter Initialization Strategies Initialization determines… whether the algorithm converges at all how quickly learning converges generalization error 하지만 initial point를 잘 설정해주는 것은 매우 어려움  simple, heuristic 할 수 밖에 없음 단, unit의 “break symmetry” 가 중요 if two hidden units with the same activation function are connected to the same inputs, then these units must have different initial parameters.

8.4 Parameter Initialization Strategies Random initialization (gaussian, uniform dist.) a simple method computationally cheaper and unlikely to assign same function to different units Larger initial value easy optimization (converge well) stronger symmetry breaking hard regularization (overfitting) exploding in propagation / saturation of activation func.

8.4 Parameter Initialization Strategies Normalized Initialization a heuristic method it determines the initial scale of the weights Random orthogonal matrices

8.4 Parameter Initialization Strategies Optimal criteria가 optimal performance를 보장 X wrong criteria initialization의 성질이 learning이 시작되고 사라짐 optimization은 개선되나 generalization 실패 그래서 initial weight를 hyperparameter로 두곤 함 computational resource가 충분하면 search 시도

8.4 Parameter Initialization Strategies Sparse initialization input/output의 개수로 초기화를 하면, layer의 크기가 큰 경우 weight가 매우 작아짐 모든 unit을 k non-zero weights로 초기화  각 unit은 다양한 값을 가질 수 있음 단, 매우 큰 “wrong” weight를 가진 경우, training 시간 이 길어질 수 있음

8.4 Parameter Initialization Strategies Bias의 initialization bias를 0으로 설정하는 경우 대부분 compatible non-zero bias를 설정해주는 경우 bias가 output unit에 대한 것일 경우 initialization에 대한 saturation을 피하기 위해 unit이 다른 unit의 activation을 결정하는 경우 𝑢ℎ≈𝑢, or 𝑢ℎ≈0  h는 gate의 역할

8.5 Algorithms with Adaptive LR Learning rate는 성능에 매우 큰 영향을 미치지만 잘 설정하기는 어려움 momentum 개념은 이를 어느 정도 해결해주지만, 또 다른 hyperparameter의 도입이 필요 delta-bar-delta algorithm an early approach [Jacobs, 1988] loss functio의 partial derivativ의 sign이 그대로인 경우 LR 증가, sign이 바뀔 경우 감소 full batch gradient descent에만 적용 가능

8.5.1 AdaGrad 과거의 gradient를 squared sum 해서 사용 The parameters with the largest partial derivative of the loss have a correspondingly rapid decrease in their learning rate, while parameters with small partial derivatives have a relatively small decrease in their learning rate. 이론적으로 convex optimization에 큰 효과를 보 이나, 딥 러닝에 효과 안 좋음

8.5.2 RMSProp AdaGrad를 non-convex 형태에 맞게 개량 exponentially decaying average를 이용하여 오래 된 gradient의 영향을 제거 현재 널리 사용되는 방법 중 하나

AdaGrad vs. RMSProp

8.5.3 Adam RMSProp + momentum apply momentum to the rescaled gradients bias corrections to the estimates of both the first-order moments (the momentum term) and the (uncentered) second-order moments RMSProp는 correction factor를 이용하지 않으므로 큰 bias 값을 갖게 될 수 있음

8.5.4 Choosing the Right Opt. Tech. There is currently no consensus on this point The choice of which algorithm to use, at this point, seems to depend largely on the user’s familiarity with the algorithm (for ease of hyperparameter tuning)

8.6 Approximate 2nd-order Methods Objective function we discuss here extend readily to more general objective functions that, for instance, include parameter regularization terms

8.6.1 Newton’s method Based on using a second-order Taylor series expansion where H is the Hessian of J 위 함수의 극점을 찾으면: Thus for a locally quadratic function (with positive definite H), by rescaling the gradient by H −1, Newton’s method jumps directly to the minimum. Otherwise, this update can be iterated

8.6.1 Newton’s method Algorithm two-step iterative procedure. First, update or compute the inverse Hessian (i.e. by updating the quadratic approximation). Second, update the parameters according to following Eq.

8.6.1 Newton’s method In deep learning, the surface of the objective function is typically non-convex with many features, such as saddle points, that are problematic for Newton’s method This situation can be avoided by regularizing the Hessian. Common regularization strategies include adding a constant, α, along the diagonal of the Hessian

8.6.1 Newton’s method Newton’s method requires very high computational cost  O(k^3), where k is # of parameters And it should be computed at every iteration Only networks with a very small number of parameters can be practically trained via Newton’s method

8.6.2 Conjugate Gradients a method to efficiently avoid the calculation of the inverse Hessian by iteratively descending conjugate directions This happens because each line search direction, when given by the gradient, is guaranteed to be orthogonal to the previous line search direction

8.6.2 Conjugate Gradients In the method of conjugate gradients, we seek to find a search direction that is conjugate to the previous line search direction, i.e. it will not undo progress made in that direction. search direction where βt is a coefficient whose magnitude controls how much of the direction we should add back to the current search direction.

8.6.2 Conjugate Gradients In the method of conjugate gradients, we seek to find a search direction that is conjugate to the previous line search direction, i.e. it will not undo progress made in that direction. search direction where βt is a coefficient whose magnitude controls how much of the direction we should add back to the current search direction.

8.6.2 Conjugate Gradients Algorithm

8.6.BFGS attempts to bring some of the advantages of Newton’s method without the computational burden inverse Hessian matrix를 low rank를 iteratively refine 한 값으로 근사 하지만, Hessian matrix (O(n^2))를 메모리에 계속 유 지해야 함  not practical L-BFGS는 이전 단계의 추정치를 identity matrix로 가 정하여 메모리 사용량을 줄임