Parallel software design lab. 박 창 규

Slides:



Advertisements
Similar presentations
SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
Advertisements

Computer Science and Engineering. 컴퓨터는 미래 지식 사회의 핵심 요인  지식 사회의 도래 : 매 50 년 마다 큰 기술, 사회적 변화 발생.
인공지능 소개 부산대학교 인공지능연구실. 인공 + 지능 인공지능이란 ? 2.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
2010 – 06 – 24 주간 보고서.
재료수치해석 HW # 박재혁.
Chapter 4. Post Layout Simulation
Machine Learning to Deep Learning_2
Lec 4 Backpropagation & Neural Network
Neural Network - Perceptron
분류 (Classification) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Chapter 5. Q-LEARNING & DEEP SARSA
원자 스펙트럼 1조 서우석 김도현 김종태.
Introduction To Computers
Samsung Electronics 5 forces
UNIT 15 Timer & Watch Dog 로봇 SW 교육원 조용수.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
실험 11. 트랜지스터 증폭기의 부하선 해석 방 기 영.
전자기적인 Impedance, 유전율, 유전 손실
Word2Vec Tutorial 박 영택 숭실대학교.
Chap 3. 표본조사 3.1 표본추출(Sampling)의 기초 3.2 단순임의표본추출 3.3 표본으로부터 모집단 추정
Technological Forecasting & social change(2014)
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
Error Detection and Correction
Deformity Correction Simulation
머신 러닝 2 ㈜ 퀀트랩.
Missing Value.
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
Progress Seminar 선석규.
Optimization for Training Deep Models
Parallel software Lab. 박 창 규
실험4. 키르히호프의 법칙 실험5. 전압분배회로 실험6. 전지의 내부저항
9장. 특징 선택 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
박성진 컴퓨터 프로그래밍 기초 [09] 배열 part 1 박성진
Progress Seminar 선석규.
Technology Strategy : An Evolutionary Process Perspective
Linear Mixed Model을 이용한 분석 결과
제 10 장 의사결정이란 의사결정은 선택이다.
MCL을 이용한 이동로봇 위치추정의 구현 ( Mobile robot localization using monte carlo localization ) 한양대학교 전자전기전공 이용학.
제1장 생산공정 개요.
좋은징조 담당교수 : 조성제 김도엽 김현일 이상훈.
Progress Seminar 신희안.
Frequency distributions and Graphic presentation of data
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
Progress Seminar 선석규.
Sentiment Analysis 유재명.
알고리즘 알고리즘이란 무엇인가?.
물리 현상의 원리 TIME MACHINE.
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
PCA 개선 서울대학교 박노열.
Chapter 1 단위, 물리량, 벡터.
생체 신호의 실시간 디지털 처리 7조 홍윤호( )-1등
(Adjustment to New Pressures) (New Self-Expectations)
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
의미론적 관점 * TV에서 ‘푸른 빛이 아닌 청자빛’이란 표현을 들었을 경우
텍스트 분석 ㈜ 퀀트랩.
In-house Consultant Training
NACST progress report 신수용.
Progress Seminar 선석규.
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
문제의 답안 잘 생각해 보시기 바랍니다..
Progress Seminar 선석규.
Cuk LED driver output current ripple calculation
Progress Seminar 선석규.
6 객체.
Deep Learning Basics Junghwan Goh (Kyung Hee University)
Progress Seminar 권순빈.
Presentation transcript:

Parallel software design lab. 박 창 규 Ch. 11.4.2 ~ 11.6 Parallel software design lab. 박 창 규

11.4.2 Automatic Hyperparameter Optimization Algorithms 이상적인 learning algorithm은 hyperparameter를 조정해줄 필요 없이 output funciont을 낼 수 있다. 4개 이상의 hyperparameter를 조정하였을 때 이득을 취하는 경우도 있음. User가 비슷한 task에 적용하기 위한 neural network의 hyperparameter를 조정해온 data가 많다면 manual hyperparameter tuning이 가능. → 대다수 불가능

11.4.2 Automatic Hyperparameter Optimization Algorithms Hyperparameter optimization algorithm을 이용하여 최적의 parameter를 찾을 수 있다. 단, hyperparameter optimization algorithm 역시 값의 범위와 같은, hyperparameter를 가지고 있다. 위와 같은 2차적 hyperparameter를 정해주는 것이 상대적으로 더 쉽다.

11.4.3 Grid Search Hyperparameter가 3개 이하일 때, grid search를 사용한다. 각각의 hyperparameter에 대해 user가 작은 유한한 값의 집합을 설정한다. 그 후, Grid search algorithm은 각각의 hyperparameter에 대해 train을 하고 그 중 최적의 validation set error를 가지는 실험에서 최적의 hyperparameter를 구할 수 있다.

11.4.3 Grid Search SVM classifier에서 regularization constant C, kernel hyperparameter γ 에 대하여 다음과 같을 때, Grid search는 두 벡터의 Cartesian product 내부의 (C, γ) pair 를 통해 train되며, validation set에서의 performance를 계산한다. → 가장 높은 performance의 setting을 선택. Cartesian product로 인해 computational cost가 exponentially 상승한다.

11.4.4 Random Search Grid search의 대안(faster to good value of the hyperparameter). Sample parameter setting들을 고정된 횟수만큼 random하게 찾는 것이 high-dimensional space에서 더 효과적이라는 사실이 밝혀짐. 어떠한 hyperparameter는 loss function에 영향을 미치지 않기 때문이다.(grid search는 모든 hyperparameter를 전부 계산)

11.4.5 Model-Based Hyperparameter Optimization 최적화 문제의 결정값은 hyperparameter이며, cost는 hyperparameter를 이용하여 training한 결과로 부터 얻은 validation set error이다. Validation set error를 위한 model을 구성한 뒤, model 내에서 최적화를 수행하여 새로운 hyperparameter 추정값을 제시한다.

11.5 Debugging Strategies Machine learning을 debugging하는 것은 어렵다. 우리자신이 구체화 할 수 없는 유용한 행위들을 발견하기 위해 사용하기 때문이다. 만약 새로운 classification task에 대하여 train하여 5%의 test error을 얻었을 때, 예측한 행위를 했는지 아닌지 알 수 없다. 또한 multiple parts로 구성되어 있어 한 부분이 이상이 생기면 다른 부분도 이 이상을 받아들이고, 결과에 영향을 미치게 된다.

11.5 Debugging Strategies Visualize the model in action Image를 통해 object detection을 하는 경우 원본 image위에 결과물을 겹쳐서 확인해 보라 Speech에 대한 model 생성의 경우 model이 만들어 낸 speech sample을 들어 보아라. Bug를 계산하는 경우 오히려 user의 system이 정확하다는 오류로 빠질 수 있다. Visualize the worst mistakes 일반적으로 maximum likelihood training의 경우 overfitting 될 수 있다. 이러한 특성은 오히려 낮은 확률로 정확한 label을 받을 수 있는 예제를 사용하였을 때 유용할 수 있다. 올바르지 않은 model의 training set example을 봄으로써 data preprocessing이나 label에서의 문제점을 찾을 수 있다.

11.5 Debugging Strategies Reasoning about software using train and test error 종종 Software가 정확하게 구현된 것인지 결정하기 어렵다. train and test set에서 단서를 얻을 수 있다. train error 는 낮고 test error가 높다면 overfitting test set 계산을 위해 model을 불러온 후 model을 저장하는 과정에서 문제가 되어 test error가 잘못 측정되었을 가능성도 있다. 만약 train error 와 test error가 둘 다 높다면 software의 문제인지, algorithm문제로 인한 underfitting인지 확인하기 어렵다.

11.5 Debugging Strategies Fit a tiny dataset Training set에 높은 error가 발생한다면 underfitting인지 software문제인지 결정해야 한다. 아무리 작은 model이여도 작은 dataset에 대해 적합함을 보장한다. 작은 dataset에 적합한지 확인하고 dataset의 크기를 늘려라

11.5 Debugging Strategies Compare back-propagated derivatives to numerical derivatives User가 직접 gradient computation을 구현해야 하는 framework를 사용하고 있다면, 대부분의 error는 user 구현부에서 일어난다. 계산결과가 옳은지 확인하는 방법은 user가 구현한 automatic differentiation의 결과와 finite difference의 결과를 비교하는 것이다. 보통 gradient computation의 경우 vector value function이기 때문에 finite difference를 vector element의 수 만큼 진행하거나 random하게 추출하여 일부만 진행한다.

11.5 Debugging Strategies Monitor histograms of activations and gradient 많은 training iteration을 통해 얻은 activations나 gradients들을 시각화하는데 유용하다. Hidden unit의 Pre-activation value를 통해 unit이 saturate 되었는지, 얼마나 saturate되는지 알 수 있다. Ex) tanh unit의 절대값은 unit이 얼마나 saturate되었는지 보여줌.