이유한 학력 활동 학부 : 부산대학교 화공생명공학부 졸업 ( ~ )

Slides:



Advertisements
Similar presentations
김수연 Capstone Design Realization Cost Reduction through Deep Artificial Neural Network Analysis.
Advertisements

Rethink: Big Intelligence? 2014 년 9 월 27 일 삼성전자 어길수 부사장.
인공지능 소개 부산대학교 인공지능연구실. 인공 + 지능 인공지능이란 ? 2.
2011년 신입사원 교육자료 Draft Text Here Documentation Skill
Segmentation based on Deep learning
Machine Learning to Deep Learning_2
Multiple features Linear Regression with multiple variables (다변량 선형회귀)
Introduction to Django
세종대학교 항공우주공학과 유도항법제어연구실
Development and Initial Validation of Quality-of-Life Questionnaires for Intermittent Exotropia Ophthalmology 2010;117:163–168 Pf. 임혜빈 / R2 정병주.
Neural Network - Perceptron
Dialogue System Seminar
e-Transformation Strategy
Chapter 3 데이터와 신호 (Data and Signals).
신제품기획및 개발전략.
통계적 품질관리(SQC).
ERP(Enterprise Resource Planning)
12. 데이터베이스 설계.
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
EPS Based Motion Recognition algorithm Comparison
연구소의 R&D 관리 - 과제 선정/개발/상품화 -
Word2Vec Tutorial 박 영택 숭실대학교.
Python Network Data Science Lab Seunghun Lee, KangHee Lee
Computational Finance
Technological Forecasting & social change(2014)
Chapter 2. Finite Automata Exercises
전사 기업관리 사이클 최적화를 통한 경영혁신과 전략적 수행방안
제 3 장 신경회로망 (Neural Networks)
Cluster Analysis (군집 분석)
머신 러닝 2 ㈜ 퀀트랩.
Data Mining.
Open Class Lesson- L2B3 Greeting (5’ 00”) Word Like Daddy, Like Mommy
Medical Instrumentation
4-1 Gaussian Distribution
Parallel software Lab. 박 창 규
Lab Assignment 3 Deep Learning 1 1.
Data Mining Final Project
Changing Objectives of Optimization
Progress Seminar 선석규.
AI 전문 인력 양성 교육 교육명 : Embedded Deep Learning (CNN을 이용한 영상인식)
2009, 46th KLA General Conference
제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야
정보 추출기술 (Data Mining Techniques ) : An Overview
생산운영관리 입문 CHAPTER01 (Introduction to Operations Management)
Introduction to Programming Language
Inferences concerning two populations and paired comparisons
뇌신경정보학연구사업 인지/추론 : 추론 기술 2002년 11월 15일 숭실대학교 컴퓨터학과 김명원.
좋은징조 담당교수 : 조성제 김도엽 김현일 이상훈.
Progress Seminar 신희안.
Statistical inference I (통계적 추론)
Insight Deep MininG 건강을 위한 마이너스, 무첨가 식품 인사이트코리아/식품음료신문 공동 기획 기사
참값! 너 어디있니? 행복 = 참값 No way to measure the “ture value” of anything
0801 Workshop.
MR 댐퍼의 동특성을 고려한 지진하중을 받는 구조물의 반능동 신경망제어
The World of English by George E.K. Whitehead.
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
K Nearest Neighbor.
Linear Model.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
Progress Seminar 선석규.
Progress Seminar 신희안.
Progress Seminar 선석규.
경사 식각을 이용한 폴리머 광 스위치 2층 배선 기술
[ 딥러닝 기초 입문 ] 2. 통계적이 아니라 시행착오적 회귀분석 by Tensorflow - Tensorflow를 사용하는 이유, 신경망 구조 -
Progress Seminar 이준녕.
Progress Seminar 선석규.
Python 라이브러리 딥러닝 강의소개 정성훈 연락처 : 이메일 :
Deep Learning Basics Junghwan Goh (Kyung Hee University)
Progress Seminar 선석규.
Presentation transcript:

이유한 학력 활동 학부 : 부산대학교 화공생명공학부 졸업 (2008.03 ~ 2014.02) 석사: KAIST 생명화학공학과 졸업 (2014.03 ~ 2016.02) 박사: KAIST 생명화학공학과 박사과정 재학중 (2016.03 ~ 현재) 실험실: Molecular Simulation Laboratory (Prof. Jihan Kim) 세부 전공: Molecular simulation, computational chemistry, Machine learning, deep learning 활동 KaggleKorea 페이스북 온라인 그룹(현재 약5,600명) 운영자 캐글 상위 0.5% 이유한

What is Kaggle?

캐글 as a company 2010년 설립된 빅데이터 솔루션 대회 플랫폼 회사 2017 년 3월에 구글에 인수

Data science, ML, DL 을 주제로 모인 community 캐글 as a community 현재 200만명의 회원 보유 Data science, ML, DL 을 주제로 모인 community

Competition - Data Race for 데이터 과학자! 기업, 정부기관, 단체, 연구소, 개인 Dataset With Prize Dataset & Prize 개발 환경(kernel) 커뮤니티(follow, discussion) 전 세계 데이터 사이언티스트

Dataset - Data Playground for 데이터 과학자! 기업, 정부기관, 단체, 연구소, 개인 Dataset With or without Prize Dataset & Prize 개발 환경(kernel) 커뮤니티(follow, discussion) 전 세계 데이터 사이언티스트

Why need kaggle?

여러분은, DS, ML, DL 를 배우고 싶나요?

여러분은, DS, ML, DL 를 어떻게 배우고 계신가요?

?????????????@?@?!??!!?!?!?!?!?!?!?!?!?

이론이 중요한가요? 실습이 중요한가요?

둘 다 중요하죠

저것들 끝까지 공부되던가요??

최고의 공부 플랫폼 “캐글”입니다.

Why study in kaggle?

1. 자료가 넘친다

캐글의 위대한 유산 – 공유 정신 (kernels) 이미 길은 다 공유되어 있습니다 ^^

대회가 끝나면, 서로 앞다투어 자신의 솔루션을 공개합니다. (설명 or 코드) 캐글의 위대한 유산 – 공유 정신 대회가 끝나면, 서로 앞다투어 자신의 솔루션을 공개합니다. (설명 or 코드)

2. 협업을 배운다

너무 많은 방법론이 존재한다. 혼자보다 여럿이 하면 좋다! 고객의 transaction 이 일어날지 예측하라

너무 많은 방법론이 존재한다. 혼자보다 여럿이 하면 좋다! Train, test data 200 개의 비식별화된 변수 200 개의 변수 각각 상관관계가 ~ 0 기존 파생변수 테크닉들이 전혀 먹히질 않았음

Feature engineering – Ratio features Ratio feature : A per B 연금 / 전체 수입 차 소유한 나이 / 총 생애 일수 차 소유하 나이 / 총 근무 일수

Feature engineering – Product features Product feature : A x B Feature importance 를 봤을 때, 상위 feature 들 중 numerical feature 끼리 곱하여 추가 함.

Feature engineering – Addition or Subtraction features Addition feature : A + B Subtraction feature : A - B 중요한 feature 끼리 더하거나 빼서 새로운 feature 생성 .

Feature engineering – Aggregation features Category 와 numerical feature 의 조합으로 생성하며, Category 각 그룹당 mean, median, variance, standard deviation 을 feature 로 사용 말그대로 조합이기 때문에, 엄청나게 만들어 낼 수 있음. 𝐶 𝑛, 𝑟 = 𝑛! 𝑟! 𝑛−𝑟 !

Feature engineering – Categorical features One-hot encoding Category 개수 만큼 column 이 늘어난다. 너무 오래 걸린다. Label encoding 자칫 bias ordering 문제가 생길 수 있다. Lightgbm Built-in 데이터셋이 크니 학습이 빠른 Lightgbm 을 쓸건데, 마침 카테고리를 처리하는 내장 알고리즘이 있구나! 이거다

Feature engineering – Categorical features Backward Difference contrast BaseN Binary Hashing Helmert Contrast James-Stein Estimator LeaveOneOut M-estimator Ordinal One-hot Polynomial Contrast Sum Contrast Target encoding Weight of Evidence - Encoding 방법은 정말 많습니다.

Feature engineering – Fill missing values and infinite values Numerical features Categorical features Lightgbm 은 missing value 를 빼고 tree split 을 한 다음, missing value 를 각 side 에 넣어봐서 loss 가 줄어드는 쪽으로 missing value 를 분류 0 로 채우지 말고, 내장 알고리즘 쓰기로 결정. (+) Infinite value 는 1.2 * max value (-) Infinite value 는 1.2 * min value ‘NAN’ 이라는 새로운 category 를 만들어서 채움

Training strategy – Ensemble is always answer Sum of Week learner is stronger than One strong learner. https://lightgbm.readthedocs.io/en/latest/

Stacking and Averaging Out of fold : train Out of fold : test XGB1 LGB1 CAT NN RF XGB2 LGB2 CAT2

Stacking and Averaging XGB1 LGB1 CAT NN RF XGB2 LGB2 CAT2 얘네들을 feature 로 사용함 새로 학습 New train Submission New test

Hyper parameter tuning https://lightgbm.readthedocs.io/en/latest/

Hyper parameter tuning Grid Search Randomized Search Bayesian Optimization Parameters Grid space 를 만들어서 성능 확인 규칙적으로 optimum 을 찾아갈 수 있다. 하지만 grid size 에 따라 combination 이 너무 많아진다. Computational cost! 내가 어떤 영역을 잡느냐에 따라 optimum을 제대로 못 찾을 수 있다. 각 Parameter 들의 range 를 만들어 그 안에서 임의로 숫자를 뽑아서 성능 확인 규칙적이지 않다. 하지만 trial 의 수는 많이 줄어들 수 있다. 마찬가지로 내가 잡아주는 range 에 따라 optimum 을 제대로 못 찾을 수 있다. 성능 = F(parameters) 라는 함수를 가정하여, 그 함수의 형태를 추정하면서 global optimization 을 찾아가는 것. Bayesian 의 prior 개념이 들어감. 여러 trial 을 시도하면서, prior 를 이용해 global optimum 을 찾아가는 형태. Python package 가 있어서 사용하기 쉬움. 여러 trial 을 하면서 찾아가므로 기본 computational cost 가 있음.

Use latent space as feature 정형 데이터에서 뉴럴넷 쓰는 여러 방법들 Fully connected layer Simple prediction Entity embedding Simple prediction Auto-encoder Use latent space as feature Variational auto-encoder Data augmentation

너무 많은 방법론이 존재한다. 혼자보다 여럿이 하면 좋다! 유한 YM WH HW CS NN Stacking 킵고잉 NN Stacking LGBM XGB CAT 정신적 지주 EDA Stacking 열정 밤샘 Stacking EDA 젊은 피 NN 장비 열정 밤샘

너무 많은 방법론이 존재한다. 혼자보다 여럿이 하면 좋다! 38/8,802 ~0.4 % 성적 Silver medal 확보!

상위권에 가기 위한 magic 이 무엇이었을까요? 1. 각 Numerical value 를 다양한 rounding 으로 frequency encoding 한다 2. Input 을 (M,) 이 아니라, (M, 1) 로 한다. 위 2개를 발견하면 Gold medal -> 저희 팀은 WH 님이 1번을 발견해 은메달!

Keep going, you can find the magic! 정형 데이터에서 좋은 성적을 거두기 위한 천기누설!!!!!!!!!!!! 끝날때 까지 EDA!!

3. 트렌드를 알 수 있다

Natural language processing 의 강자는..? 2018 년 성실한, 불성실한 질문을 찾아라

Natural language processing 의 강자는..? 전처리! LSTM(Emebedding + meta features Ensemble!

커널 컴퍼티션에서는 제출 커널이 에러가 나지 않아야 한다. Error…………….. 커널 컴퍼티션에서는 제출 커널이 에러가 나지 않아야 한다. 에러 나지 않으려면, Pipeline 을 잘 작성하고, 시간을 잘 체크해야 한다.

Natural language processing 의 강자는..? 2019 년 Toxic 한 질문을 찾아라!

Natural language processing 의 강자는..? Do Bert, you can get medals!

Natural language processing 의 강자는..? LSTMs with various embedding (0.940) BERT (0.944) Ensemble 0.946~7

Natural language processing 의 강자는..? 대회 종료 3주일 전, GPT-2 추천함.

Natural language processing 의 강자는..? 대회 종료 1주일전, BERT 보다 더 좋다는 XLNET 나와버림.

Natural language processing 의 강자는..? LSTMs with various embedding BERT XLNET GPT-2 위 각각의 성능을 최대한 끌어올려, 잘 섞은 팀!! 단, 커널에 에러가 나면 안됌!!!

Natural language processing 의 강자는..? 첫 상금권!! 다음주에 결과가 나와요!!

4. 성능을 알 수 있다

고객의 대출상환 가능성 예측 몇 % 가능할까요?

바다위 배를 segmenation 할 때 성능은 어느정도 나올까요?

5. 데이터를 구할 수 있다

2019/07/03 기준 캐글에 등록되어 있고, 다운받을 수 있는 데이터셋 숫자는 Dataset 2019/07/03 기준 캐글에 등록되어 있고, 다운받을 수 있는 데이터셋 숫자는 18,786 개

Dataset

Dataset

6. 회사 홍보가 가능하다

Dataset -> Public score 1, 2, 3 등이 DeNA 라는 일본 기업!

7. 용돈을 벌 수 있다

용돈 벌 곳이 어디 있나요…흑 캐글은 상금이 큽니다 대체로 최소 몇백만원 이상

저도 용돈 벌고 싶어요 그 어려운 것을 OO 가 해냅니다.

My prize is always what I have learned 여지껏 배운 것이 언제나 저의 prize 입니다.

8. 포트폴리오가 만들어진다

My prize is always what I have learned AI 를 할 줄 안다는 것을 어떻게 증명 할까요?

600/113,357 (상위 0.5 %) 49/95,586 (상위 0.05 %) 저 AI 할 줄 압니다. 머신러닝 대회 세계랭킹 600/113,357 (상위 0.5 %) 정형 대회 은메달 4개 동메달 1개 딥러닝 대회 은메달 1개 동메달 2개 신호처리 대회 동메달 1개 자연어!!!! Toxic 제발 ㅠㅠㅠㅠ 커널 공유 세계랭킹 49/95,586 (상위 0.05 %)

머신러닝을 얼마나 쓸 줄 아는지 확연하게 보여주지 않나요? 머신러닝은 잘 써야하는 도구입니다. 머신러닝을 얼마나 쓸 줄 아는지 확연하게 보여주지 않나요?

9. AI 실력이 상승한다

Porto: 고객이 내년에 자동차 보험금 청구를 할 것인가? Home Credit: 고객이 앞으로 대출 상환을 할 것인가? 개인적 측면 – 경험 실력 FOR 정형 데이터 Porto: 고객이 내년에 자동차 보험금 청구를 할 것인가? Home Credit: 고객이 앞으로 대출 상환을 할 것인가? Costa rican: 고객의 소득 수준을 ML 로 구분하라 Elo: 거래 내역 데이터를 가지고, 고객 충성도를 예측하라 New York taxi: Taxi 탑승 시간을 예측하라 직방: 아파트 거래가격 예측하라 INFOCARE: 아파트 경매가격 예측해라

Exploratory data analysis 개인적 측면 – 경험 실력 FOR 정형 데이터 Exploratory data analysis Data visualization Matplotlib, Seaborn, Plotly Data mining Pandas, numpy Feature engineering Time series features Categorical features Numerical features Aggregation features Ratio features Product features Data preparation Data augmentation (imbalance Upsampling Downsampling SMOTE Model development Sklearn Linear model Non-linear model Tree-model Not sklearn Xgboost Lightgbm Catboost LibFFM

정형 데이터 위해 학습한 모델만,,, 천단위 이상으로 만들어 봤을 겁니다. Model evaluation 개인적 측면 – 경험 실력 FOR 정형 데이터 Model evaluation Various metrics Accuracy Precision Recall F1-score Etc. Other technique Machine learning pipeline My pipeline code Feature management 정형 데이터 위해 학습한 모델만,,, 천단위 이상으로 만들어 봤을 겁니다.

Tensorflow: 30개 단어룰 구분하는 AI 만들어라 개인적 측면 – 경험 실력 FOR 딥러닝 Tensorflow: 30개 단어룰 구분하는 AI 만들어라 Quora: 성실한, 불성실한 질문을 구분해내라 Doodle: 340개의 클래스 별 낙서를 ANN 으로 구분하라. Protein: 28개의 클래스 별 Protein 을 ANN 으로 구분하라. Airbus: 바다 위 배를 찍은 위성 사진에서 배의 위치를 찾아내라 Statoil: 바다 위 빙산과, 배를 구분하라

개인적 측면 – 경험 실력 FOR 딥러닝

딥러닝 학습한 구조만, 몇백개 이상 만든 거 같네요. Model Development Learning technique 개인적 측면 – 경험 실력 FOR 딥러닝 Model Development Not pretrained CNN RNN Simese network Pretrained Fine-tunning Learning technique Cyclic learning Generator Data augmentation 딥러닝 학습한 구조만, 몇백개 이상 만든 거 같네요.

keras 내장 Pytorch 내장 Imgaug Albumentation 등 Data augmentation 을 잘해라 딥러닝 컴퍼티션 꿀팁 방출!!!! Data augmentation 을 잘해라 좋은 augmentation 을 찾아야 한다. https://github.com/aleju/imgaug keras 내장 Pytorch 내장 Imgaug Albumentation 등

2. 다양한 모델을 사용해라 Keras 내장. Qubvel 의 깃허브 다있음.. Pytorch 도 다 있어요 딥러닝 컴퍼티션 꿀팁 방출!!!! 2. 다양한 모델을 사용해라 Keras 내장. Qubvel 의 깃허브 다있음.. Pytorch 도 다 있어요 Resnet VGG series Resnet series InceptionV3 DenseNet MobileNet etc

-> 파라미터 튜닝은 실험이다. 하나씩 바꾸어 성능을 비교해보며 최적화시켜라 딥러닝 컴퍼티션 꿀팁 방출!!!! 3. 한번에 한번씩 바꿔라! -> 파라미터 튜닝은 실험이다. 하나씩 바꾸어 성능을 비교해보며 최적화시켜라

4. Test time augmentation 사용해라. 딥러닝 컴퍼티션 꿀팁 방출!!!! 4. Test time augmentation 사용해라. Label : 쥐 Label : 다람쥐 Label : 토끼 Label : 토끼 Label : 토끼 Label : 쥐 Label : 쥐 Label : 쥐 Label : 다람쥐 Label : 다람쥐 Label : 다람쥐 최종 예측은?

10. 다양한 데이터에 대한 인사이트 얻는다

데이터가 가진 정보를 최대로 살릴 수 있는 적절한 표현 방법을 찾는 것! 정말 정말 정말 정말 real 중요한 것!! 머신 러닝의 성능을 높이려면? 데이터가 가진 정보를 최대로 살릴 수 있는 적절한 표현 방법을 찾는 것!

같은 타입의 데이터라도 분야에 따라 조금씩 특성이 달라진다 정말 정말 정말 정말 real 중요한 것!! 같은 타입의 데이터라도 분야에 따라 조금씩 특성이 달라진다 데이터를 많이 다뤄봐야, 데이터 표현에 대한 인사이트가 생긴다

전선 저항을 보고 partial discharge 유무 판단 머신러닝 하기 위한 정말 핵심!!! 전선 저항을 보고 partial discharge 유무 판단 지진파를 가지고 향후 지진 일어날 시간 예측

VSB competition LANL competition 데이터 타입은 같음 머신러닝 하기 위한 정말 핵심!!! VSB competition LANL competition 데이터 타입은 같음 time series, numerical value

정말 정말 정말 정말 real 중요한 것!! Top 솔루션은 어떨까요? 비슷할까요?

VSB competition LANL competition With 6 peak features, Got a GOLD! 머신러닝 하기 위한 정말 핵심!!! VSB competition LANL competition With 6 peak features, Got a GOLD! With denoising and frequency features, Got a GOLD

RGB, grey, More channel, etc 머신러닝 하기 위한 정말 핵심!!! Tokenization, Word embedding 자연어 문장 Categorization Scaling, etc Numerical value Raw data, Feature based Time series RGB, grey, More channel, etc Image

- 분자의 NMR coupling constant 를 예측하라! 분자는 어떻게 표현해야할까요? - 분자의 NMR coupling constant 를 예측하라! - 주어진 데이터는, 구조파일과 여러 분자 특성들

분자를 어떻게 데이터로 표현해서 학습을 시킬까요?? 분자는 어떻게 표현해야 할까요? 분자를 어떻게 데이터로 표현해서 학습을 시킬까요??

구조와 여러 정보를 가지고 descriptor 뽑아서 tree model 사용 구조를 Graph 로 생각해서 분자는 어떻게 표현해야 할까요? 정형 문파 딥러닝 문파 구조와 여러 정보를 가지고 descriptor 뽑아서 tree model 사용 구조를 Graph 로 생각해서 Graph neural network 사용

데이터 표현 방식이, 모델의 성능을 좌우한다 결과는, 2달뒤에..

11. 재밌다

재밌으니 노력하고, 노력하니 성장하고, 성장하니 소고기 먹고^^ Kaggle is my life~ 저는 캐글이 취미입니다. 재밌으니 노력하고, 노력하니 성장하고, 성장하니 소고기 먹고^^

캐글에서 메달 따는 왕도는??

데이터와 함께하는 무한루프 문제 설정 캐글에서 다루는 부분 캐글에서 다루지 않는 부분 데이터 수집 데이터 전처리 데이터 분석 데이터 분석 EDA 인사이트 얻기 Feature engineering 모델 개발 모델 평가 및 피쳐 성능 확인 Dicussion 및 kernel 참고 데이터 수집 데이터 전처리 문제 설정 캐글에서 다루는 부분 캐글에서 다루지 않는 부분

100,000 데이터 분석 EDA 인사이트 Dicussion 및 kernel 참고 얻기 모델 평가 및 피쳐 성능 확인 데이터 분석 EDA 인사이트 얻기 피쳐 생성 모델 개발 모델 평가 및 피쳐 성능 확인 Dicussion 및 kernel 참고 100,000

구글, 페이스북, 야후 아이디로 가입만 하시면 됩니다

데이터 탐색 >>> 파라미터 튜닝 (from 김연민) 몇가지 천기 누설!!!! 투자한 시간은 배신하지 않는다.(from 김현우) Keep going! 데이터 탐색 >>> 파라미터 튜닝 (from 김연민) Garbage in, Garbage out Show me the feature! See kernel, See discussion Many week learner win one strong learner ensemble Make Cross-validation system along with LB

Non-Profit Facebook Group Community 캐글 코리아 Kaggle Korea Non-Profit Facebook Group Community 함께 공부해서, 함께 나눕시다 Study Together, Share Together

들어주셔서 감사합니다!