Presentation is loading. Please wait.

Presentation is loading. Please wait.

이유한 학력 활동 학부 : 부산대학교 화공생명공학부 졸업 ( ~ )

Similar presentations


Presentation on theme: "이유한 학력 활동 학부 : 부산대학교 화공생명공학부 졸업 ( ~ )"— Presentation transcript:

1 이유한 학력 활동 학부 : 부산대학교 화공생명공학부 졸업 (2008.03 ~ 2014.02)
석사: KAIST 생명화학공학과 졸업 ( ~ ) 박사: KAIST 생명화학공학과 박사과정 재학중 ( ~ 현재) 실험실: Molecular Simulation Laboratory (Prof. Jihan Kim) 세부 전공: Molecular simulation, computational chemistry, Machine learning, deep learning 활동 KaggleKorea 페이스북 온라인 그룹(현재 약5,600명) 운영자 캐글 상위 0.5% 이유한

2

3 What is Kaggle?

4 캐글 as a company 2010년 설립된 빅데이터 솔루션 대회 플랫폼 회사 2017 년 3월에 구글에 인수

5 Data science, ML, DL 을 주제로 모인 community
캐글 as a community 현재 200만명의 회원 보유 Data science, ML, DL 을 주제로 모인 community

6 Competition - Data Race for 데이터 과학자!
기업, 정부기관, 단체, 연구소, 개인 Dataset With Prize Dataset & Prize 개발 환경(kernel) 커뮤니티(follow, discussion) 전 세계 데이터 사이언티스트

7 Dataset - Data Playground for 데이터 과학자!
기업, 정부기관, 단체, 연구소, 개인 Dataset With or without Prize Dataset & Prize 개발 환경(kernel) 커뮤니티(follow, discussion) 전 세계 데이터 사이언티스트

8 Why need kaggle?

9 여러분은, DS, ML, DL 를 배우고 싶나요?

10 여러분은, DS, ML, DL 를 어떻게 배우고 계신가요?

11

12

13

14

15

16 이론이 중요한가요? 실습이 중요한가요?

17 둘 다 중요하죠

18 저것들 끝까지 공부되던가요??

19 최고의 공부 플랫폼 “캐글”입니다.

20 Why study in kaggle?

21 1. 자료가 넘친다

22 캐글의 위대한 유산 – 공유 정신 (kernels)
이미 길은 다 공유되어 있습니다 ^^

23 대회가 끝나면, 서로 앞다투어 자신의 솔루션을 공개합니다. (설명 or 코드)
캐글의 위대한 유산 – 공유 정신 대회가 끝나면, 서로 앞다투어 자신의 솔루션을 공개합니다. (설명 or 코드)

24 2. 협업을 배운다

25 너무 많은 방법론이 존재한다. 혼자보다 여럿이 하면 좋다!
고객의 transaction 이 일어날지 예측하라

26 너무 많은 방법론이 존재한다. 혼자보다 여럿이 하면 좋다!
Train, test data 200 개의 비식별화된 변수 200 개의 변수 각각 상관관계가 ~ 0 기존 파생변수 테크닉들이 전혀 먹히질 않았음

27 Feature engineering – Ratio features
Ratio feature : A per B 연금 / 전체 수입 차 소유한 나이 / 총 생애 일수 차 소유하 나이 / 총 근무 일수

28 Feature engineering – Product features
Product feature : A x B Feature importance 를 봤을 때, 상위 feature 들 중 numerical feature 끼리 곱하여 추가 함.

29 Feature engineering – Addition or Subtraction features
Addition feature : A + B Subtraction feature : A - B 중요한 feature 끼리 더하거나 빼서 새로운 feature 생성 .

30 Feature engineering – Aggregation features
Category 와 numerical feature 의 조합으로 생성하며, Category 각 그룹당 mean, median, variance, standard deviation 을 feature 로 사용 말그대로 조합이기 때문에, 엄청나게 만들어 낼 수 있음. 𝐶 𝑛, 𝑟 = 𝑛! 𝑟! 𝑛−𝑟 !

31 Feature engineering – Categorical features
One-hot encoding Category 개수 만큼 column 이 늘어난다. 너무 오래 걸린다. Label encoding 자칫 bias ordering 문제가 생길 수 있다. Lightgbm Built-in 데이터셋이 크니 학습이 빠른 Lightgbm 을 쓸건데, 마침 카테고리를 처리하는 내장 알고리즘이 있구나! 이거다

32 Feature engineering – Categorical features
Backward Difference contrast BaseN Binary Hashing Helmert Contrast James-Stein Estimator LeaveOneOut M-estimator Ordinal One-hot Polynomial Contrast Sum Contrast Target encoding Weight of Evidence - Encoding 방법은 정말 많습니다.

33 Feature engineering – Fill missing values and infinite values
Numerical features Categorical features Lightgbm 은 missing value 를 빼고 tree split 을 한 다음, missing value 를 각 side 에 넣어봐서 loss 가 줄어드는 쪽으로 missing value 를 분류 0 로 채우지 말고, 내장 알고리즘 쓰기로 결정. (+) Infinite value 는 1.2 * max value (-) Infinite value 는 1.2 * min value ‘NAN’ 이라는 새로운 category 를 만들어서 채움

34 Training strategy – Ensemble is always answer
Sum of Week learner is stronger than One strong learner.

35 Stacking and Averaging
Out of fold : train Out of fold : test XGB1 LGB1 CAT NN RF XGB2 LGB2 CAT2

36 Stacking and Averaging
XGB1 LGB1 CAT NN RF XGB2 LGB2 CAT2 얘네들을 feature 로 사용함 새로 학습 New train Submission New test

37 Hyper parameter tuning

38 Hyper parameter tuning
Grid Search Randomized Search Bayesian Optimization Parameters Grid space 를 만들어서 성능 확인 규칙적으로 optimum 을 찾아갈 수 있다. 하지만 grid size 에 따라 combination 이 너무 많아진다. Computational cost! 내가 어떤 영역을 잡느냐에 따라 optimum을 제대로 못 찾을 수 있다. 각 Parameter 들의 range 를 만들어 그 안에서 임의로 숫자를 뽑아서 성능 확인 규칙적이지 않다. 하지만 trial 의 수는 많이 줄어들 수 있다. 마찬가지로 내가 잡아주는 range 에 따라 optimum 을 제대로 못 찾을 수 있다. 성능 = F(parameters) 라는 함수를 가정하여, 그 함수의 형태를 추정하면서 global optimization 을 찾아가는 것. Bayesian 의 prior 개념이 들어감. 여러 trial 을 시도하면서, prior 를 이용해 global optimum 을 찾아가는 형태. Python package 가 있어서 사용하기 쉬움. 여러 trial 을 하면서 찾아가므로 기본 computational cost 가 있음.

39 Use latent space as feature
정형 데이터에서 뉴럴넷 쓰는 여러 방법들 Fully connected layer Simple prediction Entity embedding Simple prediction Auto-encoder Use latent space as feature Variational auto-encoder Data augmentation

40 너무 많은 방법론이 존재한다. 혼자보다 여럿이 하면 좋다!
유한 YM WH HW CS NN Stacking 킵고잉 NN Stacking LGBM XGB CAT 정신적 지주 EDA Stacking 열정 밤샘 Stacking EDA 젊은 피 NN 장비 열정 밤샘

41 너무 많은 방법론이 존재한다. 혼자보다 여럿이 하면 좋다!
38/8,802 ~0.4 % 성적 Silver medal 확보!

42 상위권에 가기 위한 magic 이 무엇이었을까요?
1. 각 Numerical value 를 다양한 rounding 으로 frequency encoding 한다 2. Input 을 (M,) 이 아니라, (M, 1) 로 한다. 위 2개를 발견하면 Gold medal -> 저희 팀은 WH 님이 1번을 발견해 은메달!

43 Keep going, you can find the magic!
정형 데이터에서 좋은 성적을 거두기 위한 천기누설!!!!!!!!!!!! 끝날때 까지 EDA!!

44 3. 트렌드를 알 수 있다

45 Natural language processing 의 강자는..?
2018 년 성실한, 불성실한 질문을 찾아라

46 Natural language processing 의 강자는..?
전처리! LSTM(Emebedding + meta features Ensemble!

47 커널 컴퍼티션에서는 제출 커널이 에러가 나지 않아야 한다.
Error…………….. 커널 컴퍼티션에서는 제출 커널이 에러가 나지 않아야 한다. 에러 나지 않으려면, Pipeline 을 잘 작성하고, 시간을 잘 체크해야 한다.

48 Natural language processing 의 강자는..?
2019 년 Toxic 한 질문을 찾아라!

49 Natural language processing 의 강자는..?
Do Bert, you can get medals!

50 Natural language processing 의 강자는..?
LSTMs with various embedding (0.940) BERT (0.944) Ensemble 0.946~7

51 Natural language processing 의 강자는..?
대회 종료 3주일 전, GPT-2 추천함.

52 Natural language processing 의 강자는..?
대회 종료 1주일전, BERT 보다 더 좋다는 XLNET 나와버림.

53 Natural language processing 의 강자는..?
LSTMs with various embedding BERT XLNET GPT-2 위 각각의 성능을 최대한 끌어올려, 잘 섞은 팀!! 단, 커널에 에러가 나면 안됌!!!

54 Natural language processing 의 강자는..?
첫 상금권!! 다음주에 결과가 나와요!!

55 4. 성능을 알 수 있다

56 고객의 대출상환 가능성 예측 몇 % 가능할까요?

57 바다위 배를 segmenation 할 때 성능은 어느정도 나올까요?

58 5. 데이터를 구할 수 있다

59 2019/07/03 기준 캐글에 등록되어 있고, 다운받을 수 있는 데이터셋 숫자는
Dataset 2019/07/03 기준 캐글에 등록되어 있고, 다운받을 수 있는 데이터셋 숫자는 18,786 개

60 Dataset

61 Dataset

62 6. 회사 홍보가 가능하다

63 Dataset -> Public score 1, 2, 3 등이 DeNA 라는 일본 기업!

64 7. 용돈을 벌 수 있다

65 용돈 벌 곳이 어디 있나요…흑 캐글은 상금이 큽니다 대체로 최소 몇백만원 이상

66 저도 용돈 벌고 싶어요 그 어려운 것을 OO 가 해냅니다.

67 My prize is always what I have learned
여지껏 배운 것이 언제나 저의 prize 입니다.

68 8. 포트폴리오가 만들어진다

69 My prize is always what I have learned
AI 를 할 줄 안다는 것을 어떻게 증명 할까요?

70 600/113,357 (상위 0.5 %) 49/95,586 (상위 0.05 %) 저 AI 할 줄 압니다.
머신러닝 대회 세계랭킹 600/113,357 (상위 0.5 %) 정형 대회 은메달 4개 동메달 1개 딥러닝 대회 은메달 1개 동메달 2개 신호처리 대회 동메달 1개 자연어!!!! Toxic 제발 ㅠㅠㅠㅠ 커널 공유 세계랭킹 49/95,586 (상위 0.05 %)

71 머신러닝을 얼마나 쓸 줄 아는지 확연하게 보여주지 않나요?
머신러닝은 잘 써야하는 도구입니다. 머신러닝을 얼마나 쓸 줄 아는지 확연하게 보여주지 않나요?

72 9. AI 실력이 상승한다

73 Porto: 고객이 내년에 자동차 보험금 청구를 할 것인가? Home Credit: 고객이 앞으로 대출 상환을 할 것인가?
개인적 측면 – 경험 실력 FOR 정형 데이터 Porto: 고객이 내년에 자동차 보험금 청구를 할 것인가? Home Credit: 고객이 앞으로 대출 상환을 할 것인가? Costa rican: 고객의 소득 수준을 ML 로 구분하라 Elo: 거래 내역 데이터를 가지고, 고객 충성도를 예측하라 New York taxi: Taxi 탑승 시간을 예측하라 직방: 아파트 거래가격 예측하라 INFOCARE: 아파트 경매가격 예측해라

74 Exploratory data analysis
개인적 측면 – 경험 실력 FOR 정형 데이터 Exploratory data analysis Data visualization Matplotlib, Seaborn, Plotly Data mining Pandas, numpy Feature engineering Time series features Categorical features Numerical features Aggregation features Ratio features Product features Data preparation Data augmentation (imbalance Upsampling Downsampling SMOTE Model development Sklearn Linear model Non-linear model Tree-model Not sklearn Xgboost Lightgbm Catboost LibFFM

75 정형 데이터 위해 학습한 모델만,,, 천단위 이상으로 만들어 봤을 겁니다. Model evaluation
개인적 측면 – 경험 실력 FOR 정형 데이터 Model evaluation Various metrics Accuracy Precision Recall F1-score Etc. Other technique Machine learning pipeline My pipeline code Feature management 정형 데이터 위해 학습한 모델만,,, 천단위 이상으로 만들어 봤을 겁니다.

76 Tensorflow: 30개 단어룰 구분하는 AI 만들어라
개인적 측면 – 경험 실력 FOR 딥러닝 Tensorflow: 30개 단어룰 구분하는 AI 만들어라 Quora: 성실한, 불성실한 질문을 구분해내라 Doodle: 340개의 클래스 별 낙서를 ANN 으로 구분하라. Protein: 28개의 클래스 별 Protein 을 ANN 으로 구분하라. Airbus: 바다 위 배를 찍은 위성 사진에서 배의 위치를 찾아내라 Statoil: 바다 위 빙산과, 배를 구분하라

77 개인적 측면 – 경험 실력 FOR 딥러닝

78 딥러닝 학습한 구조만, 몇백개 이상 만든 거 같네요. Model Development Learning technique
개인적 측면 – 경험 실력 FOR 딥러닝 Model Development Not pretrained CNN RNN Simese network Pretrained Fine-tunning Learning technique Cyclic learning Generator Data augmentation 딥러닝 학습한 구조만, 몇백개 이상 만든 거 같네요.

79 keras 내장 Pytorch 내장 Imgaug Albumentation 등 Data augmentation 을 잘해라
딥러닝 컴퍼티션 꿀팁 방출!!!! Data augmentation 을 잘해라 좋은 augmentation 을 찾아야 한다. keras 내장 Pytorch 내장 Imgaug Albumentation 등

80 2. 다양한 모델을 사용해라 Keras 내장. Qubvel 의 깃허브 다있음.. Pytorch 도 다 있어요
딥러닝 컴퍼티션 꿀팁 방출!!!! 2. 다양한 모델을 사용해라 Keras 내장. Qubvel 의 깃허브 다있음.. Pytorch 도 다 있어요 Resnet VGG series Resnet series InceptionV3 DenseNet MobileNet etc

81 -> 파라미터 튜닝은 실험이다. 하나씩 바꾸어 성능을 비교해보며 최적화시켜라
딥러닝 컴퍼티션 꿀팁 방출!!!! 3. 한번에 한번씩 바꿔라! -> 파라미터 튜닝은 실험이다. 하나씩 바꾸어 성능을 비교해보며 최적화시켜라

82 4. Test time augmentation 사용해라.
딥러닝 컴퍼티션 꿀팁 방출!!!! 4. Test time augmentation 사용해라. Label : 쥐 Label : 다람쥐 Label : 토끼 Label : 토끼 Label : 토끼 Label : 쥐 Label : 쥐 Label : 쥐 Label : 다람쥐 Label : 다람쥐 Label : 다람쥐 최종 예측은?

83 10. 다양한 데이터에 대한 인사이트 얻는다

84 데이터가 가진 정보를 최대로 살릴 수 있는 적절한 표현 방법을 찾는 것!
정말 정말 정말 정말 real 중요한 것!! 머신 러닝의 성능을 높이려면? 데이터가 가진 정보를 최대로 살릴 수 있는 적절한 표현 방법을 찾는 것!

85 같은 타입의 데이터라도 분야에 따라 조금씩 특성이 달라진다
정말 정말 정말 정말 real 중요한 것!! 같은 타입의 데이터라도 분야에 따라 조금씩 특성이 달라진다 데이터를 많이 다뤄봐야, 데이터 표현에 대한 인사이트가 생긴다

86 전선 저항을 보고 partial discharge 유무 판단
머신러닝 하기 위한 정말 핵심!!! 전선 저항을 보고 partial discharge 유무 판단 지진파를 가지고 향후 지진 일어날 시간 예측

87 VSB competition LANL competition 데이터 타입은 같음
머신러닝 하기 위한 정말 핵심!!! VSB competition LANL competition 데이터 타입은 같음 time series, numerical value

88 정말 정말 정말 정말 real 중요한 것!! Top 솔루션은 어떨까요? 비슷할까요?

89 VSB competition LANL competition With 6 peak features, Got a GOLD!
머신러닝 하기 위한 정말 핵심!!! VSB competition LANL competition With 6 peak features, Got a GOLD! With denoising and frequency features, Got a GOLD

90 RGB, grey, More channel, etc
머신러닝 하기 위한 정말 핵심!!! Tokenization, Word embedding 자연어 문장 Categorization Scaling, etc Numerical value Raw data, Feature based Time series RGB, grey, More channel, etc Image

91 - 분자의 NMR coupling constant 를 예측하라!
분자는 어떻게 표현해야할까요? - 분자의 NMR coupling constant 를 예측하라! - 주어진 데이터는, 구조파일과 여러 분자 특성들

92 분자를 어떻게 데이터로 표현해서 학습을 시킬까요??
분자는 어떻게 표현해야 할까요? 분자를 어떻게 데이터로 표현해서 학습을 시킬까요??

93 구조와 여러 정보를 가지고 descriptor 뽑아서 tree model 사용 구조를 Graph 로 생각해서
분자는 어떻게 표현해야 할까요? 정형 문파 딥러닝 문파 구조와 여러 정보를 가지고 descriptor 뽑아서 tree model 사용 구조를 Graph 로 생각해서 Graph neural network 사용

94 데이터 표현 방식이, 모델의 성능을 좌우한다 결과는, 2달뒤에..

95 11. 재밌다

96 재밌으니 노력하고, 노력하니 성장하고, 성장하니 소고기 먹고^^
Kaggle is my life~ 저는 캐글이 취미입니다. 재밌으니 노력하고, 노력하니 성장하고, 성장하니 소고기 먹고^^

97 캐글에서 메달 따는 왕도는??

98 데이터와 함께하는 무한루프 문제 설정 캐글에서 다루는 부분 캐글에서 다루지 않는 부분 데이터 수집 데이터 전처리 데이터 분석
데이터 분석 EDA 인사이트 얻기 Feature engineering 모델 개발 모델 평가 및 피쳐 성능 확인 Dicussion 및 kernel 참고 데이터 수집 데이터 전처리 문제 설정 캐글에서 다루는 부분 캐글에서 다루지 않는 부분

99 100,000 데이터 분석 EDA 인사이트 Dicussion 및 kernel 참고 얻기 모델 평가 및 피쳐 성능 확인
데이터 분석 EDA 인사이트 얻기 피쳐 생성 모델 개발 모델 평가 및 피쳐 성능 확인 Dicussion 및 kernel 참고 100,000

100 구글, 페이스북, 야후 아이디로 가입만 하시면 됩니다

101 데이터 탐색 >>> 파라미터 튜닝 (from 김연민)
몇가지 천기 누설!!!! 투자한 시간은 배신하지 않는다.(from 김현우) Keep going! 데이터 탐색 >>> 파라미터 튜닝 (from 김연민) Garbage in, Garbage out Show me the feature! See kernel, See discussion Many week learner win one strong learner ensemble Make Cross-validation system along with LB

102 Non-Profit Facebook Group Community
캐글 코리아 Kaggle Korea Non-Profit Facebook Group Community 함께 공부해서, 함께 나눕시다 Study Together, Share Together

103 들어주셔서 감사합니다!


Download ppt "이유한 학력 활동 학부 : 부산대학교 화공생명공학부 졸업 ( ~ )"

Similar presentations


Ads by Google