Presentation is loading. Please wait.

Presentation is loading. Please wait.

Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee

Similar presentations


Presentation on theme: "Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee"— Presentation transcript:

1 Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee
Professor : Hyun-Chul Kim

2 수업 참고 자료 데이터 마이닝 Data Mining - 데이터 속 숨은 의미를 찾는 기계 학습의 이론과 응용
II부 고급 데이터 마이닝 알고리즘 III부 웨카 데이터 마이닝 워크벤치 Three online courses on data mining with Weka - Data Mining with weka, More Data Mining with Weka, Advanced Data Mining with Weka. - 2/28

3 목차 Weka 입문 - What is Weka? - Installation Weka 사용 - 데이터 준비
Weka를 이용한 예제 데이터 분석 - Feature Selection - Classification - Clustering 3/28

4 Weka 입문 (설치하기) 4/28

5 What is Weka? Collection of machine learning algorithms for data mining tasks - pre-processing - classification - regression - clustering - association rules - visualization Weka(Waikato Environment for Knowledge Analysis) - 뉴질랜드에만 서식하는 날지 못하는 호기심 많은 새 - 뉴질랜드의 Waikato 대학에서 개발 Support Multiple Platforms - Windows, Mac, Linux 5/28

6 How many algorithms? 100+ algorithms for classification
75 for data preprocessing 25 to assist with feature selection 20 for clustering, finding association rules, etc - Since 6/28

7 Weka 설치 Website: bit : f/view?usp=sharing - 64bit : ng Java JDK : Weka는 JAVA VM 위에서 동작하기때문에 설치 - 7/28

8 Weka GUI Explorer - 기본적인 GUI Interface - 모든 내장된 기능 사용 가능
Experimenter - 다양한 학습 기법들을 한꺼번에 비교 분석 가능 - 데이터 셋과 알고리즘의 비교 분석 설계 가능 Knowledge Flow - 입력된 데이터를 처리하기 위한 환경 제공 - 대규모 데이터 처리 가능 Workbench - Explorer + Experimenter SimpleCLI - Command Line Interface 8/28

9 Weka 사용 9/28

10 Explorer 10/28

11 Explorer 다양한 포맷의 데이터 파일들 사용 가능. - ARFF, CSV, C4.5, binary
URL 이나 SQL 데이터베이스(JDBC)로 읽기도 가능. WEKA의 전처리 도구를 “filters”라고 부름. WEKA의 filters - Discretization, normalization, resampling, attribute selection, combining attributes, … 11/28

12 ARFF data Nominal attribute Numeric attribute Relation name “weather”
5 attribute information 1. outlook 2. temperature 3. humidity 4. windy 5. play (class) Data 12/28

13 13/28

14 14/28

15 15/28

16 Weka를 이용한 예제 데이터 분석 16/28

17 Data Format: IRIS @RELATION iris @ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa Etc. General from @atttribute attribute-name REAL or list of values 17/28

18 Classify 18/28

19 Classify 19/28

20 Classify 20/28

21 Clustering Iris.arff 데이터 사용 21/28

22 Associate 연관 규칙 찾기 Supermarket.arff 데이터 사용 22/28

23 23/28

24 Select attributes Class를 분류하는데 Feature들이 유용한지 유용하지 아닌지 확 인하는 과정 24/28

25 Visualize 25/28

26 다음시간에는??? Movie review 데이터를 수집(평점과 글)
- Textblob 툴을 활용, Naviebayes Classifier을 이용해서 수집한 Review 데이터로 모델 학습 수집한 글과 글의 각 평점을 바탕으로 평점 분류 예측기 만들기 만들어진 분류기로 직접 영화에 대한 사람들의 의견 평가해보기 - Twitter에서 영화 제목을 키워드로 트윗 수집 후 분류기로 평점 분석 26/28

27 숙제 Rotten Tomatoes 에서 영화 리뷰 모두 수집해 서 텍스트 파일 형태로 저장 - [작성자, 글 내용] 형태로 저장 Twitter 에서 영화를 키워드로 트윗 최소 천개 이상 수집해서 텍스트 파일 형태로 저장 - [작성자, 트윗 내용] 형태로 저장 27/28

28 Thank you!!! 28/28


Download ppt "Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee"

Similar presentations


Ads by Google