Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee Professor : Hyun-Chul Kim 2018. 05. 14
수업 참고 자료 데이터 마이닝 Data Mining - 데이터 속 숨은 의미를 찾는 기계 학습의 이론과 응용 II부 고급 데이터 마이닝 알고리즘 III부 웨카 데이터 마이닝 워크벤치 Three online courses on data mining with Weka - Data Mining with weka, More Data Mining with Weka, Advanced Data Mining with Weka. - https://www.cs.waikato.ac.nz/ml/weka/documentation.html 2/28
목차 Weka 입문 - What is Weka? - Installation Weka 사용 - 데이터 준비 Weka를 이용한 예제 데이터 분석 - Feature Selection - Classification - Clustering 3/28
Weka 입문 (설치하기) 4/28
What is Weka? Collection of machine learning algorithms for data mining tasks - pre-processing - classification - regression - clustering - association rules - visualization Weka(Waikato Environment for Knowledge Analysis) - 뉴질랜드에만 서식하는 날지 못하는 호기심 많은 새 - 뉴질랜드의 Waikato 대학에서 개발 Support Multiple Platforms - Windows, Mac, Linux 5/28
How many algorithms? 100+ algorithms for classification 75 for data preprocessing 25 to assist with feature selection 20 for clustering, finding association rules, etc - Since 2014 - 6/28
Weka 설치 Website: - https://www.cs.waikato.ac.nz/ml/weka - 32bit : https://drive.google.com/file/d/11CX_QITAZa8EVb_bFbZ__yXRQAemit- f/view?usp=sharing - 64bit : https://drive.google.com/file/d/1MR9ThE1i7VxoRk5R__jQg8Z7XyPb1SkI/view?usp=shari ng Java JDK : Weka는 JAVA VM 위에서 동작하기때문에 설치 - http://www.oracle.com/technetwork/java/javase/downloads/index.html 7/28
Weka GUI Explorer - 기본적인 GUI Interface - 모든 내장된 기능 사용 가능 Experimenter - 다양한 학습 기법들을 한꺼번에 비교 분석 가능 - 데이터 셋과 알고리즘의 비교 분석 설계 가능 Knowledge Flow - 입력된 데이터를 처리하기 위한 환경 제공 - 대규모 데이터 처리 가능 Workbench - Explorer + Experimenter SimpleCLI - Command Line Interface 8/28
Weka 사용 9/28
Explorer 10/28
Explorer 다양한 포맷의 데이터 파일들 사용 가능. - ARFF, CSV, C4.5, binary URL 이나 SQL 데이터베이스(JDBC)로 읽기도 가능. WEKA의 전처리 도구를 “filters”라고 부름. WEKA의 filters - Discretization, normalization, resampling, attribute selection, combining attributes, … 11/28
ARFF data Nominal attribute Numeric attribute Relation name “weather” 5 attribute information 1. outlook 2. temperature 3. humidity 4. windy 5. play (class) Data 12/28
13/28
14/28
15/28
Weka를 이용한 예제 데이터 분석 16/28
Data Format: IRIS @RELATION iris @ATTRIBUTE sepallength REAL @ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa Etc. General from @atttribute attribute-name REAL or list of values 17/28
Classify 18/28
Classify 19/28
Classify 20/28
Clustering Iris.arff 데이터 사용 21/28
Associate 연관 규칙 찾기 Supermarket.arff 데이터 사용 22/28
23/28
Select attributes Class를 분류하는데 Feature들이 유용한지 유용하지 아닌지 확 인하는 과정 24/28
Visualize 25/28
다음시간에는??? Movie review 데이터를 수집(평점과 글) https://textblob.readthedocs.io/en/dev/classifiers.html - Textblob 툴을 활용, Naviebayes Classifier을 이용해서 수집한 Review 데이터로 모델 학습 수집한 글과 글의 각 평점을 바탕으로 평점 분류 예측기 만들기 만들어진 분류기로 직접 영화에 대한 사람들의 의견 평가해보기 - Twitter에서 영화 제목을 키워드로 트윗 수집 후 분류기로 평점 분석 26/28
숙제 Rotten Tomatoes 에서 영화 리뷰 모두 수집해 서 텍스트 파일 형태로 저장 - [작성자, 글 내용] 형태로 저장 Twitter 에서 영화를 키워드로 트윗 최소 천개 이상 수집해서 텍스트 파일 형태로 저장 - [작성자, 트윗 내용] 형태로 저장 27/28
Thank you!!! 28/28