Download presentation
Presentation is loading. Please wait.
Published byCalvin Riley Modified 6년 전
1
Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee
Professor : Hyun-Chul Kim
2
수업 참고 자료 데이터 마이닝 Data Mining - 데이터 속 숨은 의미를 찾는 기계 학습의 이론과 응용
II부 고급 데이터 마이닝 알고리즘 III부 웨카 데이터 마이닝 워크벤치 Three online courses on data mining with Weka - Data Mining with weka, More Data Mining with Weka, Advanced Data Mining with Weka. - 2/28
3
목차 Weka 입문 - What is Weka? - Installation Weka 사용 - 데이터 준비
Weka를 이용한 예제 데이터 분석 - Feature Selection - Classification - Clustering 3/28
4
Weka 입문 (설치하기) 4/28
5
What is Weka? Collection of machine learning algorithms for data mining tasks - pre-processing - classification - regression - clustering - association rules - visualization Weka(Waikato Environment for Knowledge Analysis) - 뉴질랜드에만 서식하는 날지 못하는 호기심 많은 새 - 뉴질랜드의 Waikato 대학에서 개발 Support Multiple Platforms - Windows, Mac, Linux 5/28
6
How many algorithms? 100+ algorithms for classification
75 for data preprocessing 25 to assist with feature selection 20 for clustering, finding association rules, etc - Since 6/28
7
Weka 설치 Website: bit : f/view?usp=sharing - 64bit : ng Java JDK : Weka는 JAVA VM 위에서 동작하기때문에 설치 - 7/28
8
Weka GUI Explorer - 기본적인 GUI Interface - 모든 내장된 기능 사용 가능
Experimenter - 다양한 학습 기법들을 한꺼번에 비교 분석 가능 - 데이터 셋과 알고리즘의 비교 분석 설계 가능 Knowledge Flow - 입력된 데이터를 처리하기 위한 환경 제공 - 대규모 데이터 처리 가능 Workbench - Explorer + Experimenter SimpleCLI - Command Line Interface 8/28
9
Weka 사용 9/28
10
Explorer 10/28
11
Explorer 다양한 포맷의 데이터 파일들 사용 가능. - ARFF, CSV, C4.5, binary
URL 이나 SQL 데이터베이스(JDBC)로 읽기도 가능. WEKA의 전처리 도구를 “filters”라고 부름. WEKA의 filters - Discretization, normalization, resampling, attribute selection, combining attributes, … 11/28
12
ARFF data Nominal attribute Numeric attribute Relation name “weather”
5 attribute information 1. outlook 2. temperature 3. humidity 4. windy 5. play (class) Data 12/28
13
13/28
14
14/28
15
15/28
16
Weka를 이용한 예제 데이터 분석 16/28
17
Data Format: IRIS @RELATION iris @ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL @ATTRIBUTE petallength REAL @ATTRIBUTE petalwidth REAL @ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica} @DATA 5.1,3.5,1.4,0.2,Iris-setosa 4.9,3.0,1.4,0.2,Iris-setosa 4.7,3.2,1.3,0.2,Iris-setosa Etc. General from @atttribute attribute-name REAL or list of values 17/28
18
Classify 18/28
19
Classify 19/28
20
Classify 20/28
21
Clustering Iris.arff 데이터 사용 21/28
22
Associate 연관 규칙 찾기 Supermarket.arff 데이터 사용 22/28
23
23/28
24
Select attributes Class를 분류하는데 Feature들이 유용한지 유용하지 아닌지 확 인하는 과정 24/28
25
Visualize 25/28
26
다음시간에는??? Movie review 데이터를 수집(평점과 글)
- Textblob 툴을 활용, Naviebayes Classifier을 이용해서 수집한 Review 데이터로 모델 학습 수집한 글과 글의 각 평점을 바탕으로 평점 분류 예측기 만들기 만들어진 분류기로 직접 영화에 대한 사람들의 의견 평가해보기 - Twitter에서 영화 제목을 키워드로 트윗 수집 후 분류기로 평점 분석 26/28
27
숙제 Rotten Tomatoes 에서 영화 리뷰 모두 수집해 서 텍스트 파일 형태로 저장 - [작성자, 글 내용] 형태로 저장 Twitter 에서 영화를 키워드로 트윗 최소 천개 이상 수집해서 텍스트 파일 형태로 저장 - [작성자, 트윗 내용] 형태로 저장 27/28
28
Thank you!!! 28/28
Similar presentations