2014년 가을학기 손시운 (ssw5175@kangwon.ac.kr) 지도 교수: 문양세 교수님 분류 2014년 가을학기 손시운 (ssw5175@kangwon.ac.kr) 지도 교수: 문양세 교수님.

Slides:



Advertisements
Similar presentations
제철고 프로그래밍언어 2015 가을학기 연습 #1 Python 연산식 이다훈 POSTECH 컴퓨터공학과 2015 년 9 월 23 일.
Advertisements

제철고 프로그래밍언어 2015 가을학기 강의 #2 Python 변수, 입출력, 배열 박성우 POSTECH 컴퓨터공학과 2015 년 9 월 30 일.
Android 프로그램개발 환경. 학습 목표 ■ 교육 목표  JDK 설치  JDK 환경 설정  Eclipse 설치  Android SDK 설치  ADT Plug-in 설치  Android Virtual Device(AVD) 설치  Android 예제 프로그램.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
컴퓨터와 인터넷.
목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.
Image & Video processing
(Classification – Advanced Techniques)
Ⅱ-1. 물질의 기본 성분 원소들의 지도, 주기율표 이솔희.
Cross Compiler를이용한 커널 컴파일 및 포팅
Cross Compiler를이용한 커널 컴파일 및 포팅 1
Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
Hybrid INDIGO project 중간보고
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
[Homework #3] 오류 찾기 문제 BankAccount 문제 MyMetric 문제
CHAPTER 02 OpenCV 개요 PART 01 영상 처리 개요 및 OpenCV 소개.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
머신 러닝 2 ㈜ 퀀트랩.
ASP.NET AJAX 비동기 게시판 작성 2007 컴퓨터공학실험( I )
602 LAB FDTD 를 이용한 Acoustic Simulation 지도: 이형원 교수님 차진형.
공학컴퓨터프로그래밍 Python 염익준 교수.
11장. 1차원 배열.
환경 : Windows7 64bit 버전 : apache-ant-1.9.7
Grade Server Team14. Attention Seeker
Cross Compiler를이용한 커널 컴파일 및 포팅
2014년 가을학기 손시운 지도 교수: 문양세 교수님 군집 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
소프트웨어시스템실습 3강: R 프로그래밍 및 데이터 조작
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
Method & library.
JA A V W. 03.
자바 5.0 프로그래밍.
강의 개요. 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
Report #3 - due: 4/6 100*100의 2개의 희소 행렬 A, B를 전달 받아서 이들의 덧셈을 구하고, 그 결과의 행렬 C를 반환하는 add_sparse_matrix(A, B, C)를 다음과 같이 작성하라. 희소 행렬은 sparse_matrix 타입으로 표현된다.
CHAP 5. 레이아웃.
BERT Install Guide 숭실대학교 test.
(Data Exploration & Analysis)
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
15장 컬렉션 프레임워크 Section 1 컬렉션 프레임워크의 개요 Section 2 리스트 Section 3 셋
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
Fitting / Matrix / Excel
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
현대의 원자 모형에 의한 전자 배치의 원리 현대의 원자 모형
VHDL를 이용한 DES 설계 정보통신컴퓨터공학부 5조 김인옥, 백미숙
2014년 가을학기 손시운 지도 교수: 문양세 교수님 데이터 프레임 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
(생각열기) 염화나트륨은 고체 상태에서는 전류가 통하지 않지만 용융 상태나 물에 녹으면 전류가 잘 통한다. 그 이유는?
Canary value 스택 가드(Stack Guard).
알고리즘 알고리즘이란 무엇인가?.
데이터 동적 할당 Collection class.
(생각열기) 1족 원자는 전자 1개를 잃기 쉽다. 전자 1를 잃으면 어떤 이온이 되는가? ( )
문서 클러스터링 일본언어문화학과 서동진.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
오라클 11g 보안.
[INA240] Data Structures and Practice
MIDP 네트워크 프로그래밍 ps lab 김윤경.
발표자 : 이지연 Programming Systems Lab.
9 브라우저 객체 모델.
제 4 장 Record.
적용 가능 시간표 무한 생성 기계 2007/06/18 최석훈.
07. DB 설계 명지대학교 ICT 융합대학 김정호.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 행렬과 배열 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
 6장. SQL 쿼리.
프로젝트 개요 OPENSTACK을 이용한 교육용 CLOUD 환경 구축! 교수님(관리자)와 학생(이용자)으로 구분.
Progress Seminar 선석규.
7 생성자 함수.
6 객체.
Intelligent software Lab. 전재원
Presentation transcript:

2014년 가을학기 손시운 (ssw5175@kangwon.ac.kr) 지도 교수: 문양세 교수님 분류 2014년 가을학기 손시운 (ssw5175@kangwon.ac.kr) 지도 교수: 문양세 교수님

분류 분류 (Classification) (참조: 이론 강의 ‘데이터 마이닝 개념’) 모델 구성: 주어진 훈련 집합의 레코드들을 사용하여, 속성 값들을 입력으로 클 래스를 출력으로 하는 함수(모델)를 찾는 작업이다. 모델 검증: 테스트 집합의 레코드들을 앞서 구성한 분류 모델에 적용하여 모델 의 정확성을 판별한다.  일정 수준의 정확성이 확보되면 모델로서 의미를 가짐 모델을 사용한 예측: 아직 분류되지 않은 (즉, 클래스가 부여되지 않은) 레코드 를 분류 모델에 적용하여 클래스를 부여함

Decision Trees

 새로운 Iris 데이터의 종을 파악할 수 있을까? Example 1: Iris Datasets: 150개의 Iris 꽃 데이터 Sepal.Length: 꽃 받침 길이 Sepal.Width: 꽃 받침 너비 Petal.Length: 꽃잎 길이 Petal.Width: 꽃잎 너비 Species: 화종 setosa versicolor virginica # Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3 4.7 3.2 1.3 4 4.6 3.1 1.5 5 3.6 6 5.4 3.9 1.7 0.4 7 3.4 0.3 8 9 4.4 2.9 10 0.1 11 3.7 12 4.8 1.6 13 14 4.3 1.1 15 5.8 1.2  새로운 Iris 데이터의 종을 파악할 수 있을까?

Ex.1: 필수 패키지 설치 Decision Tree를 생성하기 위해 필요한 패키지 설치 다운로드 받은 패키지를 R에서 로딩 http://cran.r-project.org/web/packages/party/index.html http://cran.r-project.org/web/packages/zoo/index.html http://cran.r-project.org/web/packages/sandwich/index.html http://cran.r-project.org/web/packages/strucchange/index.html http://cran.r-project.org/web/packages/modeltools/index.html http://cran.r-project.org/web/packages/coin/index.html http://cran.r-project.org/web/packages/mvtnorm/index.html 다운로드 받은 패키지를 R에서 로딩

Ex.1: 데이터 확인 R에 내장되어있는 iris 데이터 사용

Ex.1: 데이터 분류 훈련 집합과 테스트 집합 분류 sample() 함수를 통해 70%의 훈련 집합과 30%의 테스트 집합으로 분류 replace=TRUE: 중복을 허용하여 난수 생성 prob=c(0.7, 0.3): 난수를 생성할 때 가중치를 부여

Ex.1: Decision Tree 생성 ctree() 함수: Decision Tree를 생성하는 함수

Ex.1: Decision Tree 생성 Decision Tree 플로팅

Ex.1: Decision Tree 생성 Decision Tree 플로팅

Ex.1: Decision Tree 생성 테스트 집합의 분류 예측 결과와 실제 데이터의 정확도 확인 predict() 함수: 미리 정의된 예측 모델을 사용하여 데이터를 분류하는 함수 예측 결과와 실제 데이터의 정확도 확인

The k-Nearest Neighbor Algorithm knn 알고리즘 (출처: 자바캔) 데이터를 분류하는데 유용하게 사용하는 알고리즘 주어진 훈련 집합의 레코드와 비교하여 가장 밀접한 k개의 레코드를 기반으로 새로운 데이터를 분류하는 알고리즘 밀접한 정도는 Euclidean distance를 사용하여 계산 k=4 일 경우 로맨스가 3개, 액션이 1개에서 나타나므로 ?는 로맨스로 분류 제목 발차기 키스 유형 ? 와의 거리 A 3 104 로맨스 20.5 B 2 100 18.7 C 1 81 19.2 D 101 10 액션 115.3 E 99 5 117.4 F 98 118.9 ? 18 90 (예측 대상) = (3−18) 2 + (104−90) 2 = (2−18) 2 + (100−90) 2 = (1−18) 2 + (81−90) 2 = (101−18) 2 + (10−90) 2 = (99−18) 2 + (5−90) 2 = (98−18) 2 + (2−90) 2

Example 2: Forensic Glass Datasets: 6 종류의 유리조각 214개 데이터 WinF: float glass window WinNF: non-float glass window Veh: vehicle window Con: container (bottles) Tabl: Tableware Head: vehicle headlamp 각 데이터는 다음의 속성을 가짐 RI: 굴절률(refractive index) Percentages of Na, Mg, Al, Si, K, Ca, Ba, and Fe type: 유리의 종류 # RI Na Mg Al Si K Ca Ba Fe type 1 3.01 13.64 4.49 1.1 71.78 0.06 8.75 WinF 2 -0.39 13.89 3.6 1.36 72.73 0.48 7.83 3 -1.82 13.53 3.55 1.54 72.99 0.39 7.78 4 -0.34 13.21 3.69 1.29 72.61 0.57 8.22 5 -0.58 13.27 3.62 1.24 73.08 0.55 8.07 6 -2.04 12.79 3.61 1.62 72.97 0.64 0.26 7 -0.57 13.3 1.14 73.09 0.58 8.17 8 -0.44 13.15 1.05 73.24 8.24 9 1.18 14.04 3.58 1.37 72.08 0.56 8.3  새로운 유리조각의 종류를 파악할 수 있을까?

Ex.2: 필수 패키지 설치 데이터 셋을 수집하기 위해, 관련 패키지 다운로드 다운로드 받은 패키지를 R에서 로딩 http://cran.r-project.org/web/packages/textir/index.html http://cran.r-project.org/web/packages/distrom/index.html http://cran.r-project.org/web/packages/gamlr/index.html 압축 해제 후, 설치 경로의 library 폴더로 이동 다운로드 받은 패키지를 R에서 로딩

Ex. 2: 데이터 확인 str() 함수: 데이터 프레임의 구조를 확인하는 함수 10개의 속성(RI, Percentages of elements, type) 214개 데이터

Ex. 2: Box plots (1/2) 다른 속성과 type간의 관계를 box plot으로 표현 par() 함수: 그래프의 공간을 배열 형태로 미리 할당 par(mfrow=c(3,3), mai=c(.3,.6,.1,.1)) plot(RI ~ type, data=fgl, col=c(grey(.2),2:6)) plot(Al ~ type, data=fgl, col=c(grey(.2),2:6)) plot(Na ~ type, data=fgl, col=c(grey(.2),2:6)) plot(Mg ~ type, data=fgl, col=c(grey(.2),2:6)) plot(Ba ~ type, data=fgl, col=c(grey(.2),2:6)) plot(Si ~ type, data=fgl, col=c(grey(.2),2:6)) plot(K ~ type, data=fgl, col=c(grey(.2),2:6)) plot(Ca ~ type, data=fgl, col=c(grey(.2),2:6)) plot(Fe ~ type, data=fgl, col=c(grey(.2),2:6))

Ex. 2: Box plots (2/2)

Ex. 2: RIxAl 기반 분류 훈련 집합(200개)과 테스트 집합(14개) 구분 nt 변수: 트레이닝 데이터의 수 sample(x, size, …) 함수: x 벡터에서 nt개의 난수 데이터 추출

Ex. 2: RIxAl 기반 분류 kNN 알고리즘 수행 및 결과 훈련 집합 테스트 집합 분류 대상

Ex. 2: RIxAl 기반 분류 kNN 알고리즘 결과를 plot plot() 함수로 훈련 집합을 표현 결과는 open symbol points() 함수로 테스트 집합을 표현 결과는 solid symbol

Ex. 2: RIxAl 기반 분류 kNN 알고리즘 결과의 성능 평가 kNN의 결과와 실제 type이 같은 경우의 확률을 계산 1NN은 78.6이며, 5NN은 71.4의 결과가 나타남 항상 같은 결과가 나타나지는 않음

과제 #4 유리 데이터 셋에 포함된 다른 속성들을 모두 사용하여 분류 제출 방법 앞의 예제는 RI와 Al만을 사용하여 분류함 과제는 RI 및 Percentages of Na, Mg, Al, Si, K, Ca, Ba, and Fe를 사용하여 분류 214개의 데이터에서 임의로 훈련 집합과 테스트 집합을 설정 분류한 결과(데이터 프레임)와 성능 평가까지 진행 제출 방법 과제는 ssw5176@kangwon.ac.kr로 제출 제목 양식: [학번][이름]HW#4 과제에서 설정한 훈련 및 테스트 집합과 분류한 결과 및 성능 평과 결과를 캡쳐 제출 기한은 다음 실습 수업시간 전까지이며, 그 후에 제출할 경우 20% 감점