R for Data Mining.

Slides:



Advertisements
Similar presentations
언어의 자서전 소단원 (1) 단원. 언어의 특성 기호성 자의성 사회성 규칙성 창조성 역사성.
Advertisements

Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
1. Association rule analysis
[별첨] 특허 DB 구축 및 토픽 모델링 수행 과정 Flowchart, File List
IT Application Development Dept. Financial Team May 24, 2005
SAP QUERY SAP R/3 4.6C.
연관분석 (Association).
2014년 가을학기 손시운 지도 교수: 문양세 교수님 연관 규칙 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
커뮤니케이션 스킬 UP -전화매너- ..
분류 (Classification) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
제주지역대학 제주 새별오름 들불축제 지역 식생(植生) 변화 조사 연구
JDBC 프로그래밍 이수지 이동주 1.
CUDA Setting : Install & Compile
Delphi 2009의 언어 개선 박지훈.임프 2018년 11월 16일 금요일
Delivery and Routing of IP Packets
Information Technology
7장 : 캐시와 메모리.
데이터마이닝의 소개 Data Mining Introduction
미래 예측 3가지 방법론.
Progress Seminar 권순빈.
아파트관리비 청구서 이용 프로세스 안내 ㈜한국전산기술.
포항공과대학교 COMPUTER VISION LAB. 석박통합과정 여동훈
Word2Vec Tutorial 박 영택 숭실대학교.
CHAPTER 21 UNIVARIATE STATISTICS
DS020 오토마타형식언어 Chapter 6. Simplification of Context-Free Grammars and Normal Forms Exercises October 16, 2003.
ER-Win 사용 방법.
리눅스 라우터 (iii_lrp) 컴퓨터응용과학부 담당교수님 : 이상훈 마 의 호.
Chapter 2. Finite Automata Exercises
Cluster Analysis (군집 분석)
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
MINITAB for Six Sigma.
`위대한 게임의 탄생’ 감상문 th UPnL Workshop 김재찬.
어서와 C언어는 처음이지 제14장.
Data Mining Final Project
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
Linear Mixed Model을 이용한 분석 결과
Chapter4. 연관성 분석.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
정보 추출기술 (Data Mining Techniques ) : An Overview
Association between two measurement variables Correlation
Introduction to Programming Language
Course Guide - Algorithms and Practice -
27강 JAVA Collections - II - Map계열 컬렉션 클래스 살펴보기 - Set계열 컬렉션 클래스 살펴보기
Association between two measurement variables Correlation
파워포인터 활용 수영문화센터 전명복 만듦.
Progress Seminar 신희안.
Statistical inference I (통계적 추론)
McGraw-Hill Technology Education
Frequency distributions and Graphic presentation of data
-느라고 어제 왜 학교에 안 왔어요? 아파서 병원에 가느라고 못 왔어요 Sogang Korean 3B UNIT 6 “-느라고”
Text Mining (Parsing) with R
Operating System Multiple Access Chatting Program using Multithread
9강. 클래스 실전 학사 관리 프로그램 만들기 프로그래밍이란 결국 데이터를 효율적으로 관리하기 위한 공구
제 15 강 문자와 코드 shcho.pe.kr.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
의사결정지원시스템 6조 오나연 송혜정 신은수 오경석
천국 가는 길 천국 가는 길 ♧ 천국 가는 길 ♧ 1. 죄와 사망(지옥) 1) 사람의 3가지 공통점 - 죄인, 죽음, 심판
Analysis of Customer Behavior and Service Modeling Final Team Project
ER-관계 사상에 의한 관계데이터베이스 설계 충북대학교 구조시스템공학과 시스템공학연구실
(Ⅰ) 독서와 언어의 본질 언어의 본질 1 2 [고등 국어] – 독서와 문법 독서의 본질 (1) 독서의 특성
욕은 나의 삶을 망치는 나쁜 습관이다. '욕하면서 배우고 칭찬하며 닮아간다.'
리더 코딩 스토리 디자인 박찬준 이근영 박동현 박나영
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
創造經營 마케팅 (Creactive Marketing) 방법과 사례
Power Point 예제 디자인 적용 (서식) - (디자인적용) - (원하는 디자인 선택)
학부생 연구원 및 대학원생 모집 DataBio 연구실 (윤영미 교수님) 연구실 소개 연구 과제 모집 대상 혜택 모집 기간
Implementing SmartThings App Visualization tool
Presentation transcript:

R for Data Mining

1. Association rule analysis

1.1 Data preparation and set up Let "C:/Rtest“ contain "mydata_association.csv" Set up Rtest as default directory > setwd("c:/Rtest") ② Install and upload arules which has association rules > install.packages("arules") > library(arules) ③

> result <- read. transactions("mydata_association > result <- read.transactions("mydata_association.csv", format="basket", sep=", ") > result > summary(result) > image(result) ② ① Read data seperated by comma(,) and save it into result라는 ③ ④ Show column and row structure in result Show graph that has data in result에 Show result from analysis in result Transactions(Rows) Items(Columns)

2.2 Apply algorithm · · · · · ① ② ③ > as(result, "data.frame") > rules=apriori(result, parameter=list(supp=0.1, conf=0.1)) > inspect(rules) ① ② ③ Convert data in result to table structure Save output from result apriori analysis to rules - minimum support and confidence · · · · · · · ·

2.3 Analysis of output ② ① ③ ④ ⑤ > rules=apriori(result, parameter=list(supp=0.3, conf=0.1)) > inspect(rules) ② ① ③ ④ 실제 이번 슬라이드에서는 제대로 데이터가 나오지 않는군. 이 대목에서 트러블슈팅에 대해서 알려주도록 하자. 아니면, 이것이 실제 데이터 분석 프로젝트에 있어서 사전에 마트를 정말로 만들기 위한 하나의 파일럿으로 이렇게 돌려보아 이번 접근이 여의치 않다고 판단되면 다른 접근방법을 강구해야 하는 것이다 이를 테면, 군집을 나누지 말고 더 모집단 전체로 한다거나, 아니면, 시간적 구매순서가 반영된 연속규칙을 토대로 다시 트랜잭션을 만들어 해나가는 트러블슈팅이 분석에서는 중요하다는 것임. 산행하다 길이 여의치 않으면, 네비게이션으로 가다 길이 예상외로 막히면, 우히해서 가는것은 당연한 일. 답은 정해져 있지 않으며, 답을 찾아가는 과정자체가 바로 답인 것이며, 그 길은 하나가 아닌 여러 개라는 점이다. 대학원에서 가장 많이 하는 분석이 아마 요인분석일 것임. 잘 안묶이는 경우 다양한 이론을 토대로 다시 논리적 추론하여 변수를 넣다 뺐다 하게 되는데, 이게 다 같은 것임 ㅋㅋㅋ 이론대로 안묶이는 건 당연하다. 선행연구들의 컨택스트와 지금 나의 연구 컨택스트가 다르므로 같이 않을 가능성이 얼마나 있는 것이다. 이른바 외적타당성(시간적·공간적으로 연구결과의 반복가능성·신뢰성) ⑤

Code for association rule analysis with R ##### association analysis setwd("c:/Rtest") install.packages("arules") library(arules) result <- read.transactions("mydata_association.csv", format="basket", sep=",") result summary(result) image(result) as(result, "data.frame") rules=apriori(result, parameter=list(supp=0.1, conf=0.1)) inspect(rules) rules=apriori(result, parameter=list(supp=0.3, conf=0.1))

2. Decision Tree

2.1 Data preparation and set up ① Let "C:/Rtest" have "mydata_classification.csv"  using memo or excel, prepare data with name.csv로 Set up Rtest as default directory > setwd("c:/Rtest") ② Install party which has decision tree algorithm > install.packages("party") > library(party) ③

Read data > result <- read.csv("mydata_classification.csv", header=FALSE) > View(result) > install.packages("reshape") > library(reshape) > result <- rename(result, c(V1="total", V2="price", V3="period", V4="variety", V5="response")) ① ② ③ With mydata_classfication.csv, read Data and save it into result Install reshape Make each column unstandable with names total, price, period, variety, response

2.2 Decision tree algorithm > set.seed(1234) > resultsplit <- sample(2, nrow(result), replace=TRUE, prob=c(0.7, 0.3)) > trainD <- result[resultsplit==1,] > testD <- result[resultsplit==2,] > rawD <- response ~ total + price + period+ variety > trainModel <- ctree(rawD, data=trainD) ① ② ③ Generate random number when sampling Divide the data into two by the ratio of 7:3 n trainD(training data) testD(test data) Specify nr(no response), low(one) high(many) total price, period variety in response of result의 Specify model to use

2.3 Analysis ① > table(predict(trainModel), trainD$response) > print(trainModel) ① Classify values in response using trainModel Test data: 112 Price Period are important classification variables

2.4 visualization of decision tree > plot(trainModel) > plot(trainModel, type="simple") ① ② Show in tree form Show tree in simplified form

2.5 Test model > testModel <- predict(trainModel, newdata=testD) > table(testModel, testD$response) ① Test the model ② Test the model with test Model

Code for decision tree with R ##### classification analysis setwd("c:/Rtest") install.packages("party") library(party) result <- read.csv("mydata_classification.csv", header=FALSE) View(result) install.packages("reshape") library(reshape) result <- rename(result, c(V1="total", V2="price", V3="period", V4="variety", V5="response")) set.seed(1234) resultsplit <- sample(2, nrow(result), replace=TRUE, prob=c(0.7, 0.3)) trainD <- result[resultsplit==1,] testD <- result[resultsplit==2,] rawD <- response ~ total + price + period+ variety trainModel <- ctree(rawD, data=trainD) table(predict(trainModel), trainD$response) print(trainModel) plot(trainModel) plot(trainModel, type="simple") testModel <- predict(trainModel, newdata=testD) table(testModel, testD$response)