2014년 가을학기 손시운 (ssw5175@kangwon.ac.kr) 지도 교수: 문양세 교수님 연관 규칙 2014년 가을학기 손시운 (ssw5175@kangwon.ac.kr) 지도 교수: 문양세 교수님.

Slides:



Advertisements
Similar presentations
10장. 시기별 학급경영 11조 염지수 이 슬 권용민 신해식.
Advertisements

일본 근세사. (1) 에도막부의 개창 ( ㄱ ) 세키가하라의 전투 (1600) - 히데요시의 사후 다섯 명의 다이로 ( 大老 ) 가운데 최대 영지 (250 만석 ) 를 보유하고 있던 도쿠가와 이에야스가 급부상. 이에 이에야스와 반목해 온 이시다 미쓰나리 ( 石田三成 ),
사회복지실천기술론 (5). 집단대상 사회복지 실천  집단의 정의 ( 공통적 요소 )  집단의 목적  집단의 분류  집단사회복지실천의 구성요소  집단사회복지의 발전  집단 역동성 이해 및 구성요소, 집단지도력  집단발달단계  집단사회복지실천과정의 실제.
아니마 / 아니무스 송문주 조아라. 아니마 아니마란 ? 남성의 마음속에 있는 여성적 심리 경향이 인격화 한 것. 막연한 느낌이나 기분, 예견적인 육감, 비합리적인 것에 대 한 감수성, 개인적인 사랑의 능력, 자연에 대한 감정, 그리.
대구가톨릭대학교 체육교육과 06 학번 영안중학교 체육교사 신웅섭 반갑습니다. 반야월초등학교 축구부 대륜중학교 축구부 대륜고등학교 대구가톨릭대학교 차석 입학 대구가톨릭대학교 수석 졸업 2014 년 경북중등임용 체육 차석 합격 영안중학교 체육교사 근무 소개.
어머니의 사랑 Sound on "M" 은 어머니가 주신 백만(million)가지 것들, "O" 는 어머니는 점점 나이가 들어(old) 가시는 것을 의미하고, "T" 는 나를 보호하기 위해 흘린 어머니의 눈물(tears)을, "H" 는 최고로 순결한 어머니의 마음(heart)을,
목 차 Ⅰ 제도 도입 배경 및 개요 내일채움공제 사업 안내 내일채움공제 연계 지원 사업 Ⅲ Ⅱ.
일장 - 1 일 24 시간 중의 명기 ( 낮 ) 의 길이 ( 밤은 암기, 낮은 명기 ) 광주기성 - 하루 중 낮의 길이의 장단에 따라 식물의 꽃눈 형성이 달라지는 현상 일장이 식물의 개화현상을 조절하는 중요한 요인 단일식물 - 단일조건에서 개화가 촉진되는 식물 장일식물.
분할 정복 결정 트리와 규칙을 사용한 분류에 따라. 결정 트리 : 나누어 정복하기  Supervised Learning Method  사전 데이터와 처리방법을 미리 학습 후, 새로 들어온 데이터를 이에 따라 처리 분류  C5.0 결정 트리 알고리즘  대표적 결정.
2 학년 6 반 1 조 고은수 구성현 권오제 김강서.  해당 언어에 본디부터 있던 말이나 그것에 기초하여 새로 만들어진 말  어떤 고장 고유의 독특한 말  Ex) 아버지, 어머니, 하늘, 땅.
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
제 11 장 유통정보시스템 구축을 위한 데이터베이스
드라마 스타일링.
1-1. 직무발명제도의 원리 종업원 사용자 특허출원 발명 및 발명자 특허를 받을 수 있는 권리 종업원 명의 특허출원 ?
주제 : 독거여성노인의 현황과 대책 학 과 학 번 성 명 사회복지학과 김 진 석
2014년도 교원 및 기간제교사 성과상여금 전달교육 개 회 국기에 대한 경례 - 인사말
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
Windows Programming 담당교수: 이상정 교수님 발표자 : 김인태 학번 :
선진 고양교육 “유아교육 행정 업무 연수” 유치원 회계실무 및 유아학비 연수 경기도고양교육청.
Seoul Medical Association
묵자 겸애, 비명, 비공, 상현, 상동, 천지, 명귀, 삼표 법.
교수 김진화 서강대학교 경영대학 경영을 위한 데이터마이닝의 활용 교수 김진화 서강대학교 경영대학
내 아이를 위한 구강관리.
14주차 1교시 강화계획 [학습목표] 1. 강화계획의 정의를 안다 [학습내용] 1. 단순한 강화계획 2. 간헐적 강화 3. 복합 계획 4. 선택과 대응법칙 [사전학습] 강화계획이 일어날 수 있는 사례를 생각해본다.
R 실행. 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
제16장 원무통계 • 분석 ☞ 통계란 특정의 사실을 일정한 기준에 의하여 숫자로 표시한 것을 말한다.통계로서 활용할 수 있는 조건으로는 ① 동질성을 지녀야 하고 ② 기준이 명확하고 ③ 계속성이 지속되어야 하며 ④ 숫자로 표시하여야 한다 경영실적의.
’12년도 QSB 정착 계획 (Quality System Basic)
연관분석 (Association).
데이터 마이닝 소개 Introduction to Data Mining
서울지방세무사회 부가세 교육 사진클릭-자료 다운 세무사 김재우.
치매의 예방 김 은민 윤금 노인요양원 치매의.
데이터마이닝의 소개 Data Mining Introduction
미래 예측 3가지 방법론.
롯데마트 CRM 데이터 분석 교육 2014년 12월 > RE::VISION 전용준 리비젼컨설팅 대표
3장 (2) 구문과 의미론 순천향대학교 컴퓨터공학과 하상호.
연관관계 분석을 통한 스마트폰과 기능의 융합 분석 서강대학교 경영전문대학원 노미정, 김진화, 이재범.
롯데마트 CRM 데이터 분석 교육 2014년 12월 > RE::VISION 전용준 리비젼컨설팅 대표
Data Mining.
제11장 채권포트폴리오의 관리.
“마음을 열고 진심으로 들어주세요” 경청의 기술 1. 몸을 틀어 주세요 !! 2. 눈을 봐 주세요!!
마산에 대하여 만든이 : 2204 김신우, 2202 권성헌.
R for Data Mining.
Data Mining Final Project
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
Chapter4. 연관성 분석.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
정보 추출기술 (Data Mining Techniques ) : An Overview
과거사 청산, 밝은 미래를 위하여 역사 청산 비교 분석-독일과 우리나라.
요한계시록 (2) 요한계시록의 7가지 중점사항 Rev 2-0.
스케줄링 (Scheduling) 시스템 내부시간(time in the system): 스케줄링 문제

어린이집.
2015년도 스마트공장 지원사업에 대한 사업비 타당성 평가
Challenging Issues 다양한 형태로 흩어져 있는 데이터를 어떻게 모으고 관리할 것 인가?
Data Analytics for Healthcare
6장 마케팅 조사 박소현, 김중호, 박기찬.
Chapter 4: 통계적 추정과 검정 Pilsung Kang
한밭대학교 창업경영대학원 회계정보학과 장 광 식
’12년도 QSB 정착 계획 (Quality System Basic)
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
타인을 내편으로 만드는 12가지 방법 고객서비스팀.
2015년 2학년 1반.
음양오행과 물리학 조 원 : 김용훈, 양범길, 박수진, 윤진희, 이경남, 박미옥, 박지선 (11조)
다문화 사회의 이해 배 상 훈 . 1. 한국사회의 다문화현상 2. 원인과 정책으로 살펴본 다문화 한국사회.
이야기 치료에 대하여 <8조 학문적 글쓰기 발표> 주희록 최은지
(Association Rules Mining)
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
지역사회복지론 지역사회복지의 실천원칙과 과정 사회복지행정학과 조원석 사회복지행정학과 정미숙.
일반대학원 사용자 매뉴얼(학생)
중국문학개론 한부와 겅건안문학 중어중국학과 ㅇ이진원 한부와 건안문학.
Presentation transcript:

2014년 가을학기 손시운 (ssw5175@kangwon.ac.kr) 지도 교수: 문양세 교수님 연관 규칙 2014년 가을학기 손시운 (ssw5175@kangwon.ac.kr) 지도 교수: 문양세 교수님

Basic of Association Rules 다른 데이터로부터 어떤 데이터의 발생을 예측하는 규칙 데이터 간의 연관성 및 상관 관계를 표현하는 규칙 𝐴⇒𝐵 (A와 B는 각각 데이터의 부분 집합) A를 lhs (left-hand side), B를 rhs (right-hand side)라 지칭 응용 사례 Market Basket Analysis Medical Diagnosis Protein Sequences Census Data

Basic of Association Rules 가장 빈번히 사용되는 measures: support, confidence, and lift Support: A와 B를 모두 포함하는 경우의 확률 support 𝐴⇒𝐵 =𝑃(𝐴∩𝐵) 클수록 관련도가 높음 e.g. 전체 쇼핑 상품 중, Diaper와 Beer를 함께 선택한 비율 Confidence: A를 포함하는 경우 중, B 또한 포함할 경우의 확률 confidence 𝐴⇒𝐵 =𝑃 𝐵 𝐴 = 𝑃(𝐴∩𝐵) 𝑃(𝐴) 결과 값이 A의 규모에 의존하므로 전체적인 분석은 어려움 e.g. Diaper를 선택한 경우 중, Beer를 함께 선택한 비율

Basic of Association Rules Lift: B에 대한 확률과 confidence의 비율 lift 𝐴⇒𝐵 = confidence(𝐴⇒𝐵) 𝑃(𝐵) = 𝑃(𝐴|𝐵) 𝑃(𝐵) = 𝑃(𝐴∩𝐵) 𝑃 𝐴 𝑃(𝐵) lift 𝐴⇒𝐵 >1: 클수록 관련도가 높음 lift 𝐴⇒𝐵 =1: 관련이 없음 0<lift 𝐴⇒𝐵 <1: A를 선택하면, 보통 B를 선택하지 않음 e.g. Diaper와 Beer의 confidence 값과 Beer를 선택한 확률의 비율 support 𝐷𝑖𝑎𝑝𝑒𝑟⇒𝐵𝑒𝑒𝑟 = 3 5 confidence 𝐷𝑖𝑎𝑝𝑒𝑟⇒𝐵𝑒𝑒𝑟 = 3 4 lift 𝐷𝑖𝑎𝑝𝑒𝑟⇒𝐵𝑒𝑒𝑟 = 5 4

연관 규칙 마이닝 패키지 설치 주어진 트랜잭션 집합으로부터, 연관 규칙을 찾는 작업 APRIORI 알고리즘 빈번한 데이터를 찾아 연관 규칙을 얻는 가장 기본적인 ARM 기법 http://cran.r-project.org/web/packages/arules/index.html에서 다운로드 압축 해제 후, arules 폴더를 R 설치 경로의 library 폴더로 이동 설치 시에 경로 변경이 없었다면 “C:\Program Files\R\R-3.1.1\library”

Association Rule Mining arules 패키지를 R에서 로딩

Example 1: Grocery Data에 대한 연관규칙 Datasets: 10 종류의 식료품 데이터 shopping bags, milk, vegetables, bread, soda, yogurt, water, tropical fruit, sausage, pastry 100개의 구매 결과 트랜잭션으로 구성 # Item 1 Item 2 Item 3 Item 4 Item 5 Item 6 Item 7 Item 8 Item 9 Item 10 1 yogurt water pastry shopping bags tropical fruit soda sausage 2 bread vegetables milk 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Ex 1. 데이터 로딩 read.transactions() 함수 arules 패키지 내에서 데이터는 트랜잭션으로 처리 파일로부터 트랜잭션 형태로 로딩하는 함수 inspect() 함수: 트랜잭션 데이터의 내용을 출력하는 함수

Ex 1. 연관 규칙 마이닝 적용 apriori() 함수: apriori 알고리즘이 구현되어있는 함수 함수 처리 과정 발견된 규칙의 개수

Ex 1. apriori() 함수 결과

Ex 1. Parameter 설정 발견된 규칙 중, 불필요한 결과가 포함됨 lhs 값이 비어있는 규칙이 존재 minlen = 2로 설정 너무 많은 규칙이 발견 supp = 0.3, conf = 0.9로 설정 함수 처리 과정 제거 verbose=F로 설정

Ex 1. 마이닝 결과 정렬 함수의 결과가 정렬되지 않아 가치있는 데이터의 식별이 어려움 quality() 함수: apriori() 함수의 결과에서 measure를 추출한 함수 round() 함수: 실수 데이터를 digits 인자 크기의 자리에서 반올림하는 함수 sort() 함수: 데이터를 by 인자 기준으로 정렬하는 함수

Ex 1. 정렬된 결과

Ex 1. 결과에 대한 분석 supp = 0.3, conf = 0.9일 때, 47개의 규칙이 발견 하지만 모든 규칙의 rhs는 shopping bags로 나타남 이는 shopping bags가 모든(대부분) 트랜잭션에서 나타나기 때문 confidence의 단점  이론 강의자료 p.38 참고 따라서 lift를 중심으로 마이닝 parameter를 supp = 0.2, conf = 0.8로 설정

Ex 1. 피드백 결과

Ex 1. 특정 데이터를 제외한 연관 규칙 마이닝 Shopping bags는 다른 데이터와 독립적이므로 연관 규칙에서 제외 none=“shopping bags”로 설정

Ex 1. 특정 데이터를 제외한 연관 규칙 마이닝

Ex 2. Titanic Data 연관 규칙 The Titanic Dataset 4차원 테이블로 구성: social class, sex, age, and survival 각 row는 한 사람을 의미 연관 규칙 마이닝을 위해, Raw 데이터를 재구조화 http://www.rdatamining.com/data에서 데이터셋 다운로드

Ex 2. Dataset 데이터셋 파일 경로 확인 R에서 데이터 셋 불러오기 파일 > 속성 다음 파일의 경로는 “C:\Users\Son\Desktop\titanic.raw.rdata” R에서 데이터 셋 불러오기 경로를 문자열로 취급하므로 Backslash(\) 기호를 두 개씩 사용

Ex 2. Dataset Titanic 데이터셋 구조 Titanic은 4차원 테이블로 구성 테이블은 다음 속성들을 포함 Class: 1st, 2nd, 3rd, Crew로 구성 Sex: Male, Female로 구성 Age: Child, Adult로 구성 Survived: No, Yes로 구성 4차원 테이블 각 속성 값

Ex 2. Dataset raw data를 데이터 프레임으로 변환 데이터 프레임으로 변환한 결과, 각 속성(class, sex, age, survived)이 나타낼 수 있는 경우의 수를 빈도수로 표현하는 구조임을 확인 알고리즘에 적용할 수 없으므로 데이터를 변경해야 함

Ex 2. Dataset 데이터 변경 titanic.raw는 행렬이므로 데이터 프레임으로 변경 cbind() 함수를 통해, 열 단위로 결합 rep() 함수는 각 열의 값을 Freq 속성값만큼 반복 titanic.raw는 행렬이므로 데이터 프레임으로 변경

Ex 2. Dataset 각 속성에 이름을 부여 데이터 확인

Ex 2. Association Rule Mining Titanic 데이터를 apriori() 함수에 적용 기본적으로 minsup=0.1, minconf=0.8로 설정

Ex 2. Association Rule Mining Titanic 데이터에서 발견된 rules

Ex 2. Association Rule Mining Titanic 데이터에서는 단지 생사여부에 대한 rule이 필요 rhs=c(“Survived=No”, “Survived=Yes”) 옵션을 추가 lhs에는 다른 모든 속성이 포함될 수 있음 default=“lhs” 옵션을 추가 lhs값이 비어있는 rule이 나타남 minlen=2 옵션을 추가 apriori() 함수의 처리 과정은 불필요 verbose=F 옵션을 추가

Ex 2. Association Rule Mining Interesting rules를 위해 옵션 설정 round() 함수를 통해, support, confidence, lift 값을 반올림 sort() 함수를 통해, lift를 기준으로 내림차순 정렬

Ex 2. Association Rule Mining Interesting rules

Ex 2. Removing Redundancy 앞서 나타난 rules 중, 일부는 다른 rule을 포함 이는 불필요한 중복이며, 제거(pruning)하여야 함 e.g. rule 1에서 2nd-class의 어린이들이 모두 구조되었다는 것을 확인할 수 있 으나 rule 2에서 2nd-class의 어린이에 대한 rule을 한번 더 표현함 rule 4, 7, 8 또한 rule 3, 6, 5의 중복

Ex 2. Removing Redundancy 중복을 제거한 결과

Ex 2. Interpreting Rules 데이터로부터 높은 lift의 rule을 찾기는 쉽지만, rule을 이해하기는 어려움 실제로 연관 규칙을 잘못 이해하는 경우가 많음 rules.pruned에는 어린이들에 대해 2nd-class의 정보만 표현 “2nd-class의 어린이가 다른 class에 비해 생존률이 높다”는 판단은 틀림 위 결과를 위해 각 class의 생사여부에 대한 마이닝을 진행

Ex 2. Interpreting Rules 각 class별 연관 규칙 마이닝 결과 rule1, 2를 통해 1st-class와 2nd-class의 어린이가 생존률이 같음 rule3, 4, 5에서 3rd-class의 어린이는 다른 class의 어른보다 생존률이 낮음

과제 #3 성별에 따른 생존률 분석 제출 방법 Titanic 데이터에는 성별과 생사여부에 대한 데이터가 포함됨 apriori() 함수를 통해 각 성별의 생존률을 분석 제출 방법 과제는 ssw5176@kangwon.ac.kr로 제출 제목 양식: [학번][이름]HW#3 함수 실행 과정(parameter 포함)과 ARM 결과를 캡쳐 제출 기한은 다음 실습 수업시간 전까지이며, 그 후에 제출할 경우 20% 감점