R 분석 모델 선택, k-means 알고리즘. 분석 모델 선택 문제 해결을 위한 모델 선택 분류 문제 클러스터링 그룹화 vs 예측 문제 모델의 성능을 어떻게 평가할 것인가 최소한 널 (null) 모델보다는 성능이 좋아야 한다.

Slides:



Advertisements
Similar presentations
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
Advertisements

1. 2 차원 배열  배열은 동일한 데이터 유형으로 여러 개의 변수를 사용할 경우 같은 이 름으로 지정하여 간편하게 사용할 수 있도록 하는 것으로서 앞에서 1 차원 배열을 공부하였습니다.  2 차원 배열은 바둑판을 생각하면 되며, 1 차원 배열에서 사용하는 첨자를 2.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
컴퓨터와 인터넷.
재료수치해석 HW # 박재혁.
제 7 장 함수 사용을 통해 엑셀 정복하기.
되추적(Backtracking).
연결리스트(linked list).
컴퓨터 프로그래밍 기초 [Final] 기말고사
Windows Server 장. 사고를 대비한 데이터 백업.
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
제 14장 Multicast & Broadcast
6장 그룹 함수.
07 그룹 함수 그룹 함수의 개념 그룹 함수의 종류 데이터 그룹 생성 HAVING 절.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
DK-128 ADC 실습 아이티즌 기술연구소
Missing Value.
KIM HEESANG PL/SQL 2 KIM HEESANG
11장. 1차원 배열.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
자바 5.0 프로그래밍.
프로그래밍 개요
박성진 컴퓨터 프로그래밍 기초 [09] 배열 part 1 박성진
군집 분석.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
ROC curve Receiver-Operating Characteristic curve.
뇌를 자극하는 Windows Server 2012 R2
24장. 파일 입출력.
시뮬레이션 기반 가상 보조기구 알고리즘 최적화
논리회로 설계 및 실험 5주차.
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
Decision Tree & Ensemble methods
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
메모리 타입 분석을 통한 안전하고 효율적인 메모리 재사용
5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
Clustering Algorithm KUT Youn-Hee Han.
리스트(List)를 이용한 자료 관리 이점숙 /
VHDL를 이용한 DES 설계 정보통신컴퓨터공학부 5조 김인옥, 백미숙
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 2. 연립부등식의 영역 (3/5) 부등식 영역 수업계획 수업활동.
알고리즘 알고리즘이란 무엇인가?.
데이터 동적 할당 Collection class.
디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승
ITQ 정보기술자격 국가공인 Excel 2007 Ⅱ 함수- 15회차 강사 : 박영민.
모션 캡쳐와 3D-MAX를 활용한 컴퓨터 애니메이션
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
에어 PHP 입문.
문서 클러스터링 일본언어문화학과 서동진.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter 1 단위, 물리량, 벡터.
Support Vector Machine
Chapter 10 데이터 검색1.
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
상관계수.
7. 힘과 운동 속력이 변하지 않는 운동.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
프로그래밍 개론 Ⅰ-실습 2장 데이터와 식①.
수치해석 ch3 환경공학과 김지숙.
29장. 템플릿과 STL 01_ 템플릿 02_ STL.
어서와 C언어는 처음이지 제21장.
아날로그 신호를 디지털 신호로 변환하는 A/D 변환기 A/D 변환 시 고려하여 할 샘플링 주파수 D/A 변환기
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
문제의 답안 잘 생각해 보시기 바랍니다..
C++ Espresso 제15장 STL 알고리즘.
6 객체.
Text Clustering G 조한얼.
Presentation transcript:

R 분석 모델 선택, k-means 알고리즘

분석 모델 선택 문제 해결을 위한 모델 선택 분류 문제 클러스터링 그룹화 vs 예측 문제 모델의 성능을 어떻게 평가할 것인가 최소한 널 (null) 모델보다는 성능이 좋아야 한다

고려사항 성능 편리성 해석 용이성 고객이 이해할 수 있어야 한다 문제가 해결이 안될 경우 모델이 문제가 없는지 확인 모델 설정의 가설이 문제가 없는가 모델이 문제가 없다면 데이터의 선택에 문제가 있는가 문제의 정의가 잘못되었는가 – 해결 불가능

알고리즘의 동작 속도 모델의 정확도 알고리즘 처리 속도 제한 시간 내에 결과를 얻어야 한다 예 ) 알파고의 효율적인 망 (network) 사용 전략 SL 정책망 : 정확도 57.0 %, 속도 3ms, 다음 착수점 후보를 선별하는데 사용 롤아웃 정책망 : 정확도 24.2%, 속도 2us, 게임을 끝까지 빠르게 시뮬레이션 하여 승률을 예측하는데 사용

무작위 추출 모델 데이터를 무작위로 추출하여 각각 A/B 로 구분 A/B 방식의 차이점을 순수하게 비교 가능함 A/B 모델을 각각 다른 고객에게 서비스하여 어느 쪽이 더 좋은지 를 선택 각 모델을 어떤 고객에게 적용해야 효과적일지 결정해야 한다.

K-means 알고리즘 클러스터링을 수행 각 그룹 내에 들어 있는 항목들 간의 거리는 작고, 서로 다른 그룹들간에 들 어 있는 항목들 간의 거리는 가능한 멀게 나눈다 동작 원리 1. 나눌 클러스터의 개수인 k 값을 정한다. 2. 변수 공간 상에 임의의 k 개의 초기 지점을 정한다. K 의 위치를 클러스터 중점이라 고 한다. 반복 클러스터 중점에서 가까운 항목들을 그룹화한다. 각 클러스터 항목들의 위치의 평균을 구해서 이를 새로운 클러스터 중점으로 변경한다.

K-means 알고리즘 동작 원리 (3,4 번째 작업을 반복 )

데이터 클러스터링 예제 1

>sample2d <-read.csv("sample2d.csv") >idx<-sample(1:dim(sample2d)[1],8) dim( 변수 ) : 변수의 사이즈 구하기, (8 행 3 열이라면 8, 3 리턴 ) dim( 변수 )[ 열 ] : 변수의 열 사이즈 구하기, (8 행 3 열이라면 8 리턴 ) sample( 최소값 : 최대값, 갯수 ) : 최소 ~ 최대값 의 랜덤값을 개수만큼 리턴 [1] ( 랜덤결과 ) >kSample<-sample2d[idx, ] sample2d 를 idx 순서대로 정렬 >kSample$name<-NULL 컬럼을 제거한다

데이터 클러스터링 예제 1 d<-dist(kSample, method="euclidean") hc<-hclust(d) plot(hc,hang=- 1,labels=kSample$name[idx],xlim=c(0,10))

데이터 클러스터링 예제 1 >k<-kmeans(kSample,4) >plot(kSample, pch = k$cluster) kmeans( 데이터, k) : 데이터를 k 개로 클러스터링한다.

데이터 클러스터링 예제 2 - 야구선수 메이저리그 야구선수의 나이와 몸무게의 관계를 비교해보자 SOCR Data Records of Heights (in) and Weights (lbs) of Major League Baseball Players 1033 명SOCR Data (Statistics Online Computational Resource: SOCR) 주의 : 데이터가 하나라도 비어 있으면 에러 발생 NA/NaN/Inf in foreign function call (arg 1)

데이터 클러스터링 예제 2 - 야구선수 baseballPlayer <-read.csv ("C:\\baseballPlayer.csv") baseballPlayer$Team <-NULL (z-score 정규화를 위해 숫자가 아닌 컬럼을 제거합니다 ) baseballPlayer$Name <-NULL baseballPlayer$Position <-NULL baseballPlayer$Height <-NULL baseballPlayer_z<-as.data.frame(lapply(baseballPlayer, scale)) cluster1<-kmeans(baseballPlayer_z,2) plot(baseballPlayer_z$Age,baseballPlayer_z$Weight,pch=cluster1$cluster)

나이와 몸무게 X 젊은 선수들 주축 데이터 클러스터링 예제 2 - 야구선수

데이터 클러스터링 예제 3 – 자동차 연비 자동차를 연비, 중량, 배기량, 실린더 수를 기준으로 클러스터링하기

데이터 클러스터링 예제 3 – 자동차 연비 fuel <-read.csv("C:\\FuelEfficiency.csv"); fuel_z<-as.data.frame(lapply(fuel, scale)) (z-score 정규화 ) fuel_clusters<-kmeans(fuel_z,3) plot(fuel$WT,fuel$DIS, +pch=fuel_clusters$cluster)