군집분석 (Cluster analysis)

Slides:



Advertisements
Similar presentations
채소야 놀자 : 브로콜리.  겨자과에 속하는 짙은 녹색채소로 ‘ 녹색 꽃양 배추 ’ 라고도 불립니다.  샐러드, 스프, 스튜 등 서양음식에 가장 많이 사용하는 채소 중 하나입니다.  구입 시, 송이가 단단하면서 가운데가 볼록 하게 솟아올라 있고 줄기를 잘라낸 단면이.
Advertisements

적화, 적과를 할 때 액화, 액과 따기의 중요성 前 이바라기현 과수협회장 구로다 야스마사.
3-4 주빈, 신예린 목차 탐구 동기와 탐구 일시 및 장소, 참고 자료 갯벌이란 ? 갯벌 탐사에 사용되는 도구 (1,2) 유명한 갯벌 ( 우리나라 ), 여러 갯벌 축제 갯벌이 만들어지는 조건 람사르 협약이란 ? 람사르 협약에 가입된 우리나라 생태지 밀물과 썰물 갯벌에.
산업시스템분석 임성수 차수길 장연식 주혜림 7조7조.
열왕기 상하는 중요하다 ! 왜 ? 시가 3 권 예언서 12 원 열왕기 상하는 중요하다 ! 대라느스 단겔학슥말.
구 분현존 무창계사 사육장 (1,000 평기준 ) 신개념 가금류사육장 (1,000 평기준 특허보유유럽에서 약 50 여년전 개발 2008 년 특허개발 ( 송백영농조합 ) 계사구조 별도 독립된 단층계사 500 평ⅹ 2 동 건축 많은 사육장면적 확보시 계사를 추가로 신축 500.
신안군농업기술센터. 면 적 : 1,058ha, 1,571 농가 전국 5,645ha 의 18.7% 노지채소 3,436ha 의 31% 생 산 량 : 9,522 톤 매 출 액 : 238 억원 시금치 재배현황 맛과 향이 뛰어나 “ 신안섬초 ” 최고급 명품 브랜드로 판매됨 “
응 급 처 치 법응 급 처 치 법 응 급 처 치 법응 급 처 치 법. 응급처치법 1) 현장조사, 의식확인, 연락 현장은 안전한가 조사한다. 119 나 응급의료기관에 연락한다. 발바닥을 간지럽히거나 가볍게 꼬집어 본다. 0 ~ 4 분 4 ~ 6 분 6 ~ 10 분 10.
트렁크 안에서 천정을 보았을 때 무늬와 같은 형태의 홈이 있습니다. 트렁크 실내등 트렁크 스프링 앞으로 볼링핀 모양 이라 부르겠 습니다.
Marketing Research 1  군집분석의 개념과 적용  군집분석 (cluster analysis) : 다수의 대상들 ( 소비자, 제품, 기타 ) 을 그들이 소유하는 특 성을 토대로 유사한 대상들끼리 그룹핑하는 다변량 통계기법 → 군집내의 구성원들은 가급 적.
한울농원.  1. 암 수 다른 나무이다.  2. 병충해가 없다.  3. 수명이 길다.  4. 체질이 강건하여 잘 자란다.  5. 가시가 길고 크다.  6. 가을에 붉은 열매를 수확한다.  7. 나무가 단단하고 잘 부러지지 않는 다.
도덕적 성찰 준거의 의미와 필요성을 이해할 수 있다. 학습 목표 올바른 도덕적 성찰의 준거를 설명할 수 있다.
과채류 ( 수 박 ) 발표자 : 농어업조사과 장 천 숙. 목 차 1 월별 작업 흐름 2 재배 방법 3 병충해 방지 4 수박의 효능.
여러가지 멸종위기 동물과 세계5대 희귀동물에대한 조사 5학년 1반 13번 이채원
경주 수학여행 6학년 5반 15번 유송연.
효과적인 금연법 산재의료관리원 동해병원 건강관리센타.
(2) 고대 국가의 성립  1) 고대 국가의 성격    ① 중앙 집권 체제      - 국왕의 지위 강화, 부족장 세력의 통합,
우리나라 전통의 무술, 태권도 5학년 8반 김유승.
2014년 7월 유라시아 셰익스피어 극단 연극햄릿 레어티스역활
자살 사례 분석 경영학과 백승용 경영학부 하수정 경영학부 이은옥
若者文化 김현주 이규혁 박현빈 전인성 임준형.
류현진 만든이:서주원.
2015 담당 강사 : 정세진 중국 명문 감상 2015 담당 강사 : 정세진
상처와 출혈 응급처치 한국산업안전공단.
Ⅴ. 건설 기술과 환경.
동북공정(東北工程) -고구려사를 중심으로
스타 보고서 서울 신화 초등학교 5학년 4반 김 지혜.
대포나 미사일이 없던 옛날에는 먼 거리에 있는 적의 성을 어떻게 공격했을까?
돼지가격 대표 기준 ‘탕박’변경 관련 설명자료
학습 주제 p 용해도 차이로 물질 분리하기.
데이터 마이닝을 이용한 분류 분석.
취업/자기계발동아리 참가자 오리엔테이션 전남대학교 사회과학대학.
이리신광교회 건축관련보고 문준태 익산시노인종합복지관장.
인류의 분산 언어의 대 혼잡시기 창조,타락 홍수 바벨탑사건 아브라함 모세 BC 고조선 하/은/주 (창 11:7,9) 『[7] 자, 우리가.
에너지 운동량 방법: 일과 에너지법칙 1. 상자들이 초기속도 vo로 컨베이어 벨트로 운반되어 A에서 미끄러져서 B에서 떨어진다. μk= 0.40이고, 상자가 2.4m/s로 B점에서 떨어질 때 컨베이어 벨트의 속도를 구하라.
군집분석: 비지도 학습 효율적 군집분석 급내 (intra-class) 유사성이 높고
Cluster Analysis (군집 분석)
도덕 1학년 1학기 2. 개성신장과 인격 도야:인물학습 석가모니 인물학습 -석가모니.
제 11장 교락법과 일부실시법.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 군집 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
유독물 및 취급제한∙금지물질 관리자 교육 취급시설별 관리기준 2014 한강유역환경청 화학물질관리과.
학습 주제 p 탄성력에 의한 위치 에너지.
발의 12경맥과 경혈.
[Measure of Association]
고유가 시대 난방비 극복을 위한 원적외선 복사열 전기 바닥난방 제안서
쿰란 쿰란 와디 항공촬영 .
3.2 학교수학의 목표 수 학 과 신 원 경.
1. 아나운서 2. 기상캐스터 3. 스포츠캐스터 4. 쇼호스트 5. 1인 미디어 6. MC리포터 7. E스포츠캐스터 중 선택
피부의 구조와 기능 피부로 읽는다. 피부의 감각점 피부 감각점의 분포와 자극의 민감도.
독립성금증(χ2)-교차표 분석 수집된 자료가 명목척도로 측정된 경우 두 변수의 관계를 조사하는 통계기법으로 χ2독립성 검증(chi-square independence test)이 있다. 예를 들어, 특정 속성에 대하여 집단별로 어떤 차이가 있는지를 알아보기 위해서 사용하는.
정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
김은영 수줍은 자기소개서☞☜.
멸종위기동물 5-1 이채원.
태양의 크기 지구, 달, 태양 누가 가장 클까? 태양의 크기 측정 지구, 달, 태양의 크기 비교.
P 탄성력과 마찰력 생각열기 – 높이뛰기 세계 신기록은 약 240cm 인데, 장대높이뛰기 세계 신기록은 약 620cm 이다. 이렇게 차이가 나는 까닭은? ( 높이뛰기는 다리의 근육의 힘으로 뛰는 반면 장대높이 뛰기는 장대의 탄성력을 이용하기 때문이다.)
외부비계(강관비계) 설치 조립도.
악취저감 / 친환경 축산(농장)을 위한 시험보고서
가을에 만날 수 있는 곤충.
1월 교회학교 진급예배 및 성탄절 음악예배 찬 양 기 도 교 회 소 식 특 순 성 경 봉 독 말 씀 찬 양 축 도 인 도 자
4분의 기적, 심폐소생술 1.
제3주 식이요법과 체중관리 건강생활.
뜨거운 햇살을 받으며 양 손에 도시락 두 개를 들고, 콧 노래를 부르며, 시골 길을 걷고 있는 한 아이가 있었어요
상차림과 식사 예절.
주유취급소 마) 설치위치 고정주유설비 : 도로경계선 - 4m 부지경계선,담,건축물 벽 - 2m(개구부 없는 벽1m)
Ⅲ. 선로전환기 청소 근거규정 및 점검요령.
내 손으로 만드는 ‘굴절 망원경’
세포는 어떻게 분열할까? 학습 주제 <들어가기> 양파를 물이 담긴 유리컵에 기르면 뿌리가
근골격계 질환 예방교육.
2012년 9월 16일 바벨탑 사건과 셈의 후손들의 족보 ▣말씀:창세기 11:1-32 예 수 복 된 교 회.
아프타성 구내염- 환자 교육용.
Presentation transcript:

군집분석 (Cluster analysis) 과목명:조사방법론 담당교수:김동건 학번:20090109 이름:김태희

차례 1.군집분석의 개념 및 목적 2.군집분석의 절차 3.군집분석 방법 4.군집분석의 예 5.군집분석의 고려사항 (1)거리 및 자료형태의 종류 (2)군집화 방법 (3)계층적 군집화 방법 (4)비계층적 군집화 방법 4.군집분석의 예 5.군집분석의 고려사항

1.군집분석의 개념 및 목적 군집분석은 대상(개체 혹은 변수)들이 지니고 있는 다양한 이질적인 특성을 유사성(similarity)을 바탕으로 동질적인 집 단으로 묶어 주는 방법으로서, 대상들의 명확한 분류기준이 존재하지 않거나 밝혀지지 않은 상태에서 유용하게 이용될 수 있는 방법이다. 따라서 군집분석은 1.유사성의 측정방법, 2. 군집화 방법의 두 가지가 가장 핵심적인 과제가 된다 개체들에 대한 군집의 개수, 내용 ,구조 등이 사전에 정의되 지 않은 상황하에서 군집의 구성됨을 개체 사이의 유사성에 근거하여 식별함으로써 전체 다변량 자료의 구조를 파악하 고, 군집의 형성과정과 그 특성 그리고 식별된 군집간의 관 계 등을 체계적으로 연구 분석하는 과정의 총체를 군집분석 의 목적이라 할 수 있다.

1.군집분석의 개념 및 목적 각 대상들이 얼마나 비슷한가의 정도를 나타내는 유사성의 척도. 각 대상들이 얼마나 비슷한가의 정도를 나타내는 유사성의 척도. 조사자가 모든 대상들간의 유사성에 대 하여 측정을 하였다고 해서 군집화가 되 는 것은 아니다. 대상들의 군집화가 끝난 후 연구자는 군 집화된 결과가 어떤 의미를 갖는지 알아 야 하며, 또한 어떻게 각 군집의 명칭을 부여하고 그 집단의 특성을 파악해야 하 는지에 대해 알아야 한다.

2.군집분석의 절차 연 구 목 적 분 석 대 상 분석방법결정 자료형태결정 계층적 군집화 비계층적 군집화 거 리 결 합 방 법 거 리 결 합 방 법 결 과 해 석

2.군집분석의 절차 1.계층적 군집방법: 병합적(agglomerative)방법과 분할적(division)방법이 있다. 병합적 방법은 가까운 개체들끼리 묶어감으로써 군집을 만들어 가는 방법이며, 분할적 방법은 반대로 먼 개체들을 나누어 가는 방법이다 (1)병합적 방법 (agglomerative) A. 최단 연결법(single linkage method) B. 최장 연결법(complete linkage method) C. 평균 연결법(average linkage method) D. 중심 연결법(centroid linkage method) E. 중위수 연결법(Median Linkage Method) F. 와드의 방법(ward's method) (2)분할적 방법 (division) 먼저 N개의 개체를 2개의 군집으로 나누는 것으로부터 시작되어 병합 적인 방법의 역순으로 진행된다. 군집들이 병합 또는 분리되는 과정은 나무모양그림(dendrogram)을 이용하여 간단히 표현될 수 있다.

2.군집분석의 절차 2.비계층적 군집방법 (Non-Hierarchical Clustering Method): 최적분리 군집방법(k-Means Clustering)은 계층적인 방법으로 군집을 형성하지 않고 관찰값들을 몇개의 군집으로 구분시키는 형태를 택하고 있다. ( 최종군집의 수와 시작점을 미리 지정해주어야 한다.)

3.군집분석의 방법 1.거리 및 자료 형태의 종류 측정자 자료 측정 대상 등간척도 빈도 이분자료 유사성 비유사성 Pearson 상관계수 Rusell & Rao measure Simple Matching measure Jaccard measure Dice measure 비유사성 유클라디안 거리 민코스키 거리 도시블럭 거리 Chi-square 거리 Phi-square 거리

3.군집분석의 방법 유사성: 값이 클수록 두 대상간의 거리가 가까움 을 의미, 값이 작을수록 거리가 멀다는 것을 의미 비 유사성: 두 대상 사이의 떨어진 정도를 나타내므로 값이 클수록 서로 거리가 멀다는 것을 나타 내고 작을수록 거리가 가까움을 의미.

dAB=   (Ai –Bi) ²¹² 3.군집분석의 방법 (1).유클라디안 거리(Euclidean distance): 임의의 두거리의 최단거리를 의미하며 구하는 공식은 다음과 같다 dAB=  Ai -Bi i dAB : 대상 A와 B간의 거리 Ai :대상 A의 I 번째 변수의 측정치 Bi :대상 B의 I 번째 변수의 측정치 n: 변수의 수, 혹은 차원의 수 dAB=   (Ai –Bi) ²¹²

3.군집분석의 방법 (2)도시 블록 거리(City-block distance): 임의의 지정 A와 B를 생각했을 때 A에서B로 직선거리가 아닌 평면상에서 정해진 길을 따 라 이동했을 때의 거리를 의미하는 것. B 구하는 공식은 다음과 같다. A

dAB=   |Ai –Bi|  3.군집 분석의 방법 (3)민코스키 거리(Minkowski distance): 비 유사성을 나타내는 거리의 일반형 구하는 공식은 다음과 같다 dAB=   |Ai –Bi|  1/P

3.군집 분석의 방법 계층적 군집화 방법: (1). 최단 연결법(single linkage method) (2). 최장 연결법(complete linkage method) (3). 평균 연결법(average linkage method) (4). 중심 연결법(centroid linkage method) (5). 중위수 연결법(Median Linkage Method (6). 와드의 방법(ward's method)

3.군집 분석의 방법 (1). 최단 연결법(single linkage method): 두 군집 사이의 거리를 각 군집에 속하는 임의의 두 개 체들 사이의 거리 중 최단거리로 정의된 각 개체를 가장 유사성이 큰 군집으로 묶어 나가는 방법이다. 이러한 최단 연결법은 수리적인 면이 매우 우수하며, 이에 따라 컴퓨터 처리 시간이 비교적 빠르다. 또한 자료에 대한 단조변환에 대하여 나무구조가 불변하 기 때문에 순서적 의미를 갖는 자료에 대하여 좋은 결과를 제공한다. 그러나 두 군집이 몇 개의 개체들로 연결된 ‘고리현상’이 있을 경우 부적절한 결과를 낳게된다.

3.군집분석의 방법 (2). 최장 연결법(complete linkage method): 두 군집와사이의 거리를 각 군집에 속하는 임의의 두 개체들 사이의 거리 중 최장거리 로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법이다. 이와 같은 최장 연결법은 앞의 최단연결법과는 대조적인 관계가 있다. 일반적으로, 최단 연결법이 고립된 군집을 찾는데 유용하다면, 최장 연결 법은 군집들의 응집성에 중점을 둔다.

3.군집분석의 방법 (3). 평균 연결법(average linkage method): 두 군집과 사이의 거리를 각 군집에 속하는 모든 개체들의 평균거리로 정의하여 가장 유사성이 큰 군집을 묶어 나가는 방법이다.

3.군집분석의 방법 (4). 중심 연결법(centroid linkage method): 두 군집의 중심점과 군집의 중심점 사이의 거리를 두 군집 사이의 거리로 정의하여 가 장 유사성이 큰 군집을 묶어 나가는 방법이 다.

3.군집분석의 방법 (5). 중위수 연결법(Median Linkage Method): 두 군집 와 사이의 거리 를 각 군집에 속하는 임의 의 두 개체들 평균을 합하여 2로 나눈 값(군집의 크기를 고려하지 않은 단순평균)을 근간으로 정의 하여 가장 유사성이 큰 군집을 묶어 나가는 방법이다.

3.군집분석의 방법 (6). 와드의 방법(ward's method): 단순한 거리기준이 아닌, 구성 가능한 군집 들 모두에 대해서 그 군집을 구성하는 대상 들의 측정치와 분산을 기준으로 사용하는 방 법.

3.군집분석의 방법 비계층적 군집화 방법: K-means 방법 구하고자 하는 군집의 수를 정한 상태에서 설정된 군집의 중심에 가장 가까운 개체를 하나씩 포함해가는 방식으로 군집을 형성하는 방법   분석자가 적절한 수준의 군집 수를 미리 정하고, 군집대상의 분 포에 따라 군집의 초기값을 설정하여 주면, 그 초기값에서 가장 가까운 거리에 있는 대상을 하나씩 더해가는 식으로 군집화해 가는 방법. 많은 자료를 빠르고 쉽게 분류할 수 있으나 군집의 수를 미리 정해 주어야 하고 군집을 형성하기 위한 초기값에 따라 군집결과가 달라지는 단점이 있음.

4.군집분석의 예 단일기준결합방식 가장 가까운 대상을 군집화시키는 방법 최소 거리기준 A BC D E A BC D E 예)에서 제일 가장 가까운 거리를 나타내는 대상은 B와 C이므로 (BC)가 제일 먼저 하나의 군집이 됨

4.군집분석의 예 단일기준결합방식 A BC D E A BC 3.0 D 6.5 2.5 E 8.0 4.0 1.5 1단계 B와 X간의 거리와 C와X간의 거리 중 최소거리는 (BC) 와 D간의 거리는 2.5가 됨 2단계 가장 가까운 단계 (DE)간의 1.5 A BC DE BC 3.0 DE 6.5 2.5 최종단계 (BC)와 (DE)간의 거리 2.5 가장 가까운 단계 A와 B간 거리 3과 A와 C간 거리 4의 평균 3.5 A BCDE BCDE 3.0

4.군집분석의 예 완전기준결합방식 근본적으로 가장 가까운 거리의 대상을 군집화시킨다는 점에서 단일기준결합방식과 동일하다. 근본적으로 가장 가까운 거리의 대상을 군집화시킨다는 점에서 단일기준결합방식과 동일하다. 제2단계에서는 최장거리기준으로 사용함. A E BC D E A BC D

4.군집분석의 예 완전기준결합방식 A BC D E A BC 4.0 D 6.5 3.5 E 8.0 5.0 1.5 1단계 DE간의 거리 1.5가 가장 가깝다. A BC DE BC 4.0 DE 8.0 5.0 2단계 가장 가까운 BC와 A간의 거리4 ABC DE ABC DE

4.군집분석의 예 와드의 방법(ward's method) 구성 가능한 군집들 모두에 대해서 그 군집을 구성하고 대상들의 측정치의 분산을 기준으로 사용 구성 가능한 모든 군집들에 대해 이러한 분산을 비교해서 가장 작은 값을 나타내는 쌍을 군집화 함

5.군집분석의 고려사항 1)군집분석에 사용하는 군집화 변수의 특징 일반적으로 분석에 사용되는 변수의 질과 획득비용은 서로 반비례, 따라서 연구자는 연구환경과 연구목적, 그리고 비용을 고려하여 적절하나 군집화 변수를 선정 하여 사용하는 것이 필요하다.

5.군집분석의 고려사항 2)군집분석과 요인분석 비교 요인분석: 군집분석: 요인분석: 군집분석: a.변수열을 대상으로 함 a.레코드(행)을 대상으로 함 b.변수간의 상관관계 정보를 사용함 b.거리정보를 이용함 c.여러 변수들을 묶어 요인을 형성함 c.응답자 군집을 형성 d.통계적인 분석 d.수리적인 분석 X1(변수) X2(변수) X3(변수) x4(변수) 1(레코드) 2(레코드) 3(레코드) 4(레코드)

5.군집분석의 고려사항 3) 군집화에 사용할 변수의 표준화에 대한 고찰 일반적으로 군집분석에 사용하는 모든 변수는 표준화해서 사용해야 한다. 변수를 표준화 한다 = 변수의 단위를 표준편차단위로 바꾸는 것 Ex)몸무게 g를 kg로, 키 mm를 cm로

5.군집분석의 고려사항 4) 군집 수에 대한 결정 군집의 수에 대한 결정은 표본을 추출해서라도 계층적 군집분석을 일차적으로 수행하여 얻은 덴 다이어그램 을 이용하여 판단하는 것이 바람직하다. 5) 군집분석에서 사용되는 변수의 척도 일반적으로 거리 측정에 사용할 수 있는 변수이어야 한다. 따라서 등간 척도나 비율척도로 측정된 변수이어 야 한다.

5.군집분석의 고려사항 6) 군집분석에 사용되는 변수와 변수의 가중치 변수를 표준화하여 사용하지 않을 경우에는 변수 의 분산 정도에 따라 가중치가 자동적으로 다르게 책정될 수 있으나 변수를 표준화하여 사용할 경우 변수들의 가중치는 모두 일정하게 된다. 따라서 연구자는 변수의 선정뿐만 아니라 표준화 및 명목변수 사용에 대한 결정에 신중해야 한다

제가 준비한 것은 여기까지 입니다. 감사합니다^^