정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용

정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
A Hybrid Clustering Technique for Processing Large Data (대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법) 정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용

대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법
서론 Clustering 입력 데이터 집합을 유사한 관찰 값들의 군집들로 구분하여 데이터 집합 속에 존재하는 의미 있는 정보를 얻는 과정 군집 내의 유사성은 최대화, 군집들간 유사성은 최소화 되도록 데이터 집합을 분할 전통적인 계층적 클러스터링 방법의 한계 적은 양의 데이터 집합 처리에 적합 제한된 리소스와 부족한 효율성으로 인해 대용량 데이터 집합을 다루기에 곤란 비슷한 크기를 갖는 구(sphere)형의 군집들로 데이터를 나누는 경향 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법 PPC
서론 PPC (Pre-Post Clustering) 기법 제안 대부분의 계층적 클러스터링의 한계를 극복하고, 대용량의 데이터에 존재하는 다양한 모양의 군집을 효율적으로 발견할 수 있는 기법 필요 대용량 데이터 처리를 위한 하이브리드형 신경망 클러스터링 기법 인공지능적 방법 전처리 클러스터링 과정으로서 데이터를 요약 초기의 소 군집을 발견하기 위한 단계 대용량의 데이터에 효율적으로 적용할 수 있는 자기조직화지도(SOM : Self-organizing Map)를 이용 통계적 방법 클러스터의 내부적 특징을 나타내는 응집거리 클러스터간의 외부적 거리를 나타내는 인접거리 응집거리, 인접거리에 따른 유사도 측정 및 클러스터링 다양한 형태의 군집을 발견할 수 있는 계층적 클러스터링을 이용 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법 PPC

관련 연구 : 분할적 클러스터링 분할적 클러스터링 (Partitioning clustering) K-means Centroid, Euclidean distance 군집이 구(sphere) 형태를 갖고 있어야 효율이 좋음 K-means 한계 극복 - 많은 클러스터 사용 DBSCAN (Density-Based Spatial Clustering of Applications with Noise) is a data clustering algorithm proposed by Martin Ester, Hans-Peter Kriegel, Jörg Sander and Xiaowei Xu in 1996 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 계층적 클러스터링 계층적 클러스터링 (Hierarchical clustering) 계층 트리로 조직되는 중첩 클러스터들 생성 Dendrogram으로 표시 Agglomerative, Divisive Proximity matrix 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 인공 신경망 모델 인간 뇌의 신경망 구조를 모델링 인간의 뇌 수많은 뉴런들이 거미줄처럼 연결되어 있는 신경망 구조 인공 신경망 (Artificial Neural Network) 인간의 지능 학습능력 의사결정능력 학습 방법 교사 학습 (Supervised learning) 비 교사 학습 (Unsupervised learning) 강화 학습 (Reinforcement learning) 기타 인공신경망은 시냅스의 결합으로 네트워크를 형성한 인공 뉴런(노드)이 학습을 통해 시냅스의 결합 세기를 변화시켜, 문제 해결 능력을 가지는 모델 전반을 가리킨다. 교사 신호(정답)의 입력에 의해서 문제에 최적화되어 가는 교사 학습과 교사 신호를 필요로 하지 않는 비 교사 학습이 있다. 명확한 해답이 있는 경우에는 교사 학습이, 데이터 클러스터링에는 비 교사 학습이 이용된다. 결과적으로 모두 차원을 줄이기 위해, 화상이나 통계 등 다차원량의 데이터로, 선형 분리 불가능한 문제에 대해서, 비교적 작은 계산량으로 양호한 회답을 얻을 수 있는 것이 많다. 그 때문에, 패턴 인식이나 데이터 마이닝 등, 다양한 분야에서 응용되고 있다 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 인공 신경망의 구조와 종류 피드포워드 신경망 (a) 단층 피드포워드 신경망 (b) 다층 피드포워드 신경망 피드포워드 신경망 중에서 가장 많이 쓰이는 다층 인식자(multilayer perceptrons, MLP)는 뉴런들이 층을 이루면서 배열된 구조를 지니며, 그 층들 사이에는 한 방향으로의 연결만 존재 Feedforward Control 은 사건 발생이전에 제어를 Feedback Control 은 사건 발생이후에 제어를 한다는 큰 차이점을 가지고 있다. ① Feedback Control : Feedback Control 이란 공정 (Process) 의 출력 (대체로 압력, 온도, 농도 등임) 을 측정하여 그것을 바탕으로 제어의 출력 (전력, 열량, 회전속도, 밸브의 여는 정도) 을 계산하여 이것을 공정의 입력 (Controlled Output(Variable), or Manipulated Variable) 으로 넣어주는 제어기법을 말한다. ② Feedforward Control : Feedforward Control이란 공정 (Process) 의 외란 (Disturbance) 을 측정하여 그것이 앞으로 공정에 어떤 영향을 가져올 것인가의 예측을 통해 제어의 출력을 계산하는 제어기법을 말한다 (PID (Proportional Integral Derivative) 제어기) 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 인공 신경망의 구조와 종류 (계속) 회귀 신경망 (a) 경쟁 신경망 (b) 자기조직화지도 (SOM : Self-organizing Map) (c) Hopfield 네트워크 (d) ART (Adaptive resonance theory) 모델 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 뉴런 : 신경계의 기능적 최소단위. 세포체 : 일정기간 동안 들어온 자극은 세포체 내에 가중되고 임계치 보다 크면 뉴런을 활성. 수상돌기 : 인접 뉴런들로부터 정보를 받아들이는 통로 역할. 축색돌기 : 정보를 전달하기 위한 통로. 시넵스 : 전달되는 신호의 크기를 조절 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 자기 조직화 생명체 시스템이 외부의 개입 없이 자체적으로 조직화되는 과정 주어진 입력 패턴에 대하여 정확한 해답을 미리 주지 않고 자기 스스로 학습 자기 조직화 지도 (SOM : Self-organizing Map) 핀란드의 T. Kohonen 교수 그룹에 의하여 주도적으로 개발됨 비 교사 학습에 의한 클러스터링 방법 위상적 순서화 성질 Topological ordering property 공학분야에서 유용성이 인정됨 : 패턴인식, 자료압축/재생 등 데이터마이닝에서 다차원 자료의 시각화 기법으로 발전 고차원으로 표현된 데이터를 저차원으로 변환해서 보는 데 유용 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 Kohonen 의 학습에서 각 뉴런은 연결강도 백터와 입력백터가 얼마나 가까운가를 계산한다. 그리고 각 뉴런들은 학습할 수 있는 특권을 부여받으려고 서로 경쟁하려는데 거리가 가장 가까운 뉴런이 승리하게 된다. 이 승자 뉴런이 출력신호를 보낼 수 있는 유일한 뉴런이다. 또한 이 뉴런과 이와 인접한 이웃 뉴런들만이 제시된 입력백터에 대하여 학습이 허용된다. 이것은 학습에 있어서 전혀 새로운 접근 방식이다. 이 모델이 있기 이전에는 network 에 있는 모든 뉴런들이 반복되는 훈련 과정에서 연결강도를 조정한다. 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 자기 조직화 지도 (SOM) 알고리즘 단계 1 : 연결강도를 초기화 단계 2 : 새로운 입력 벡터를 제시 단계 3 : 입력 벡터와 모든 뉴런들 간의 거리를 계산 단계 4 : 최소거리에 있는 출력 뉴런을 선택하며, 출력 뉴런의 이웃 뉴런들도 선택 단계 5 : 승자 뉴런과 이웃 뉴런들의 연결강도를 조정 단계 6 : 단계 2로 가서 반복 모든 뉴런들이 변화가 없을 때 종료 코호넨 네트워크를 만들 때 다른 신경망에서는 일반적을 필요하지 않는 두 가지 일을 해야 함 첫째는 층내의 뉴런의 연결강도 벡터(연결 가중치)가 임의값을 가지면서 적합하게 초기화 둘째는 연결강도 벡터와 입력벡터가 통상 0에서 1사이의 정규화된 값을 사용하여야 한다는 것이고, 코호넨 네트워크에서는 매우 중요 코호넨 네트워크의 학습 철학은 앞에서의 경쟁 학습 모델처럼 승자전취(winner take all)의 방식을 따름.(거리가 가장 가까운 뉴런이 승리) 승자만이 출력을 낼 수 있으며, 승자와 그의 이웃들만이 그들의 연결강도를 조정. 승자 뉴런의 연결강도 벡터(연결 가중치)는 입력 벡터(활성값)와 가장 가까운 것 이 뉴런과 그의 이웃 반경 안의 뉴런들은 연결강도를 조정해가면서 학습 승자 뉴런을 결정하고 난 후에는 코호넨의 학습규칙에 따라 뉴런의 연결 강도를 조정 이 규칙은 다음 식으로 표현 w(new)ij = w(old)ij + α(ai - w(old)ij) w(new)ij : 조정된 후의 새로운 연결강도 벡터 w(old)ij : 조정되기 이전의 연결강도 벡터 ai : 입력패턴 벡터(활성값) α : 학습률 따라서 코호넨의 학습은 단순히 연결강도 벡터와 입력패턴 벡터(활성값)의 차이를 구한 다음 그것의 일정한 비율을 원래의 연결강도 벡터에 더하는 것 이 때 승자 뉴런만이 그것과 관련된 연결강도 벡터를 조정하는 것뿐만 아니라 그의 이웃 반경안에 드는 모든 뉴런들도 유사한 조정 훈련이 진행됨에 따라 이웃 반경은 서서히 줄어들어서 점점 적은 개수의 뉴런들이 학습 최종적으로 단지 승자 뉴런만이 그것의 연결강도를 조정 이러한 과정이 끝나면, 또 다른 입력벡터가 들어오게 되고 계속적으로 학습이 되풀이 즉, 새로운 승자 뉴런이 선택되고, 출력 신호를 내고, 승자 뉴런과 그 이웃 반경의 뉴런들의 연결강도 벡터는 입력벡터에 다가가게 됨 이러한 과정은 모든 훈련이 끝날 때까지 계속 반복 그래서 지금까지 과정을 알고리즘으로 나타내면 다음과 같음 자기조직화 형상지도(Self-organizing Feature Maps) 알고리즘 [단계 1] 연결강도를 초기화 [단계 2] 새로운 입력 벡터를 제시 [단계 3] 입력 벡터와 모든 뉴런들 간의 거리를 계산 [단계 4] 최소거리에 있는 출력 뉴런을 선택하며, 출력 뉴런의 이웃 뉴런들도 선택 [단계 5] 승자 뉴런과 이웃 뉴런들의 연결강도를 조정 w(new)ij = w(old)ij + α(ai - w(old)ij) [단계 6] 단계 2로 가서 반복한다. 모든 뉴런들이 변화가 없을 때 종료 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 Kohonen network 는 <그림 5> 의 (a) 에 나타난 것처럼 처음의 상태에서 점차로 조직화된다. 중앙에 위치한 하나의 클러스터는 초기의 주어진 범위내의 임의값을 가진 연결강도의 값이다. <그림 5> 의 (b) 는 1,000 번의 반복수행을 거친 결과인데 경쟁층에서 유니트간의 자연스런 순서관계 (ordering) 가 형성되기 시작한다. <그림 5>의 (c)는 6,000 번의 반복 수행을 거친 중간 단계를 보여주며, 20,000 번이 수행된 최종 결과는 <그림 5> 의 (d) 에 나타나 있다. 여기에서 학습계수 α 의 값은 0.2 를 사용하였다. 마지막으로 <그림 5> 의 (e) 는 주어진 입력패턴에 대해 훈련 network 의 반응을 보여준다. 입력패턴이 주어졌을 때 가장 가까운 유니트가 경쟁층에서 승리하게 된다. 승리 유니트는 동그라미로 표시되었으며 두 개의 입력패턴들은 점들로 표시되었다. 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 인공 신경망 모델 신경망의 연결강도 벡터들을 입력패턴과 유사해지도록 조정하기 위해 경쟁식 학습 방법을 사용 승자뉴런(BMU : Best Matching Unit)과 주변의 이웃관계에 있는 뉴런의 연결강도 벡터 조정 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

관련 연구 : 대용량 데이터 처리 기법 CURE 표본추출기법 각 군집으로부터 잘 분포된 몇 개의 데이터 개체를 선정하고 이 점들이 군집의 중심 값을 향해 일정 비율 모이게 함 최단 연결법을 이용하여 군집간의 유사도를 판별 BIRCH 요약된 군집표현 원시 데이터를 직접 다루지 않고, 군집에 속한 데이터 개체의 수, 개체들의 선형 합, 개체들의 제곱 합으로 구성된 군집의 요약정보인 군집 특성(Cluster feature)을 이용 Chameleon 특별한 자료구조 다양한 특징을 띠는 군집간의 유사 측정을 위한 새로운 동적 모델 다양한 모양, 밀도, 크기를 갖는 자연스러운 군집을 발견할 수 있음 원시데이터를 직접 다루기 때문에 현저한 성능 저하 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

PPC 기법의 특징 자기조직화지도(SOM)와 계층적 클러스터링을 결합하여 두 방안의 장점을 이용 자기조직화지도(SOM)로 클러스터링을 수행하여 대용량 데이터를 특징 값으로 표현되는 소 군집들로 요약 이 특징 값 정보를 이용해 다양한 특징을 갖는 군집을 발견할 수 있는 계층적 클러스터링을 수행 자기조직화지도 (SOM) 데이터 집합을 비슷한 크기의 원형 군집들로 분할하는 단점이 있지만, 데이터 수에 선형 비례하는 시간복잡도 O(nkl)을 갖기 때문에 대용량 데이터에 적용 가능 온라인 학습방법을 이용할 경우 많은 양의 메모리 사용 없이 연결강도 벡터들과 현재 학습 벡터만을 위한 공간만 요구됨 계층적 클러스터링 데이터 수(n)의 제곱에 비례하는 시간 복잡도 O(n2)를 갖기 때문에 계산량이 많지만, 군집간의 유사도 측정 방법에 따라 다양한 특징을 갖는 군집을 발견할 수 있음 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

PPC 기법의 두 단계 PPC (Pre-Post Clustering) 기법의 두 단계 클러스터링 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

전 처리 클러스터링 과정 전 처리 클러스터링 과정 초기의 소 군집을 발견하기 위한 단계 자기조직화지도를 이용 소 군집에서 특징 값 fa, fb를 생성 이웃 관계를 정의하기 위해 사각형 격자모양을 사용 승자군집은 이웃한 군집들과 연결강도를 갱신 연결강도벡터 갱신 t : 시간 c : 승자군집 i : 임의의 군집 x(t) : t 시점의 입력벡터 hci : 이웃함수 α : 학습율 mi(t) : 조정 전 연결강도벡터 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

전 처리 클러스터링 과정 소 군집의 특징 값 각 소 군집은 두 개의 특징 값 (fa, fb)으로 표현됨 두 개의 특징 값은 소 군집에 속하는 데이터 개체들을 고유 값(eigenvalue)이 가장 큰 고유벡터(eigenvector) 위에 투영 시켰을 때 나타나는 두 중심 두 군집간의 거리 즉, 새로운 유사도 측정에 이용됨 특징 값만으로 후 처리 클러스터링을 수행하므로, 계산량을 줄이고 잡음제거 효과도 얻을 수 있음 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

후 처리 클러스터링 과정 후 처리 클러스터링 과정 계층적 클러스터링 기법에 기반 초기 군집들 중 가장 유사한 두 개의 군집을 찾아서 하나의 군집으로 병합하는 과정을 반복적으로 수행하여 최종의 군집을 발견해 내는 단계 가장 유사한 두 개의 군집을 찾기 위한 새로운 유사도 측정방법 고안 PPC의 유사도 측정방법 계층적 클러스터링 방법의 가장 중요한 핵심은 군집 간의 유사도를 어떻게 측정할 것인가 하는 것으로, 양질의 군집을 발견하기 위한 중요한 문제임 양질의 군집 High intra-class similarity = 내부적 특징 = 응집거리로 계산 Low inter-class similarity = 외부적 특징 = 인접거리로 계산 군집 간의 연관성과 특징을 고려하는 유사도 측정법임 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

후 처리 클러스터링 과정 PPC의 유사도 측정방법 가장 유사한 두 개의 군집을 찾기 위한 새로운 유사도 측정방법 고안 연결거리ij = 군집i와 군집j에 속하는 특징 값들의 가중거리의 합 연결거리i = 군집i에 속하는 특징 값들의 가중거리의 합 응집거리ij = 연결거리i와 연결거리j의 평균으로 정규화된 연결거리ij 인접거리ij = 연결거리ij를 소 군집의 대표값 개수인 ni와 nj로 정규화한 것으로 군집i와 군집j의 평균 연결거리 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

PPC 기법의 시간 복잡도 PPC 기법의 시간 복잡도 PPC 기법은 자기조직화지도와 K-means에 비해 계산량은 많지만, 데이터 개체 수인 n에 선형 비례하는 복잡도를 가지면서 계층적 클러스터링 보다 적은 계산량으로 군집을 발견할 수 있다는 기대효과를 얻을 수 있음 n : 데이터의 수 k : 군집의 수 l : 반복횟수 s : 샘플 데이터의 수 p : 소 군집의 수 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

실험 데이터 UCI Machine Learning Repository ( Welcome to the UC Irvine Machine Learning Repository! We currently maintain 197 data sets as a service to the machine learning community. You may view all data sets through our searchable interface. Our old web site is still available, for those who prefer the old format. For a general overview of the Repository, please visit our About page. For information about citing data sets in publications, please read our citation policy. If you wish to donate a data set, please consult our donation policy. For any other questions, feel free to contact the Repository librarians. We have also set up a mirror site for the Repository. Bag of Words 8,000,000 KDD Cup 1999 Data 4,000,000 US Census Data 2,458,285 … 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

클러스터링 성능 평가 학습율 α 자기조직화지도는 기계학습을 적용한 학습이기 때문에 설정 값에 따라 학습의 결과에 영향을 미칠 수 있음 α 는 0과 1사이의 값을 갖는 것이 일반적임 너무 큰 값은, 빠르게 학습이 진행될 수도 있지만 학습이 안 되는 상황 발생 가능 너무 작은 학습율은 오차가 적어지는 형태로 학습이 이루어져서 최종적으로 오차 최소점에 수렴은 하지만 각 학습 단계에서의 연결강도 변화량이 미세하여 전체 학습시간이 길어지는 단점이 있음 본 실험에서는 임의로 설정함 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

클러스터링 성능 평가 응집도 Q 클러스터링 결과의 성능은, Di의 평균인 Q로 측정 Di = 군집 i에 속하는 모든 데이터 개체들 (Xa, Xb) 사이의 평균거리 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

클러스터링 성능 평가 비교 대상 PPC K-means 4가지의 계층적 클러스터링 기법 최단 연결법 (MIN) 최장 연결법 (MAX) 평균 연결법 (Group Average) 중심 연결법 (Distance between centroid) 심플 하이브리드 방식 자기조직화지도를 수행한 후 특징 값 fa, fb 를 고려하지 않은 결과를 이용하여 4가지의 계층적 클러스터링 기법 수행 최단 연결법, 최장 연결법, 평균 연결법, 중심 연결법 Proximity matrix 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

각 클러스터링 방법과 비교 응집도 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

각 클러스터링 방법과 비교 * 심플 하이브리드 – 특징 값 fa, fb 를 고려하지 않고, 자기조직화지도와 계층적 클러스터링을 결합 하는 방법 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

실험 결과 응집도 Q값이 적을수록 잘 응축된 군집을 얻는 것으로 평가 응집도 = {통계적인 클러스터링 방법, K-means} < 심플 하이브리드 < PPC CURE – 잘 분포된 몇 개의 데이터 개체를 선정하는 Pre-clustering을 수행하는 단계는 유사하지만 최단 연결법을 이용해 특징 값 1개를 사용해서 유사도를 측정한 후 최종 군집을 판별하는 단점 원시 데이터를 직접 다루지 않는 BIRCH에 비해서 신뢰할 수 있는 군집을 얻음 최단 연결법과 최장 연결법은 군집간의 유사도를 측정하기 위해 특정 데이터 개체 하나에만 의존하기 때문에 잡음에 민감 평균 연결법과 중심 연결법은 하나 이상의 데이터 개체를 기반으로 중심값을 갖기 때문에 잡음에 덜 민감 PPC 자기조직화지도로 전처리 하는 과정에서 데이터를 요약. 압축 특징 값 2개를 기반으로 하는 인접거리, 연결거리를 사용함으로써 보다 연관성 있는 특징을 갖는 최종 군집을 얻을 수 있었음 PPC 기법이 다른 방법들과 비교해 우수한 것으로 나타남. 가장 좋은 응집도를 보임 특징 값을 이용 하므로 계산량을 효율적으로 감소시켜 확장성이 뛰어나며 잡음에도 강함 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

결론 대용량 데이터에 적용할 수 있도록 효율적으로 계산량을 줄일 수 있는 하이브리드 클러스터링 기법 자기조직화지도를 통한 데이터 요약 응집거리와 인접거리에 기반한 새로운 유사도 측정방법의 고안 및 적용 소 군집의 특징 값을 이용한 계산 속도 향상 낮은 응집도 값을 갖는 양질의 군집 발견 클러스터 수행 결과를 보다 쉽게 이해할 수 있는 레이블을 제공하는 방법에 대한 연구가 필요함 대용량 데이터 처리를 위한 하이브리드형 클러스터링 기법

정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용

Similar presentations

Presentation on theme: "정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용"— Presentation transcript:

Similar presentations

About project

지원

로그인

Auth with social network:

정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용

Similar presentations

Presentation on theme: "정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용"— Presentation transcript:

Similar presentations

About project

지원