데이터 탐색 (Data Exploration) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세
데이터 탐색 (Data Exploration) 본격적 데이터 분석에 앞서 수행하는 데이터에 대한 사전 조사 요약 통계, 시각화, 다차원 데이터 분석 등을 통해 데이터의 주요 특성을 직관적으로 이해함 요약 통계 (Summary Statistics) 데이터 시각화 (Data Visualization) OLAP과 다차원 데이터 분석 (OLAP and Multidimensional Data Analysis)
아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석
아이리스 데이터 집합 (Iris Data Set) 데이터 탐색(Data Exploration) 데이터 탐색 설명을 위해 아이리스 데이터 집합을 활용 UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/ 150개의 아이리스 꽃 Setosa 50개 Virginica 50개 Versicolour 50개
아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석
요약 통계 (Summary Statistics) 데이터 탐색(Data Exploration) 요약 통계란 데이터의 특성을 요약하는 수치를 의미한다. (Summary statistics are numbers that summarizes properties of the data.) 쉽게 생각할 수 있는 요약 통계로는 평균, 표준편차, 최대값 등이 있다. 대부분의 요약 통계는 데이터를 한번 읽음으로써 구할 수 있다. (Most summary statistics can be calculated in a single pass through the data.)
빈도(frequency)와 최빈값(mode) 데이터 탐색(Data Exploration) 빈도: 해당 속성 값이 몇 번이나 나타나는지의 비율(혹은 백분율) 예제: Gender 속성에서 Female 속성 값의 빈도는 0.5(혹은 50%)이다. 최빈값(mode): 어떤 속성에서 가장 높은 빈도를 가지는 속성 값 예제: 중국인의 민족 속성에서 최빈값(가장 빈도가 높은 민족 값)은 한족이다.
백분위수 (Percentiles) 서열형 혹은 연속형 속성에 대해, 속성 값을 백분율로 표현할 수 있다. 데이터 탐색(Data Exploration) 서열형 혹은 연속형 속성에 대해, 속성 값을 백분율로 표현할 수 있다.
평균과 중앙값 평균의 데이터 집합을 가장 잘 표현하는 대표적 값이다. 중앙값(median) 데이터 탐색(Data Exploration) 평균의 데이터 집합을 가장 잘 표현하는 대표적 값이다. 집합에서 가장 흔하게 나타나는 값이 평균이라 해석할 수 있다. 그러나, 평균은 이상치(outlier)에 매우 취약하다. 중앙값(median) 데이터를 일렬로 나열하였을 때 가장 중간에 나타나는 값이다. 데이터가 홀수 개인 경우 가장 중앙에 나타나는 값이고, 짝수 개인 경우 중앙에 나타나는 두 값의 평균이다.
범위와 편차 범위(range): 최대치와 최소치의 차이이다. 데이터 탐색(Data Exploration) 범위(range): 최대치와 최소치의 차이이다. 분산(variance)과 표준편차(standard deviation): 데이터가 퍼진(spread) 정도를 나타내는 중요한 척도이다. 범위, 표준편차 등도 이상치에 민감하여, 다음의 여러 척도가 사용된다.
아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석
시각화/가시화 (Visualization) 데이터 탐색(Data Exploration) 데이터를 그래픽이나 테이블 등의 가시적 형태로 보여주는 것이다. 시각화의 목적은 인간이 시각화된 정보를 해석하여, 정보에 대한 내적 모델을 형성하는 것이다. 많은 양의 데이터를 시각화하여 표현했을 때, 데이터에 내재된 (1) 일반적 패턴이나 트렌드, (2) 이상치나 비정상 패턴을 발견할 수 있다. 시각화는 패턴을 발견하기 위한 마이닝 과정에서도 중요하지만, 마이닝 결과를 직관적으로 표현하는 중요한 수단이기도 하다.
예제: 해수면 수온의 시각화 다음은 1982년 7월의 해수면 수온을 표현한 것이다. 데이터 탐색(Data Exploration) 다음은 1982년 7월의 해수면 수온을 표현한 것이다. 수만 개의 데이터 값(수온)이 하나의 그림에 요약되어 표현된다.
시각화 기술: 히스토그램 히스토그램 예제: 아이리스의 꽃잎 폭 (통 개수를 10개, 20개로 한 예제) 데이터 탐색(Data Exploration) 히스토그램 통상 단일 변수의 데이터 분포를 보여주기 위해 사용한다. 데이터 값을 여러 개의 통(bin)으로 나눈 후, 각 통에 몇 개의 데이터가 포함되어 있는지를 막대그래프로 표현한다. 막대그래프의 높이가 해당 데이터가 얼마나 빈번한지를 나타낸다. 예제: 아이리스의 꽃잎 폭 (통 개수를 10개, 20개로 한 예제)
이차원 히스토그램 데이터 탐색(Data Exploration) 두 속성의 연관 분포(joint distribution)를 2차원 막대 그래프로 표현함 (삼차원 히스토그램은 세 속성의 연관 분포를 나타냄) 예제: 꽃잎의 폭과 길이 아래 히스토그램이 말하고자 하는 바는?
삼차원 히스토그램 예제 데이터 탐색(Data Exploration)
시각화 기술: 상자 도표(Box Plots) 데이터 탐색(Data Exploration) 단일 속성 값의 분포를 상자(box)의 크기로 표현함
상자 도표 예제 데이터 탐색(Data Exploration) 여러 속성을 비교할 때 유용함
산포도 (Scatter Plots) 두 속성 값의 쌍들을 2차원(혹은 3차원) 도표에 점으로 나타냄 데이터 탐색(Data Exploration) 두 속성 값의 쌍들을 2차원(혹은 3차원) 도표에 점으로 나타냄 두 속성 값들의 분포와 상관관계를 한 눈에 파악하기 용이함
산포도 행렬 데이터 탐색(Data Exploration) 속성들의 여러 쌍들에 대한 상관관계를 요약하여 보이기에 용이함
등고 도표 (Contour Plots) 공간 좌표에 연속적 속성을 표현할 때 유용함 데이터 탐색(Data Exploration) 공간 좌표에 연속적 속성을 표현할 때 유용함 공간을 유사 값을 갖는 영역으로 파티션하고, 유사 영역의 경계선을 등고선으로 나타냄 주로 기온, 강수량, 기압 등을 지리적으로 표현할 때 유용함
등고 도표 예제: 1998년 해수면 온도 데이터 탐색(Data Exploration)
기타 시각화 기술들 데이터 탐색(Data Exploration) 표면 도표 (surface plots)
기타 시각화 기술들 데이터 탐색(Data Exploration) 벡터장 도표 (vector field plots)
기타 시각화 기술들 데이터 탐색(Data Exploration) 연관 행렬(correlation matrix)
기타 시각화 기술들 평행 좌표 도표 (parallel coordinate plots) 데이터 탐색(Data Exploration) 평행 좌표 도표 (parallel coordinate plots)
아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석
OLAP (Online Analytical Processing) 데이터 탐색(Data Exploration) OLAP(온라인 분석 처리): 관계형 데이터베이스를 제안한 E. F. Codd에 의해 제안됨 관계형 데이터베이스: 데이터를 테이블 형태로 나타냄 OLAP: 데이터를 다차원 배열로 나타냄
다차원 배열 구성 다차원 배열의 값으로 사용될 타겟 속성을 선정함 데이터 탐색(Data Exploration) 다차원 배열의 값으로 사용될 타겟 속성을 선정함 다차원 배열의 축(인덱스) 값으로 사용될 속성들을 선정함 속성의 수가 다차원 배열의 차원 결정함
예제: 아이리스 데이터 집합 데이터 탐색(Data Exploration)
OLAP 연산 데이터 큐브(data cube): 적절한 부분집합에 대한 집계(합계, 평균 등) 데이터 탐색(Data Exploration) 데이터 큐브(data cube): 적절한 부분집합에 대한 집계(합계, 평균 등) 슬라이싱(slicing): 하나 이상의 축을 중심으로 셀들을 선택 다이싱(dicing): 셀들의 (사각) 집합을 선택 롤-업(roll-up)/드릴-다운(drill-down) 일반적으로 속성은 계층적 구조(hierarchical structure)를 가짐 롤-업: 작은 단위(예: day)에서 큰 단위(예: month, year)로 집계 수행 드릴-다운: 큰 단위에서 작은 단위로 집계 수행
Slicing vs. Dicing 데이터 탐색(Data Exploration)
Roll-Up vs. Drill-Down 데이터 탐색(Data Exploration)
아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석