데이터 탐색 (Data Exploration) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.

Slides:



Advertisements
Similar presentations
경영통계 제 1 장 통계란 무엇인가 도수분포표. 도수분포 도수분포 상대도수분포 상대도수분포 누적 도수 누적 도수 분석 도구 - 히스토그램 분석 도구 - 히스토그램.
Advertisements

Keller: Stats for Mgmt & Econ, 7th Ed
컴퓨터와 인터넷.
재료수치해석 HW # 박재혁.
제 4 장 정규분포로의 근사 단위변환 정규분포곡선 표준정규분포곡선 아래의 영역 찾기 자료에 대한 정규 근사 백분위수
3일차 - 가설검정.
Entity Relationship Diagram
제 9 장 구조체와 공용체.
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 12. 포인터의 이해.
제 3장. 수치를 통한 연속형 자료의 요약.
디지털영상처리 및 실습 대구보건대학 방사선과.
Graph 개론 통계분석을 위한 Excel Chart 기초.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
Error Detection and Correction
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
제2장 기초통계 양윤권 교수.
상관분석 (p , p ).
11장. 1차원 배열.
제4장 제어 시스템의 성능.
수학10-가 Ⅳ. 통 계 백암고등학교 수학교사 : 양상옥.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
자바 5.0 프로그래밍.
박성진 컴퓨터 프로그래밍 기초 [09] 배열 part 1 박성진
(Data Exploration & Analysis)
Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의
(Data Exploration & Analysis)
자료의 표현.
4 장 신호(Signals) 4.1 아날로그와 디지털(Analog and Digital)
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
자료와 자료 정리 자료 자료의 정리 중심위치의 측도 상대적 위치의 측도.
Clipping 이진학.
이산수학(Discrete Mathematics)  명제의 동치 (Propositional Equivalence)
Frequency distributions and Graphic presentation of data
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
5강. 배열 배열이란? 배열의 문법 변수와 같이 이해하는 배열의 메모리 구조의 이해 레퍼런스의 이해 다차원 배열
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 데이터 프레임 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
제3장 함수와 배열수식 전진환
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
비열.
신문에서의 그래프 사용 이상미 김정석 김종찬 임성규.
1. 정투상법 정투상법 정투상도 (1) 정투상의 원리
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
척도의 속성 - 목 차- 자료수집과정 척도의 속성 -명목척도 -서열척도 -등간척도 -비율척도 -리커트척도 3.Data(자료)
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
제2장 자료의 정리 및 기술통계 Min Gyoung Chan Ph.Dr..
데이터 종류와 전처리 (Data Types and Preprocessing)
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
비교분석 보고서 Template 2015.
Summary of Pointers and Arrays
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
텍스트 분석 ㈜ 퀀트랩.
이산수학(Discrete Mathematics)  술어와 한정기호 (Predicates and Quantifiers)
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
제 4 장 Record.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
2014년 가을학기 손시운 지도 교수: 문양세 교수님 행렬과 배열 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
 6장. SQL 쿼리.
                              데이터베이스 설계 및 실습 #6 - SQL 실습 한국외국어대학교 DaPS 연구실                              
(Permutations and Combinations)
문제의 답안 잘 생각해 보시기 바랍니다..
Presentation transcript:

데이터 탐색 (Data Exploration) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세

데이터 탐색 (Data Exploration) 본격적 데이터 분석에 앞서 수행하는 데이터에 대한 사전 조사 요약 통계, 시각화, 다차원 데이터 분석 등을 통해 데이터의 주요 특성을 직관적으로 이해함 요약 통계 (Summary Statistics) 데이터 시각화 (Data Visualization) OLAP과 다차원 데이터 분석 (OLAP and Multidimensional Data Analysis)

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석

아이리스 데이터 집합 (Iris Data Set) 데이터 탐색(Data Exploration) 데이터 탐색 설명을 위해 아이리스 데이터 집합을 활용 UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/ 150개의 아이리스 꽃 Setosa 50개 Virginica 50개 Versicolour 50개

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석

요약 통계 (Summary Statistics) 데이터 탐색(Data Exploration) 요약 통계란 데이터의 특성을 요약하는 수치를 의미한다. (Summary statistics are numbers that summarizes properties of the data.) 쉽게 생각할 수 있는 요약 통계로는 평균, 표준편차, 최대값 등이 있다. 대부분의 요약 통계는 데이터를 한번 읽음으로써 구할 수 있다. (Most summary statistics can be calculated in a single pass through the data.)

빈도(frequency)와 최빈값(mode) 데이터 탐색(Data Exploration) 빈도: 해당 속성 값이 몇 번이나 나타나는지의 비율(혹은 백분율) 예제: Gender 속성에서 Female 속성 값의 빈도는 0.5(혹은 50%)이다. 최빈값(mode): 어떤 속성에서 가장 높은 빈도를 가지는 속성 값 예제: 중국인의 민족 속성에서 최빈값(가장 빈도가 높은 민족 값)은 한족이다.

백분위수 (Percentiles) 서열형 혹은 연속형 속성에 대해, 속성 값을 백분율로 표현할 수 있다. 데이터 탐색(Data Exploration) 서열형 혹은 연속형 속성에 대해, 속성 값을 백분율로 표현할 수 있다.

평균과 중앙값 평균의 데이터 집합을 가장 잘 표현하는 대표적 값이다. 중앙값(median) 데이터 탐색(Data Exploration) 평균의 데이터 집합을 가장 잘 표현하는 대표적 값이다. 집합에서 가장 흔하게 나타나는 값이 평균이라 해석할 수 있다. 그러나, 평균은 이상치(outlier)에 매우 취약하다. 중앙값(median) 데이터를 일렬로 나열하였을 때 가장 중간에 나타나는 값이다. 데이터가 홀수 개인 경우 가장 중앙에 나타나는 값이고, 짝수 개인 경우 중앙에 나타나는 두 값의 평균이다.

범위와 편차 범위(range): 최대치와 최소치의 차이이다. 데이터 탐색(Data Exploration) 범위(range): 최대치와 최소치의 차이이다. 분산(variance)과 표준편차(standard deviation): 데이터가 퍼진(spread) 정도를 나타내는 중요한 척도이다. 범위, 표준편차 등도 이상치에 민감하여, 다음의 여러 척도가 사용된다.

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석

시각화/가시화 (Visualization) 데이터 탐색(Data Exploration) 데이터를 그래픽이나 테이블 등의 가시적 형태로 보여주는 것이다. 시각화의 목적은 인간이 시각화된 정보를 해석하여, 정보에 대한 내적 모델을 형성하는 것이다. 많은 양의 데이터를 시각화하여 표현했을 때, 데이터에 내재된 (1) 일반적 패턴이나 트렌드, (2) 이상치나 비정상 패턴을 발견할 수 있다. 시각화는 패턴을 발견하기 위한 마이닝 과정에서도 중요하지만, 마이닝 결과를 직관적으로 표현하는 중요한 수단이기도 하다.

예제: 해수면 수온의 시각화 다음은 1982년 7월의 해수면 수온을 표현한 것이다. 데이터 탐색(Data Exploration) 다음은 1982년 7월의 해수면 수온을 표현한 것이다. 수만 개의 데이터 값(수온)이 하나의 그림에 요약되어 표현된다.

시각화 기술: 히스토그램 히스토그램 예제: 아이리스의 꽃잎 폭 (통 개수를 10개, 20개로 한 예제) 데이터 탐색(Data Exploration) 히스토그램 통상 단일 변수의 데이터 분포를 보여주기 위해 사용한다. 데이터 값을 여러 개의 통(bin)으로 나눈 후, 각 통에 몇 개의 데이터가 포함되어 있는지를 막대그래프로 표현한다. 막대그래프의 높이가 해당 데이터가 얼마나 빈번한지를 나타낸다. 예제: 아이리스의 꽃잎 폭 (통 개수를 10개, 20개로 한 예제)

이차원 히스토그램 데이터 탐색(Data Exploration) 두 속성의 연관 분포(joint distribution)를 2차원 막대 그래프로 표현함 (삼차원 히스토그램은 세 속성의 연관 분포를 나타냄) 예제: 꽃잎의 폭과 길이 아래 히스토그램이 말하고자 하는 바는?

삼차원 히스토그램 예제 데이터 탐색(Data Exploration)

시각화 기술: 상자 도표(Box Plots) 데이터 탐색(Data Exploration) 단일 속성 값의 분포를 상자(box)의 크기로 표현함

상자 도표 예제 데이터 탐색(Data Exploration) 여러 속성을 비교할 때 유용함

산포도 (Scatter Plots) 두 속성 값의 쌍들을 2차원(혹은 3차원) 도표에 점으로 나타냄 데이터 탐색(Data Exploration) 두 속성 값의 쌍들을 2차원(혹은 3차원) 도표에 점으로 나타냄 두 속성 값들의 분포와 상관관계를 한 눈에 파악하기 용이함

산포도 행렬 데이터 탐색(Data Exploration) 속성들의 여러 쌍들에 대한 상관관계를 요약하여 보이기에 용이함

등고 도표 (Contour Plots) 공간 좌표에 연속적 속성을 표현할 때 유용함 데이터 탐색(Data Exploration) 공간 좌표에 연속적 속성을 표현할 때 유용함 공간을 유사 값을 갖는 영역으로 파티션하고, 유사 영역의 경계선을 등고선으로 나타냄 주로 기온, 강수량, 기압 등을 지리적으로 표현할 때 유용함

등고 도표 예제: 1998년 해수면 온도 데이터 탐색(Data Exploration)

기타 시각화 기술들 데이터 탐색(Data Exploration) 표면 도표 (surface plots)

기타 시각화 기술들 데이터 탐색(Data Exploration) 벡터장 도표 (vector field plots)

기타 시각화 기술들 데이터 탐색(Data Exploration) 연관 행렬(correlation matrix)

기타 시각화 기술들 평행 좌표 도표 (parallel coordinate plots) 데이터 탐색(Data Exploration) 평행 좌표 도표 (parallel coordinate plots)

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석

OLAP (Online Analytical Processing) 데이터 탐색(Data Exploration) OLAP(온라인 분석 처리): 관계형 데이터베이스를 제안한 E. F. Codd에 의해 제안됨 관계형 데이터베이스: 데이터를 테이블 형태로 나타냄 OLAP: 데이터를 다차원 배열로 나타냄

다차원 배열 구성 다차원 배열의 값으로 사용될 타겟 속성을 선정함 데이터 탐색(Data Exploration) 다차원 배열의 값으로 사용될 타겟 속성을 선정함 다차원 배열의 축(인덱스) 값으로 사용될 속성들을 선정함  속성의 수가 다차원 배열의 차원 결정함

예제: 아이리스 데이터 집합 데이터 탐색(Data Exploration)

OLAP 연산 데이터 큐브(data cube): 적절한 부분집합에 대한 집계(합계, 평균 등) 데이터 탐색(Data Exploration) 데이터 큐브(data cube): 적절한 부분집합에 대한 집계(합계, 평균 등) 슬라이싱(slicing): 하나 이상의 축을 중심으로 셀들을 선택 다이싱(dicing): 셀들의 (사각) 집합을 선택 롤-업(roll-up)/드릴-다운(drill-down) 일반적으로 속성은 계층적 구조(hierarchical structure)를 가짐 롤-업: 작은 단위(예: day)에서 큰 단위(예: month, year)로 집계 수행 드릴-다운: 큰 단위에서 작은 단위로 집계 수행

Slicing vs. Dicing 데이터 탐색(Data Exploration)

Roll-Up vs. Drill-Down 데이터 탐색(Data Exploration)

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석