(Data Exploration & Analysis)

Slides:



Advertisements
Similar presentations
M 당 강령, 정책  비정규직과 정규직 간 차별철폐, 동일노동 동일 임금 실현, 최저임금제 현실화, 비정규직의 정규직화 추진 등을 통해 최소한의 인간다 운 생활을 보장한다.  그리고, 우리당은 지난 대선 당시 한국노 총, 민주노총과 정책협약을 통해 약속했던 것처럼.
Advertisements

마이크로소프트 OLAP 및 리포팅 솔루션을 근간으로 기간 시스템과 연계한 분석 시스템 구축 방안 우철웅기술이사컨설팅사업부 ㈜인브레인 I N B R E I N.
폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
23장. 전기장(Electric Field) 23.1 전하의 특성 23.2 유도에 의해 대전된 물체 23.3 쿨롱의 법칙
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
Table of Contents I. OLAP 의 이해 II. OLAP의 CRM 적용 사례 III. 향후 OLAP의 발전 방향.
上海華東師大 연수설명회.
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
Keller: Stats for Mgmt & Econ, 7th Ed
방사성폐기물 처분의 안전성평가 - 수학적 모델의 사용 -
Chapter 7 데이터웨어하우징 의사결정지원시스템.
문화이벤트 특강 시민축제에 대하여 애니메이션 김철환.
(강의 홈페이지: 강좌 개요 서울대학교 통계학과 2010년 2학기 컴퓨터의 개념 및 실습 (강의 홈페이지:
통계적 품질관리(SQC).
커뮤니케이션 스킬 UP -전화매너- ..
기술 통계학 (Descriptive Statistics)
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
메리츠화재 11월 시상안 ★ 인보험 시상 - 첫째장 □ 시상1. 기본 시상 (단독실비,재물 및 성공사업자종합보험 제외)
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
강좌 개요 2009년 1학기 컴퓨터의 개념 및 실습.
Excel OLAP Reporting / OWC를 이용한
데이터웨어하우스(DW)
데이터 웨어 하우스 이병규 김기훈.
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
CRM에서의 Data Quality Management
1.BW 기본개념과 구조의 이해 Sep 2004 이웨어시스템 (주) EWARESYSTEM.
Dept. of CSE, Ewha Womans Univ.
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
머신 러닝 2 ㈜ 퀀트랩.
제 5 장 내부거래와 미실현손익 1. 내부거래와 미실현손익의 제거 2. 재고자산 내부거래 3. 유형자산 내부거래
Data Mining.
사업계획/예산수립을 위한 OLAP구현방안
4-1 Gaussian Distribution
2014년 가을학기 손시운 지도 교수: 문양세 교수님 군집 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
소프트웨어시스템실습 4강: 데이터 시각화 (그래프)
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야
(Data Exploration & Analysis)
데이터 탐색 (Data Exploration) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Keller: Stats for Mgmt & Econ, 7th Ed
소프트웨어시스템 실습 다차원 데이터 구성 및 OLAP
하드웨어 vs 소프트 웨어 볼 수 있다. 만질 수 있다. 볼 수 없다. 만질 수 없다. 키보드, 마우스 ? 하드웨어
의사결정지원시스템 개요 Database DBMS D G M S MBMS Modelbase User Interface
제1장 통계란? 제2장 데이터의 정리 제3장 데이터의 요약.
Machine Learning using Neural Networks
1 장. 소개 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
지역 통계의 발전 (강화) 방향 충남대학교 이석훈.
수직적 경로구조 수직적 경로구조의 정의 “유통기능을 제조업자, 도매상, 소매상으로 나누어 수행하던 전통적 경로구조에서 기능상의 일부 또는 전부를 통합하여 수행하는 방식” 유통활동의 중복을 최소화 (효율적 기능 수행) 지속적 마케팅 수행, 통제 가능 재무적 투자 (재고 유지,
공공기관의 통합성과관리시스템 구축방안 ㈜아이에스앤에프 대표 박정수 ㈜아이에스앤에프.
Can Digital Computers Think? - Summary
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
지하주차장 조명공사 제안
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
Advanced Data Analytics 데이터분석 전문가
Excel 일차 강사 : 박영민.
제안 제도 운영방안.
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
1. 데이터베이스 환경.
선 택 학 습 사 회 6학년 1학기 3. 대한 민국의 발전 [2] 대한민국의 수립과 발전 13/14
산점도 (Scatter Diagram) (1) 개요
상품 소개서 (건어물류) 기타 관련 상품 멸치세트 2호 특징 상품명 : 멸치 세트 1호
우수사원 연수 제안서 2-1. 항공, 호텔, 식사, 차량 세부 안내 (지역순서대로 작성 발리-싱가포르-괌)
RB-680 사용 설명서 1.프로그램 모드 진입 ① * + 마스터 비밀번호(4자리) + # ② 초기 비밀번호 2416
Presentation transcript:

(Data Exploration & Analysis) 데이터 탐색과 분석 (Data Exploration & Analysis) 2017년 가을학기 강원대학교 컴퓨터과학전공 문양세

데이터 탐색 (Data Exploration) 본격적 데이터 분석에 앞서 수행하는 데이터에 대한 사전 조사 요약 통계, 시각화, 다차원 데이터 분석 등을 통해 데이터의 주요 특성을 직관적으로 이해함 요약 통계 (Summary Statistics) 데이터 시각화 (Data Visualization) OLAP과 다차원 데이터 분석 (OLAP and Multidimensional Data Analysis)

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석

아이리스 데이터 집합 (Iris Data Set) 데이터 탐색(Data Exploration) 데이터 탐색 설명을 위해 아이리스 데이터 집합을 활용 UCI Machine Learning Repository: http://archive.ics.uci.edu/ml/ 150개의 아이리스 꽃 Setosa 50개 Virginica 50개 Versicolour 50개

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석

요약 통계 (Summary Statistics) 데이터 탐색(Data Exploration) 요약 통계란 데이터의 특성을 요약하는 수치를 의미한다. (Summary statistics are numbers that summarizes properties of the data.) 쉽게 생각할 수 있는 요약 통계로는 평균, 표준편차, 최대값 등이 있다. 대부분의 요약 통계는 데이터를 한번 읽음으로써 구할 수 있다. (Most summary statistics can be calculated in a single pass through the data.)

빈도(frequency)와 최빈값(mode) 데이터 탐색(Data Exploration) 빈도: 해당 속성 값이 몇 번이나 나타나는지의 비율(혹은 백분율) 예제: Gender 속성에서 Female 속성 값의 빈도는 0.5(혹은 50%)이다. 최빈값(mode): 어떤 속성에서 가장 높은 빈도를 가지는 속성 값 예제: 중국인의 민족 속성에서 최빈값(가장 빈도가 높은 민족 값)은 한족이다.

평균과 중앙값 평균의 데이터 집합을 가장 잘 표현하는 대표적 값이다. 중앙값(median) 데이터 탐색(Data Exploration) 평균의 데이터 집합을 가장 잘 표현하는 대표적 값이다. 집합에서 가장 흔하게 나타나는 값이 평균이라 해석할 수 있다. 그러나, 평균은 이상치(outlier)에 매우 취약하다. 중앙값(median) 데이터를 일렬로 나열하였을 때 가장 중간에 나타나는 값이다. 데이터가 홀수 개인 경우 가장 중앙에 나타나는 값이고, 짝수 개인 경우 중앙에 나타나는 두 값의 평균이다.

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석

시각화/가시화 (Visualization) 데이터 탐색(Data Exploration) 데이터를 그래픽이나 테이블 등의 가시적 형태로 보여주는 것이다. 시각화의 목적은 인간이 시각화된 정보를 해석하여, 정보에 대한 내적 모델을 형성하는 것이다. 많은 양의 데이터를 시각화하여 표현했을 때, 데이터에 내재된 (1) 일반적 패턴이나 트렌드, (2) 이상치나 비정상 패턴을 발견할 수 있다. 시각화는 패턴을 발견하기 위한 마이닝 과정에서도 중요하지만, 마이닝 결과를 직관적으로 표현하는 중요한 수단이기도 하다.

예제: 해수면 수온의 시각화 다음은 1982년 7월의 해수면 수온을 표현한 것이다. 데이터 탐색(Data Exploration) 다음은 1982년 7월의 해수면 수온을 표현한 것이다. 수만 개의 데이터 값(수온)이 하나의 그림에 요약되어 표현된다.

시각화 기술: 히스토그램 히스토그램 예제: 아이리스의 꽃잎 폭 (통 개수를 10개, 20개로 한 예제) 데이터 탐색(Data Exploration) 히스토그램 통상 단일 변수의 데이터 분포를 보여주기 위해 사용한다. 데이터 값을 여러 개의 통(bin)으로 나눈 후, 각 통에 몇 개의 데이터가 포함되어 있는지를 막대그래프로 표현한다. 막대그래프의 높이가 해당 데이터가 얼마나 빈번한지를 나타낸다. 예제: 아이리스의 꽃잎 폭 (통 개수를 10개, 20개로 한 예제)

이차원 히스토그램 데이터 탐색(Data Exploration) 두 속성의 연관 분포(joint distribution)를 2차원 막대 그래프로 표현함 (삼차원 히스토그램은 세 속성의 연관 분포를 나타냄) 예제: 꽃잎의 폭과 길이 아래 히스토그램이 말하고자 하는 바는?

시각화 기술: 상자 도표(Box Plots) 데이터 탐색(Data Exploration) 단일 속성 값의 분포를 상자(box)의 크기로 표현함

산포도 (Scatter Plots) 두 속성 값의 쌍들을 2차원(혹은 3차원) 도표에 점으로 나타냄 데이터 탐색(Data Exploration) 두 속성 값의 쌍들을 2차원(혹은 3차원) 도표에 점으로 나타냄 두 속성 값들의 분포와 상관관계를 한 눈에 파악하기 용이함

산포도 행렬 데이터 탐색(Data Exploration) 속성들의 여러 쌍들에 대한 상관관계를 요약하여 보이기에 용이함

등고 도표 (Contour Plots) 공간 좌표에 연속적 속성을 표현할 때 유용함 데이터 탐색(Data Exploration) 공간 좌표에 연속적 속성을 표현할 때 유용함 공간을 유사 값을 갖는 영역으로 파티션하고, 유사 영역의 경계선을 등고선으로 나타냄 주로 기온, 강수량, 기압 등을 지리적으로 표현할 때 유용함

등고 도표 예제: 1998년 해수면 온도 데이터 탐색(Data Exploration)

기타 시각화 기술들 데이터 탐색(Data Exploration) 표면 도표 (surface plots)

기타 시각화 기술들 데이터 탐색(Data Exploration) 벡터장 도표 (vector field plots)

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석

OLAP (Online Analytical Processing) 데이터 탐색(Data Exploration) OLAP(온라인 분석 처리): 관계형 데이터베이스를 제안한 E. F. Codd에 의해 제안됨 관계형 데이터베이스: 데이터를 테이블 형태로 나타냄 OLAP: 데이터를 다차원 배열로 나타냄

다차원 배열 구성 다차원 배열의 값으로 사용될 타겟 속성을 선정함 데이터 탐색(Data Exploration) 다차원 배열의 값으로 사용될 타겟 속성을 선정함 다차원 배열의 축(인덱스) 값으로 사용될 속성들을 선정함  속성의 수가 다차원 배열의 차원 결정함

예제: 아이리스 데이터 집합 데이터 탐색(Data Exploration)

OLAP 연산 데이터 큐브(data cube): 적절한 부분집합에 대한 집계(합계, 평균 등) 데이터 탐색(Data Exploration) 데이터 큐브(data cube): 적절한 부분집합에 대한 집계(합계, 평균 등) 슬라이싱(slicing): 하나 이상의 축을 중심으로 셀들을 선택 다이싱(dicing): 셀들의 (사각) 집합을 선택 롤-업(roll-up)/드릴-다운(drill-down) 일반적으로 속성은 계층적 구조(hierarchical structure)를 가짐 롤-업: 작은 단위(예: day)에서 큰 단위(예: month, year)로 집계 수행 드릴-다운: 큰 단위에서 작은 단위로 집계 수행

Slicing vs. Dicing 데이터 탐색(Data Exploration)

Roll-Up vs. Drill-Down 데이터 탐색(Data Exploration)

아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석 강의 내용 데이터 탐색(Data Exploration) 아이리스 데이터 집합 요약 통계 데이터 시각화 OLAP과 다차원 데이터 분석