Chapter 5. Conformed Dimension

Slides:



Advertisements
Similar presentations
Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Advertisements

SNS ! 건대 ▶ 오리 정보 제공 : 해당 지역에서 이슈화 되고 있는 서비스, 제품의 기업에게 정보 제공.
선행선행 죄 죄 구원구원 선행 ※ 경기 규칙 1. 윷놀이의 아래를 제외한 대부분의 규칙은 동일하다. 2. 이 윷놀이의 궁극적인 목적은 험한 세상을 지나 천국으로 들어가는 것이다. 3. 윷놀이를 하다가 앞서 가고 싶은 욕심 때문에 ‘ 죄 ’ 칸에 멈춰서면 반드시 목욕탕으로.
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
문자코드 1 박 2 일 (4 조 ) 이경도 이준집 이수연 엄태규. 문자코드란 ? 문자나 기호를 컴퓨터로 다루기 위하여, 문자나 기호 하나하나에 할당 시키는 고유의 숫자를 말하는 것이다.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
서울시립대학교 전자전기컴퓨터공학부 김한준
Chapter 16 : Struts 프레임워크 2. chapter 16 : Struts 프레임워크 2.
Ch. 16 Design and Business Intelligence
Index SendMemo 기능 Q & A 팀 소개 배경 및 목적 구현
Chapter 7 데이터웨어하우징 의사결정지원시스템.
Chapter 15 aggregates 서울시립대학교 인공지능연구실 홍성학.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
제 9 장 데이터 웨어하우스의 구조 박 종수 성신여자대학교 컴퓨터정보학부 2002 정보공학특강1.
연결리스트(linked list).
데이터웨어하우스 데이터 모델링 (Data Warehouse Data Modeling)
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
Star Schema Ch14. Derived Schemas
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
Enterprise Data Warehouse
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
웹 로그 데이터를 이용한 다차원 질의 분석 데이터베이스 연구실 석사 3학기 김 백 선.
UNIT 07 Memory Map 로봇 SW 교육원 조용수.
07 그룹 함수 그룹 함수의 개념 그룹 함수의 종류 데이터 그룹 생성 HAVING 절.
선진사 Benchmarking 결과보고 통합 ERP 구축 전담반.
Error Detection and Correction
13 인덱스 인덱스의 개념 인덱스의 구조 인덱스의 효율적인 사용 방법 인덱스의 종류 및 생성 방법 인덱스 실행 경로 확인
ASP.NET AJAX 비동기 게시판 작성 2007 컴퓨터공학실험( I )
Sungkyunkwan University OS Project Dongkun Shin
자료구조: CHAP 4 리스트 (3) 순천향대학교 컴퓨터공학과 하 상 호.
13 인덱스 인덱스의 개념 인덱스의 구조 인덱스의 효율적인 사용 방법 인덱스의 종류 및 생성 방법 인덱스 실행 경로 확인
C#.
자바 5.0 프로그래밍.
어서와 C언어는 처음이지 제14장.
UNIT 07 Memory Map 로봇 SW 교육원 조용수.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
27장. 모듈화 프로그래밍.
29강 JAVA 스레드 - 스레드란? - 멀티스레드 문법 - synchronized Lecturer Kim Myoung-Ho
2015학년도 PHP 기말 레포트 로그인 홈페이지 제작.
Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
ASP.NET AJAX / AJAX Control Toolkit 응용 2008 컴퓨터공학실험( I )
2장. 변수와 타입.
서울대학교 컴퓨터공학과 인공지능 연구실 엄 재 홍
자바 5.0 프로그래밍.
MovieStory 작성자 홍성혁 소속 전자전기컴퓨터공학부 학번
Database Management System
메모리 타입 분석을 통한 안전하고 효율적인 메모리 재사용
CHAP 21. 전화, SMS, 주소록.
2nd day Indexing and Slicing
약식 진리표를 이용한 타당성 증명 진리표 그리기 방법의 한계
Data Warehouse 구축 (설계 위주)
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
오라클 11g 보안.
14 뷰(View) 뷰의 개념 뷰 관리.
JSP Programming with a Workbook
Chapter 10 데이터 검색1.
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
1. 입력 데이터 ② 대학, 학과: 대학이 존재하지 않을 경우 학과명을 대학에 입력 학과명은 공백으로 유지 (하단 참조)
ER-관계 사상에 의한 관계데이터베이스 설계 충북대학교 구조시스템공학과 시스템공학연구실
.Net FrameWork for Web2.0 한석수
07. DB 설계 명지대학교 ICT 융합대학 김정호.
1. 지역변수와 전역변수 2. auto, register 3. static,extern 4. 도움말 사용법
14 뷰(View) 뷰의 개념 뷰 관리.
 6장. SQL 쿼리.
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
6 객체.
교과서 78쪽 학습 목표 정보 관리의 필요성을 이해할 수 있다. 데이터베이스의 개념과 필요성을 이해할 수 있다.
Presentation transcript:

Chapter 5. Conformed Dimension Star Schema Chapter 5. Conformed Dimension 2017. 04. 10 서울시립대학교 전자전기컴퓨터 공학과 데이터마이닝 연구실 임푸름

Contents The Synergy of Multiple Star Dimensions and Drilling Across Conformed Dimensions Architecture and Conformance

The Synergy of Multiple Star Business process를 분석할 수 있음 프로세스간의 관계를 분석 할 수 있음 Star들이 공유하고 있는 Dimension이 Conformed Dimension

The Synergy of Multiple Star

Dimensions and Drilling Across Dimension은 Drill Across를 가능하게 함 Dimension의 Structure나 Content가 다르면 Drill Across를 수행하지 못함 Drill Across는 한 Dimension이 다른 하나의 부분 집합이여도 가능

Drill Across failure의 원인

Drill Across failure의 원인 (1) Dimension의 구조가 다른 경우 Drill Across하려는 Dimension에서 어느 한쪽에 존재하지 않는 Column이 존재 하는 경우 Drill Across하려는 Dimension에서 Column의 이름이 다른 경우

Drill Across failure의 원인 (2) Dimension의 Content가 다른 경우 내용은 같지만 대, 소문자를 통일하지 않은 경우 같은 의미를 뜻하지만 단어가 다른 경우 잘못된 정보가 저장된 경우 한쪽에만 정보가 존재하는 경우 Surrogate key가 다른 경우

Identical Tables Not Required Conformance를 위해 반드시 Dimension이 동일할 필요는 없음 하나의 Dimension이 다른 Dimension의 subset관계여도 만족 하위 계층 관계의 Dimension은 aggregate후 grain을 맞추어서 join을 수행

Identical Tables Not Required

Identical Tables Not Required

Conformed Dimensions Drilling across를 수행하는데 필요한 dimension을 conformed dimension이라고 함 동일한 Dimension이 conformance를 보장하지만 conformance는 여러 형태가 존재함

Dimensional Conformance의 종류 Shared dimensions Conformed rollups Degenerate dimensions Overlapping dimensions

Shared Dimension Tables 가장 간단하면서 Conformance를 만족하는 방법 Physical table을 공유 하거나 각각의 Table은 동일한 구조와 동일 한 콘텐츠를 공유해야 함

Conformed Rollups 한 Dimension의 attributes가 다른 Dimension의 attributes와 subset 관계일 경우 공유되는 attributes는 structure와 content가 동일해야 함 더 작은 Dimension을 conformed rollup, 더 큰 Dimension을 base dimension이라 명명

Conformed Rollups

Conforming Degenerate Dimensions Degenerate함으로써 Conformance를 만족 Degenerate한 Fact attribute의 structure와 content를 동일하게 구성 각 Fact에서 동일한 grain으로 aggregate (Phase1) 후 join을 수행 (Phase2)

Overlapping Dimensions 겹치는 attributes를 새로운 table로 생성 제한된 snowflake를 사용 (Dimension의 정규화)

Overlapping Dimensions 하나의 Dimension이 다른 Dimension에 subset관계가 아니면서 동일한 attributes를 공유하는 경우

Overlapping Dimensions Overlapping dimension table을 구성하는 작업은 ETL프로세스가 다름 Overlap된 attributes가 존재한다면 BI tool에서 자동 drill across 를 수행하기 힘듬 Overlap된 attributes를 피하기 위해 새로운 테이블을 생성하는 3가지 대안을 소개

To Avoid Overlap Overlap되는 attributes를 새로운 테이블로 관리 Overlap되는 Dimension간의 관계 를 추적하는 것이 불가능 해짐

Tracking Relationships Overlap되는 Dimension간의 관계를 새로운 테이블(fact)로 생성 서로 간의 관계를 추적하는 것이 중요할 경우 이용 이에 해당하는 테이블은 Factless fact table이라고 함

Outrigger 단순히 Overlap되는 attributes를 새로운 테이블로 생성하는 것이 아닌 일종의 정규화를 통해서 사용하는 방법 Overlap되는 attributes의 레코드를 새롭게 생성한 테이블에서 추 적하는 key를 가짐 이 접근법의 궁극적인 형태가 snowflake territory_key territory_key

Planning Conformance Conformed Dimension의 중요성을 강조 Conformance없이는 cross-process분석을 할수 없음 Conformance는 dimensional design의 가장 중요한 요소

Conformance Design 테이블 명세만 보고 Conformance를 파악하기 힘드므로 matrix형 태의 conformance명세를 통해 파악

Incremental Implementation 처음부터 한번에 모든 것을 구현하지 않고 fact별로 하나씩 만든 후 Conformance를 만족 시켜나감

Architecture and Conformance Conformance는 Architecture에 따라 중요성이 다름 Kimball’s data warehouse에서는 중심 요소 Inmon’s data warehouse에서는 상대적으로 덜 중요 Stand-Alone Data mart에서는 내부적으로 중요하지만 다른 Data mart와 호환 되지 않을 수 있음

Dimensional Data Warehouse Conformed dimension은 enterprise scope 에서 중요 Subject areas간의 통합분석을 가능하게 함 반드시 dimensional design은 conformance 계획이 포함되고 전략적이며 선행과정으로 수행되어야 함 Conformance framework로 conformance bus를 제안

Corporate Information Factory Repository는 Dimensional구조가 아님, 따라서 Data mart에서의 Conformance가 중요 Kimball의 방법에 비해 conformance에 대한 부담이 적음 Data mart간의 비교를 하려면 새로운 Data mart를 생성하여 수 행

Stand-Alone Data Marts Stand-Alone Data mart에는 Enterprise context가 존재하지 않음, 따라서 Data mart 내부의 Conformance가 중요 좋은 방법이 아니지만 많이 사용하고 있으므로 어쩔 수 없다고 함

Summary Conformed Dimension은 성공적인 dimensional design의 중요 요소 Conformed Dimension을 통해 cross process 질의를 할 수 있음 Dimentional Conformance는 4가지 종류가 있음 Shared Dimensions Conformed Rollups Degenerate Dimensions Overlapping Dimensions