Chapter 5. Conformed Dimension Star Schema Chapter 5. Conformed Dimension 2017. 04. 10 서울시립대학교 전자전기컴퓨터 공학과 데이터마이닝 연구실 임푸름
Contents The Synergy of Multiple Star Dimensions and Drilling Across Conformed Dimensions Architecture and Conformance
The Synergy of Multiple Star Business process를 분석할 수 있음 프로세스간의 관계를 분석 할 수 있음 Star들이 공유하고 있는 Dimension이 Conformed Dimension
The Synergy of Multiple Star
Dimensions and Drilling Across Dimension은 Drill Across를 가능하게 함 Dimension의 Structure나 Content가 다르면 Drill Across를 수행하지 못함 Drill Across는 한 Dimension이 다른 하나의 부분 집합이여도 가능
Drill Across failure의 원인
Drill Across failure의 원인 (1) Dimension의 구조가 다른 경우 Drill Across하려는 Dimension에서 어느 한쪽에 존재하지 않는 Column이 존재 하는 경우 Drill Across하려는 Dimension에서 Column의 이름이 다른 경우
Drill Across failure의 원인 (2) Dimension의 Content가 다른 경우 내용은 같지만 대, 소문자를 통일하지 않은 경우 같은 의미를 뜻하지만 단어가 다른 경우 잘못된 정보가 저장된 경우 한쪽에만 정보가 존재하는 경우 Surrogate key가 다른 경우
Identical Tables Not Required Conformance를 위해 반드시 Dimension이 동일할 필요는 없음 하나의 Dimension이 다른 Dimension의 subset관계여도 만족 하위 계층 관계의 Dimension은 aggregate후 grain을 맞추어서 join을 수행
Identical Tables Not Required
Identical Tables Not Required
Conformed Dimensions Drilling across를 수행하는데 필요한 dimension을 conformed dimension이라고 함 동일한 Dimension이 conformance를 보장하지만 conformance는 여러 형태가 존재함
Dimensional Conformance의 종류 Shared dimensions Conformed rollups Degenerate dimensions Overlapping dimensions
Shared Dimension Tables 가장 간단하면서 Conformance를 만족하는 방법 Physical table을 공유 하거나 각각의 Table은 동일한 구조와 동일 한 콘텐츠를 공유해야 함
Conformed Rollups 한 Dimension의 attributes가 다른 Dimension의 attributes와 subset 관계일 경우 공유되는 attributes는 structure와 content가 동일해야 함 더 작은 Dimension을 conformed rollup, 더 큰 Dimension을 base dimension이라 명명
Conformed Rollups
Conforming Degenerate Dimensions Degenerate함으로써 Conformance를 만족 Degenerate한 Fact attribute의 structure와 content를 동일하게 구성 각 Fact에서 동일한 grain으로 aggregate (Phase1) 후 join을 수행 (Phase2)
Overlapping Dimensions 겹치는 attributes를 새로운 table로 생성 제한된 snowflake를 사용 (Dimension의 정규화)
Overlapping Dimensions 하나의 Dimension이 다른 Dimension에 subset관계가 아니면서 동일한 attributes를 공유하는 경우
Overlapping Dimensions Overlapping dimension table을 구성하는 작업은 ETL프로세스가 다름 Overlap된 attributes가 존재한다면 BI tool에서 자동 drill across 를 수행하기 힘듬 Overlap된 attributes를 피하기 위해 새로운 테이블을 생성하는 3가지 대안을 소개
To Avoid Overlap Overlap되는 attributes를 새로운 테이블로 관리 Overlap되는 Dimension간의 관계 를 추적하는 것이 불가능 해짐
Tracking Relationships Overlap되는 Dimension간의 관계를 새로운 테이블(fact)로 생성 서로 간의 관계를 추적하는 것이 중요할 경우 이용 이에 해당하는 테이블은 Factless fact table이라고 함
Outrigger 단순히 Overlap되는 attributes를 새로운 테이블로 생성하는 것이 아닌 일종의 정규화를 통해서 사용하는 방법 Overlap되는 attributes의 레코드를 새롭게 생성한 테이블에서 추 적하는 key를 가짐 이 접근법의 궁극적인 형태가 snowflake territory_key territory_key
Planning Conformance Conformed Dimension의 중요성을 강조 Conformance없이는 cross-process분석을 할수 없음 Conformance는 dimensional design의 가장 중요한 요소
Conformance Design 테이블 명세만 보고 Conformance를 파악하기 힘드므로 matrix형 태의 conformance명세를 통해 파악
Incremental Implementation 처음부터 한번에 모든 것을 구현하지 않고 fact별로 하나씩 만든 후 Conformance를 만족 시켜나감
Architecture and Conformance Conformance는 Architecture에 따라 중요성이 다름 Kimball’s data warehouse에서는 중심 요소 Inmon’s data warehouse에서는 상대적으로 덜 중요 Stand-Alone Data mart에서는 내부적으로 중요하지만 다른 Data mart와 호환 되지 않을 수 있음
Dimensional Data Warehouse Conformed dimension은 enterprise scope 에서 중요 Subject areas간의 통합분석을 가능하게 함 반드시 dimensional design은 conformance 계획이 포함되고 전략적이며 선행과정으로 수행되어야 함 Conformance framework로 conformance bus를 제안
Corporate Information Factory Repository는 Dimensional구조가 아님, 따라서 Data mart에서의 Conformance가 중요 Kimball의 방법에 비해 conformance에 대한 부담이 적음 Data mart간의 비교를 하려면 새로운 Data mart를 생성하여 수 행
Stand-Alone Data Marts Stand-Alone Data mart에는 Enterprise context가 존재하지 않음, 따라서 Data mart 내부의 Conformance가 중요 좋은 방법이 아니지만 많이 사용하고 있으므로 어쩔 수 없다고 함
Summary Conformed Dimension은 성공적인 dimensional design의 중요 요소 Conformed Dimension을 통해 cross process 질의를 할 수 있음 Dimentional Conformance는 4가지 종류가 있음 Shared Dimensions Conformed Rollups Degenerate Dimensions Overlapping Dimensions