Star Schema Ch14. Derived Schemas

Slides:



Advertisements
Similar presentations
Chapter 8. TEXT CLUSTERING 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Advertisements

컴퓨터와 인터넷.
전자파 연구실 Fast Beamforming of Electronically Steerable Parasitic Array Radiator Antennas: Theory and Experiment 세미나 자료 발표자 : 이동현 1.
Chapter 16 : Struts 프레임워크 2. chapter 16 : Struts 프레임워크 2.
Ch. 16 Design and Business Intelligence
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
Chapter 15 aggregates 서울시립대학교 인공지능연구실 홍성학.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
Excel 일차 강사 : 박영민.
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
MySQL 및 Workbench 설치 데이터 베이스.
Learning Classifier using DNA Bagging
전자기적인 Impedance, 유전율, 유전 손실
4장. 웹로직 서버상에서의 JDBC와 JTA의 운용
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
Multimedia Programming 10: Point Processing 5
Error Detection and Correction
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
보조저장장치 구조(Secondary Storage Structure)
3차원 객체 모델링.
1장. 데이터베이스 자료의 조직적 집합체_데이터베이스 시스템의 이해
JA A V W. 03.
사용자 함수 사용하기 함수 함수 정의 프로그램에서 특정한 기능을 수행하도록 만든 하나의 단위 작업
자바 5.0 프로그래밍.
프로그래밍 개요
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
Technology Strategy : An Evolutionary Process Perspective
제 10 장 의사결정이란 의사결정은 선택이다.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
‘Chess’를 읽고 컴퓨터공학부 배상수.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
MCL을 이용한 이동로봇 위치추정의 구현 ( Mobile robot localization using monte carlo localization ) 한양대학교 전자전기전공 이용학.
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
Frequency distributions and Graphic presentation of data
합집합과 교집합이란 무엇인가? 01 합집합 두 집합 A, B에 대하여 A에 속하거나 B에 속하는 모든 원소로 이루어진 집합을 A와 B의 합집합이라고 하며, 기호 A∪B로 나타낸다. A∪B ={x | x∈A 또는 x∈B}
3강. 컴퓨터와의 기본적인 소통수단 - I 연산자란? 컴퓨터와 소통하기 위한 다양한 방법들
계산기.
학습목표 PBL 문제를 만들고, WBL방식의 학습을 실시한다.
균형이진탐색트리 이진 탐색(binary search)과 이진 탐색 트리(binary search tree)와의 차이점
“웹과 모바일을 연동한 평가 간편 시스템” vol
알고리즘 알고리즘이란 무엇인가?.
데이터 동적 할당 Collection class.
디버깅 관련 옵션 실습해보기 발표 : 2008년 5월 19일 2분반 정 훈 승
장애인단체 간담회 마스터 제목 스타일 편집 마스터 제목 스타일 편집 장애인 단체 간담회 마스터 부제목 스타일 편집
Chapter 5. Conformed Dimension
Web Storage 인공지능 연구실.
에어 PHP 입문.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Chapter 1 단위, 물리량, 벡터.
DA :: 퀵 정렬 Quick Sort 퀵 정렬은 비교방식의 정렬 중 가장 빠른 정렬방법이다.
Chapter 1 단위, 물리량, 벡터.
3D 프린팅 프로그래밍 03 – 도형 회전 (손잡이컵 만들기) 강사: 김영준 목원대학교 겸임교수.
배포용 시험도구 매뉴얼 v1.0 (PerformanceEvaluation.exe)
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
DNA의 구조와 역할 (1) DNA : 이중 나선 구조로 수많은 뉴클레오타이드의 결합으로 이루어져 있다.
5.1-1 전하의 흐름과 전류 학습목표 1. 도선에서 전류의 흐름을 설명할 수 있다.
의미론적 관점 * TV에서 ‘푸른 빛이 아닌 청자빛’이란 표현을 들었을 경우
ER-관계 사상에 의한 관계데이터베이스 설계 충북대학교 구조시스템공학과 시스템공학연구실
Numerical Analysis Programming using NRs
텍스트 분석 ㈜ 퀀트랩.
워드프로세서 스프레드시트 문서 관리 인터넷 활용
TrustNet 전자 협조전 사용설명서 목 차 작성,수정,삭제 결재함 처리현황 발송대장,접수대장
DNA Implementation of Version Space Learning
Introduction to Wavelets - G.E. Peckham
 6장. SQL 쿼리.
Ch12. Deep Learning (Backpropagation)
Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.
Presentation transcript:

Star Schema Ch14. Derived Schemas 서울시립대학교 시스템구조연구실 박현식

Contents Derived Schemas The Merged Fact Table The Pivoted Fact Table The Sliced Fact Table Set Operation Fact Tables

Derived Schemas Data set이 너무 클 경우 간단한 query에서도 성능 저하가 발생한다. Derived table와 aggregate table을 이용하면 성능을 크게 높일 수 있다. Aggregate table은 chapter 15에서 설명 Derived schema는 존재하는 dimensional data를 재구성하여 저장한다. Derived schema는 query의 성능을 증가시키고 report 작성의 복잡성을 감소 시킨다.

Derived Schemas Uses for derived schemas Query performance Report complexity 데이터를 재구성함으로써 기술이 적은 사용자도 대답을 얻을 수 있게 하여 보고서 개발 비용을 절 감한다. Schema scope Data의 크기를 제한되기 때문에 분산처리, 부서분석, 모바일 환경에서의 분석에 적합하다. Use of cubes 필요한 경우 cube를 사용하여 관계형 data를 보조하는 역할을 한다.

Derived Schemas Derived schemas already covered Snapshots (Ch. 11) Accumulating snapshots (Ch. 11) Core fact tables (Ch. 13)

Derived Schemas The cost of derived schemas Derived schemas는 무료로 얻어지지 않고 ETL process에서 cost와 함께 생성되는 것. Derived schemas는 load 과정에서 더 많은 리소스를 요구하기 때문에 derived schemas 로 얻는 이점과 그에 따른 손실이 균형을 이루어야 한다. 여러 개의 star를 분석할 경우 개발자는 어떤 star를 선택하고 어떠한 derived schemas를 선택하여야 분석 요구사항을 만족할 수 있을지 염두 하여야 한다.

Derived Schemas The Merged Fact Table The Pivoted Fact Table Drill-across 결과를 사전에 계산한다. The Pivoted Fact Table 행방향 data를 열방향 data 또는 역방향으로 뒤바꾼다. The Sliced Fact Table Original fact table의 행에 대한 부분집합으로 구성된다. Set Operation Fact Tables 2개의 star에 대한 합집합, 교집합, 차집합 연산을 사전에 계산한다.

The Merged Fact Table Derived schema 중 가장 흔하게 사용된다. 하나 이상의 star에 존재하는 fact 들을 통합한다. Drilling across를 사용하지 않고도 fact간의 비교가 가능하다. Ex) 계획(목표)과 실제 성과에 대한 비교 Data set이 클 수록, 많은 수의 process를 비교할 수록 더 성능이 높아진다.

The Merged Fact Table Conform at the level Nonshared dimension Not used Precomputed drill-across result

The Merged Fact Table Drilling-across (Ch. 5) Step 1 Step 2 Slow and complex

The Merged Fact Table Simplified process comparison 더 이상 drill-across를 할 필요가 없다. 한번의 간단한 query로 fact의 비교가 가능하다.

The Merged Fact Table Nonshared dimension Merged fact table은 모든 nonshared dimension에 대한 fact가 있어야 한다. Ex) 지역과 월이 주어졌을 때 merge fact table은 각 plan에 대하여 fact가 있어야 한다. Nonshared dimension과 연관이 없는 fact table의 행들은 ETL process 과정에서 nonshared dimension의 행의 수만큼 반복되며 merged fact table을 형성한다. Ex) order_dollars의 값이 plan_version의 모든 경우에 대해서 반복되어 저장된다. Nonshared dimension의 어떤 값을 선택하더라도 업무 절차 분석이 가능하다. Ex) 여러가지의 plan에 대해서 plan과 실제 성과간의 비교 분석이 가능하다.

The Pivoted Fact Table Original fact table을 행방향에서 열방향 또는 역방향으로 바꿔준다. Report의 형식을 단순화해준다. 성능증가는 매우 미미하게 증가하기 때문에 주로 report의 결과가 클 경우에 사 용된다.

The Pivoted Fact Table The need to pivot data Dimension을 fact의 같은 행으로 이동시킨다.

The Pivoted Fact Table Query results Original schema (row-wise) Derived Schema (column-wise)

The Sliced Fact Table Sliced fact table은 original star에서 특정한 dimension 속성을 가진 부분집 합을 취하여 생성한다. 여러 개의 sliced fact table을 생성하면 분산처리에 유용하다. 특정 부서에 초점을 맞추어 분석이 가능하다. 각 역할에 기반하여 보안성이 강화된다. Detail을 포기하지 않고도 schema의 범위를 축소할 수 있다. 사용할 수 있는 data set의 크기가 한정된 mobile 기기에 적용이 가능하다.

The Sliced Fact Table Creating slices of a star

The Sliced Fact Table Load process sequence Sliced fact table을 이용하여 fact들을 병렬로 처리하고 결과를 결합해 전체 결과를 얻을 때는 다음과 같은 순서를 거친다. 공통된 dimension table을 처리한다. 원한다면 병렬로 fact table slice를 처리한다. Slice들로부터 결합된 fact table을 얻는다. 순서가 지켜지지 않을 경우 부적합, key 값의 중복, slow change의 일괄되지 않은 표기법 등의 문제가 발생할 수 있다.

Set Operation Fact Tables 같은 dimension을 공유하는 2개의 star가 존재할 때 2개 사이의 교집합, 합집 합, 차집합 등은 의미 있는 정보일 때가 많다. Set operation fact table은 2개의 star간의 집합 연산을 미리 해두어 다른 star를 미리 생성해 두는 것이다. 집합 연산이 필요한 분석을 할 경우 query time에 집합 연산 하는 것을 피할 수 있으므로 수행 시간이 줄어들어 성능이 향상된다.

Set Operation Fact Tables

Set Operation Fact Tables Choosing to precompute set operation 집합 연산의 결과물은 의미가 있는 결과일 수도 있지만 그렇지 않을 수도 있다. 의미 없는 결과의 사전 연산 결과물을 산출해 내는 것은 오히려 ETL process 과정에서 비용 의 증가를 일으킨다. ETL process의 비용 증가 측면과 report 작성의 비용 감소 측면 또는 수행시간 감소 측면을 종합해서 고려해서 derived star를 생성할지 결정한다. Report의 20% 정도가 부분집합에 초점을 두고 있다면 derived star를 사용하는 것이 매우 유리할 수 있다.