Data Warehouse 구축 (Star Schema)

Slides:



Advertisements
Similar presentations
㈜ 에스엘에스컴퍼니 경영전략수립 Process 2013 년 11 월 대한상공회의소 중소기업경영자문단 정영수 자문위원.
Advertisements

Personal improvement project Fall, 2015 Prof. Baekseo Seong.
회사개요 ・회사명 : 유니클로 ・설립 : 1974 년 9 월 2 일 ・사업내용 : 상품기획, 생산, 물류와 판매까지 일관해서 진행하는 SPA( 어퍼랠제조소매업 ) 모델을 확림하여 고품질인 커쥬얼의류를 제공 회사정보 UNIQLO is a casual apparel brand.
김예슬 김원석 김세환. Info Northcutt Bikes Northcutt Bikes The Forecasting problem The Forecasting problem The solution 1~6 The.
Marketing Marketing - 현안과 발전 방향 ㈜ 엠포스 대표이사 박상현
Original Laundry ­ room Items Wash bench / IronMaid ◀ 신모델 Multi- Drying cabinet ▲ 신상품 수입공급원 ㈜삼덕물산 HP PH
Marketing for Hospitality and Tourism 환대산업 마케팅의 개요 Chapter 1.
도 입 Introduction 여러분 중에 부모인 분 손들어보세요. How many of you are parents? 여러분의 아이가 태어난 날부터 아이의 성장을 위해 어떤 방법으로 아이를 키우시겠습니까 ? What specific ways are you concerned.
이력서 작성법 서강대학교 전자공학과. 이력서 이력서란 ? ◦ 이력서 ( 履歷書 ) a rsum 《미》 ;a personal history[statement];a curriculum vitae 《라》 ;a record of one’s life ◦ 이력 [ 履歷 ] [ 명사.
A: Could you tell me how to make a call from this phone
ALL IN ONE WORKING HOLIDAY!
Award winning Business database
Chapter 7: Entity-Relationship 모델
Domain Name System.
Chapter 7 ARP and RARP.
Journals & Conferences
Chapter 7 데이터웨어하우징 의사결정지원시스템.
4. 데이터 기능 유형.
Benefits of Microsoft’s Responsible Disclosure method
Benefits of Microsoft’s Responsible Disclosure method
변화관리의 출발.
제 2부 호텔 영업부문의 경영관리 제7장 호텔의 세일즈와 마케팅 제8장 호텔의 객실영업 제9장 호텔의 객실관리
Data Warehouse 구축 (2).
LISTEN AND UNDERSTAND LISTEN AND SING
SQL 개요 SQL 개요 - SQL은 현재 DBMS 시장에서 관계 DBMS가 압도적인 우위를 차지하는 데 중요한 요인의 하나
7장 : 캐시와 메모리.
Internet Computing KUT Youn-Hee Han
에어로플랜에 가입하기 1. Title Title을 입력한다. 성과 이름을 잘 구분하여 입력한다. 생년월일을 기입한다.
한 번의 클릭으로 티칭할 수 있는 정전용량형 센서– BCT 시리즈
마케팅 분석 시스템 개발 방법론 2004년 5월 27일 ㈜비아이솔루션 김환태
SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.
English Communication 1
보상플랜.
Data Modeling Database 활용을 위한 기초 이론 Database의 개요 Data Modeling
비 교 급 ( 2 ) 비교, 최상급 만들기 원 급 의 문 장 비 교 급 의 문 장 최 상 급 의 문 장.
6장. 물리적 데이터베이스 설계 물리적 데이터베이스 설계
제 14 장 거시경제학의 개관 PowerPoint® Slides by Can Erbil
1 도시차원의 쇠퇴실태와 경향 Trends and Features of Urban Decline in Korea
Chapter 2. Finite Automata Exercises
Oracle의 인적자원관리 Oracle Korea /
제2장 기업 전략과 마케팅 전략.
UML exercise in Class.
미국기준 A C N 마 케 팅 플 랜 동영상보기☞
EnglishCare 토.마.토. 토익 L/C 일상 어휘 ④ 강 사 : 김 태 윤.
Professional Sales Negotiations
Write and say bye to friends,
Data Mining Final Project
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
The Data Warehouse Toolkit, 3rd Edition CH.10 Financial Services
제4장 : 노동력 구조 1. 한국의 노동력 구조 2. 일본의 노동력구조 3. 유럽의 노동력 구조 4. 노동력 구조의 변화와 정책방향 동영상 학습과제 1. 노동력 구조와 의미는? 2. 각국의 노동력 구조를 조사하는 방법은? 3. 각국의 노동력 구조의 변화추이는? 4.
McGraw-Hill Technology Education
: 부정(negative)의 의미를 나타내는 접두사
강변 교회 유초등부 설교. 강변 교회 유초등부 설교 강변 교회 유초등부 설교 이에 말씀하시되 내 마음이 매우 고민하여 죽게 되었으니 너희는 여기 머물러 나와 함께 깨어 있으라 하시고(마태복음 26:38) 이에 말씀하시되 내 마음이 매우 고민하여 죽게 되었으니.
McGraw-Hill Technology Education
Insight Deep MininG 건강을 위한 마이너스, 무첨가 식품 인사이트코리아/식품음료신문 공동 기획 기사
시스템 분석 및 설계 글로컬 IT 학과 김정기.
Creating the Most Powerful TV Brand in the World
평생 간직할 멋진 말 Excellent thought applicable through our whole life
Internet Computing KUT Youn-Hee Han
Data Warehouse 구축 (설계 위주)
점화와 응용 (Recurrence and Its Applications)
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
Definitions (정의) Statistics란?
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
Speaking -첫 번째 강의 ( Part 1 유형별분석) RACHEL 선생님
[CPA340] Algorithms and Practice Youn-Hee Han
Chapter 4. Energy and Potential
Ⓒ Copyright CARROT Global. All Rights Reserved.
Speaking -여섯 번째 강의 (Review ) RACHEL 선생님
We went dancing! Interchange 7강.
Presentation transcript:

Data Warehouse 구축 (Star Schema)

Drill across process of linking tow or more fact tables at the same granularity dimension table공유

Star Schema : Time dimension 시간차원의 중요성 시간차원이 없는 질의는 meaningless! What are the sales volumes for all products available in store 52? “for what period of time” Time의 속성 day of week, week of month, work day, weekend, holiday, season, fiscal period

Star Schema : Space dimension Marketing 정책 수립에 유용한 분석 보고서 작성 “What is the average driving distance for all customers who made a purchase at store 52 during the Christmas holiday season?” “What is the average income and family size of the neighborhoods where my customers exists?” effectively expand analysis domain Space 차원의 속성 위/경도, street address, street block, city quadrant, zip code, street, city, country, state, demographic information household income, education, family size, home value, etc customer address ~ store(school)간 driving time

Star Schema : Space dimension Spatial industry petroleum, telecommunications, government agencies 질의 예 “What is all those customers who bought from stores 1 & 2 during the Christmas holiday season?” (result) All customers who drove 3 minutes or less to a store in Tampa during holiday season “See the market for all stores in the surrounding area presented in concentric rings of 1, 2, & 3 miles” “See total potential customers who drive time to each of your store in the Tampa area is 4, 8, or 12 minutes

Star Schema : Space dimension 4개 상점위치에서 시장조사 2개 상점에서 고객들의 운행거리

Star Schema : Space dimension Time Dimension date_id customer_id product_id store_id customer_geo_id item_price item_qty item_cost product_id product_code description unit_price unit_cost selling_unit stocking_unit life_stamp ... customer_id customer_code customer_name address1 address2 city state zip telephone life_stamp * customer_geo_code customer_geo_id customer_geo_code zip_code census_track block_group country state avg_income avg_house_size avg_age ...

Star Schema : Space dimension Target Mailing 에 응용 예 for tuning AD. expenditure targeting upper-middle class, middle-aged males “What was our total sales revenue from customers who bought from store 52 during Christmas season and who live in neighborhood earning an average of $50,000 per year and are more than 30 years old?”

Star Schema : Extensibility Causal dimension advisory dimension that should not change the fundamental grain of a table 어떤 event가 일어나게 된 이유를 설명 promotion, store condition “Was my promotion profitable?”

New causal dimension Causal_key Condition_name Price_treatment_type Price_discount Ad_type Ad_media_name Ad_size Display_type Display_provider Display_size

Star Schema : Extensibility Building the fact table at a granular level 만약, 주단위로 요약된 fact table의 경우, monthly data로 확장할 수는 없다.

Star Schema : Helper In HealthCare billing Helper Table grain : individual line item on a doctor bill 한 환자가 여러 개의 진단명을 가질 수 있음. choose one value (“primary” diagnosis) and omit the other values Diagnosis data의 유용성이 떨어짐 create a fixed number of additional Diagnosis dimension slots in the fact table key Helper Table weighting factor : 한 grain을 형성하는 각 요소의 중요도 할당 예) 3개의 진단명이 있는 경우, 각 weighting factor는 1/3

Star Schema : Helper

Star Schema :Factless Fact Tables 단지, dimension table과 link되는 multi-part key만을 가지고 있음 유형 I : table that record event (event-tracking table) 예) fact table for recording student attendance on a daily basis at a college grain : individual student attendance event “Which classes were the most heavily attended?” “Which classes were the most consistently attended?” “Which teachers taught the most students?” “Which teachers taught classes in facilities belonging to other departments?” “What was the average total walking distance of a student in a given day?”

Star Schema :Factless Fact Tables

Star Schema :Factless Fact Tables 유형 II : coverage table 일어나지 않은 사건에 대한 질의를 수행 “Which products were on promotion that didn’t sell?” fact table의 내용이 sparse할 때 사용 예) coverage table for each product in each store that is on promotion in each time period (9609)

Star Schema :Factless Fact Tables

Star Schema : Slowly Changing Dimension Example 품목 설명이 종종 바뀌는 ‘품목’ 차원 테이블 처리 방법 Overwriting 변경된 dimension 속성의 과거 이력을 보존하지 못함. 그래서, 이전 value가 중요하지 않은 경우에 사용 Creating Another Dimension Record Creating Current Value Field

Star Schema : Slowly Changing Dimension Creating Another Dimension Record generalize the key to changed dimension 예) primary key + version digit product dimension의 경우, SKU#+01, SKU#+02 fact table의 레코드들을 dimension attribute의 history에 따라 partition이 가능 과거 이력을 수직적으로 보존 단점 dimension key의 generalization dimension table의 크기(레코드 수) 증가 Creating a Current Value Field “current value” 필드를 추가 과거 이력을 수평적으로 보존

Star Schema : Slowly Changing Dimension *예) Pkg_type변동 glued box => pasted box SKU#-01 => SKU#-02

Star Schema : Big Dimension millions or tens of millions records 예) customer dimension 개개인(고객)의 정보를 기록 압축, 요약이 힘들고, 다른 차원 테이블에 비해 변동이 심함. MiniDimension의 생성 어느 정도 static한 dimension과 계속적으로 변하는 dimension을 분리 예) customer dimension의 경우에 demographic minidimension 계속 변화하는 demographic measure (income, purchase_behavior)가 일정 간격을 가지는 구획값으로 변형 demographic dimension attribute의 모든 가능한 값의 조합을 결정하여 키값을 생성

Demographic Dimension demographics_key age_level income_level marital_status sex purchase_behavior Sales Fact time_key demographics_key customer_key product_key promotion_key sales_units sales_dollars Customer Dimension customer_key first_name last_name street_address city state zip demographics_key

Star Schema : MiniDimension minimize the joins necessary thought the fact table when you want to retrieve spatial data for customers without fact aggregation Big Dimension

Star Schema : MiniDimension Advantages support frequent snapshotting of customer profiles with no increase in data storage or data complexity as you increase the number of snapshots demographic dimension itself cannot be allowed to grow too large Disadvantages browsing performance 저하 demographics data can only be browsed along with the more constant customer data by liinking through the fact table if fact table is empty, (아무런 event가 발생하지 않음) cannot link the demographics to the customer dummy sales event 삽입

Star Schema : Voyage 여행관련 분석질의 How many trips are there in a typical overall tickets? Between which trip city pairs do we have the most customer satisfaction problem? cf) telephone cable

Star Schema 예 : Voyage

Star Schema 예 : Insurance Transaction, Claim Processing

Star Schema : 인적자원 관리

Star Schema : 인적자원 관리 분석질의 report summary statuses of the entire employee base on a regular (monthly) basis # of employees, total salary paid during the month cumulative salary paid this year cumulative vacation days taken, vacation days accrued, number of new hires, # of promotions profile the employee population at any precise instant in time how many employees we have what their detailed profiles were on that date monitoring every action taken on a given employee transaction sequence/time