Data Warehouse
목차 (개요) Data Warehouse 의 출현 배경 Data Warehouse의 정의 및 특징 DSS, EIS 재래시스템과 DSS Data Warehouse의 정의 및 특징 Data Warehouse의 정의, 특정 Data Warehouse의 구조 Data Warehouse의 구축효과 Data Warehouse환경내 정보흐름 Data Warehouse Architecture Data Warehouse의 주요 개념
Data Warehouse의 출현 배경 일반 전산시스템의 현황 풍요속의 빈곤 (+)데이타베이스 구축 및 활용 (RDBMS) (+)일상업무처리 지원 (OLTP) (+)각종 리포트 생성 (-)전체적 일관성 결여 (-)DSS를 효율적으로 지원하지 못함 (-)"고급 정보" 추출이 어려움 풍요속의 빈곤 Data는 많지만, 정보(information, knowledge)가 부족
기존 정보 시스템 행정 정보 전산 담당자에 의한 처리 행정 정보 요구 부서 학사 DB 인사 DB 급여 DB 물품 DB 해당 행정 부서 해당 행정 부서 해당 행정 부서 해당 행정 부서
DSS & EIS DSS & EIS 에 대한 기대 확실한 정보에 근거한 정책결정의 중요성 인식 Decision Support System(DSS)에 대한 요구 증대 Client (PC) 환경의 발전 GUI 환경의 발전 Executive Information System (EIS) 도구의 발달
Decision-Support System(DSS) 경영자의 비정형적 의사 결정 지원을 위하여 보다 쉽게 의사 결정 모형과 자료에 접근할 수 있게 해주는 대화식 시스템(Krowber and Waston, 1984) 의사 결정 과정을 지원하는 정보 시스템
Decision-Support System(DSS) 관리자의 정책결정을 지원하는 정보 시스템 현재 일반 전산실의 업무 중 주요 부분 많은 량의 복잡하게 얽힌 데이타 처리 요구 반복적인 조정 절차로 현재 형태로는 제기능을 발휘 못함 요구 수정, 재요구 IS (전산팀) 경영팀 . . . 재래식 DSS cycle
Executive Information System EIS (Executive Information System) 상위 경영자들의 주요 정보 제공 시스템 최고경영자가 자신의 구미에 맞는 보고 형태로 핵심적인 정보를 점검하고 요구할 수 있도록, 외부 및 내부 자원으로 부터 정보를 통합하는 시스템 ? 기존 DB
EIS의 특징 사용하기 쉬움 주로 요약, 변화, 추이 등의 정보를 그래프 형태로 제공 화려한 그래픽 터치 스크린 과거 서면 보고를 모니터에 대치 효과 주로 요약, 변화, 추이 등의 정보를 그래프 형태로 제공 해당 기관 전체에 걸친 데이타를 한꺼번에 봐야함 현재의 일반 정보 시스템으로는 데이타 제공이 어려움 정보의 가치가 사용자의 요구를 충족시키지 못함
기업정보 시스템 구성 EIS에 제공할 분석정보가 빈곤
재래 시스템과 DSS 재래 시스템 (Legacy System)의 발전 과정 70년대 중반부터 DBMS를 이용한 OLTP 발달 데이타 중복과 추출 프로그램의 난무로 혼돈 초래 DSS를 지원하는데에는 많은 장애 존재 (W. H. Inmon) 데이타 신뢰성 (credibility of data) 생산성 (productivity) 데이타로부터 정보 생성 (data into information)
재래 시스템과 DSS 거미줄 (spider web) 아키텍쳐 데이터 통합 부재 데이터 이력 부재 접근이 용이치 않음 생산성 10% 향상 OLTP 생산량 20% 감소 데이터 통합 부재 데이터 이력 부재 접근이 용이치 않음 “데이터를 숨기는 심리 B경제학회 자료 A경제연구소 자료
재래 시스템과 DSS 신뢰성의 문제 (credibility) 서로 다른 시기의 데이타 공존 (no time basis) 계산 방법상의 차이 (algorithmic difference) 추출 단계마다 문제점 증폭 (levels of extraction) 외부 데이타 (external data) 데이타 원천의 차이 (no common source)
재래 시스템과 DSS 생산성의 문제 (productivity) 필요한 데이타가 어디에 있는가? 추출 및 변환 여러 file과 table을 검토 table 명이나 column명의 혼란 추출 및 변환 다수의 프로그램 매번 다시 작성 다양한 환경에 존재하는 데이타를 다뤄야 함
!? 재래 시스템과 DSS 정보 생성의 문제 (data into information) "지난 5년과 비교해 금년의 우리지점 고객들의 거래 빈도수” 다수의 업무처리 단위의 응용프로그램 분석 다양한 데이타 원천에 일관성 부여 과거 데이타의 부재 !? 예금처리 대출처리 적금처리 . . . 1년전 2년전 5년전(?)
DW 등장의 기술적 배경 성능대비 컴퓨터 가격의 하락 Mainframe급 병렬 컴퓨터의 등장 HDD, RAM 가격의 하락 CPU성능의 급속한 향상 Mainframe급 병렬 컴퓨터의 등장 대용량, 병렬 컴퓨팅을 지원하는 RDBMS 의 등장 parallel query, 64bit computing, bitmap indexing
Data Warehouse를 기반으로 하는 정보 아키텍쳐 DSS DSS EIS 변환/추출 DW 기존 응용 시스템 Reports Data Processing (Transaction) Information Processing OLTP성 DB와 OLAP성 DB(DW)의 분리
Data Warehouse를 기반으로 하는 정보 아키텍쳐 기존 응용 시스템은 그대로 운용 DSS, EIS 등에 필요한 데이타를 추출/변환하여 주기적으로 DW로 이전 (transform/transport) DW를 이용하여 "고급정보" 생산 부분적 적용가능 (점진적 구축)
System Load
Data Warehouse 적용 예 일반 Data Model (OLTP) Ship Type Shipper Ship To Product District Credit Order Item Contact Loc Product Line Cust Loc Sales Order Product Group Contact Contrct Contrct Type Customer Sales Division Sales Rep Sales District Sales Region
Data Warehouse 적용 예 OLTP의 특징 거래 데이터 처리 데이터의 삽입, 삭제가 빈번 은행의 입출금 동사무소의 주민등록 등.초본 발급 업무 데이터의 삽입, 삭제가 빈번 단시간에 수많은 transaction의 처리가 요구됨 Q: 지난 상반기 중 공휴일에 가장 잘 팔린 상표는?
Data Warehouse 적용 예 Dimensional Model (Star schema) Sales Fact Product Dimension Time Dimension product_key description brand category time_ key product_key store_key dollars_sold units_solds dollars_cost time_key day_of_week month quarter year holiday_flag Store Dimension store_key store_name address floor_plan_type Q: 지난 상반기 중 공휴일에 가장 잘 팔린 상표는?
Data Warehouse의 정의 경영 및 정책결정에 필요한 정보 처리 기능을 효율적으로 지원하는 데이타베이스 기업의 의사결정 과정을 지원하기 위한 주제 중심적(subject-oriented)이고, 통합적(integrated)이며, 시간성(time variant, historical)을 가지는 비휘발성(non-volatile) 자료의 집합 의사 결정용으로 특별히 설계된 주제 중심적인 정보 저장고 =>고도의 전략적 정보를 통해 기업의 비즈니스 방향을 조정하여, 새로운 이익 창출
Data Warehouse Framework
주요 특성 주제 중심 (subject oriented) 통합성 (integrated) 시간성 (역사성; time-variant, historical) 갱신되지 않음 (nonvolatile)
Data Warehouse의 특성 주제 중심 (Subject oriented) OLTP시스템의 데이타는 업무처리 중심 (process/function oriented) 으로 이루어짐 DSS의 관심은 정보 시스템의 대상이 되는 주제들임 DW의 Data Model은 주제들을 중심으로 이루어짐 DSS에 쓰이지 않는 데이타는 DW에서 제외됨 Operational Data Warehouse 고객 대출처리 예금처리 구좌 카드처리 처리사항
Data Warehouse의 특성 통합된 데이타베이스 (Integrated) 개체명 (table 이나 column) 단위 기호 일관된 데이타 원천 (source) 잔고 금액 현재잔고 잔고 응용 A 지름:cm 응용 B 지름:inch cm 변환 응용 A 남, 여 응용 B m, f 응용 C 0, 1 m , f
Data Warehouse의 특성 시간성 (Time variant) OLTP: 현재 순간의 현실세계 모습 DW: 특정주제가 시간에 따라 변화한 모습을 담고 있어야 함 고객 홍길동의 월별 전화 사용량 품목별 일별 판매량 키(key)에 시간 성분이 포함되어야 함 홍길동 from:94/1/1 to :현재 주소: 서울 홍길동 from:94/1/1 to :96/3/6 주소: 서울 홍길동 1996.3.7. 서울에서 부산으로 이사 홍길동 주소:서울 나이: 24세 update 홍길동 from:96/3/7 to :현재 주소: 부산 append 홍길동 주소:부산 나이: 24세 OLTP DW
Data Warehouse의 특성 갱신이 일어나지 않음 (nonvolatile) 레코드 단위의 갱신이 없음 데이타의 추가 (load)만 있음 정규화가 크게 중요하지 않음 OLTP DW update insert load access delete
Data Warehouse의 구조 Current Detail M e t a D highly summarized 10년간의 품목군별 월별 판매량 M e t a D lightly summarized 5년간의 품목별 주간 판매량 Current Detail 올해 판매 구체적 데이타 (current detail) OLTP 로부터 load 지난해까지의 판매 구체적 데이타 (older detail)
Data Warehouse 구축의 효과 DSS / EIS (사용자 측면) 각종 분석 통계에 필요한 데이타를 종합적이고 효율적으로 이용 보기 쉽고 사용하기 쉽게 하므로써 DSS cycle을 정책결정자 (또는 해당 부서내에서 ) 스스로 단시간에 해결 수동적인 DSS에서 능동적인 DSS EIS 구축과 지원이 매우 쉬워짐
Data Warehouse 구축의 효과 IS team (개발 / 운영자 측면) 전산팀 역할의 큰 부분을 차지하는 분석/통계 리포트 업무제거 여유인력과 자원으로 재래 시스템 유지보수 가속 DW 운영의 새로운 업무 책임 (Data Administration) 저장소 관리 Granularity 조절 지속적인 DW 구축 사용자 교육 및 지원
Data Warehouse 구축의 효과 기존 OLTP 시스템 Reporting 기능의 이전 과거 데이타 유지책임이 없어짐 전체 규모와 복잡성이 줄어듬 새로운 시스템 재구축이 쉬워짐 기존 OLTP 정보추출 책임전가 OLTP DW 규모축소
Data Warehouse 구축의 효과 정책 결정 노력의 효율화 분석 및 정책결정 20% 데이타 추출 및 자료 준비 20% 80% 분석 및 정책결정 80%
Data Warehouse 환경에서의 정보 흐름 In-flow DW로의 정보 유입 Up-flow 요약 및 정제 Down-flow 저장매체의 하향 조정 Out-flow 소비자들에 정보 공급 Meta-flow 운영을 위한 제어
Data Warehouse 환경에서의 정보 흐름 DW Up-Flow In-Flow Out-Flow Meta-Flow Down-Flow
Data Warehouse 환경에서의 정보 흐름 In-flow email repair Current Detail capture validate OLTP 시스템 transform 외부자료 - 들여올 데이타 결정 - 무결성 (consistency/integrity) - 수정 보완 - 변환과 적용 DW
Data Warehouse 환경에서의 정보 흐름 Up-flow highly summarized lightly summarized Current Detail - 오래된 정보는 요약하여 위로 보냄 - 자주 쓰이는 정보는 미리 정제 - 사용자 가까이로 분배 (departmental processing)
Data Warehouse 환경에서의 정보 흐름 Down-flow 장기보관 폐기 Current Detail - 오래된 구체 데이타는 값싼 대용량 미디어에 저장 - 더 이상 소용이 없는 데이타는 삭제
Data Warehouse 환경에서의 정보 흐름 Front-end Tool 쿼리, 리포팅 툴 OLAP 툴 EIS/DSS 데이터 마이닝 웹 브라우져 스프레드쉬트 통계분석툴 Out - flow Current Detail Data Warehouse - 사용자에게 정보 제공 - DW 의 궁극적인 목표 - 자동 전달 기능 Data Mart
Data Warehouse 환경에서의 정보 흐름 Meta - flow 시스템 모델 절차/방법/규칙 요구사항 Current Detail 기존 OLTP 사용자 DW - 재래 시스템의 구조 - 사용자 (DSS) 요구사항 - DW 모듈의 정의 및 변경
정보 기술 투자 추세 변화 Data Warehouse의 목적 - Better access to current data 정 보 - Better information for analytic use - Integrate data from different systems - Better access to historical data 데이터 수 집 접 근 네비게이션 마이닝 1960 1970 1980 1990 2000 정보화 (Informating) 자동화 (Automating) 정 보 기 술 투 자 액 OLTP DW
OLTP 환경과 DW 환경의 비교 OLTP DW 사용자 업무처리 직원 경영자 , 분석가 창구직원 목표 일상업무처리 정보검색 , 기반 모델 관계형 (RDBMS) 관계형 (RDBMS) 데이타 모델 정규화된 모델 다차원 모델 데이타 종류 현재상태를 나타내는 정보 과거 데이타 데이타 구성 응용 프로그램마다 차이 일관된 subject oriented 방식 데이타 갱신 레코드 / 필드 단위 load and access 지속적으로 자주
OLTP 환경과 DW 환경의 비교 OLTP DW 요구사항 구축전에 완전히 정의 사용이전에 완전히 정의 하기 어려움 데이타베이스 크기 수 ~ 수십 Gbyte 수백 Gbyte ~ 수 Tbyte 질의당 관련 레코드 10 여개 수백 ~ 수십만개 시스템 효용성 평가 효율적인 업무지원 이익창출이나 비용감축 정책결정에 기여 시스템 성능 평가 TPC-C 등 TPC-D (Benchmarking)
Data Warehouse 관련 주요개념 Meta data data about data DW 내의 데이타 종류 및 구조에 관한 정보 데이타 모델 데이타 종류와 구조 데이타 원천및 변환방식 alias 데이타량에 관계되는 통계치 등 요약에 관련된 정보 권한 및 책임
Data Warehouse 관련 주요개념 OLAP (On Line Analytical Processing ) DW 환경이 추구하는 목표 일반적인 작업 trend analysis drill-down, roll-up (drill-up) cut-and-slice event mapping
Data Warehouse 관련 주요개념 Drill-down analysis (하향 분석) 상위수준의 요약정보로부터 시작하여 단계적으로 관련 구체 데이타를 추적하는 과정 DSS의 기본이 되는 분석작업 예 1995년도 월별 총판매량 정보 - 4월달의 판매 저조 4월달의 지역별/주간별 총판매량 정보 - 서울/2째주 특히 저조 서울지역 4월 2째주의 지점별/품목별 판매량 정보
Data Warehouse 관련 주요개념 Multi-dimensional model / Star schema DSS/OLAP 작업에 적합한 방식의 데이타 모델 분석정보에는 대개 몇 개의 dimension이 있음 예 : 판매량 - 시간, 지역, 품목 판매량 서울 부산 C B 품목 광주 A 1 2 3 월
Data Warehouse 관련 주요개념 Multi-dimensional model / Star schema (계속) product Fact table : product key description size . . . time product key market key time key sales amount sales number . . . time key day of wk month quarter year holiday flag market market key description region . . . Dimension tables:
Data Warehouse 관련 주요개념 Granularity DW 내의 데이타의 구체성 수준 (level of detail) 예 : 판매량의 저장단위를 다음 중 어느 것으로 모든 낱낱의 판매거래 일별 합계 주별 합계 월별 합계 DW 설계의 가장 중요한 결정사항 중의 하나 총 데이타량 결정 질의 처리 시간 결정
Data Warehouse 관련 주요개념 ODS (Operational Data Store) 가장 최근의 데이타 유지 통합된 구체적 데이타 저장소 갱신이 일어남 최신 데이타를 이용한 분석 기능 제공 재래 시스템의 통합된 view제공 DW보다 구축하기 어려움 DSS EIS 최신 데이타 시간 경과 ODS DW ... DSS OLTP 시스템 하루이내의 data 24시간이상 경과
Data Warehouse 관련 주요개념 Data Mining 커다란 DB에서 새로운 패턴이나 추이를 자동적으로 추출 Classification "직업, 나이, 학력, 취미 등으로 소비형태 예측" Association "많은 경우 기저귀를 사는 사람이 맥주도 함께 산다 " Sequential patterns "자동차를 새로 산 사람은 얼마후 테니스 용품을 산다" DW와 접목하여 새로운 응용분야로 주목
Data Warehouse 관련 주요개념 Ad hoc query / Canned query Ad hoc query 사용자가 필요에 따라 그때 그때 만들어 제시하는 질의 미리 예상을 못하므로 순간 최적화 등 필요 숙련된 사용자 Canned Query 자주 사용되는 질의를 미리 작성해 포장(packaged)해 둠 미리 해당 질의에 맞게 인덱스들을 설정해 놓을 수 있음 일반 사용자
Data Warehouse 관련 주요개념 Data Mart DW 내의 특정부분의 데이타를 local site에 copy Departmental Processing의 경우 해당 부서의 workstation DW 서버의 부하를 줄일 수 있으며 local copy를 마음대로 사용 일관성 유지에 유의 OLTP 시스템 - 공장 (factory) ODS - 공장창고 (storage) DW - 물류창고 (warehouse) Data Mart - 상점 (mart)
Data Warehouse 관련 주요개념 Strategic Information Architecture 재래 시스템과 비교해 구조적이고 체계적인 접근 방법으로 설계하는 정보 아키텍쳐 일반적으로 DSS의 기능이 중시됨 DW를 포함하는 것이 추세 Architected Environment 등으로도 불림
Data Warehouse 관련 주요개념 TPC-D benchmark Benchmarking 방법을 개발하는 TPC(Transaction Processing Performance Council)에서 내놓은 DSS 성능 평가용 benchmark(1995년 4월) TPC-A, TPC-B, TPC-C 모두 OLTP 시스템에 촛점이 맞추어져 있어 DW와 같은 색다른 환경의 성능 평가는 어려웠음 Single-user 처리 성능 평가 부분과 multi-user 처리 성능 평가 부분, 그리고 이들을 종합한 종합성능 부분으로 구성됨.
목차 데이터 추출, 변환 Operational Data Store(ODS) Data Mart MetaData Multidimensional Database(MDB)
Data Warehouse Framework
데이터 추출 및 변환 (ETT) 운영 (외부) 데이타베이스로 부터 데이터 웨어하우스로의 데이터 추출 Extraction => Transformation => Transportation 외부 데이타 80% 추출 및 변환 (ETT) DW 운영 데이타
ETT 방법 기능 offline ETT online ETT 데이터 추출 변환, 통합 데이터 정제 (오류 제거) OLTP 환경에서 주기적으로 중간 단계 file (ex. Flat file)로 변환 => DW online ETT OLTP환경과 DW시스템이 직접 연결 기능 데이터 추출 변환, 통합 다양한 원천으로 부터의 다양한 형태 데이터 => 통일 데이터 정제 (오류 제거)
데이터 추출 요소 ETT 구성 요소 OLTP Data Warehouse . Load controller ( 스케쥴링) Extraction & Transforming Cleansing Merging & Supplementing OLTP Mapping Transportation Maintain ETT 구성 요소 . Load controller ( 스케쥴링) . Validator ( 정제) . Converter (코드 변환) . Logger (결과 저장) . MetaData Manager . Aggregator . Exception Handler Data Warehouse
데이터 추출 요소 데이터 웨어하우스에 refresh/update하기 위해 업무처리/외부 데이터를 추출 획득된 데이터 정제 업무 처리용 데이터 제거 누락된 field재구성 데이터 일치성 확인 데이터 무결성 확인
데이터 추출 요소 획득된 데이터 보강 획득된 데이터를 DW의 각 field에 매핑 DW에 전송 데이터 관리 유지 필요시 시간 항목 추가 추출 속성값 계산 집계 데이터 생성 획득된 데이터를 DW의 각 field에 매핑 DW에 전송 데이터 관리 유지
Validation ( Cleansing ) 유형 type checking 정수, 실수, 날짜 타입 cf.) 컴파일러의 type checking range checking 예) age 필드, 판매가 필드 based on business rule dimension key checking Time Dimension key 1988 김 1,000 1989 이 2,500 1991 박 3,000 1992 심 2,200 1993 김 2,300 19993 김 2,500 1996 서 3,300 1990 1991 1992 1993 1994 1995 1996 * * * 1991 박 3,000 1992 심 2,200 1993 김 2,300 1996 서 3,300
추출 변환시 고려사항 데이터 갱신 갱신된 데이터의 주기적 적재 Scheduler가 내장된 데이터 추출 도구의 활용 Time stamp설정 로그(log) 파일의 활용 운영 프로그램의 수정 Snapshot이미지 비교 Scheduler가 내장된 데이터 추출 도구의 활용
ETT tool (MicroSoft)
추출 변환시 고려사항 실시간 데이터 갱신 문제점 운영데이타가 갱신되는 순간에 데이터 웨어하우스에 반영 최신의 정보를 얻을 수 있음 문제점 운영 시스템의 부하 데이터 웨어하우스는 운영 시스템의 경우처럼 항상 최근 데이터를 유지할 필요가 없음
데이터 추출 방법 프로그램 구축 데이터의 추출, 정제, 변환 과정을 직접 프로그램을 개발하여 수행 원하는 데이터를 customizing할 수 있음. Performance 세밀한 기능을 요구할 경우 개발 기간이 오래 걸리고 어려움 예를 들어 Scheduling 기능 및 복잡한 연산에 의한 추출
데이터 추출 방법 도구 사용 빠른 구축이 가능 프로그래밍 작업이 필요 없음 SQL 및 간단한 script언어 제공 여러가지 fancy한 기능 제공 도구 예 SAS Access Platinum : InfoPump ETI Extract Prism
Operational Data Store data warehouse의 한계 DSS환경에만 운용가능, operational 환경에는 부적합 Operational Data Store DW를 operational system 환경으로 확장 Day-to-day operational arena not tightly-coupled
Operational Data Store DSS ODS DW EIS C PC B
Operational Data Store Subject-oriented, integrated, volatile used for operational information processing current and near-current collection of data Transformation Tapping delta data collapsing large data -> small data selective sample, selective subset Moving move one component at a time
ODS vs. DW DW ODS - current, near current - detailed data - updates - generally small - homogeneous data - full-function - update-record-oriented - clerical day-to-day decision making - up-to the second decision - historical data - summary and detail - nonvolatile snapshots - large - heterogeneous data - load-and-access tech. - DSS analyst or management oriented community - long-term analysis & trend analysis
Data Mart DW의 증가 각 department마다 각자 필요한 data를 별도로 구성하여 위의 문제를 해결 exponential한 data의 증가에 따른 성능 문제 필요한 데이터의 search문제 많은 analyst들의 access 각 department마다 각자 필요한 data를 별도로 구성하여 위의 문제를 해결
Data Mart 특정 주제 혹은 부서 단위 데이터 저장고 크기는 100G 미만 DW Users Data Marts
Data Mart DW 내의 특정부분의 데이타를 local site에 copy Departmental Processing의 경우 해당 부서의 workstation DW 서버의 부하를 줄일 수 있으며 local copy를 마음대로 사용 일관성 유지에 유의
Data Mart 장점 customize the data as the data flows into the data mart from the data warehouse. The amount of historical data that is needed is a function of the department, not the corporation resource utilization The department can select software for their data mart that is very elegant and is tailored to fit their needs.
Data Warehouse vs. Data Mart Data Warehouse Data Mart 특화된 분석 지원 잠재적 모든 유형의 질의에 대처 목표 모델링 도구 연산 엔진 특성 정보 저장고 읽기 전용 읽기/쓰기 질의 유형 내용 과거, 현재 과거, 현재, 미래
Meta Data 데이터에 대한 데이터 데이터 웨어하우스에서의 메타 데이터 시스템에 저장된 데이타 종류, 데이터 간의 관계 등 데이터 관리를 위한 정보 데이터의 생존 주기(data life cycle) 에 관련 eg) DBMS의 system catalog 데이터 웨어하우스에서의 메타 데이터 원천(source) 데이타 수집, 데이타 웨어하우스내에 저장, 가공, 검색, 보급, 교환, 폐기 등에 관련된 데이타. 사용자에게 유용한 정보 제공
Meta Data DB DB 데이타 웨어하우스 DB 구축을 위한 Meta data 활용을 위한 Meta data
Meta Data 구축을 위한 Meta Data 운영 시스템에서 데이타 웨어하우스로 데이타가 유입되는 동안 거치는 작업들에 관한 정보 데이타의 원천과 목표 테이블간의 대응 정보와 각 작업 단계별 변환 알고리즘 등의 정보 작업 단계 주로 SQL문이나, 응용 프로그램 타임스템프 - 추출이 일어난 시간 등의 시간 정보를 저장한다.
Meta Data 활용을 위한 Meta Data 데이타 웨어하우스의 자체 관리와 사용자를 지원하기 위한 정보 Data Warehouse 관리를 위한 Meta Data 질의처리 지원을 위한 Meta Data 사용자 지원을 위한 Meta Data
활용을 위한 Meta Data Data Warehouse 관리를 위한 Meta Data 질의처리를 위한 Meta Data RDB에서의 카탈로그 시스템을 확장 데이타가 웨어하우스 내에 유지되는 시간에 관한 데이터 개체간의 관계(relationship) 데이타 모델에서 개체가 갖는 각 속성들에 관한 데이터 버전 관리 질의처리를 위한 Meta Data Aggregation Navigator(요약데이타 탐색기) 개체에 포함된 데이타의 요약된 정도를 식별하는 데이터 원천 데이터 => 유도 데이터 : 데이타 변환 알고리즘 사용 패턴 시간과 자원의 측면에서 질의에 드는 비용을 계산하는 정보
활용을 위한 Meta Data 사용자 지원을 위한 Meta Data 존재하는 각 개체와 릴레이션, 변환함수 등에 대해 업무상의 의미로 풀어서 설명해주는 데이터 alias 코드화 데이타/참조 테이블 처리시간 추정
다차원 데이터 베이스(Multidimensional Database) 정의 Computer software system designed to allow for the efficient and convenient storage and retrieval of large volumes of data that is 1) intimately related 2) stored, viewed and analyzed from different perspectives 목적 flexible, high performance access and analysis of large volumes of data
MDDB의 필요성(예제) Different perspectives Sales volumes by model Sales volumes by color Sales volumes by dealership Sales volumes over time What is the trend in sales volumes over a period of time for a specific model and color across a specific group of dealer ship?
RDB 구조 모델 색깔 양 MINIBAN BLUE 5 MINIBAN RED 7 MINIBAN WHITE 9 모델 색깔 양 MINIBAN BLUE 5 MINIBAN RED 7 MINIBAN WHITE 9 SPORT CAR BLUE 4 SPORT CAR RED 7 SPORT CAR WHITE 2 SEDAN BLUE 1 SEDAN RED 0 SEDAN WHITE 9
Cross Tab Views (Arrays) MINI VAN 5 7 9 모델 4 7 2 SPORTS CAR 1 9 Sedan BLUE RED WHITE 색깔
Sales data의 3D views
성능향상 10 x 10 x 10 arrays vs. 1000 records table 30 positions search vs. 1000 records scanning In average, 15 vs. 500 searches
차원 추가
Real World Benefit Ease of Data Presentation and Navigation SQL의 한계, User의 관점 Ease of Maintenance No additional overhead is required to transalate user queries into requests of data Performance benchmark에서 증명됨
Where Multidimensional Tech. Is Not Appropriate? 차원 항목들간의 상호관련성이 존재하지 않을 때
Sparse Matrix
MDB 연산(Rotation) Viewpoint의 변화 Data Slicing in RDB in MDB require complex query or sort operation in MDB just rotate without rearrangement of data Data Slicing
MDB 연산(Rotation)
MDB 연산(Rotation) 3 Dimension 6개의 view #1. Model by Color (with Dealership in the background) #2. Color by Model (with Dealership in the background) #3. Color by Dealership (with Model in the background) #4. Dealership by Color (with Model in the background) #5. Model by Dealership (with Color in the background) #6. Dealership by Model (with Color in the background)
MDB 연산(Ranging) Select the desired positions along each dimesnion For the model dimension SPORTS COUPE and MINI VAN For the dealership dimension CARR and CLYDE For the color dimension METAL BLUE and NORMAL BLUE Data Dicing
MDB 연산(Ranging)
Hierarchies of Data Different views of data Sales by Model and Dealership Sales by Model and District Separate, independent dimension? Dealership dimension and District dimension Define hierarchy within the same dimension Organization Dimension multiples level within a hierarchy Dealership, District, Region
Hierarchies of Data
Drill-Down, Roll-Up Drill-down Roll-up Moving down More detailed analysis along the different levels Roll-up Moving up Vice President | Senior Manager Sales Team Sales Person Personnel Nation | Region District Dealership Organization Product Family | Product Line Product Products Year | Quarter Month Week Day Time
Multiple Simultaneous Hierarchy Organization Import Point Region District Distribution Point Dealership
질의 (MDB) PRINT TOTAL.(SALES_VOLUME KEEP MODEL DEALERSHIP)
질의 (RDB)
Multiple Measures 계산된 데이타 입력된 데이타
MDB와 RDB의 비교