Download presentation
Presentation is loading. Please wait.
1
제 9 장 데이터웨어하우스의 개요
2
순서 데이터웨어하우스의 출현배경 데이터웨어하우스의 정의 데이터웨어하우스의 구조 데이터 마트 메타 데이터 데이터웨어하우스 도구 데이터웨어하우스 동향
3
데이터웨어하우스의 출현배경 의사결정을 지원하기 위한 측면 기업의 전략적인 측면
첫째, 의사 결정을 위한 정보 수요의 폭증을 들 수 있다. 관리자의 데이터 검색 및 분석 욕구가 증가함으로써 정보 수요가 증가하게 된 것이다. 둘째, 의사 결정을 하는 데는 기업의 공통 데이터로의 접속을 필요로 한다. 즉, 기업 내의 다른 부서, 다른 시스템, 다양한 데이터 방식으로 보관된 데이터를 공통 데이터로의 접속이 필요하다. 셋째, 의사 결정을 위해서는 장기적인 데이터 관리가 필요하다. 넷째, 의사 결정 지원 시스템은 온라인거래처리(on-line transaction processing) 시스템의 지속적인 수행에 영향을 주어서는 안 된다. 기업의 전략적인 측면 첫째, 전산 인력의 지원 한계이다. 기업 내의 정보 센터 운영 및 최종 사용자 전산의 지원 등으로 인하여 전산 인력이 데이터를 관리하는데 한계에 도달하게 된다. 둘째, 데이터웨어하우스는 기업의 전략적 정보 기반 구축을 지원한다. 1990년대 들어서 기업의 현실은 각박해졌다.
4
데이터웨어하우스의 정의 데이터웨어하우스의 목적 관점에 따른 정의 정의
데이터에 기반한 의사결정이 막연한 경험이나 불완전한 데이터에 의존하는 대신 통합된 데이터를 바탕으로 사실에 근거하여 신속하고 합리적인 의사 지원 관점에 따른 정의 의사 결정 지원을 위한 주제 지향적(subject-oriented)이고, 통합적(integrated)이며, 시계열적(time-variant)이고, 비휘발적(nonvolatile)인 데이터의 모음 저장소 - W. H. Inmon - 기업 내에서 발생하는 모든 단계의 의사결정 프로세스를 지원하기 위해 다양한 형태의 데이터를 전략적으로 활용하기 위해 모아 놓은 것 -Oracle- 정의 복수의 거래 처리 시스템으로부터 데이터를 수집하여 이들 데이터를 검색, 요약 및 분석 등으로 일관성 있게 통합하여 재구조화한 데이터베이스, 수년간 운영계 시스템(legacy system)에서 생긴 내부 데이터와 외부 데이터를 주제별로 통합하여 여러 측면으로 분석을 가능하게 하는 의사결정지원 통합 시스템
5
데이터웨어하우스의 정의 데이터웨어하우스의 특성 구분 내 용 주제지향성 (Subject Oriented)
내 용 주제지향성 (Subject Oriented) 데이터웨어하우스내의 데이터는 일상적인 거래(transaction)를 처리하는 프로세스 중심의 데이터와 달리 고객, 제품, 공급자 등과 같은 일정한 주제별로 구성된 데이터를 필요로 한다. 통합성 (Integrated) 운영계 여러 시스템의 자료들은 추출되어 표준화 및 통합의 과정을 거쳐 데이터웨어하우스로 전달되어서 일관된 정보를 제공하여야 한다. 시계열성 (Time Variant) 운영계 시스템에서는 검색하는 그 순간의 데이터의 정확성(예: 고객의 현재 주소)이 중요시 된다. 그러나 데이터웨어하우스의 데이터는 이미 정해진 어느 한 시점의 정확성(예: 지금까지의 거주지들)을 요구한다. 따라서 데이터 구조상 시간(time)은 중요한 키로 작용한다. 비휘발성 (Non-volatile) 데이터웨어하우스의 데이터에 대한 작업은 원시데이터로부터의 로딩(Loading)과 적재된 자료에 대한 검색(Query)이며 자료의 수정, 변경 및 삭제와 같은 휘발성(Volatile) 작업은 없다.
6
일반 운영계 데이터베이스와 데이터웨어하우스의 비교
데이터웨어하우스의 정의 일반 운영계 데이터베이스와 데이터웨어하우스의 비교 구 분 운영계 D B 데이터웨어하우스 기 능 데이터 처리용 업무의 프로세스 지원 의사 결정 지원 구 조 RDBMS RDBMS, MDB 데이터 모델 정규화 모델 다차원적 모델 데이터 형태 운영 데이터 분석 데이터 데이터 갱신 지속적인 갱신 계획된 갱신 데이터 성격 업무별 / 현재 순간의 데이터 상세데이터 / 내부생성 주제별 / 현재 및 과거의 데이터 누적치,일부 상세데이터, 요약 데이터 / 내/외부 생성 데이터베이스 크기 M/G byte G/T byte 데이터 조직 어플리케이션에 의함 주제 영역에 의함 사용 측면 정형화된 보고서 반복적 사용 일정한 형식 없음 일부 정형화된 보고서 프로세싱 데이터 입력/수정/삭제, 일괄처리 및 OLTP 데이터 검색 중심
7
데이터웨어하우스 구조 원시 데이터 계층 기존 메인 프레임 어플리케이션과 클라이언트 어플리케이션과 관련된 운영 및 과거 데이터 그리고 외부 데이터를 포함한 수많은 소스(source)들로 구성되며, 데이터는 이들 소스로부터 추출되어 변환 및 표준화 과정을 거쳐 데이터웨어하우스로 적재 된다. 데이터 추출 및 적재 운영 DB, 파일형태의 데이터, 외부 자료 등으로부터 데이터를 추출하여 데이터 저장소로 적재하는 작업으로 메타 데이터의 정보를 참조하는 작업이 포함된다.
8
운영 데이터 저장소(operational data store)의 두 가지 기능
핵심 기능은 모든 기업의 소스로부터 데이터 수집/저장하고 이들을 전사적인 측면에서 통합하는 것. 가장 최근 기록 한 부만 보관 (sometimes the most current record is 25 or more years old) ODS가 데이터를 축적(history)하기 시작한 순간부터 이는 더 이상 ODS가 아니라 데이터 마트나 웨어하우스가 된다. 부가적인 기능은 데이터 관련 문제발생 시 해결하는 기능 두 시스템 간의 값이나 입력 내용이 다를 때 마스터 데이터 엔진 역할 (values and inputs). 여러 시스템에 있는 동일 레코드에 대한 다른 값들(예: 홍길동의 전화번호)을 조정하는 데 사용된다. 보다 자세한 내용은 12장(데이터 추출 변환 및 운영데이터저장소) 참조
9
데이터웨어하우스 구조 데이터웨어하우스의 구조는 원시데이타 계층, 데이터웨어하우스 계층, 클라이언트 계층으로 구성되며
데이터 추출, 데이터 저장, 데이터 조회의 주요 활동으로 묘사된다. 특히 데이터웨어하우스 계층은 대용량 정보 저장의 관계형 DB와, 목적지향의 다차원 DB(데이터 마트)로 분류된다.
10
Enterprise Data Flow Transactional Data Data Warehouse ETT Batch
New Rules/New Realities Transactional Data Data Warehouse ETT Batch Processes Integration Broker? ETT or Copy Management? Reports ODS Marketing? OLAP Store Data Mart Source: Gartner Research Web Pages Key Issue: What are the issues involved when selecting tools to build a data warehouse? Modern data architectures are looking more like oil refineries, where data is moved from one specialized server to the next. As in the oil refinery, emphasis should be on added-value processes, or the conversion of data to a new structure, so that data is not merely moved for the sake of moving it. Although centralized, shared logical data models are recommended; they are often impossible for reasons having nothing to do with sound data management principles. Thus, successful enterprises will determine the right compromises between where data movement adds value (e.g., performance, simplicity and interfaces) and where it subtracts (e.g., security, accuracy, shareability and auditability). Understanding the qualitative changes that occur when data is moved or transformed is essential to good data architecture planning. Data architectures such as ODSs and DWs not only consolidate data that originates in “stovepiped” applications, but also data is semantically enriched along the way, increasing its business value. As data moves within the refinery, it is continually transformed. Success of the refinery requires metadata management, data lineage tracking, audit trails, security policies, data quality procedures and impact analysis functionality. Action Item: Enterprises should assess whether the value of refining data beyond the ODS or DW outweighs the exposures created by further decentralizing the data. Spreadsheet PC DBMS 출처:
12
데이터웨어하우스 구조 데이터웨어하우스 계층 RDB와 MDB의 비교
데이터웨어하우스 계층은 의사결정을 지원하기 위해 주제 중심적, 통합적, 시계열적 데이터의 집합으로써 사용자의 요구에 따라서 대량의 데이터가 축적된 인프라를 만들어 놓고 실제 활용은 최종 사용자에게 맡기는 계층이다. RDB와 MDB의 비교 구 분 RDB MDB 용도 처리 프로세싱 또는 데이터 분석 프로세싱 데이터 분석 프로세싱 데이터 모델 이차원 다차원 데이터 모델 구조 레코드 구조, 열, 행, 테이블 배열구조, 차원, 항목, 계층 주 사용자 전산실요원 및 업무 처리자 분석 전문가 자료검색방법 SQL 간단한 마우스 조작 자료갱신주기 초, 분, 시, 일 일, 주, 월, 분기 장점 표준화 정립 레코드처리를 위한 모델 처리위주의 시스템 효과적 최종사용자의 다양한 관점 반영 복잡한 분석과 질의에 효과적 단점 최종사용자의 다양한 관점 반영 못함 복잡한 분석과 질의에 비효율적 표준화된 SQL자체의 문제점 원시데이터를 알 수 없음 처리위주의 시스템에 부적합 표준화된 언어가 없음 대용량 저장에 제약
13
눈송이 스키마(Snowflake Schema)
데이터웨어하우스 구조 데이터웨어하우스 계층 데이터웨어하우스 모델링 분석 단계에서는 업무 규칙 및 요구사항을 도출하여 적용하고 설계 단계에서는 실제 구현작업을 한다. 두 단계를 거치며 생성되는 산출물은 개념적, 논리적, 물리적 모델들이다. 데이터웨어하우스 모델링의 비교 비교 성형 스키마(Star Schema) 눈송이 스키마(Snowflake Schema) 장점 모델이 간단하다. 조인의 횟수를 줄임으로서 검색 속도를 빠르게 한다. 데이터 중복 최소화 적은 저장장소 차지 유연성 단점 중복데이터 포함 자료의 불일치성 많은 저장장소 차지 사실(Fact) 테이블간의 조인이 어렵다. 비유연성 모델이 복잡하다 많은 조인작업으로 인해 검색 속도가 느리다.
14
데이터 마트 기업이 보유하고 있는 다양한 데이터를 사용자의 요구에 따라 체계적으로 분류하여 기업의 의사 결정 및 경영 활동을 지원하기 위한 시스템을 말한다. 데이터웨어하우스나 데이터 마트는 데이터의 양과 사용자 규모에 차이가 있을 뿐 추출도구, DBMS, 분석도구 등 기본 구성 요소는 거의 동일하다. 즉, 데이터 마트는 특별한 영역에 중점을 두어 만든 데이터웨어하우스의 일부라고 할 수 있다. 일반적으로 데이터 마트는 데이터웨어하우스로부터 추출되어 특별한 사용자의 요구를 충족시키도록 역정규화되고 인덱싱된다(거꾸로 찾아갈 수 있도록).
15
데이터 마트 데이터웨어하우스와 데이터마트 비교 항목 데이터웨어하우스 데이터 마트 범위 ․어플리케이션 - 중립적 ․중앙화, 공유
․교차 사업부/전사적 ․기술구조적 ․특수 어플리케이션 필요 ․특수 사업부나 부서, 사용자 이용 ․비즈니스 처리과정 지향 ․중복 데이터를 가진 다양한 데이터베이스 데이터 관점 ․역사적 - 세밀한 데이터 ․일부 요약 ․약간 비표준화 ․세밀한 데이터(일부는 역사적) ․요약 ․고도로 비표준화 주제 ․다양한 주제 영역 ․단일 주제 ․다양한 부분적 주제 영역 ․현재 사용 중인 데이터 원천의 Snapshot 데이터 근원 ․많음 ․현재 사용중, 외부 데이터 ․다소 적음 ․현재 사용 중, 외부 데이터 ․OLTP DB Snapshot 구현 시간표 ․첫 단계만 9~18개월 (2~3개의 주제 영역) ․다양한 단계의 구현 ․4~12개월 특징 ․유연함 ․지속적/전략적 ․데이터 지향 ․제한적 ․단명/전술적 ․프로젝트 지향
16
메타 데이터 메타데이터의 예 메타 데이터는 본질적으로 데이터의 구조에 대한 데이터로서 데이터의 변형에 사용되며, 기업의 운영
데이터에서 데이터웨어하우스로 매핑(mapping)을 제공하는 것이다. 메타데이터의 예
17
데이터웨어하우스 관련 메타데이터 Source system metadata(소스시스템에 관한 내용)
source specifications, such as repositories, and source logical schemas source descriptive information, such as ownership descriptions, update frequencies and access methods process information, such as job schedules and extraction code Data staging metadata(소스들로부터 추출, 변환/통합에 관한 내용) data acquisition information, such as data transmission scheduling and results, and file usage dimension table management, such as definitions of dimensions, and surrogate key assignments transformation and aggregation, such as and mapping, DBMS load scripts, and aggregate definitions audit, job logs and documentation, such as records, logs DBMS metadata DBMS system table contents processing hint
18
응용프로그램과 데이터웨어하우스 및 데이터마트와의 관계
23
데이터웨어하우스 구조 클라이언트 계층 데이터웨어하우스 조회
데이터웨어하우스는 중앙 집중화된 데이터 저장고(repository) 이다. 예를 들어 관계형 DB 기반의 데이터웨어하우스는 운영데이터 저장소와 여러 측면의 분석을 필요로 하는 데이터가 다차원적 모델링으로 구성되어 있는 사실 테이블(fact table), 차원 테이블(dimension table), 요약 테이블(summary table), 메타 데이터(meta data)가 들어 있다([그림 9-4]). 이러한 자료를 여러 차원의 분석을 전문적으로 해줄 수 있는 OLAP도구를 사용하거나 일반 4GL로 작성한 프로그램 또는 SQL문장으로 액세스 한다.
24
데이터웨어하우스 구조 클라이언트 계층 질의/리포팅 도구
클라이언트 시스템의 질의 및 분석 도구는 사용자들이 정보를 액세스하고 분석할 수 있는 수단으로 데이터 웨어하우스에 대한 별도의 지식없이 그래픽 인터페이스를 이용하면, 기술적인 전문가가 아닌 일반사용자도 복잡한 코드를 작성하지 않고 분석을 손쉽게 할 수 있다. OLAP 도구/다차원 분석 OLAP(On-Line Analytical Processing) 도구는 데이터웨어하우스 저장고에 있는 데이터를 사용자가 엑세스하는 도구로서 사용하기가 쉽고, 데이터를 취급하고 분석하는 강력한 기능을 갖추고 있다. 업무에서 중요시되는 분석 데이터를 여러 차원에서 분석 및 비정형적인 보고서를 생성할 수 있는 기능을 제공한다. 데이터 마이닝 데이터 마이닝(Data Mining)이란 대량의 데이터베이스로부터 과거에는 알지 못했던 숨겨져 있는 규칙 및 정보를 추출하여 데이터의 상관관계를 분석하고 비즈니스에 유용한 패턴과 관계를 발견하는 것이다. 웹 브라우저 웹을 사용하여 데이터 웨어하우스에 있는 데이터를 검색하는 것은 이미 보편화되어 있고 대부분의 질의 및 리포팅 도구가 웹으로 액세스가 가능하다.
25
Source: Gartner (June 2007)
33
데이터웨어하우스 도구 데이터웨어하우스 도구의 분류 대 분류 중 분류 Access Tool
Query and Reporting Tool Application OLAP Data Mining Data Visualization Data Extraction, Clean Up, Transformation Tools Data Acquisition Program Generator Data Replication Tool DB Pump Data Reengineering Tool OLAP의 장점 첫째, 시간, 비용, 인력을 절감할 수 있다. 둘째, 비정형화된 장표를 만드는 유일한 수단이 OLAP 도구이다. 셋째, 사용자 중심의 컴퓨팅을 실현할 수 있다.
35
SQL을 통한 Query의 예 Report: Count create table ZZMD00 unrecoverable as
select a22.CUSTOMER_ID CUSTOMER_ID, sum(a21.ORDER_AMT) DOLLARSALES from ORDER_FACT a21, LU_ORDER a22 where a21.ORDER_ID = a22.ORDER_ID group by a22.CUSTOMER_ID create table ZZMD01 unrecoverable as select sum(a21.TOT_DOLLAR_SALES) ALLCUSTOMER 필드 선택 테이블 선택 조건
36
MS Query Designer
38
Application에 의한 데이터 보기의 예: Oracle Human Resource Analytics 화면
39
OLAP에 의한 데이터 접근의 예
41
OLAP에 의한 데이터 접근의 예(계속)
42
OLAP에 의한 데이터 접근의 예(계속)
43
OLAP에 의한 데이터 접근의 예(계속)
45
Data Mining에 의한 데이터 접근
46
Data Mining에 의한 데이터 접근(계속)
47
Data Mining에 의한 데이터 접근(계속)
48
데이터웨어하우스 도구 MOLAP (MDB-based OLAP)
다차원 데이터베이스를 중심으로 다차원적인 분석을 하도록 만들어진 OLAP의 구현 방식이다. 즉 MOLAP은 다양하고 신속한 분석을 위해 특수하게 만들어진 솔루션이다. 그러나 원시 데이터(raw data)를 볼 수 없고 대용량의 데이터를 취급하기에는 역부족이며 데이터를 로딩하는 데 시간이 너무 많이 걸리는 단점이 있다. ROLAP(Relational OLAP, RDB-based OLAP) 관계형 데이터베이스 내에서 사실 테이블과 차원 테이블을 서로 조인(join)시켜서 원하는 다차원 분석이 가능하도록 한 것이다. ROLAP은 관계형 데이터베이스를 근간으로 하기 때문에 확장성이 좋다. 대용량 데이터를 잘 다룰 수 있어서 특히 전사적 데이터웨어하우스(enterprise data warehouse)를 구축하는 데는 반드시 ROLAP 솔루션을 채택하는 것이 좋다. 또한 원시 데이터를 볼 수 있다는 장점이 있다. 그리고 기초적인 분석기능, 즉 합계(sum), 수(count), %, 평균편차, 표준편차 정도만 제공한다. 그러나 회귀분석과 같은 고급 통계분석 기능은 사용할 수 없다. HOLAP(Hybrid OLAP) 최근 들어 MOLAP의 단점을 보강하기 위해서 여러 MOLAP 회사들이 MOLAP의 근간이 되는 다차원 데이터베이스에서 관계형 데이터베이스에 있는 데이터를 액세스할 수 있는 기능을 추가했다. 여기서 주목할 점은 ROLAP 회사들이 ROLAP의 단점을 보강하기 위해 MOLAP의 좋은 점을 채택한 것이 아니라, MOLAP 회사들이 MOLAP의 단점을 보강하기 위해서 ROLAP의 장점을 일부 수용한 것이라는 점이다.
49
Microstrategy DSS Agent,
데이터웨어하우스 도구 여러 가지 OLAP 방식 비교 ROLAP MOLAP Hybrid OLAP 기준구조 관계형데이터베이스 다차원데이터베이스 다차원 데이터베이스 관계형 데이터베이스 대용량 데이터 ○ × 원시 데이터 액세스 분석 기능 구축 시간 6개월 이상 3개월 내외 핵심 기술 다차원 모델링 다차원 데이터베이스와 다차원 모델링 적용 전사적데이터웨어하우스 데이터 마트, EIS 예 Oracle Discoverer, Microstrategy DSS Agent, Informix Metacube, BrioqueryPlatinum, InfoBeacon Cognos Powerplay Oracle Express Arbor Essbase
50
데이터웨어하우스 동향 데이터웨어하우스 데이터웨어하우스에 대해 사용자는 적극적으로 투자를 계속하고 있다. 대기업에서 중소 규모의 기업으로, 이용 범위도 특정 부문에서 전사 규모로 범위를 넓혀 가면서 확대 되어 갈 것이다. 수 TB~10TB급의 초 대규모 데이터웨어하우스 구축에 임하는 사용자가 속출하고 있는 것이 세계적인 추세이다. 데이터 마트 및 OLAP 컴퓨터 관련 전문지에 따르면 1997년을 “데이터 마트의 해” 라고 불렀을 만큼 데이터 마트는 정보 분석 및 활용에 새로운 개념 과 이익을 제공하고 있으며, 특히 금융, 유통업계에서 가장 많은 관심을 보이고 있다. Web OLAP 많은 OLAP 벤더들이 인터넷과 WWW기술을 이미 그들의 소프트웨어에 포함시키고 있다, 이용자들이 웹 브라우저를 이용하여 원격지 데이터베이스를 액세스하고 있으며 향후엔 거의 모든 벤더들이 이 기능을 제공할 것이므로 OLAP 어플리케이션에 대한 웹 기반의 데이터 접근이 대부분의 사용자들을 위한 표준 인터페이스가 될 것이며 이에 대한 보안 문제도 더 많은 개선이 이루어 질 것이다. 데이터마이닝 데이터 마이닝 및 지식발굴 분야에 대한 필요성 인식의 증대에 따라 이 분야 도구 시장이 활성화 되고, 지능 에이젼트 와 더불어 데이터마이닝은 OLAP 도구 및 신경망(neural network)과의 통합 등을 통하여 의사결정 시스템의 솔루션 및 OLAP의 핵심이 될 것이다.
51
데이터웨어하우스 동향 지능형 OLAP 데이터 마트/OLAP의 정보 및 기술은 데이터 마이닝을 포함한 지식 발굴 기술과 퍼지(Fussy) 논리의 전사적 데이터 웨어하우스와의 통합으로 더 효과적인 의사결정지원시스템 및 전략적인 정보를 제공할 수 있게 될 것이며 이러한 지능형 의사결정지원시스템이 운영 시스템과 통합됨으로써 실시간 데이터 마트/데이터웨어하우스 및 실시간 의사결정지원시스템을 가능케 할 수 있을 것이다. 표준 초기에 Arbor Software사 등 4개 회사 중심으로 시작된 OLAP협의회가 현재 약 25여개 벤더들이 참가 하여 6개의 공동 합의 사항을 준수하며 OLAP 협의회 API 등을 규정하고 있으나 향후 상호 데이터 호환 인터페이스, 제3자 도구와의 인터페이스 등 표준 정립 및 그 준수를 확산 시켜 갈 것으로 예상된다. 통합 데이터 마트/OLAP의 그룹웨어 및 전자우편과의 통합이 이루어질 것이며 판매, 마케팅, 회계, ERP 등과 같은 패키지는 기업의 전략적 응용 시스템과 데이터 마트/OLAP과의 통합이 추진되어 업무 영역별 전문 데이터 마트와 OLAP이 확산될 것으로 예상된다. 기대효과 의사 결정을 지원하기 위해 별도의 통합된 저장 공간을 구축하므로 제공하는 장점은 첫째, 운영 시스템을 보호하고, 사용자 질의에 신속한 응답성을 제공할 수 있다. 둘째, 여러 시스템에 산재된 데이터들이 데이터웨어하우스로 통합되므로 사용자는 현재 시점을 기준으로 필요한 데이터가 어디에 있는지 신경 쓰지 않고 필요한 데이터를 쉽게 가져다 사용할 수 있다. 셋째, 데이터는 데이터웨어하우스로 옮겨오기 전에 정제 및 검증과정을 거치게 된다. 따라서 사용자는 양질의 데이터를 사용할 수 있다.
Similar presentations