Download presentation
Presentation is loading. Please wait.
1
Chapter 7 데이터웨어하우징 의사결정지원시스템
2
데이터웨어하우스 출현 배경 데이터웨어하우스 등장 배경(의사 결정을 지원하기 위한 측면)
①의사 결정을 위한 정보 수요가 폭증한다. ②의사 결정을 하는 데는 기업의 공통 데이터로의 접속을 필요로 한다. ③의사 결정을 위해서는 장기적인 데이터 관리가 필요하다 ④의사 결정 지원 시스템은 온라인거래처리(on-line transaction processing) 시스템의 지속적인 수행에 영향을 주어서는 안 된다. 데이터웨어하우스 등장 배경(기업의 전략적인 측면) ①전산 인력의 지원 한계이다. ②데이터웨어하우스는 기업의 전략적 정보 기반 구축을 지원한다. 의사결정지원시스템
3
데이터웨어하우스 출현 배경 데이터웨어하우스 발전 과정 1단계(1960년대) 2단계(1970년대) 3단계(1980년대)
4단계(1990년대) 배치처리 보고서 위주의 의사결정지원시스템 온라인 처리 방식의 최종 사용자 컴퓨팅 기술에 의한 데이터웨어하우스를 통한 의사결정지원시스템
4
데이터웨어하우스 정의 1. W. H. Inmon :의사 결정 지원을 위한 주제 지향적(subject-oriented)이고, 통합적(integrated)이며, 시계열적(time-variant)이고, 비휘발적(nonvolatile)인 데이터의 모음 저장소 ① 주제지향성(Subject Oriented) : 데이터웨어하우스내의 데이터는 일상적인 거래(transaction)를 처리하는 프로세스 중심의 데이터와 달리 고객, 제품, 공급자 등과 같은 일정한 주제별로 구성된 데이터를 필요로 한다. 의사결정지원시스템
5
데이터웨어하우스 정의 ② 통합성(Integrated) : 운영계 여러 시스템의 자료들은 추출되어 표준 및 통합의 과정을 거쳐 데이터웨어하우스로 전달되어서 일관(consistent)된 정보를 제공하여야 한다. ③ 시계열성(Time Variant) : 운영계 시스템에서는 검색하는 그 순간의 데이터의 정확성이 중요시 된다. 그러나 데이터웨어하우스의 데이터는 이미 정해진 어느 한 시점의 정확성을 요구한다. 따라서 데이터 구조상 시간(time)은 중요한 키로 작용한다. ④ 비휘발성(Non-volatile) : 데이터웨어하우스의 데이터에 대한 작업은 원시데이터로부터의 로딩(Loading)과 적재된 자료에 대한 검색(Query)이며 자료의 수정, 변경 및 삭제와 같은 휘발성(Volatile) 작업은 없다. 의사결정지원시스템
6
데이터웨어하우스 정의 2. 기업 내에서 발생하는 모든 단계의 의사결정 프로세스를 지원하기 위해 다양한 형태의 데이터를 전략적으로 활용하기 위해 모아 놓은 것 - Oracle – 데이터웨어하우스 복수의 거래 처리 시스템으로부터 데이터를 수집하여 이들 데이터를 검색, 요약 및 분석 등으로 일관성 있게 통합하여 재구조화한 데이터베이스, 데이터웨어하우스는 수년간 운영계 시스템(legacy system)에서 생긴 내부 데이터와 외부 데이터를 주제별로 통합하여 여러 측면으로 분석을 가능하게 하는 의사결정지원 통합 시스템 의사결정지원시스템
7
데이터웨어하우스 정의 구 분 운영계 DB 데이터웨어하우스 기 능 • 데이터 처리용 • 업무의 프로세스 지원 • 의사 결정 지원
구 조 • RDBMS • RDBMS, MDB 데이터 모델 • 정규화 모델 • 다차원적 모델 데이터 형태 • 운영 데이터 • 분석 데이터 데이터 갱신 • 지속적인 갱신 • 계획된 갱신 데이터 성격 • 업무별 • 현재 순간의 데이터 • 상세데이터 • 내부생성 • 주제별 • 현재 및 과거의 데이터 • 누적치, 일부 상세데이터, • 요약 데이터 • 내/외부 생성 데이터베이스 크기 • M/G byte • G/T byte 데이터 조직 • 어플리케이션에 의함 • 주제 영역에 의함 사용 측면 • 정형화된 보고서 • 반복적 사용 • 일정한 형식 없음 • 일부 정형화된 보고서 프로세싱 • 데이터 입력/수정/삭제, • 일괄처리 및 OLTP • 데이터 검색 중심 의사결정지원시스템
8
데이터웨어하우스 전체 구조 ODS 의사결정지원시스템
9
운영 데이터 저장소(operational data store)의 두 가지 기능
핵심 기능은 모든 기업의 소스로부터 데이터 수집/저장하고 이들을 전사적인 측면에서 통합하는 것. 가장 최근 기록 한 부만 보관 (sometimes the most current record is 25 or more years old) ODS가 데이터를 축적(history)하기 시작한 순간부터 이는 더 이상 ODS가 아니라 데이터 마트나 웨어하우스가 된다. 부가적인 기능은 데이터 관련 문제발생 시 해결하는 기능 두 시스템 간의 값이나 입력 내용이 다를 때 마스터 데이터 엔진 역할 (values and inputs). 여러 시스템에 있는 동일 레코드에 대한 다른 값들(예: 홍길동의 전화번호)을 조정하는 데 사용된다. 보다 자세한 내용은 10장(데이터 추출 변환 및 운영데이터저장소) 참조
10
ODS
11
ODS 데이터웨어하우스 구조 1. 원시 데이터 계층 (데이터 추출 및 적재) 의사결정지원시스템
12
데이터웨어하우스 구조 2. 데이터 웨어하우스 계층
ODS 데이터웨어하우스 구조 2. 데이터 웨어하우스 계층 : 의사결정을 지원하기 위해 주제 중심적, 통합적, 시계열적 데이터의 집합으로써 사용자의 요구에 따라서 대량의 데이터가 축적된 인프라를 만들어 놓고 실제 활용은 최종 사용자에게 맡기는 계층이다. ① 관계형 데이터베이스(RDB) : 대량의 데이터를 저장할 수 있으며 많은 검증된 기술을 갖고 있다. 데이터웨어하우스는 수년간의 상세 데이터까지 관리하기 때문에 대부분 관계형 DB 기술을 기반 데이터 구조에 적용한다. ② 다차원 데이터베이스(MDB) : 업무를 구조화하는 틀 또는 분석을 위하여 재구축된 데이터베이스로 사용자들이 인식하는 사업 규모에 상응하는 특화된 배열 형식으로 데이터를 저장하는 특별한 데이터베이스 엔진이다. 의사결정지원시스템
13
데이터웨어하우스 구조 RDB와 MDB의 비교 구 분 RDB MDB 용도 처리 프로세싱 또는 데이터 분석 프로세싱
데이터 모델 이차원 다차원 데이터 모델 구조 레코드 구조, 열, 행, 테이블 배열구조, 차원, 항목, 계층 주 사용자 전산실요원 및 업무 처리자 분석 전문가 자료검색방법 SQL 간단한 마우스 조작 자료갱신주기 초, 분, 시, 일 일, 주, 월, 분기 장점 표준화 정립 레코드처리를 위한 모델 처리위주의 시스템 효과적 최종사용자의 다양한 관점 반영 복잡한 분석과 질의에 효과적 단점 최종사용자의 다양한 관점 반영 못함 복잡한 분석과 질의에 비효율적 표준화된 SQL자체의 문제점 원시데이터를 알 수 없음 처리위주의 시스템에 부적합 표준화된 언어가 없음 대용량 저장에 제약 의사결정지원시스템
14
데이터웨어하우스 구조 ③ 데이터웨어하우스 모델링 • 데이터는 업무 중심이 아니라 분석을 요구하는 중요 주제별로 정리된다.
• 여러 다양한 소스로부터 데이터들을 통합한다. • 데이터 모델링의 최우선 고려 사항은 빠른 검색 속도이다. 그렇기 때문에 중복데이터가 많이 발생하여 비정규화된 모델이 생성된다. • 공식 및 계산 적용을 위한 파생 데이터 항목이 많이 생성된다. • 빠른 검색 속도를 위한 많은 인덱스들이 요구된다. • 시간을 키의 일부로 갖는다. 의사결정지원시스템
15
눈송이 스키마(Snowflake Schema)
데이터웨어하우스 구조 비교 성형 스키마(Star Schema) 눈송이 스키마(Snowflake Schema) 장점 • 모델이 간단하다. • 조인(join)의 횟수를 줄임으로서 검색 속도를 빠르게 한다. • 데이터 중복 최소화 • 적은 저장장소 차지 • 유연성 단점 • 중복데이터 포함 • 자료의 불일치성 • 많은 저장장소 차지 • 사실(Fact) 테이블간의 조인(join)이 어렵다. • 비유연성 • 모델이 복잡하다 • 많은 조인(join)작업으로 인해 검색 속도가 느리다. 의사결정지원시스템
16
데이터웨어하우스 구조 3. 클라이언트 계층 ① 질의/리포팅 도구 : 클라이언트 시스템의 질의 및 분석 도구는 사용자들이 정보를 엑세스하고 분석할 수 있는 수단 ② OLAP 도구/다차원 분석 : OLAP(On-Line Analytical Processing) 도구는 데이터웨어하우스 저장고에 있는 데이터를 사용자가 엑세스하는 도구이다. 다차원적 데이터 분석을 목적으로 하는 프로세싱으로 온라인 거래처리(OLTP)와 대비되는 개념 ③ 데이터 마이닝 : 데이터 마이닝(Data Mining)이란 대량의 데이터베이스로부터 과거에는 알지 못했던 숨겨져 있는 규칙 및 정보를 추출하여 데이터의 상관관계를 분석하고 비즈니스에 유용한 패턴과 관계를 발견하는 것 ④ 웹 브라우저 : 사용자가 별도의 OLAP이나 어플리케이션 도구를 가지고 있지 않더라도 사용자의 PC에 설치된 웹브라우저를 이용하여 데이터웨어하우스에 접근하여 원하는 보고서를 생성할 수 있도록 한다. 의사결정지원시스템
17
데이터웨어하우스 구조 ⑤ 데이터웨어하우스 조회 : 데이터웨어하우스는 중앙 집중화된 데이터 저장고(repository)이다. 예를 들어 관계형 DB 기반의 데이터웨어하우스는 운영데이터 저장소와 여러 측면의 분석을 필요로 하는 데이터가 다차원적 모델링으로 구성되어 있는 사실 테이블(fact table), 차원 테이블(dimension table), 요약 테이블(summary table), 메타 데이터(meta data)가 들어 있다. 이러한 자료를 가지고 여러 차원의 분석을 전문적으로 해줄 수 있는 OLAP도구를 사용하거나 일반 4GL로 작성한 프로그램 또는 SQL문장으로 액세스 한다. 의사결정지원시스템
18
데이터웨어하우스 구조 4. 데이터 마트 기업이 보유하고 있는 다양한 데이터를 사용자의 요구에 따라 체계적으로 분류하여 기업의 의사 결정 및 경영 활동을 지원하기 위한 시스템 데이터웨어하우스에서 데이터는 의사 결정 업무의 용도로써 여러 부서로 흐르기 마련이며, 이러한 수서간의 DSS 데이터베이스를 데이터 마트라고 명명한다. 의사결정지원시스템
19
데이터웨어하우스 구조 데이터웨어하우스와 데이터 마트 비교 항목 데이터웨어하우스 데이터 마트 범위 ∙어플리케이션 - 중립적
∙중앙화, 공유 ∙교차 사업부/전사적 ∙기술 구조적 ∙특수 어플리케이션 필요 ∙특수 사업부나 부서, 사용자 이용 ∙비즈니스 처리과정 지향 ∙중복 데이터를 가진 다양한 데이터베이스 데이터 관점 ∙역사적 - 세밀한 데이터 ∙일부 요약 ∙약간 비표준화 ∙세밀한 데이터(일부는 역사적) ∙요약 ∙고도로 비표준화 주제 ∙다양한 주제 영역 ∙단일 주제 ∙다양한 부분적 주제 영역 ∙현재 사용 중인 데이터 원천의 Snapshot 데이터 근원 ∙많음 ∙현재 사용 중, 외부 데이터 ∙다소 적음 ∙OLTP DB Snapshot 구현 시간표 ∙첫 단계만 9~18개월 (2~3개의 주제 영역) ∙다양한 단계의 구현 ∙4~12개월 특징 ∙유연함 ∙지속적/전략적 ∙데이터 지향 ∙제한적 ∙단명/전술적 ∙프로젝트 지향 의사결정지원시스템
20
응용프로그램과 데이터웨어하우스 및 데이터마트와의 관계
25
데이터웨어하우스 구조 5. 메타 데이터 메타 데이터는 본질적으로 데이터의 구조에 대한 데이터로서 데이터의 변형에 사용되며, 기업의 운영 데이터에서 데이터웨어하우스로 매핑(mapping)을 제공하는 것 데이터웨어하우스 환경에서 매우 중요한 역할을 담당하며, 데이터웨어하우스 환경에서 최소한 데이터의 구조, 데이터 요약에 사용된 알고리즘, 운영 데이터베이스와 데이터웨어하우스 사이의 대응 관계와 같은 정보를 가짐 의사결정지원시스템
26
데이터웨어하우스 구조 ① 관리자용 메타데이터 : 데이터 소스 시스템으로부터 추출될 데이터와 추출된 데이터의 변환 규칙, 데이터웨어하우스 데이터와의 대응 관계, 추출 주기 등을 포함해 복잡한 데이터웨어하우스 환경을 지속적으로 유지하고 관리하기 위해 사용되는 모든 메타 데이터 ② 사용자용 메타데이터 : 사용자가 데이터웨어하우스를 올바르게 사용하기 위해 필요한 메타 데이터로, 데이터웨어하우스에 저장된 데이터를 사용자가 쉽게 이해할 수 있도록 하는 데 목적이 있다 의사결정지원시스템
27
데이터웨어하우스 관련 메타데이터 소스 시스템에 관한 설명(메타데이터)
소스의 스팩(source specifications) (예: 소스의 논리적 체계(logical schemas: RMDS 체계)) 소스에 대한 설명 정보(예: 누가 관리에 책임이 있는가, 업데이트 주기 등) 프로세스 정보(예: 일정 및 추출 코드) 데이터 획득/정리/저장에 관한 설명(메타데이터). 즉 소스들로부터 추출, 변환/통합에 관한 내용 data acquisition information, such as data transmission scheduling and results, and file usage dimension table management, such as definitions of dimensions, and surrogate key assignments transformation and aggregation, such as and mapping, DBMS load scripts, and aggregate definitions audit, job logs and documentation, such as records, logs DBMS metadata(데이터베이스관리자에 관한 설명/정보) DBMS system table contents (테이블의 내용에 대한 정보) processing hint (프로세싱 방법)
28
최근(2012) 데이터웨어하우스의 요소를 보는 시각
의사결정지원시스템
34
데이터웨어하우스 구조 6. 데이터웨어하우스 도구 -OLAP도구 : 저장고에 있는 데이터를 사용자가 엑세스하는 도구 -장점
ODS 6. 데이터웨어하우스 도구 -OLAP도구 : 저장고에 있는 데이터를 사용자가 엑세스하는 도구 -장점 ①시간, 비용, 인력을 절감할 수 있다. ②비정형화된 장표를 만드는 유일한 수단이다. ③사용자 중심의 컴퓨팅을 실현할 수 있다. 대 분류 중 분류 Access Tool Query and Reporting Tool Application OLAP Data Mining Data Visualization Data Extraction, Clean Up, Transformation Tools Data Acquisition Program Generator Data Replication Tool DB Pump Data Reengineering Tool 의사결정지원시스템
35
마이크로소프트사의 엑세스를 사용한 보고서 예제
36
마이크로소프트사의 엑세스를 사용한 QBE(query by example) 예제
37
QBE 결과
38
QBE와 동등한 SQL문 필드 선택 테이블 선택 연산
39
Application에 의한 데이터 보기의 예:
Oracle Human Resource Analytics 화면
40
OLAP에 의한 데이터 접근의 예
42
OLAP에 의한 데이터 접근의 예(계속)
43
OLAP에 의한 데이터 접근의 예(계속)
44
OLAP에 의한 데이터 접근의 예(계속)
46
Data Mining에 의한 데이터 접근
47
Data Mining에 의한 데이터 접근(계속)
48
Data Mining에 의한 데이터 접근(계속)
49
데이터웨어하우스 구조 여러 가지 OLAP 방식 비교 ROLAP MOLAP Hybrid OLAP 기준구조 관계형 데이터베이스
다차원 데이터베이스 대용량 데이터 ○ × 원시 데이터 액세스 분석 기능 구축 시간 6개월 이상 3개월 내외 핵심 기술 다차원 모델링 다차원 데이터베이스와 다차원 모델링 적용 전사적 데이터웨어하우스 데이터 마트, EIS 예 Oracle Discoverer, Microstrategy 9, Power*Si Light, Teradata Warehouse Miner IBM Cognos 8BI, Wise OLAP Oracle Express, Arbor Essbase 의사결정지원시스템
50
데이터웨어하우스 동향 주로 기술적인 구축방법과 데이터 접근에 비중을 두었으나, 앞으로는 업무관점에서 데이터웨어하우스 내의 데이터를 어떻게 의사결정에 활용하여 기업의 경우 생산성 향상, 비용절감 측면에 비중을 두고 있다. 점점 복잡해지는 IT환경은 데이터웨어하우스를 요구하게 되고 이것은 업무 요구 사항에 맞게 세분화되며 특정 용도에 알맞은 다양한 도구의 등장으로 인트라넷을 이용한 데이터 접근 및 관리가 보편화 될 것이다. 의사결정지원시스템
51
데이터웨어하우스 동향 1. 데이터웨어하우스 2. 데이터 마트 및 OLAP
: 대기업에서 중소 규모의 기업으로, 이용 범위도 특정 부문에서 전사 규모로 범위를 넓혀 가면서 확대 되어 갈 것 2. 데이터 마트 및 OLAP : 정보 분석 및 활용에 새로운 개념 과 이익을 제공하고 있으며, 특히 금융, 유통업계에서 가장 많은 관심을 보이고 있다 의사결정지원시스템
52
데이터웨어하우스 동향 3. 다차원 OLAP(MOLAP), 관계형 OLAP(ROLAP) 및 하이브리드 OLAP(HOLAP)
- 다차원 DB벤더 : OLAP 형식의 기능을 추가하고, MOLAP이 효과적으로 지원할 수 있는 DB 크기를 증가 시키며 차원의 확장성 및 동시 사용자 수의 증가, Write Back 기능들을 추가 - ROLAP 벤더 : 서버의 기능과 성능을 향상시킬 것 HOLAP : MOLAP/ ROLAP과 데스크탑 OLAP(DOLAP)의 점진적인 통합뿐만 아니라 OLAP이 데이터웨어하우스와의 통합 및 정보 접근 도구 기능의 통합화 및 그에 따른 시장 개편도 예상 4. Web OLAP : 이용자들이 웹 브라우저를 이용하여 원격지 데이터베이스를 액세스하고 있으며 향후엔 거의 모든 벤더들이 이 기능을 제공할 것 의사결정지원시스템
53
데이터웨어하우스 동향 5. 데이터마이닝 6. 지능형 OLAP 7. 표준
: OLAP 도구 및 신경망(neural network)과의 통합 등을 통하여 의사결정 시스템의 솔루션 및 OLAP의 핵심이 될 것이며, 마이닝 절차의 자동화를 가속화하여 데이터 마이닝이 보편적인 의사결정지원시스템의 한 부분이 되게 할 것으로 예상 된다 6. 지능형 OLAP : 운영 시스템과 통합됨으로써 실시간 데이터 마트/데이터웨어하우스 및 실시간 의사결정지원시스템을 가능케 할 수 있을 것이다 7. 표준 : 상호 데이터 호환 인터페이스, 제3자 도구와의 인터페이스 등 표준 정립 및 그 준수를 확산 시켜 갈 것으로 예상된다 의사결정지원시스템
54
데이터웨어하우스 동향 8. 통합 : 데이터 마트/OLAP의 그룹웨어 및 전자우편과의 통합이 이루어질 것이며 판매, 마케팅, 회계, ERP 등과 같은 패키지는 기업의 전략적 응용 시스템과 데이터 마트/OLAP과의 통합이 추진되어 업무 영역별 전문 데이터 마트와 OLAP이 확산될 것으로 예상 9. 기대효과 ①운영 시스템을 보호하고, 사용자 질의에 신속한 응답성을 제공할 수 있다. ②여러 시스템에 산재된 데이터들이 데이터웨어하우스로 통합되므로 사용자는 현재 시점을 기준으로 필요한 데이터가 어디에 있는지 신경 쓰지 않고 필요한 데이터를 쉽게 가져다 사용할 수 있다. ③데이터는 데이터웨어하우스로 옮겨 오기 전에 정제 및 검증과정을 거치게 된다. 의사결정지원시스템
55
DW 제공 업체들 2012년 동향 Teradata offers the most scalable, flexible, cloud-capable EDW solution in today’s market. Oracle has built its Exadata Database Machine into a formidable new product family. Sybase, acquired by SAP, continues to enhance IQ(interactive query) for real-time analytics. IBM has ramped up its EDW focus and sets the pace on petabyte-scale Hadoop integration. EMC Greenplum has risen fast into the top tier of EDW platform providers. Netezza, acquired by IBM, has integrated in-database analytics into its EDW appliances. 의사결정지원시스템
Similar presentations