데이터 웨어하우스 목차 1.데이터 웨어하우스 개발방법론 2슬라이드~13슬라이드 2.OLAP(On Line Analysis Process) Tool 13슬라이드~21슬라이드
데이터 웨어하우스 개발방법론 04606035 이병규 04606003 김기훈
데이터 웨어 하우스 데이터웨어하우스 개발단계 계획 분석 설계 구현 교육및 문서화
1)데이터웨어하우스의 계획단계 계획단계는 병원 데이터 웨어하우스시스템을 구축하기 위한 전체적인 일정이나 범위를 선정하는 일련의 과정을 말함. 종합병원은 다양한 전문가 집단으로 구성된 특수한 조직이기 떄문에 각 전문가 집단별 데이터를 분석하는 시각에서도 많은 차이를 나타냄. 프로젝트를 추진하는 업무추진위원회와 각 전문 집단을 대표하는 실무자 협의회를 구성하여 현재 발생하는 데이터와 추가로 필요한 데이터들을 분석하고 각 전문 집단에 알맞은 의사결정 유형을 분류하는것이 주된 역할 선진 병원경영 기법을 도입하고 데이터웨어하우스 시스템의 기본이 되는 Server,DBMS, OLAP Tool의 선정에도 참여하여 병원 전체 구성원들의 마인드 확산에도 기여해야함
2)데이터웨어하우스의 분석단계 분석단계는 현업의 요구사항과 기존 병원정보 시스템을 분석하여 사용자들의 요구사항을 충복시킬 수 있는 지식 인프라를 선정하는 단계. 실무자 협의회를 최대한 활용하여 현업의 요구사항을 충분히 조사하고 현재 운영중인 OLTP시스템을 분석하여 현업의 요구와 현 시스템의 데이터를 매칭. OLTP에서 처리된 데이터들의 오류를 분석하여 수정 및 보완작업을 제안 의료정보 지식 Frame을 도출하여 효과적인 의사결정을 위한 정형화된 형태를 설정
3)데이터웨어하우스의 설계단계 결정된 데이터웨어하우스 서버나 데이터베이스를 셋업하며 지식 Frame과 현업 요구사항을 이용하여 OLTP시스템으로부터 데이터를 추출하는 ETT(Extraction Transformation Transportation)를 설계 DSA(Decision Support Area)을 설계하여 사용자들의 의사결정에 필요한 정보제공이 가능한지 조사 OLTP에서 Data를 추출하는 시점과 방법을 설계하며 시스템 성능향상을 위한 기법도 설계. 이러한 기법들과 분석내용을 기준으로 각 주제 영역별 데이터마트를 설계하고 의료정보 지식 frame을 제시.
4)데이터웨어하우스의 구현단계 구현 단계는 설계단계에서 분석되고 설계된 것을 기초로 의료 Fact table과 Dimension table을 작성하고 ETT와 DSA를 기초로 OLAP에서 Data를 추출하는 Object를작성. 각 데이터마트를 구성하여 OLAP에서 데이터마트를 Setting. 데이터웨어하우스용 데이터베이스에 각 스키마들을 생성시킴
5)데이터웨어하우스의 교육 및 문서화 단계 교육 및 문서화 단계에서는 병원 데이터웨어하우스의 전문화된 데이터 마트들을 연계하는 방안을 모색하고 각 전문집단별 Data Open범위를 정함. 최종사용자들을 대상으로 OLAP Tool사용법과 Data해석 방법에 대해 교육을 실시. 데이터웨어하우스 운영자들에게 데이터 추출을 검증하는 과정과 OLTP에서 수정이 있을경우 데이터 웨어하우스의 ETT나 DSA의 수정이 가능하도록 교육 실시.
6)데이터웨어하우스 성능향상을 위한 기법 (1)데이터웨어하우스전용데이터베이스시스템 데이터웨어하우스는 데이터들을 수집하는 개념으로 구성 OLTP에서 필요한 데이터들을 ETT과정을 통해 데이터웨어하우스 Server로 Insert하기 때문에 Update나 delete등의 작업은 극히 드물게 일어남. 데이터베이스시스템도 이러한특성에 맞는 기능을 보유한 시스템을 사용하여야 함 많은양의 데이터들을 조합하고 비교함으로써 필요한 정보를 추출하는 데이터웨어하우스는 특히 Query기능이 우수하고 병렬처리시스템을 지원하는 데이터베이스시스템이 필요
6)데이터웨어하우스 성능향상을 위한 기법 (2)스타형 ERD(Entify Relation Diagram)설계 스타형ERD는 update나 delete가 거의 발생하지 않고 데이터 량이 많으며 지속적으로 관리해야하는 데이터웨어하우스 시스템에 적절. 데이터웨어하우스 내에 존재하는 매우 큰 엔티티를 위한 기초적인 설계로 적용. 하나의 엔티티에서도 많은 차원을 표시하여 분석하는 데이터웨어하우스 시스템은 스타죠인으로써 다양한 형태의 Query를 효율적으로 수행.
6)데이터웨어하우스 성능향상을 위한 기법 (3)인덱싱 기법 인덱스는 데이터가 있는 정보를 보유하고 있어 사용자가 원하는 데이터를 가장 최적화 하여 찾아내는 역할. 데이터웨어하우스에서는 인덱스가 OLTP와는 다르게 구성되는데 데이터의 성격에 관계없이 인덱스를 구성하고 자주 사용되는 데이터들을 인덱스로 지정. 데이터웨어하우스에서는 자주 Query될 데이터에 대한 정보가 없고 인덱스가 지정되지 않는 데이터가 없음. 데이터웨어하우스에서는 모든 데이터에 인덱스가 존재하며 데이터의 증가량보다 인덱스의 증가량이 더 많음. 또한 DW의 데이터들은 수행속도와 저장공간의 효율화를 위해 ETT과정에서 주로 숫자 형태로 변환하고 이것을 Index화 함.
릴레이션 정보가 변경되었을 경우 데이터의 일관성을 위해 변경정보와 뷰를 동일하게 함 6)데이터웨어하우스 성능향상을 위한 기법 (4) 형성뷰 기법 빈도수가 자주 발생하는 자료들을 별도로 유지하여 성능을 향상시키는 가장 좋은 방법중 하나 별도의 테이블에 저장하는 기법으로 뷰에 대한 스키마, 상태 정보와 실제값을 릴레이션과 동일하게 저장. 단점 릴레이션 정보가 변경되었을 경우 데이터의 일관성을 위해 변경정보와 뷰를 동일하게 함 장점 성능과 의사결정에 수월
6)데이터웨어하우스 성능향상을 위한 기법 1 (5)기타 성능 향상 기법 2 3 4 데이터와 인덱스를 물리적, 논리적으로 분산하여 Access time, Seek Time을 줄일수있고 집중되는 업무처리를 분산 가능 2 Server의 Data Disk구성 시 여러 개의 Disk를 수직적으로 분할하여 하나의 논리적 저장공간으로 사용함으로써 일정장소에 집중되는 Access time, Seek Time를 분산 가능 3 네트워크 트래픽분산, 일정한 네트워크상에 집중되는 트래픽을 분산하여 시스템의 업무처리를 효율화하고 전산설비의 인프라를 최대한 활용 가능 4 객체를 이용한 성능향상 기법으로 주로 사용하는 정보를 객체화하여 처리한다면 의사결정을 위한 정보처리에 상당항 효과를 나타냄
OLAP(On Line Analysis Process) Tool
OLAP(On Line Analysis Process) Tool 데이터웨어하우스시스템은 데이터를 분석할 수 있는 Client용 분석 Tool로 구성 OLAP Tool은 다양한 분석과 리포트 기능들을 필요로 하며 다음 목록과 같은 환경적 요인과 기능을 포함
OLAP Tool 기능 Client/Server 환경하에서 구동된다. 사용자 자신이 정형 및 비 정형(Ad-Hoc Query)질의를 작성 및 저장할 수 있다. 질의에 따른 최적의 성능 제공이 가능한 테이블을 검색 및 제공하므로 신속한 의사 결정을 제공함. 사용자 질의에 부합한 결과 정보만 Client에 전송하므로 network-Traffic을 감소하는 기능이 필요하다
OLAP Tool 기능 엑셀, 시트, SPSS, SAS와 같이 통계를 처리할 수 있는 Tool들과 인터페이스가 가능해야함 반복적인 보고서는 저장한 후 필요할 경우 재사용 할 수 있다. 다양한 형태의 보고서를 지원하며 일괄처리기능이 필요하다. 연속적인 Server(DBMS Connection)연결을 최대한 지양하여 동시에 많은 사용자를 수용할 수있는 분석 Tool이어야 한다.
실시간분석기법 Tool의 종류 DOLAP 비교적 작은규모의 다차원 분석과 다운로드 된데이터를 이용하는 프리젠테이션 관계TooL이다. 설치와 관리가 간단하며 유지보수 부다임적음 소규모 데이터 처리에 사용
실시간분석기법 Tool의 종류 HOLAP 데이터를 동시적으로 다차원 분석이 가능하도록 지원해주는 Tool을 말한다. 요약한 데이터와 관계식에 의해 새로 계산된 데이터를 관계형 데이터베이스에 별도로 저장하여 분석하는 과정을 거친다.
실시간분석기법 Tool의 종류 MOLAP Multidmensional OPLA로 다차원 데이터베이스에 저장된 데이터들을 분석하는 Tool 저장과 분석 프로세싱을 동일한 엔진의 사용으로 네트워크의 부하를 줄이고 복잡한 조직을 쉽게구현 할수있다. 국내병원에서 사용하는 Tool이 여기에 속함
실시간분석기법 Tool의 종류 ROLAP Relational OLAP로 사용자와 관계형 데이터베이스 사이에 위치하여 사용자들을 대신하여 복잡한 질의를 생성하고 다차원 연산을 수행한다. 클라이언트의 다차원 질의를 적절한 SQL로 변환하여 관계형 DBMS에 넘겨주고 관계형 DBMS로부터 처리된 결과를 다시 다차워 보고서로 변환하여 클라이언트에 넘겨주는 역활을 함.