Of Data Warehouses, Operational Data Stores, Data Mart and Data ‘outhouse’ 경영정보학과 200213405 양동주 경영정보학과 200213405 차시현 경영정보학과 200213405 이휘성 경영정보학과 200213405 심대헌(??)
1. 개요 종종 Gartner는 Operational Data Stores(ODSs)와 Data Mart, Data Warehouse의 차이를 이야기 한다. 각각의 것을 위해 사용자 커뮤니티 프로필을 포함하는 것보다 중요하게 최종사용자는 각 타입 저장소의 디자인과 기능사이의 차이를 이해해야 한다. 위의 3가지에 더하여 유효한 구조로서 가장한 ‘Outhouse’가 있다. Gartner의 조사는 data architect가 여러 가지 스타일의 물리적인 DB의 차이를 이해해야만 하는 것을 가리킨다. 요컨대, 이것은 단순히 보관되어 있는 시스템 이외에 Warehouse, Mart그리고 기능적인 Data Store를 만듬으로 써 자연스럽게 조직화 된다. 이 3가지 시스템 사이의 차별성은 모델이 되고 있는 경향과 자료의 휘발성에 따라 식별된다.
2. The Data Warehouse Data Warehouse의 정의는 자주 사용자와 고객에 의해 바뀔 것을 요구 받는다. 비록 많은 운용 시스템이 자료를 더하지만 단지 프로세스를 지원하는데 없어서는 안될 주제에 관한 자료의 최소량을 포함해야 한다. Data Warehouse는 주어진 비즈니스 문맥 또는 종속하는 지역의 완전한 정의를 고려한다. 모델은 항상 가능한 한 완전한 정의에 비즈니스 컨셉을 반영해야만 한다. 화물 컨테이너 : (화물) 컨테이너 수송을 위한 비즈니스 과정은 그 수용력과 외부 신원 태그에 관한 정보를 포함했던 화물 컨테이너라고 불리는 목록(table)으로 인해 서브될 것이다. 그러나, 단어 "cargo(화물)"를 빼고 컨테이너로 만들어라. 그리고 같은 테이블은 지금 어떤 타입이라도의 컨테이너(예컨대 소매 또는 수송)을 위해 사용될 수 있다. 그리고 더 중대하게, 단지 화물이 아니라 컨테이너는 어떤 목적이라도 다른 컨테이너의 내부에 맞을 수 있다
2. The Data Warehouse(계속) 모델러에게 다음과 같은 질문을 할 것이다 “ 만약 우리가 우리 공급자부터 얻은 데이터를 얻기 원한다면 모델에서 당신이 다루게 되는 공급자의 데이터는 어디 있는가?” “오늘 있는 부품이나 생산된 자재들이 내일 팔릴 물건이라면 어떻게 처리할 것인가?” “당신은 웨어하우스에 있는 테이블과 세세한 테이블들이 어디서부터 요약된 것인지 설명할 수 있는가” Data Warehouse의 특징 통합 Data Warehouse의 논리적 모델은 통합되고 일치되어야 하며, 또한 중복 데이터는 최소화 되어야 한다. 종종, 설계자들은 비정규화의 개념을 논리적 데이터 모델을 위해 적용하지만 이는 적절하지 않다. 논리적 모델은 중복 혹은 과잉 데이터의 제거에 본격적으로 착수해야 한다. 이것은 DW의 주체 지향적으로 기업의 주요 주체를 중심으로 조직화되고 지원된다. 불일치는 데이터의 사실에 대한 참조의 위치가 데이터가 하나의 버전을 보유하느냐 하는 논의에 따라 발생한다. 모델관계자는 언제 데이터가 DW와 관계 있는 그것의 출처 시스템의 맥락에서 효율적으로 활용되는지 인식해야 한다.
2. The Data Warehouse(계속) 비휘발성 혹은 일치성 DW는 수시로 변화시키거나(twinkle), 혹은 업무적인 업데이트를 하지 못하는데 이것은 특히 근접-실시간 Data Warehouse 구축에 있어 중요하다. 일단 DW에 기록이 된다면, 그것은 완료된 것이다. 그것은 만약 현재의 로드 에러가 나타나지 않는다면 ,삭제되지 않는다. 올바른 비즈니스 정의에 따르는 데이터 기록의 Warehouse 규칙을 확실히 하기 위해 현재 있는 것은 추출하고 변화시키며, 아키텍처에 적재 시킨다. 불휘발성 – 잘 변하지 않음
2. The Data Warehouse(계속) 시간 가변적 시간 가변적이라는 의미는 거래 시스템에서의 주어진 기록이 두 번째(또는 세 번째…) 기록의 버전의 변화와 생성을 나타낼 때 데이터 통합 프로세스는 이것을 인식한다. 이것은 휘발성의 이슈와 직접적으로 관계가 있다. 그것은 데이터에서의 변화를 획득하기 위한 DW의 역할일 뿐만 아니라 시간을 가지고 변화될 때, 데이터 트랙의 유지와 연관 있다. 일반적으로 말해서, 효과적인 데이터 컬럼은 레코드가 처음으로 이용될 때와 그것이 다음 버전으로 교체될 때까지 이용되어지는 것에 대해 고려 될 때의 시기를 지시하기 위해 사용된다. 다른 데이터들 보다 버전 요소들은 때때로 다차원 테이블의 한 dataset에서 또 다른 dataset과 조화될 때 장애를 발생시킨다. 왜냐하면 이 방법은 축차적인 (sequential) 기록이 사실 중의 한 가지를 위해 관계있을 때이며, 그것이 또 다른 사실의 set과의 관련여부는 꽤 차이가 날 것이다. 똑 같은 일이 벌어져도 시간이 다르면 다른 SET이 된다 ODS는 시간 가변적이 아니다 그래서 새로운 데이터가 들어오면 그전의 데이터는 지워진다
2. The Data Warehouse(계속) No virtualization DW는 물리적인 저장소이다. Warehouse의 시간가변적인 성질은 데이터가 끝까지 유지되어야 한다는 것을 의미한다. 디스크 기반의 저장소에 데이터를 유지하고자 요구하는 시스템들은 파일 시스템, 즉 물리적인 Warehouse에 저장된다. 메모리 저장소의 전체 Warehouse를 유지하기를 요구하는 시스템들은 완전한 손실을 필요로 한다. 왜냐하면, 그것은 예전 기록을 유지하기 위한 물리적 저장 공간을 갖고 있지 않기 때문이다. 접근된 운영 시스템으로부터의 데이터의 복구를 요구할 수 있는 시스템은 운영 시스템 안에 Warehouse를 유지하는가? 그것은 즉 물리적 저장소이고, 또 그것은 운영시스템이 시간 가변적인 재조정이 강화 될 때 무엇보다 많은 단점이 있다. 더 나쁜 것은 그것은 중앙의 어떤 종류의 데이터 관리도 배제한다. 왜냐하면, 각각의 시스템은 한 가지 통제 방법과 이슈를 갖고 있기 때문이다.
3. THE OPERATIONAL DATA STORE ODS(Operational Data Store)란? ODS 는 운영데이터를 DW의 사실 테이블로 가는 중간단계의 데이터 저장장소로서 각기 상이한 형태의 데이터로 인해 생기는 시스템간의 충돌을 방지하는 역할을 한다. ODS 의 역할 상이한 형태의 데이터를 동일한 형태의 자료를 일치시켜 시스템간 호환성 높임 Ex)데이터 가공, 변환, 정제작업 원시 데이터를 포함하고 있으며 사용자의 요구 조건의 변화에 따라 알맞은 형태의 자료제공 DW의 사실 테이블에 문제가 생겼을 때 신속히 복구 진보된 ODS는 단순히 시스템의 기록을 복사하거나 일치시키는 역할을 넘어서 자료의 기록이나 갱신 전에 충돌을 일으키는 데이터를 예측하여 조정
3.THE OPERATIONAL DATA STORE(계속)
3.THE OPERATIONAL DATA STORE(계속) ODS의 특징 주제 지향성 (subject oriented) 운영데이터베이스의 주제별 데이터는 여러 개의 상이한 데이터베이스에 별도로 분리되어 유지되므로 데이터 간에 서로 불 일치하는 경우가 많게 된다. ODS는 사업개념과 원리에 따라 주제별로 구성되게 함로써 최종 사용자와 비전산전문의 분석자 등에게 데이터를 보다 이해하기 쉬운 형태로 제공할 수 있게 한다. 통합성 (integrated) 운영데이터베이스에서 자료의 표현 방식에 있어 불일치성을 많이 가지게 된다. 데이터 웨어 하우스에서는 데이터가 항상 일관된 형대로 유지되고 동일한 명칭으로 다수의 개념을 포함할 수 있도록 데이터를 통합한다. Ex) 운영데이터에서는 남자와 여자를 남/여, Male/Female, 1/0 등으로 다양하게 표현될 수 있으나 ODS에서 이들을 남자와 여자는 '남'과 '여'로 통합.
3.THE OPERATIONAL DATA STORE(계속) 휘발성 (volatile) ODS의 역할은 현재의 상태(또는 흐름이나 추세 등)를 반영하는 데이터를 유지시키는 것 ODS "순간적"이며, 업데이트를 통해 갱신됨. 휘발성의 수준은 ODS에 있는 자료 변화의 내용의 중요성과 빈도수에 의해 결정 Ex) ODS가 휘발성이므로 만약 다중운영시스템이 ODS에 대해 현재의 데이터에 대한 선택권을 부여한다면 불일치 기록들을 조사하고 적당한 장소로 이동시킴 Current 운영시스템의 기록들은 업데이트되며 변화함 운영시스템과 ODS가 연속적인 시스템으로 연결되어 있을 때 ODS는 현재의 상태를 즉각적으로 처리하고 데이터를 즉각적으로 반영할 수 있다. Virtualization option(가상화) ODS는 즉각적이고 휘발성을 가진다. ODS는 운영상 수집된 데이터를 데이터웨어하우스에 적용시키기 이전에 적합하게 변형하는 단계로서 실제로 존재하는 형태가 아닌 데이터의 처리과정으로 DW에 통합되기 전 가상의 저장소의 역할을 한다
4.THE DATA MART The Data Mart란? 조직의 업무분야를 세분하여 경영에 활용하기 위한 데이터저장소.운영데이터나 기타 다른 데이터로부터 수집된 데이터 저장소로서, 특정 그룹의 지식 노동자들을 지원하기 위해 설계 데이터 마트는 보통 전사적인 수준이 아닌 이의 하위 단위로서 부서 업무를 위한 주제별로 구축됨 데이터 마트의 중요성은 분석이나, 내용물, 표현 및 사용의 용이성 등의 측면에서 특정 그룹의 지식 노동자의 명확한 요구에 부합되는 데에 있다. 데이터마트와 데이터웨어 하우징은데이터량과 사용자 규모만 차이를 가짐 (추출도구, DBMS, 분석도구 등 기본 구성요소는 동일) 즉, Data Mart는 작은 Data warehousing이라 할 수 있음
4.THE DATA MART(계속)
4.THE DATA MART(계속) Data Mart의 특징 subject oriented(주제 지향성 ) 특별한 목적의 물음에 대한 결과를 얻기 위한 목적으로 논리모델 설계 Nonvolatile(비휘발성) 데이터마트는 데이터웨어 하우스에 종속되어 있으며 데이터웨어하우스로부터 데이터를 가져옴 데이터 웨어하우스의 데이터는 운영 시스템(operational system)에서 수시 발생되는 갱신이나 삭제 등이 적용되지 않는 비휘발성을 가지고 있으며 웨어하우스에 종속된 데이터마트 또한 비휘발성을 가짐. 하지만 독립된 데이터마트의 경우 데이터웨어하우스 이외의 원천에서 자료획득이 가능하며 휘발성을 가지기도 함.
4.THE DATA MART(계속) Denormalized(비정규화) 정규화된 형태로 저장하여 관리하는 것 보다는 분석 및 검색 위주로 저장, 관리하는 것이 효과적. 이를 위해 제시된 데이터베이스 스키마가 스타 스키마와 다차원 데이터모형 키 1(PK) 속성 .... 키 3(PK) 속성 .... 사실 테이블 키 1(PK)(FK) 키 2(PK)(FK) 키 3(PK)(FK) 키 4(PK)(FK) 키 5(PK) 데이터 열 ..... 차원 테이블 차원 테이블 키 4(PK) 속성 .... 키 2(PK) 속성 .... <예. 스타스키마> 차원 테이블 차원 테이블
4.THE DATA MART(계속) Time Variance and Currency(시간 변화와 통화) 데이타마트의 데이타들의 시간은 과거에서 부터 현재까지 다양하므로 이런 데이타들을 현재의 차원으로 분석하는 역할을 한다 마트는 누적된 데이타들을 저장된것 그대로 정확히 부분화한다 마트는 누적된 데이터를 현 차원으로 분석하여 고치고 what if 데이터 프로젝션으로 데이터의 질을 높인다 Virtualization Option 마트는 논리인 집합이고 비즈니스 정보 툴의 큐브이며 물리적인 또는 논리적인 구조이다 마트의 포인트는 최적화이다
5.THE OUTHOUSE The Untimely Archive The Operational Archive 데이터는 통합 데이터의 영향으로 운영시스템에서 바로 모아지기 때문에 마지막으로 업데이트 된 기록들이 시간에 따른 구성을 이루지 못한다 원 데이터를 분리해서 관리하여 모든 하나의 질문도 공평하게 일률적인 계산을 해라 그 후 모든 분석은 시간에 맞출수 있거나 원 형태를 쓸 수 있다 The Operational Archive 데이터 리모델링 없이 바로 운영 시스템에서 모아진다 데이터 웨어하우스로써 실시간 통합을 위해 파일을 질문하여 사용할 수 있다 이는 프로세스와 비즈니스 활동이 모든 분석에서 관련성이 있다라고 가정하는 것이다 프로세스 상호작용의 분석 대신에 운영 프로세스 검토에 초점을 맞추게 한다
5.THE OUTHOUSE(계속) The Quixote mart(키호테 마트) 관련된 데이터 층으로 만든 데이터 웨어하우스는 마트에서 운영시스템에서 바로 오는 데이터로 채워진다. 이는 이 디자인이 독립적인 데이터 정화와 질 높이기, 프로세스 요약을 만든다는 것을 의미한다 이러한 접근은 데이터 웨어하우스를 통해 전사적으로 그것을 통제하지 않고 마트에서 요청된 데이터를 주입하는 것이다 상상할만한 결과를 가지고 오는 실제방법인 공동기록의 데이타웨어하우스에 반해 이 분석을 비교했을 때 키호테마트는 모순되는 “보고서”를 만든다
6. THE REPOSITORIES IN CONTRAST 이런 다양한 메커니즘은 상호 연결되어 있으며 발달한 분석환경은 빠르게 해답을 얻을 수 있는 웨어하우스, ODS, 그리고 많은 데이터 마트를 갖고 있다. Warehouse ODS Mart Outhouse Subject-Oriented Time-Variant Integrated Volatile Tendency Virtualization Yes No 3NF If desired Yes* 2NF If efficient Usually application-oriented Usually not, but snapshot solution sometimes masquerade here Almost always Usually matches whatever the source is * Some marts are single-data datasets and do not require time variance
7.Recommendations 고객은 실제 벤더가 제공하는 것을 결정하기 위해 제안된 원칙을 써야 한다 벤더는 각 데이터 저장소의 목적과 역할을 말하고 듣는 이를 혼란하게 만드는 마케팅 언어에 멀어져야 한다