제 11 장 유통정보시스템 구축을 위한 데이터베이스
데이터 웨어하우스 (Data Wherehouse) 1.1 데이터웨어하우스의 개념 데이터 웨어하우스는 1980년대 중반 IBM이 자신이 하드웨어를 판매하기 위해 처음으로 도입했던 개념. 데이터 웨어하우스는 회사의 각 사업부문에서 수집된 모든 데이터(또는 중요한 데이터)에 관한 중앙창고 역할을 함. 조직 내 여러 부문에서 독립적으로 관리하고 있는 데이터베이스들로부터 필요한 데이터를 추출하여 데이터 웨어하우스라 불리 우는 통합 데이터 저장소를 구축하게 됨.
대표적인 정의는( Inmon(1992)) 데이터 웨어하우스를 '기억의 의사 결정 과정을 지원하기 위한 주제 중심 적이고 통합적이며 시간성을 가지는 비휘발성 자료의 집합'으로 정의. 데이터 웨어하우스는 시 계열 데이터 뿐만 아니라 요약 정보도 포함되며, 기존의 데이터 베이스가 업무/거래 처리의 신속, 정확, 효율화를 목적으로 구축되어지는데 반해, 데이터웨어하우스는 분석을 통한 기업의 전략수립이나 의사결정을 효율적으로 지원하는 것을 목적으로 함.
1.2 웨어하우스의 특징 데이터 웨어하우스는 의사결정에 필요한 정보처리 기능을 효율적으로 지원하기 위한 통합된 데이터를 가진 양질의 데이터베이스로서, 다음과 같은 특성을 가진다.
1) 웨어하우스 데이터는 비즈니스 사용자들의 의사결정 지원에 이용 웨어하우스가 존재하는 가장 일차적인 이유는 사용자의 의사결정을 지원하기 위한 것이다. 데이터 웨어하우스는 올바른 정보(Right Information)를 올바른 형태(Right Form)로 적시(Right Time)에 제공하기 위해 대량의 원시 데이터를 유용한 정보로 변환하는 엔진이다.(Kelly,1994)
(2) 기업의 운영시스템과 분리되며, 운영시스템으로부터 많은 데이터가 공급된다. (2) 기업의 운영시스템과 분리되며, 운영시스템으로부터 많은 데이터가 공급된다. 데이터 웨어하우스는 여러 개의 개별적인 운영시스템으로부터 데이터가 집중된다. 또한 데이터 웨어하우스의 기본적인 자료 구조는 운영시스템의 그것들과 완전히 다르므로 데이터들이 데이터 웨어하우스로 이동되면서 재구조화되어야 한다.
(3) 데이터 웨어하우징은 전사적 모델이 기초하여 통합된다. (3) 데이터 웨어하우징은 전사적 모델이 기초하여 통합된다. 기존 운영시스템의 대부분은 항상 많은 부분이 중복됨으로써 하나의 사실에 대해 다수의 버전이 존재하게 된다. 데이터 웨어하우스에서 이러한 데이터는 전사적인 관점에서 통합된다. 즉 데이터 웨어하우스는 신뢰할 수 있는 하나의 버전 (one version of truth)을 사용자에게 제공한다.
(4) 시간성 혹은 역사성을 가진다 웨어하우스의 데이터는 특정 시점을 기준으로 정확하다. 웨어하우스 내의 데이터는 스냅샷 데이터로서 묵시적으로나 명시적으로 시간 항목을 가지며, 장기간에 걸쳐 존재한다. 즉 일, 월, 년 회계기간등과 같은 정의된 기간과 관련되어 저장된다.
(5) 주제 중심적이다. 데이터 웨어하우스는 고객, 제품 등과 같은 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 조직된다. 예를 들어 보험회사의 경우 프로세스 중심의 시스템으로는 '자동차 보험', '생명보험', '개인연금보험' 등이 해당 되지만, 이들의 주제영역을 보면 '고객', '약관', '청구' 등이 될 수 있다.
(6) 컴퓨터 시스템에 대한 지식이 없는 사용자들이 쉽게 접근할 수 있어야 한다. 조직의 관리자들과 분석가들은 그들의 PC로부터 데이터 웨어하우스에 연결될 수 있어야 한다. 이런 연결은 요구에 즉각적이어야 하고, 또한 신속성을 보여야 한다.
(7) 데이터 웨어하우스는 읽기 전용 데이터베이스로서 갱신이 이루어지지 않는다. (7) 데이터 웨어하우스는 읽기 전용 데이터베이스로서 갱신이 이루어지지 않는다. 운영 시스템 환경에서는 추가·삭제·변경과 같은 갱신작업이 레코드 단위로 지속적으로 발생한다. 웨어하우스 환경에서는 프로덕션 데이터 로드(Production Data Load)와 활용만이 존재하며, 운영시스템에서와 같은 의미의 데이터의 갱신은 발생하지 않는다.
거대한 운영시스템은 하루에 수천 또는 수만의 거래를 처리하는데, 각각의 거래는 하나의 작은 데이터로 구성된다. 반면 데이터 웨어하우스의 경우는 보통 하루에 하나의 거래를 수행하지만 이 거래처리에는 수천 또는 수만의 레코드가 있을 것이다. 이것을 거래처리라는 용어 대신, 프로덕션 데이터 로드라고 부른다.
웨어하우스가 꼭 읽기 전용이어야 하는가 라는 부분은 오늘날 가장 논의의 대상. 웨어하우스 사용자의 의사결정을 지원하기 위해 존재하는데, 여러 가지 분석상황(예산편성, What-If 분석 등) 사용자는 데이터를 갱신할 필요성이 있다. 이러한 이유로 데이터 웨어하우스를 보완하기 위해 데이터 마트의 개념이 나타나게 되었으며, 데이터 마트는 데이터 웨어하우스 환경을 구성하는 중요한 요소로 자리잡고 있다. 데이터 마트의 개념 : 데이터웨어하우스에 저장된 수 많은 데이터들을 주제별로 중복 저장하는 장소. (인터넷자료 : 데이터 웨어하우징과 OLAP).
1.3 데이터 웨어하우스에서의 정보의 흐름 데이터 웨어하우스의 진정한 가치는 데이터를 수집하는 것보다는 정보의 흐름을 관리하는 것이다(Hackathorn, 1995). 데이터 웨어하우스 환경에는 5가지의 중요한 정보의 흐름이 존재한다.
<그림11-1> 웨어하우스의 정보 흐름 유형
1) 안으로의 흐름 데이터 웨어하우징 환경에서 첫 번째 흐름은 데이터가 운영시스템과 기타 데이터 원천으로부터 변환단계를 거쳐 데이터 웨어하우스 내부로 유입되는 과정이다. (1) 운영시스템에서의 고려사항 데이터 웨어하우스를 구현할 때는 운영시스템의 성능에 가능한 영향을 미치지 말아야 하며, 운영시스템과 관련하여 데이터의 표준화와 정확성 확보, 웨어하우스 데이터와의 대응관계 설정과 같은 요소들이 고려되어야 한다.
<그림11-2> 웨어하우스 내부로의 정보 흐름
⸁ 데이터 표준화 상이한 운영시스템상의 데이터의 질은 차이가 많이 나므로 이러한 데이터가 데이터 웨어하우스 환경으로 이동되기 전에 운영시스템상의 데이터를 표준화할 필요가 있다. 예를 들어 현대전자 주식회사, 현대전자(주), (주)현대전자 등으로 달리 표현될 수 있는 데이터는 웨어하우스로 넘어가기 전에 표준화되어야 한다.
⸂ 데이터의 정확성 확보 고객의 직업, 신용도 또는 산업구분코드 등과 같은 데이터는 일부 정확하지 않거나 가장 최근의 경우가 아닐 가능성이 있다. 데이터 웨어하우스 환경에서는 무엇보다 정확한 데이터가 확보되어야 하므로 운영시스템상의 데이터들의 정확성을 확보하는 것이 중요하다.
⸃ 운영데이터와 웨어하우스 데이터의 대응관계 설정 데이터 웨어하우징의 초기단계에서는 웨어하우스에 사용되는 데이터 모델과 개별적인 운영시스템이 기초로 하는 다양한 데이터 모델사이에 현격한 차이가 존재할 수 있다. 데이터 웨어하우징 : 데이터웨어하우스를 구축·유지·운영하는 일련의 프로세스 데이터 웨어하우스 환경을 구축하는 데 필수적인 작업은 데이터를 운영환경으로부터 의사결정환경으로 정확하게 대응시키는 것이다.
(2) 데이터 추출 및 변환 시 고려사항 운영시스템상의 데이터가 웨어하우스 상에서 정확하게 시기적절하고 통합적인 데이터로 추출, 변환되는 과정은 기술적으로 매우 복잡하다. 운영시스템은 의사결정을 지원하기 위해 설계되지 않았으며, 웨어하우스로 데이터를 공급하는 다양한 운영시스템들은 서로 다른 간격을 가지고 추출, 통합됨. 따라서 기업들은 자신의 웨어하우징 환경에 이러한 기법들을 적절하게 조합하여 사용해야 한다.
⸁ 데이터 갱신 데어터 갱신은 운영시스템상에서 새로 변경된 데이터를 주기적으로 웨어하우스로 적재한다. 변화된 부분에 대한 효과적인 검색과 성능향상을 위해 검색될 데이터의 양을 제한하는 다양한 기법들(타임스탬프의 설정, 로그파일의 활용 등)이 존재한다.
- 타임스탬프(time stamp) 타임스태프는 데이터를 검색하기 위해 운영시스템상의 데이터가 갱신될 때마다 갱신에 대한 정보를 추가하는 것이다. 어느 시점에 데이터가 존재했다는 사실을 증명하기 위해 특정위치에 시각을 표시함. 웨어하우스는 이러한 타임스탬프 정보를 활용하여 변화된 레코드만을 효과적으로 검색할 수 있다.
- 로그파일 대부분의 데이터베이스는 거래처리 로그를 생성하며, 이러한 로그는 데이터베이스상에 발생하는 변화를 파악하는 데 활용할 수 있다. 로그파일을 활용함으로써 데이터를 매우 효과적으로 검색할 수 있는 것이다.
- 운영 어플리케이션의 수정 데이터추출을 위해 검색해야 할 데이터의 양을 줄이기 위해 어플리케이션 코드를 수정하는 방법이다. 예를 들어 로그파일과 유사한 델타(delta)파일을 생성하도록 어플리케이션을 수정할 수 있다. 델타파일이란 시스템상의 변화된 데이터 부분만을 포함하도록 어플리케이션에 의해 생성되는 파일을 의미한다.
- 스냅샷 이미지 비교 데이터추출이 필요한 시점에서 데이터베이스의 스냅샷이 생성되는데, 이후 다음 번의 추출 시점에서 또다른 스냅샷이 생성되고 이 두 개의 스냅샷을 비교함으로써 변화된 부분을 찾아내는 방법이다. 개념 : 프로그래밍 시 복제 방법의 일종. -지금 현재 작업 상태를 임시 저장해 두는 기능.
⸂ 데이터 실시간 갱신(propagation) 데이터 실시간 갱신은 운영시스템상의 데이터가 갱신됨과 동시에 웨어하우스의 데이터가 갱신되는 것을 의미한다. 데이터 실시간 갱신에는 운영 어플리케이션상의 변화가 실시간으로 웨어하우스에 반영되는 방법과 중간매체를 거쳐 반영하는 방법이 있다.
⸃ 데이터 변형(transformation) 운영시스템으로부터 웨어하우스에 필요한 데이터를 단순히 추출하는 것만으로는 충분하지 않다. 운영시스템상의 데이터는 의사결정 지원형태와는 다르기 때문에 데이터의 변형과정이 필요하다. 데이터 변형은 변환(conversion), 보완(enrichment), 요약(summarization)이라는 3가지 단계로 구성된다.
변환은 운영시스템상의 데이터 값과 포맷상의 불일치를 해결하는 것을 목적으로 한다. 보완은 데이터 웨어하우스 내에서 분석 시 사용할 새로운 개체를 만들기 위해서 다양한 운영시스템 소스로부터 오는 상이한 항목을 결합하는 것을 의미한다. 추출된 원시 데이터는 분석가에게 추세를 제공하기 위해 요약되는 과정을 거칠 필요가 있다.
2) 위로의 흐름 데이터가 운영시스템으로부터 웨어하우스로 이동되는 과정에는 많은 양의 데이터 변형이 이루어진다. 데이터가 운영시스템으로부터 웨어하우스로 이동되는 과정에는 많은 양의 데이터 변형이 이루어진다. 위로의 흐름은 웨어하우스 내로 유입된 데이터에 부가가치를 더하는 과정이다. 즉 웨어하우스 관리자의 역할이 운영시스템과 다른 소스로부터 데이터가 통합되는 것으로 끝나는 것이 아니라 데이터는 보다 유용한 자원으로 변환되어야 한다.
웨어하우스 내의 데이터는 다양한 정도로 요약될 수 있으나, <그림11-3>과 같이 '최근의 상세데이터', '조금 요약된 데이터', '많이 요약된 데이터'로 그 요약의 정도가 구분된다. 일반적으로 데이터 요약의 정도가 높을수록 데이터의 사용빈도는 높아지며 오래된 상세 데이터는 거의 사용되지 않는다(Inmon, 1994).
<그림11-3> 웨어하우스 위로/아래로의 정보 흐름
웨어하우스 구성에서 가장 관심이 집중되는 부분은 '최근의 상세 데이터'이다. 문제는 데이터의 구체성 정도인데 이것이 웨어하우스 내의 데이터의 양과 응답될 수 있는 사용자 질의의 유형에 심각하게 영향을 미치기 때문이다.
Kelly(1994)에 따르면 데이터 구체성의 정도는 웨어하우스 내의 데이터가 어떠한 의사결정에 사용될 것인가에 의해 결정된다. 예를 들어 웨어하우스 내의 데이터가 고객마케팅을 위해 사용될 것이라면 데이터는 매우 상세해야 할 것이다. 반면 데이터가 전략적 장기계획에 사용될 것이라면 상세의 정도는 많이 완화될 수 있다.
3) 아래로의 흐름 데이터 웨어하우스 내의 데이터는 시간이 지남에 따라 그 가치가 감소하게 된다. 이러한 데이터는 더 이상 웨어하우스 내에서 유지될 필요가 없으며 값싼 저장매체로 이동되어야 한다. 경우에 따라서는 영원히 폐기되는 데이터도 있다. 이를 아래로의 흐름이라 한다.
4) 밖으로의 흐름 밖으로의 흐름은 비지니스 사용자들이 웨어하우스 내의 데이터를 이용할 수 있게 되는 것이다. 4) 밖으로의 흐름 밖으로의 흐름은 비지니스 사용자들이 웨어하우스 내의 데이터를 이용할 수 있게 되는 것이다. 사용자들이 웨어하우스 내의 데이터를 주도적으로 사용할 수 있어야 하는데 이것은 웨어하우스 환경에서 중요한 부분이다.
웨어하우스 내의 데이터는 <그림11-4>와 같이 사용자에게 이용되기 전에 데이터 마트에 복사되기도 한다. 한편 이러한 데이터는 쿼리/리포팅 툴, OLAP 툴, EIS/DSS, 데이터 마이닝, 웹 브러우저 등의 다양한 어플리케이션에서 사용된다.
<그림11-4> 웨어하우스 위로의 흐름
5) 메타데이터의 흐름 운영시스템에서 메타 데이터는 시스템의 사용자에게 아무런 의미가 없는데, 데이터 웨어하우징 환경에서는 메타 데이터의 의미가 매우 중요하다. 데이터 웨어하우스 사용자는 웨어하우스 내에 저장된 데이터의 구조와 의미를 알아야 한다. 즉 데이터가 연도별로 요약되어 있는지, 회계기간별로 요약되어 있는지 알아야 하며, 공휴일은 어떻게 처리되었는지 알아야만 한다. 다른 데이터를 설명해 주는 데이터
운영시스템에서 사용자는 기차 여행을 하는 여행자와 비슷하다 운영시스템에서 사용자는 기차 여행을 하는 여행자와 비슷하다. 여행자에게 기차 시간표가 필요할지는 몰라도 지도(메타 데이터)는 필요하지 않다. 반면 데이터 웨어하우징에서 사용자는 알지 못하는 도시로 여행을 떠나는 운전자에 비유할 수 있다. 이 운전자는 지도가 없이는 여행을 제대로 할 수가 없을 것이다.
메타 데이터는 운영시스템에서와는 달리 데이터 웨어하우스 환경에서 매우 중요한 역할을 담당하며, 웨어하우스 환경에서 최소한 데이터의 구조, 데이터 요약에 사용된 알고리즘, 운영 데이터베이스와 데이터 웨어하우스 사이의 대응관계와 같은 정보를 포함하여야 한다(Inmon & Hackathorn, 1994).
두 가지 계층의 메타데이터 첫째, 데이터 웨어하우스 관리자를 위한 메타 데이터. 둘째, 사용자 메타 데이터이다.
<그림11-5> 메타데이터의 역할
2. 데이터 마이닝(Data Mining) 2.1 데이터 마이닝의 개념 데이터 마이닝이란 대량의 데이터 사이에 묻혀 있는 패턴을 발견하고 규칙을 추론함으로써, 의사결정을 지원하고 그 효과를 예측하기 위한 기법이다. 예를 들어 마이닝의 결과로 어떤 고객은 다른 고객에 비해 특정 상품을 더 잘 구매하는 경향이 있다는 사실을 알아낼 수 있다. 기업은 이 두 유형의 고객에 대한 차이를 알게 됨으로써 불특정 대중이 아닌 목표 고객에 집중된 마케팅을 수행할 수 있을 것이다.
대규모 데이터베이스 내에 존재하는, 그러나 대량의 데이터 사이에 숨겨져 있는 상호관련성(relationship)과 글로벌 패턴(parrern)에 대한 탐색(Holshemier & Siebes, 1994). 대량의 데이터로부터 패턴 인식기술과 통계기법, 수학적 기법을 이용하여 의미있는 새로운 상관관계(correla-tkons), 패턴 그리고 추세(trends)를 발견하는 과정(Gartner Group).
데이터마이닝은 광고나 영업행태를 근본적으로 변화시킨다. 하나의 기업이 수많은 고객을 상대로 물량위주 광고를 하던 것에서 기업과 고객을 1 대 1의 관계로 바꿔 놓는다. 데이터 마이닝은 데이터베이스 안으로 깊숙히 침투하여, 데이터 내의 패턴을 발견하고 규칙을 추론한다. 이러한 패턴과 규칙은 의사결정을 지원하고 기업환경의 변화를 예측하는 데 사용될 수 있다.
2.2 데이터 마이닝의 형태 데이터 마이닝을 통해 얻을 수 있는 정보의 형태는 매우 다양하며, 이에 따라 다양한 기법이 존재한다. 가장 대표적인 데이터 마이닝 기법으로는 사건들의 연관성(associations) 탐사, 연속성(sequence)탐사, 분류(classificarions)규칙 탐사와 군집 구분(clustering)을 들 수 있다.
1) 연관성 탐사 연관성은 동시에 발생하는 사건 그룹 내에서 사건들 사이에 존재하는 친화성 혹은 패턴을 말한다. 1) 연관성 탐사 연관성은 동시에 발생하는 사건 그룹 내에서 사건들 사이에 존재하는 친화성 혹은 패턴을 말한다. 연관성 탐사의 대표적인 예는 IBM의 '시장바구니 분석(Market Basket Analysis)'을 들 수 있는데, 이것은 슈퍼마켓에서 소비자들이 구입한 물품들의 목록을 분석함으로써 콘칩이 구매되는 경우의 50%는 소비자들이 콜라도 함께 구매한다는 것과 같은 패턴을 발견하는 것이다.
2) 연속성 탐사 앞서 설명한 연관성 탐사의 변형이라고 할 수 있으며, 사건들이 시간적인 관계를 가지는 것을 말한다. 2) 연속성 탐사 앞서 설명한 연관성 탐사의 변형이라고 할 수 있으며, 사건들이 시간적인 관계를 가지는 것을 말한다. 예를 들어 배낭을 구입한 고객은 다음에 텐트를 구입하는 경향이 있는 경우, 배낭의 구입과 텐트의 구입에는 연속성이 존재한다.
3) 분류 규칙 탐사 분류 규칙 탐사는 어떤 항목이 속하는 그룹의 특성을 가장 잘 나타낼 수 있는 특징들을 발견하는 것으로, 가장 활발히 연구가 이루어지고 있는 분야이다. 많은 기업들이 안고 있는 공통적인 문제 중의 하나는 단골고객의 이탈이다. 이탈하는 고객들과 그렇지 않은 고객들의 차이를 발견함으로써, 기업은 어떠한 고객이 앞으로 이탈할 가능성이 있는지 예측할 수 있으며, 고객유지 및 유치 전략을 보다 효과적으로 개발할 수 있을 것이다.
4) 군집 구분 군집 구분은 분류 규칙 탐사와 관련되어 있으나, 어떠한 그룹도 사전에 정의되어 있지 않다는 점에서 분류 규칙의 탐사와 다르다. 군집 구분은 데이터 내에 존재하는 상이한 그룹을 구분해 내는 기법이다. 어떠한 기법이나 도구도 모든 문제를 해결하는 데 적절하지는 않다. 각 기법의 한계를 이해하고 각각의 기법이 데이터를 어떻게 사용하는지를 이해하는 것은 마이닝된 결과를 이해하고 해석하는 데 필수적이다.