Data Mining
차 례 1. Data Mining이란? 2. 요즘 왜 부각되는가? 3. Data Mining 관련분야 차 례 1. Data Mining이란? 2. 요즘 왜 부각되는가? 3. Data Mining 관련분야 4. 절차에 따른 통계적 기법 5. Data Mining의 기법에 따른 적용사례 6. Data Mining 활용분야 7. 맺음말
Data Mining의 정의와 등장배경
등장배경 기술적 요인 기업적 환경요인 1.Data Mining의 정의와 등장배경 정보인프라 구축으로 인한 방대한 데이터 데이터베이스를 통한 새로운 지식 창출 가능 데이터베이스 마케팅의 지속적인 대두 기계학습기법의 급속한 발전 경쟁력 있는 정보분석환경 출현
1. Data Mining의 정의와 등장배경 정 의 데이터마이닝 "대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하고 찾아내어 모형화함으로써 유용한 지식을 추출하는 일련의 과정들” 통계적인 관점 "대용량 데이터에 대한 탐색적 데이터 분석(Exploratory Data Analysis for large amount data )" (Friedman, 1997).
요즘 왜 부각되는가?
첫째 둘째 2. 왜 요즘 부각되는가? 데이터마이닝은 대용량의 기업들 간의 경쟁이 데이터를 다루는 것이 가중되고 있다. 특징인데,각 기업들의 운영계에는 이제 분석을 수행하기에 충분한 용량의 데이터가 축적되고 있다. 실제로 데이터는 유례를 찾을 수 없이 급격히 증가하고 있으며, 수백 기가 바이트의 데이터베이스도 이제 흔한 현상이라 할 수 있다. 첫째 기업들 간의 경쟁이 가중되고 있다. 경쟁에 대한 압력은 기업이 대용량의 데이터에 대하여 높은 부가가치를 창출할 수 있는 데이터 웨어하우징이나 데이터마이닝과 같은 분야에 대한 투자를 유도하고 있다. 둘째
Data Mining 관련분야
KDD(Knowledge Discovery in Databases) 기계학습(Machine learning) 패턴인식(Pattern recognition) 통계학(Statistics) 뉴로컴퓨팅(Neurocomputing) 3. Data Mining관련분야 지식을 추출하는 전 과정을 의미하며, Data Mining은 KDD의 한 분야라고 할 수 있다. 인공지능의 한 분야로 자동적인 학습 기법을 설계하고 구연하는 분야 데이터베이스에서 유용한 패턴을 찾아내는 다양한 기법을 제공한다. Data Mining의 대부분은 통계학의 한 분야라고 할 수 있다. 신경망등과 관련된 다양한 학문적 배경을 가진 한 분야이다.
Statistics Pattern Recognition Machine Learning Data Mining AI KDD AI Data Mining Machine Learning Databases
절차에 따른 통계적 기법
절차에 따른 통계적 기법 5. 절차에 따른 통계적 기법 *탐색 *데이터 *모형화 *데이터 후 처리 (Assessment ) *자료수집 (Sampling) *탐색 (Exploration ) *데이터 전 처리 (Modification ) *모형화 (Modeling ) *데이터 후 처리 (Assessment ) 표본론 실험계획법 EDA 대응분석 인자분석 군집분석 자료변환 통계적 그래픽론 회귀분석 일반화 선형모형 다단계일반화 Frailty 모형 모형진단 이상점 check
4. 절차에 따른 통계적 기법(데이터마이닝 프로세스) 통합 지식 운영시스템 해석과 평가 모델링 리포팅 데이터 마이닝 패턴 시각화 변환 이해 선발과 정제 변환된 데이터 문제정의 목표 데이터 데이터 베이스 마이닝된 결과를해석하고 기업에 실제적인 가치가 있는지 평가 무엇을 마이닝 할 것인가? 어디에서 마이닝 할 것인가?
Data Mining의 기법에 따른 적용사례
기 법 기 본 개 념 적 용 사 례 (1)연관규칙 6. Data Mining의 기법에 따른 적용사례 데이터간의 연관규칙을 기 법 기 본 개 념 적 용 사 례 데이터간의 연관규칙을 찾아내는 기법 순서대로 일어난 데이터를 분석해 빈도수가 높은 순차 패턴을 찾아내는 기법 기존의 분류된 데이터를이용, 새로운 데이터가 어느클래스에 속하는지 예측하는 기법 전체 데이터의 분포나 패턴등을 찾아내는 기술 소수 또는 일부를 찾아내는 기술 (1)연관규칙 (2) 순차패턴 (3) 분류규칙 (4) 군집화 (5) 아웃라이어 -백화점, 잡화점 -웹 페이지의 디자인 -홈쇼핑 회사 -학습지 회사 -병원 진료 -슈퍼마켙 -새로운 의약품 개발 -전자상거래 사이트 -백화점 고객관리 -신용카드 도둑 -시스템 불법 침입자
(6) 의사결정나무 (7) 신 경 망 (8) 동시발생 매트릭스 7. 그 밖의 Data Mining 활용분야 품목 A B “품목A를 포함하는 거래는 품목B도 포함한다.” (6) 의사결정나무 (7) 신 경 망 (8) 동시발생 매트릭스
Data Mining 활용분야
데이터베이스 마케팅(Database Marketing) 4. Data Mining 활용분야(1) 데이터베이스 마케팅(Database Marketing) 목표 마케팅(Target Marketing),고객 세분화(Segmentation),고객성향변동분석(Churn Analysis),교차 판매(Cross Selling),시장바구니 분석(Basket Market Analysis) 등에서 주로 이용 품질개선 병원과 의료보험조합 등에서는 병원에서 발생하는 사망, 불필요한 장기입원 및 의료비의 과다청구에 초점을 맞추고 있으며, 제조업체에서는 제품보증청구를 유발시키는 불량품 감소를 통한 이윤 증가에 중점 위험관리(Risk Management), 망관리(Network Management), 수요 및 판매 예측(Forecasting) 등에 활용
신용평가 부정행위의 적발 이미지분석 은행, 금융서비스, 저당권보험(담보부 보험), 소매(할부 판매) 등 다양한 분야에 적용 4. Data Mining 활용분야(2) 신용평가 은행, 금융서비스, 저당권보험(담보부 보험), 소매(할부 판매) 등 다양한 분야에 적용 부정행위의 적발 은행에서는 발견된 패턴을 이용하여 신용카드 거래사기 및 불량수표를 적발할 수 있고, 통신회사에서는 전화카드거래사기를 방지하며, 보험회사에서는 허위 및 과다 청구를 예방 이미지분석 천문학, 문자 인식, 의료진단, 방위산업 등 다양한 분야에서 활용
통신회사 금융 신용카드 회사 -확보된 고객의 이탈 방지하고 장기간 유지하기 위해 서비스 해지 가능성이 높은 이탈 고객을 예측(chum모델링) 금융 -훔친 신용카드 사용의 패턴 탐지 -신용 카드를 다른 은행으로 옮길 가능성이 높은 고객의 예측 -과거의 주식시장의 역사를 보고 이익을 볼 수 있는 주식 투자 방법의 발견 신용카드 회사 -불량 고객을 가려내는데 이용 -분실이나 도난카드에 의한 사고 방지 4. Data Mining 활용분야(3)
맺 음 말
통계학이 데이터 마이닝의 전부가 아니기 때문에 통계학 이외에도 비즈니스, 재무, 데이터 베이스등에 8. 맺음말 통계학이 데이터 마이닝의 전부가 아니기 때문에 데이터 마이닝의 세계에 뛰어들기 위해서는 통계학 이외에도 비즈니스, 재무, 데이터 베이스등에 대해서도 잘 알고 있어야 한다. 데이터 마이닝기술이 짧은 기간 동안 많이 발전되었다고 하지만 이것들이 우리의 생활을 얼마나 편리하게 해줄 수 있는지 아직 두고 봐야 할단계이므로 우리는 통계학이라는 분야에서 데이터 마이닝기술을 효과적으로 적용하고 발전시키기 위해 노력해야 할 것이다.