Kim Jun Woo 지식정보처리및응용 1 지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우
Kim Jun Woo 지식정보처리및응용 2 데이터 마이닝 (Data Mining) – 데이터에 숨겨진 유용한 지식, 규칙, 패턴을 탐사 방대한 양의 데이터 자동 또는 반자동화된 분석 방법 데이터 마이닝 DATA MINING Pattern, Information, Knowledge 분류 위한 판정 방법 : 의사결정나무 유사한 레코드끼리의 군집 : k-means
Kim Jun Woo 지식정보처리및응용 3 데이터 마이닝 분석 대상 – 데이터 필드와 레코드로 구성 데이터 마이닝 분석 종류 – 교사 학습 Target 필드 ( 속성 ) 의 값 추정 방법 도출 미래 데이터 target 값 추정에 활용 – 비교사 학습 데이터의 특성 묘사, 값 추정 없음 데이터 마이닝 IDF1F2F3F4F5 1…………… 2…………… 3……………
Kim Jun Woo 지식정보처리및응용 4 교사 학습 (supervised learning) – 분류 (classification) Target 속성 범주형 의사결정나무, 규칙기반분류기, 베이즈분류기, 지지도벡터기계 등 – 예측 (forecasting) Target 속성 수치형 인공신경망, 회귀분석 등 데이터 마이닝 IDF1F2F3F4F5Target 1……………O 2……………X 3……………O IDF1F2F3F4F5Target 1……………3.25 2……………1.70 3……………4.55
Kim Jun Woo 지식정보처리및응용 5 비교사 학습 (unsupervised learning) – 군집 (clustering) 유사한 레코드끼리 집단 형성 K-means, 계층형 군집, DBSCAN 등 – 연관 (association) 필드 간 인과관계 분석 Apriori, 시퀀스 마이닝 등 데이터 마이닝 IDF1F2F3F4F5 1…………… 2…………… 3…………… 4…………… 5…………… 6…………… 7…………… 군집 1 군집 2 군집 분석 연관 분석 F3=O 일 때, F5=X 가 되는 경향 존재
Kim Jun Woo 지식정보처리및응용 6 데이터 마이닝 기법의 활용 – 다양한 분야, 산업에서 활용 제조업 서비스업 IT 업종 등 – 적절한 데이터의 정의 및 수집 필요 다양한 사례들을 묘사하는 필드, target 속성 등의 정의 필요 데이터 마이닝
Kim Jun Woo 지식정보처리및응용 7 데이터 마이닝 활용 예 ) – 영상 데이터를 이용한 무인 자동차 – 장치 조작 규칙 필요 예 ) 전방 상황이 … 일 때, 조향 장치 좌측 15 도 예 ) 전방 상황이 … 일 때, 조향 장치 0 도 ( 직진 ) 예 ) 전방 상황이 … 일 때, 조향 장치 우측 5 도 영상 데이터 분석 전방 영상 인식 조향 장치 조작 엑셀, 브레이크 조작
Kim Jun Woo 지식정보처리및응용 8 데이터 마이닝 활용 예 ) – 무인 자동차 조향 장치 조작 규칙 도출 인간의 운전 통해 데이터 수집 인간의 운전 데이터에 숨겨진 패턴, 규칙 추출하여 차량에 탑재 영상 데이터 분석 전방 영상 인식 전방 영상 정보인간의 조작 내용 데이터 어떻게 구성, 표현할 것인가 ?
Kim Jun Woo 지식정보처리및응용 9 무인 자동차 – 인간의 운전 데이터 전방 영상 : 도로인 부분, 그렇지 않은 부분 나누어 표현 예 ) 전방 영상을 5X5 영역으로 표현 영상 데이터 분석 전방 영상영역 별 표현 데이터 형식 표현 ( Fij : i 행 j 열 영역 도로 여부 ) F11F12F13F14F15F21F22F23F24F25F31F32F33F34F35F41F42F43F44F45F51F52F53F54F55 XXXXXXXXXOXXXOOXXOOOXXOOX
Kim Jun Woo 지식정보처리및응용 10 무인 자동차 – 학습 데이터 (training set, 과거 데이터 ) 레코드 구성 전방 영상 데이터 + 인간 운전자의 조작 예 ) 조향 각도 : 좌측 (-), 직진 (0), 우측 (+) 영상 데이터 분석 F11F12F13F14F15F21F22F23F24F25F31F32F33F34F35F41F42F43F44F45F51F52F53F54F55 조향 XXXXXXXXXOXXXOOXXOOOXXOOX15 전방 영상영역 별 표현해당 상황에서 인간의 조향 장치 조작 우측 15 도 학습 데이터 레코드
Kim Jun Woo 지식정보처리및응용 11 무인 자동차 – 학습 데이터 축적 장기간 인간 운전자 조종 데이터 수집 예 ) 영상 데이터 분석 F11F12F13F14F15F21F22F23F24F25F31F32F33F34F35F41F42F43F44F45F51F52F53F54F55 조향 XXXXXXXXXOXXXOOXXOOOXXOOX15 XOOOXXOOOXXOOOXXOOOXXOOOX0 OOOXXXOOOXXOOOXXOOOXXOOOX-5 …………………………………………………………………… 영역 별 표현 우측 15 도 학습 데이터 영역 별 표현 0도0도 좌측 5 도 …
Kim Jun Woo 지식정보처리및응용 12 무인 자동차 – 패턴 및 규칙의 추출 데이터에 숨겨진 지식 추출 예 ) 수치형 target 의 추정 방법 필요 : 인공 신경망 등 영상 데이터 분석 F11F12F13F14F15F21F22F23F24F25F31F32F33F34F35F41F42F43F44F45F51F52F53F54F55 조향 XXXXXXXXXOXXXOOXXOOOXXOOX15 XOOOXXOOOXXOOOXXOOOXXOOOX0 OOOXXXOOOXXOOOXXOOOXXOOOX-5 …………………………………………………………………… 학습 데이터 인공신경망 : 전방 상황에 따른 조향 각도 결정 규칙
Kim Jun Woo 지식정보처리및응용 13 무인 자동차 – 패턴 및 규칙의 활용 조향 각도 결정 규칙 : 미래 데이터 target 결정에 활용 가능 시스템 탑재하여 활용 예 ) 무인 자동차의 주행 영상 데이터 분석 전방 영상 정보 데이터 변환, 입력 조향 각도 산출 조작 / 제어
Kim Jun Woo 지식정보처리및응용 14 기타 영상 데이터에서 추출한 패턴 및 규칙 응용 예 ) – 필기 문자 인식 – 제품의 분류 예 ) 수산물 영상 통해 자동 분류 등 영상 데이터 분석 A 문자 영상영역 별 표현 target A
Kim Jun Woo 지식정보처리및응용 15 설문 데이터의 구성 – 설문 문항의 구성 적절한 구조화 바람직 –1) 인구통계 정보 (socio-demography) 성별, 나이, 직업, 주소, 학력, 소득 등 –2) 주제 관련 세부 문항 영역별로 구성 –3) target 에 해당하는 문항 종합적인 척도 예 ) 마케팅 분야 종합 척도 : 재구매 의사, 추천 의사, 전반적 만족도 설문 데이터
Kim Jun Woo 지식정보처리및응용 16 설문 데이터의 구성 – 예 ) 보험회사 설문 데이터 구성 고객 만족도 조사 설문 데이터 인구 통계 문항 1. 귀하의 성별은 ? ( 남, 여 ) 2. 귀하의 연령대는 ? (10 대, 20 대, 30 대, 40 대, 50 대, 60 이상 ) 3. 귀하의 직업은 ? ( 회사원, 자영업, 전문직, 공무원, 기타 ) 4. 귀하의 연 소득 수준은 ? ( 2000 이하, , , , , 6000 이상 ) 5. 귀하의 결혼 상태는 ? ( 미혼, 기혼, 이혼 ) 6. 자녀는 몇 명입니까 ? ( 0, 1, 2, 3 이상 )
Kim Jun Woo 지식정보처리및응용 17 설문 데이터의 구성 – 예 ) 보험회사 설문 데이터 구성 고객 만족도 조사 설문 데이터 주제 관련 문항 A. 가입 절차 관련 A-1) 가입 경로는 무엇입니까 ? ( 영업 사원, 인터넷, 전화, 기타 ) A-2) 가입 당시 상담원은 친절했습니까 ? ( ) A-3) 가입 당시 충분한 설명을 들었습니까 ? ( ) A-4) 가입 절차가 편리했습니까 ? ( ) A-5) 가입과 관련된 정보를 찾기가 쉬웠습니까 ? ( ) C. 요금 납부 관련 C-1) 어떻게 요금을 납부하고 있습니까 ? ( 지로, 이체, 신용카드, 기타 ) C-2) 요금 납입액이 적정합니까 ? ( ) C-3) 요금 납부 방법이 편리합니까 ? ( ) C-4) 요금 납부와 관련된 정보를 찾기 쉽습니까 ? ( ) B. 상품 관련 B-1) 상품 선택 동기는 무엇입니까 ? ( 영업 사원, 지인, 인터넷, 기타 ) B-2) 상품 설명이 알기 쉬웠습니까 ? ( ) B-3) 상품에 대한 정보를 쉽게 얻을 수 있었습니까 ? ( ) B-4) 상품의 보장 범위에 만족하십니까 ? ( ) D. 보험금 신청 관련 D-1) 보험금을 신청해본 적이 있습니까 ? ( 예, 아니오 ) D-2) 보험금 신청 절차가 편리했습니까 ? ( ) D-3) 보험금 처리 직원의 응대는 친절했습니까 ? ( ) D-4) 보험금 산정 액수는 만족스러웠습니까 ? ( ) D-5) 보험금 수령까지 소요 기간은 적당합니까 ? ( ) …
Kim Jun Woo 지식정보처리및응용 18 설문 데이터의 구성 – 예 ) 보험회사 설문 데이터 구성 고객 만족도 조사 설문 데이터 Target 문항 1.OO 보험사의 다른 상품에도 가입하실 의향이 있습니까 ? ( ) 2.OO 보험사의 상품을 지인에게 추천하실 의향이 있습니까 ? ( ) 3.OO 보험사에 대해 전반적으로 만족하십니까 ? ( )
Kim Jun Woo 지식정보처리및응용 19 설문 데이터와 데이터마이닝 기법 – 응답자 군집 일반적으로 인구 통계 문항 이용하여 수행 인구 통계 특성이 비슷한 응답자끼리 군집 형성 설문 데이터 전체 응답자군집 1 군집 2 군집 3 연령, 직업, 성별 등이 유사한 응답자끼리 군집 유사한 성향 공유할 가능성 높음
Kim Jun Woo 지식정보처리및응용 20 설문 데이터와 데이터마이닝 기법 –Target 문항 추정을 위한 분류 / 예측 모형 생성 주제 관련 문항 : 일반 필드로 사용 Target 문항 : target 속성으로 사용 예 ) 재구매 의사를 target 으로 하는 의사결정나무 설문 데이터 보험금 신청 절차 상품의 보장 범위 높은 재구매 의사 낮은 재구매 의사 높은 재구매 의사 >= 4< 4 >= 3< 3 중요 항목 선별 통한 고객 만족도 증진 기업 성과 개선 전략 수립
Kim Jun Woo 지식정보처리및응용 21 참고 문헌 참고 자료 저자제목출처 김훈태, 정재윤, 강석호 (2003) 생산재고 정책수립을 위한 다품종모델 군집화의 실증적 분석 2003 한국경영과학회 / 대한산업 공학회 춘계공동학술대회 신원경, 박민용 (2010) 라이프스타일에 의한 노인 사용자 그룹별 UI 품질 함수화대한인간공학회 2010 추계 학 술대회 곽주은, 김창욱 (2013) 공정이상 진단을 위한 적응형 군집 기반 k-nearest neighbor 알고리즘 2013 한국경영과학회 / 대한산업 공학회 춘계공동학술대회 Harding, J.A., Shahbaz, M., Srinvas, S. and Kusiak, A. (2006) Data Mining in Manufacturing: A ReviewJournal of Manufacturing Science and Engineering