2008 년 7 월 24 일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필. 2016-08-172 목차 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델.

Slides:



Advertisements
Similar presentations
Rethink: Big Intelligence? 2014 년 9 월 27 일 삼성전자 어길수 부사장.
Advertisements

폭력. 폭력이란 무엇인가 우상의 눈물 물리적인 폭력 ( 최기표 ) VS 지능적인 폭력 ( 임형우, 담임선생님 )
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
1 박 2 일 !!! 인천마장초등학교 유수아. 1 박 2 일 멤버 인기순 위 1 위 이승기 2 위 엄태웅 3 위 은지원 4 위 김종민, 이수근 ※인터넷에서 본것이기 때문에 사람에따라 서 다를 수 있다. ※
Kim Jun Woo 지식정보처리및응용 1 지식정보처리 및 응용 09. 데이터마이닝 기법과 응용 동아대학교 산업경영공학과 김 준 우.
석관중앙교회 5남전도회 석 관 중 앙 교 회 회원 소식 통권 05-04호 발행일 : 2005년 04월 회 장 : 장진호 집사
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
지역사회복지론 1조. 요양보호시설에 대해서 황성국 임재형 이동영
소프트웨어시스템 실습 머신러닝 Machine Learning (1) 학기.
Machine Learning to Deep Learning_2
Brain-Computer Interfaces for Communication and Control
Hierarchical Classification: Comparison with Flat Method
Neural Network - Perceptron
4장. 마케팅 정보 시스템과 마케팅 조사 마케팅정보시스템 마케팅조사.
(Classification – Advanced Techniques)
“컴퓨터와 소프트웨어 혁명” 이 점 숙 컴퓨터와 인터넷 “컴퓨터와 소프트웨어 혁명” 이 점 숙
I 문학의 개념과 역할 1. 문학의 개념 (1) 언어 예술로서의 문학 (2) 소통 활동으로서의 문학
A CRM Consulting case with Point of Sales Data
분류 (Classification) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
해야 할일 (To-Do List)  해결내용
신청하시기 전에 꼭 읽어 주세요! 기준인원 40명으로 짜여진 단가입니다. 기준미달 시 1인 단가가 상승합니다.
Ⅱ-1. 물질의 기본 성분 원소들의 지도, 주기율표 이솔희.
사이버 교육 설명회 대부업 및 대부중개업 협회.
4. 목적론적 윤리와 의무론적 윤리 01. 경험주의와 이성주의 01. 경험주의와 이성주의 02. 결과론적 윤리와 공리주의
Operating Systems Overview
KNN Life Wedding Academy
부산대학교 인공지능연구실 김민호 Text Categorization 부산대학교 인공지능연구실 김민호
제4장 자연언어처리, 인공지능, 기계학습.
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
EPS Based Motion Recognition algorithm Comparison
SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.
Technological Forecasting & social change(2014)
A Survey of Affect Recognition Methods :
정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)
5. 비제약 최적설계의 수치해법 (Numerical Methods for Unconstrained Optimum Design)
Semi-supervised Document classification (probabilistic model and EM)
머신 러닝 2 ㈜ 퀀트랩.
서 호 ICONIP 2013 학회 참석기 서 호
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
Data Mining Final Project
패턴인식 개론 패턴인식 개요 ( CSCE 666 Pattern Analysis | Ricardo Gutierrez-Osuna | )
개항기 조선과 동아시아 박 범 한국역사입문Ⅱ.
정보 추출기술 (Data Mining Techniques ) : An Overview
경제통계학 개요 사공 용 서강대학교 경제학과.
Progress Seminar 신희안.
인공지능 소개 및 1장.
월성 원전 1호기 폐쇄이유와 국회역할 원전은 안전할 때 꺼야 한다
대구의 부도심 대구의 주요축 동대구 부도심 4조 강민석 / 박성균 / 최은지/ 황재현/김예지.
그래프와 트리 (Graphs and Trees)
Sentiment Analysis 유재명.
(생각열기) 염화나트륨은 고체 상태에서는 전류가 통하지 않지만 용융 상태나 물에 녹으면 전류가 잘 통한다. 그 이유는?
0801 Workshop.
유답 프로그램 교육일정 [1일차] U-DAP * 1일차 주제: 나는 어떤 삶의 패턴(의식)을 가지고 살아왔는가? 경쟁과 조화
사도행전 13장 22절 말씀 –아멘 다 윗 을 왕 으 로 세 우 시 고 증 언 하 여 이 르 시 되 내 가 이 새 의 아 들
Convergence Security 융합보안학과 17학번 이재승.
(제작자: 임현수)모둠:임현수,유시연,유한민
후원단체 참여제안서.
천국 가는 길 천국 가는 길 ♧ 천국 가는 길 ♧ 1. 죄와 사망(지옥) 1) 사람의 3가지 공통점 - 죄인, 죽음, 심판
경찰행정과 세미나 결과를 공개해야한다. VS 비공개로 해야한다. 경찰의 근무성적평정 제도.
K Nearest Neighbor.
< 차 시 정 보 > 정보통신윤리교육 콘텐츠 과제명 학년군 3~4학년 학년 4학년 내용요소
Analysis of Customer Behavior and Service Modeling Final Team Project
Linear Model.
강한 조직을 만드는 리더십.
시민이 체감하는 편리한 건축인허가 절차 개선 추진.
모바일 Femur reconstruction app 제작
Can Automatic Calculating Machines Be Said To Think?’
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
사귐의 해법 2 : 아버지의 사랑  아버지가 사랑하시는 사랑에 대한 올바른 반응으로 아버지를 사랑함 * 2:15-17) 세상 사랑 vs 아버지 사랑 (p ) * 3:11-18) 아버지 사랑 & 형제 사랑 (p ) * 4:7-21) 형제 사랑.
Aggregated K-nearest neighbor queries for High – dimensional data Eojin Yun, Dept. of Computer Science and Engineering, POSTECH. Motivation 만약.
Presentation transcript:

2008 년 7 월 24 일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필

목차 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델 별 비교 NAICE –News Article Information Classification Engine 결론

“ 자동 (?)” 문서분류시스템

“ 수동 (!)” 문서분류시스템

“ 수동 (!)” 문서분류시스템

신문기사 자동분류시스템 [ 이데일리 SPN 김은구기자 ] “( 법원에 ) 선처를 해달라는 취지의 서류를 작성해줄 수 있는 시기는 지났다. 이제는 법원의 판결만 기다리겠다.” 탤런트 송일국 측이 폭행혐의로 송일국을 고소했다가 오히려 무고혐의로 불구속 기소된 프리랜서 기자 김모씨 에 대해 강경 대응 입장을 밝혔다. 18 일 오후 김씨가 기자회견을 열고 자신의 억울함을 호소하며 항고할 뜻을 밝힌 데 따른 것이다. 송일국의 법정대리인인 이재만 변호사는 17 일 이번 사건에 대한 검찰의 수사결과를 발표하며 “ 민사소송은 계속 진행하겠지만 무고에 대해서는 김씨가 반성하고 사과한다면 선처해 달라는 취지의 서류를 작성해줄 수 있다 ” 고 밝혔다. 그러나 김씨가 기자회견을 통해 “ 송일국 측은 사과를 하면 탄원서를 써주겠다고 했지만 나 혼자만의 명예가 걸려 있는 일이 아니다 ” 며 항고와 재판으로 정면 돌파하겠다는 뜻을 드러냈다. 이에 대해 이재만 변호사는 이데일리 SPN 과 가진 전화통화에서 “ 김씨가 기자회견장에 상해 1 주일 진단서를 갖 고 나왔다는데 1 주일 상해 진단서는 본인 진술로 통증을 호소하면 끊을 수 있는 것이다. 그 사람의 몸에 상처가 있다는 증거일 뿐이지 폭행에 의해 생겼다는 증거는 아니다 ” 고 주장했다. 이어 이재만 변호사는 “ 김씨는 또 부러진 이 외에 세 개의 치아가 치근파절됐다고 했는데 앞니가 송일국의 팔에 부닥쳤다면서 어떻게 양 턱쪽 치근파절이 될 수 있나 ” 라고 덧붙였다. 김씨는 인터뷰를 요청하는 과정에서 자신을 뿌리치려는 송일국의 팔에 맞아 부상을 당했다며 형사고소를 했으 며 검찰수사에서 송일국은 무혐의 처분을 받았고 김씨는 무고혐의로 불구속 기소됐다.

자동문서분류시스템 구조 일반적인 형태의 문서분류시스템 문서집합 전처리 ( 정제처리 ) 색인 ( 키워드 추출 ) 자질선택 ( 중요한 키워드 선별 ) 분류 알고리즘 적용 성능평가 학습과정 (Learning Process)

문서분류 모델 및 알고리즘의 종류 Naïve Bayes –Simple, cheap, linear classifier; quite effective K Nearest Neighbor classification –Simple, expensive at test time, high variance, non-linear Rocchio vector space classification (centroids) –Simple, linear classifier; too simple Decision Trees –Pick out hyperboxes; nonlinear; use just a few features Support Vector Machines –Currently hip; linear or nonlinear (kernelized); effective at handling high dimensional spaces; very effective

문서분류 모델 별 정확도 실험결과 (1/3) Dumais et al. 1998: Reuters - Accuracy

문서분류 모델 별 정확도 실험결과 (2/3) SVM Classifiers (Joachims)

문서분류 모델 별 정확도 실험결과 (3/3) SVM Classifiers vs. Others (Yang&Liu)

실험결과에 대한 단상 영어자료에 대한 자동분류 ( 다양한 검증자료 ) 한글자료에 대한 자동분류 ( 검증자료가 부족 ) 실무 적용 시에 고려해야 할 요건 – 학습 속도 – 분류 속도 – 튜닝 가능 여부 온라인 학습 기능 특정 색인집합 Boosting 기능

세가지 분류모델 별 비교 – 학습 속도 KNN > NB >>>> SVM KNN 은 단순히 검색엔진에 문서를 적재하는 속도와 동일 NB 는 적재와 함께 확률계산에 시간이 좀더 소요 SVM 은 최적화 (Optimization) 에 엄청나게 시간이 많이 소요 대용량 학습문서 ( 기가바이트 단위 ) 에 대한 분류학습 시도가 없었음.

세가지 분류모델 별 비교 – 튜닝 NB > SVM = KNN NB 는 각 주요단어에 대한 확률값 ( 가중치 ) 조작이 용이함 SVM 과 KNN 은 이러한 튜닝 작업이 쉽지 않음 온라인 학습 기능은 세가지 모델 모두 구현 가능 그러나 SVM 의 온라인 학습기능은 현재 연구단계임

세가지 분류모델 별 비교 – 분류속도 NB > SVM >>>> KNN KNN 의 분류과정은 ( 검색 + 문서유사도측정 ) 임 NB 의 분류속도가 가장 빠름 SVM 은 기본적으로 이진분류모델이므로 다중분류속도가 느림

NAICE (KISTI 기사분류시스템 ) News Article Information Classification Environment 특정 분야에 국한되지 않은 범용 문서분류기

NAICE (KISTI 기사분류시스템 ) 특징 – 다양한 형태의 문서분류성능 최적화 기능 제공 자질추출기능 최적화 도구 제공 – 빠른 문서분류속도 ( 한글문서 1 건 (1Kbyte) 당 평균 0.02 초 ) –Naïve Bayesian (NB), K-Nearest Neighbor (KNN) 분류모델 동시 제공 – 다국어 문서분류기능 한글  한국어 형태소분석기 영어  Lemmatization ( 원형복원기 ), 품사태거

NAICE (KISTI 기사분류시스템 ) 분류 정확도 (4,571 건 ) 항목정확도 1 등만을 올바른 분류결과로 인정 (73.5%) 2 등까지 올바른 분류결과로 인정 (83.8%) 3 등까지 올바른 분류결과로 인정 (87.7%) 4 등까지 올바른 분류결과로 인정 (89.7%) 5 등까지 올바른 분류결과로 인정 (91.5%) 6 등까지 올바른 분류결과로 인정 (92.8%) 7 등까지 올바른 분류결과로 인정 (93.7%) 8 등까지 올바른 분류결과로 인정 (94.4%) 9 등까지 올바른 분류결과로 인정 (94.8%) 10 등까지 올바른 분류결과로 인정 (95.3%)

NAICE (KISTI 기사분류시스템 ) – 학습문서 조선일보 신문기사 규모 – 건수 : 225,997 건 – 분야 : 1,001 분야 –

성능향상을 위한 부가작업 기존 분류체계에 대한 정비 및 정제 작업이 필요 – 유사 분류체계 통합 및 광의 분류체계 세분화 작업 분류체계별 학습 집합의 정규화 – 현재 특정 분류체계 내에 존재하는 기사 건수가 지나치게 많거나 적음. 따라서 이들 차이를 최소화시키는 작업 필요 분야별 핵심키워드사전 구축 – 각 분야별 분류정확도를 세부적으로 측정하여 정확도가 지나치게 낮은 분야에 대한 성능튜닝 작업 수행 ( 예 : 특정 분류에서 매우 중 요하고 빈번하게 발생하는 핵심 키워드 사전 구축 및 이를 분류기 에 반영 )

결론 분류모델의 장단점이나 성능비교에 의한 문서분류엔진 선택은 문제의 소지가 있음 적용될 특정 도메인의 요구사항분석에 기반한 개발 및 도 입이 필수 NAICE – 영역독립적인 문서분류 프레임워크에 기반한 “ 실시간 ” 신문기사 자동 분류 시스템 – 유연성과 효율성을 극대화한 시스템 – 주변 응용도구개발이 필요 – 지속적인 학습문서 적용 필요 – 온라인 학습 기능 필요