2008 년 7 월 24 일 신문기사 자동 분류 시스템 한국과학기술정보연구원 최성필
목차 문서분류시스템의 예시와 정의 자동문서분류시스템의 구조 문서분류 모델 및 알고리즘의 종류 문서분류 모델 별 정확도 실험결과 실험결과에 대한 단상 세 가지 분류모델 별 비교 NAICE –News Article Information Classification Engine 결론
“ 자동 (?)” 문서분류시스템
“ 수동 (!)” 문서분류시스템
“ 수동 (!)” 문서분류시스템
신문기사 자동분류시스템 [ 이데일리 SPN 김은구기자 ] “( 법원에 ) 선처를 해달라는 취지의 서류를 작성해줄 수 있는 시기는 지났다. 이제는 법원의 판결만 기다리겠다.” 탤런트 송일국 측이 폭행혐의로 송일국을 고소했다가 오히려 무고혐의로 불구속 기소된 프리랜서 기자 김모씨 에 대해 강경 대응 입장을 밝혔다. 18 일 오후 김씨가 기자회견을 열고 자신의 억울함을 호소하며 항고할 뜻을 밝힌 데 따른 것이다. 송일국의 법정대리인인 이재만 변호사는 17 일 이번 사건에 대한 검찰의 수사결과를 발표하며 “ 민사소송은 계속 진행하겠지만 무고에 대해서는 김씨가 반성하고 사과한다면 선처해 달라는 취지의 서류를 작성해줄 수 있다 ” 고 밝혔다. 그러나 김씨가 기자회견을 통해 “ 송일국 측은 사과를 하면 탄원서를 써주겠다고 했지만 나 혼자만의 명예가 걸려 있는 일이 아니다 ” 며 항고와 재판으로 정면 돌파하겠다는 뜻을 드러냈다. 이에 대해 이재만 변호사는 이데일리 SPN 과 가진 전화통화에서 “ 김씨가 기자회견장에 상해 1 주일 진단서를 갖 고 나왔다는데 1 주일 상해 진단서는 본인 진술로 통증을 호소하면 끊을 수 있는 것이다. 그 사람의 몸에 상처가 있다는 증거일 뿐이지 폭행에 의해 생겼다는 증거는 아니다 ” 고 주장했다. 이어 이재만 변호사는 “ 김씨는 또 부러진 이 외에 세 개의 치아가 치근파절됐다고 했는데 앞니가 송일국의 팔에 부닥쳤다면서 어떻게 양 턱쪽 치근파절이 될 수 있나 ” 라고 덧붙였다. 김씨는 인터뷰를 요청하는 과정에서 자신을 뿌리치려는 송일국의 팔에 맞아 부상을 당했다며 형사고소를 했으 며 검찰수사에서 송일국은 무혐의 처분을 받았고 김씨는 무고혐의로 불구속 기소됐다.
자동문서분류시스템 구조 일반적인 형태의 문서분류시스템 문서집합 전처리 ( 정제처리 ) 색인 ( 키워드 추출 ) 자질선택 ( 중요한 키워드 선별 ) 분류 알고리즘 적용 성능평가 학습과정 (Learning Process)
문서분류 모델 및 알고리즘의 종류 Naïve Bayes –Simple, cheap, linear classifier; quite effective K Nearest Neighbor classification –Simple, expensive at test time, high variance, non-linear Rocchio vector space classification (centroids) –Simple, linear classifier; too simple Decision Trees –Pick out hyperboxes; nonlinear; use just a few features Support Vector Machines –Currently hip; linear or nonlinear (kernelized); effective at handling high dimensional spaces; very effective
문서분류 모델 별 정확도 실험결과 (1/3) Dumais et al. 1998: Reuters - Accuracy
문서분류 모델 별 정확도 실험결과 (2/3) SVM Classifiers (Joachims)
문서분류 모델 별 정확도 실험결과 (3/3) SVM Classifiers vs. Others (Yang&Liu)
실험결과에 대한 단상 영어자료에 대한 자동분류 ( 다양한 검증자료 ) 한글자료에 대한 자동분류 ( 검증자료가 부족 ) 실무 적용 시에 고려해야 할 요건 – 학습 속도 – 분류 속도 – 튜닝 가능 여부 온라인 학습 기능 특정 색인집합 Boosting 기능
세가지 분류모델 별 비교 – 학습 속도 KNN > NB >>>> SVM KNN 은 단순히 검색엔진에 문서를 적재하는 속도와 동일 NB 는 적재와 함께 확률계산에 시간이 좀더 소요 SVM 은 최적화 (Optimization) 에 엄청나게 시간이 많이 소요 대용량 학습문서 ( 기가바이트 단위 ) 에 대한 분류학습 시도가 없었음.
세가지 분류모델 별 비교 – 튜닝 NB > SVM = KNN NB 는 각 주요단어에 대한 확률값 ( 가중치 ) 조작이 용이함 SVM 과 KNN 은 이러한 튜닝 작업이 쉽지 않음 온라인 학습 기능은 세가지 모델 모두 구현 가능 그러나 SVM 의 온라인 학습기능은 현재 연구단계임
세가지 분류모델 별 비교 – 분류속도 NB > SVM >>>> KNN KNN 의 분류과정은 ( 검색 + 문서유사도측정 ) 임 NB 의 분류속도가 가장 빠름 SVM 은 기본적으로 이진분류모델이므로 다중분류속도가 느림
NAICE (KISTI 기사분류시스템 ) News Article Information Classification Environment 특정 분야에 국한되지 않은 범용 문서분류기
NAICE (KISTI 기사분류시스템 ) 특징 – 다양한 형태의 문서분류성능 최적화 기능 제공 자질추출기능 최적화 도구 제공 – 빠른 문서분류속도 ( 한글문서 1 건 (1Kbyte) 당 평균 0.02 초 ) –Naïve Bayesian (NB), K-Nearest Neighbor (KNN) 분류모델 동시 제공 – 다국어 문서분류기능 한글 한국어 형태소분석기 영어 Lemmatization ( 원형복원기 ), 품사태거
NAICE (KISTI 기사분류시스템 ) 분류 정확도 (4,571 건 ) 항목정확도 1 등만을 올바른 분류결과로 인정 (73.5%) 2 등까지 올바른 분류결과로 인정 (83.8%) 3 등까지 올바른 분류결과로 인정 (87.7%) 4 등까지 올바른 분류결과로 인정 (89.7%) 5 등까지 올바른 분류결과로 인정 (91.5%) 6 등까지 올바른 분류결과로 인정 (92.8%) 7 등까지 올바른 분류결과로 인정 (93.7%) 8 등까지 올바른 분류결과로 인정 (94.4%) 9 등까지 올바른 분류결과로 인정 (94.8%) 10 등까지 올바른 분류결과로 인정 (95.3%)
NAICE (KISTI 기사분류시스템 ) – 학습문서 조선일보 신문기사 규모 – 건수 : 225,997 건 – 분야 : 1,001 분야 –
성능향상을 위한 부가작업 기존 분류체계에 대한 정비 및 정제 작업이 필요 – 유사 분류체계 통합 및 광의 분류체계 세분화 작업 분류체계별 학습 집합의 정규화 – 현재 특정 분류체계 내에 존재하는 기사 건수가 지나치게 많거나 적음. 따라서 이들 차이를 최소화시키는 작업 필요 분야별 핵심키워드사전 구축 – 각 분야별 분류정확도를 세부적으로 측정하여 정확도가 지나치게 낮은 분야에 대한 성능튜닝 작업 수행 ( 예 : 특정 분류에서 매우 중 요하고 빈번하게 발생하는 핵심 키워드 사전 구축 및 이를 분류기 에 반영 )
결론 분류모델의 장단점이나 성능비교에 의한 문서분류엔진 선택은 문제의 소지가 있음 적용될 특정 도메인의 요구사항분석에 기반한 개발 및 도 입이 필수 NAICE – 영역독립적인 문서분류 프레임워크에 기반한 “ 실시간 ” 신문기사 자동 분류 시스템 – 유연성과 효율성을 극대화한 시스템 – 주변 응용도구개발이 필요 – 지속적인 학습문서 적용 필요 – 온라인 학습 기능 필요