다음소프트 뉴스 사건추출 소개 2015-05-01 다음소프트 Mining Search, Daumsoft Inc.
Index 01 02 03 04 뉴스 분석 개요 뉴스 사건추출 시스템 뉴스 사건추출 지식 뉴스 사건추출 실행 예
01 뉴스 분석 개요
뉴스분석 기본기능 실시간 처리 검색 분류 분석 최신 뉴스의 실시간 수집 및 색인 뉴스에 대한 키워드 검색 뉴스 카테고리별 분류 신문사별 분류 분석 날짜별 키워드 포함 뉴스 빈도 뉴스별 댓글, RT 빈도
뉴스분석 서비스 예 카드사 방송사 http://kbsma.some.co.kr 주요 기능 핫이슈 – 현재 SNS 상에서의 분야별 이슈 (매 10분) 핫뉴스 현재 신문사별 SNS에서 많이 회자되는 뉴스 키워드에 의한 뉴스 검색 (이슈 우선 랭킹) -로 모양 변경 하이퍼링크 들여쓰기 모양 방송사 http://mbc.some.co.kr 주요 기능 방송사별 RT가 많은 SNS 뉴스, 댓글 많은 포털 뉴스 방송사별 일별, 시간별 댓글 추이
뉴스분석 – 사건추출 뉴스 사건 사건과 관련 개체명으로 구성 이를 바탕으로 사건의 분류, 사건의 핵심, 사건과 관련된 개체명, 사건 중심의 요약 가능 사건 추출의 응용 사건기반 뉴스 검색, 뉴스의 추적, 뉴스 통계 금품강절도 뉴스 검색 정치적 사건의 타임라인 각 사건사고의 통계 등
뉴스분석 – 사건추출 Deep level 언어처리 기술 뉴스 기사는 자연언어이므로 다양한 표현으로 기술됨 금품을 빼앗다, 현금을 빼앗다 -> 금품강절도 남성을 살해하다, 남성을 숨지게하다, 남성을 죽이다 -> 살인 개체명에 대한 중의성 발생 수지 – 인물(연예인), 장소(경기도), 일반명사 권오준 – 인물(시사), 인물(스포츠) Deep-level NLP 기술 필요 중의성 해소 기술 구문분석 기반의 키팩트 추출 기술 필요
02 뉴스 사건추출 시스템
뉴스 사건추출 시스템 개요 사건추출 시스템 추출 대상 추출된 핵심 사건 및 연관 개체명을 이용한 뉴스 태깅 수행 텍스트마이닝 기술을 기반으로 뉴스에 포함된 사건 및 관련된 주요 개체명 등을 추출하는 시스템 추출 대상 주요 사건 - 뉴스 기사의 사건, 사실 가운데 중심이 되는 사건 정보 개체명 - 뉴스 기사 내의 인물, 장소, 조직 등 개체명 정보 사건 분류 - 뉴스 기사의 사건에 대한 주제 분류 정보 주요 태그 – 주요 사건을 정규화한 태그 정보 추출된 핵심 사건 및 연관 개체명을 이용한 뉴스 태깅 수행
뉴스 사건추출 시스템 구성도 텍스트마이닝 사건 추출/태깅 사건추출 기본언어처리 사건추출 결과 뉴스기사 사건태깅 심화언어처리 문단 분리 문장 분리 형태소 분석 품사 태깅 사건/사실 추출 개체명 관계 추출 사건태깅 심화언어처리 중심사건 인식 사건분류 인식 사건/사실 정제 사건 태깅 및 요약 숙어 처리 패러프레이징 구문단위화 구문 분석 사건 분류지식 언어처리사전 개체명사전 온톨로지 텍스트마이닝 개체명 인식 개체명 중의성 해소 용어 추출 사실/관계 추출
기본 언어처리 모듈 설명 문장분리 기본적으로 문장부호(중복된 문장부호 포함)에서 문장분리 수행 문장부호가 생략된 문장의 경우 종결어미를 이용하여 문장분리 수행 예) 경남 창원서부경찰서는 22일 10대 남성을 가두고 살해한 혐의로 이모씨와 조모군에 대해 구속영장을 신청했다. 형태소 분석 규칙 및 통계기반 띄어쓰기 오류 교정 형태소분석 결과는 중의성을 포함 경남(고.명) 창원(고.명)+서부(일.명)+경찰서(일.명)+는(보조사) 22(수사)+일(단위.명) 10(수사) +대(단위.명) 남성(일.명)+을(목.조) 가두(동) +고(대.어) | 가두(명)+이(지)+고(대.어) 살해하(동)+ㄴ(관.어) 혐의(일.명)+로(부.조) 이모(일.명)+씨(접)+와(접.조) 조모(일.명)+군(접)+에(부.조) 대하(동)+어(종.어) | 대해(일.명) 구속(일.명)+영장(일.명)+을(목.조) 신청하(동)+었(선.어)+다(종.어)+.(종.문) 품사태깅 형태소 분석된 각 형태소에 최적의 품사 부착 남성(일.명)+을(목.조) 가두(동) +고(대.어) 조모(일.명)+군(접)+에(부.조) 대하(동)+어(종.어)
심화 언어처리 모듈 설명 숙어처리 숙어 표현 인식 (편의상 품사 생략) 예) 경남 창원+서부+경찰서+는 22+일 10+대 남성+을 가두+고 살해하+ㄴ 혐의+로 이모+씨+와 조모+군+에대해(부.조) 구속+영장+을 신청하+었+다+. 패러프레이징 같은 의미를 가진 표현의 정규화 버리고 싶다, 버리고 싶은 적이 한두 번이 아니다 버리고 싶다 청킹 명사구 단위화 [경남] [창원]+[서부+경찰서]+는 [22+일] [10+대] [남성]+을 가두+고 살해하+ㄴ [혐의]+로 [이모]+씨+와 [조모]+[군]+에대해 [구속+영장]+을 신청하+었+다+. 구문분석 주어, 목적어, 동사 등 구문 관계 파악 [ [경남] [창원]+[서부+경찰서]+는 ]SUBJ [ [22+일] [10+대] [남성]+을 ]OBJ [ 가두+고 ]VERB [ 살해하+ㄴ ]VERB [ [혐의]+로 [이모]+씨+와 ] [ [조모]+[군]+에대해 ]AD [ [구속+영장]+을 ]OBJ [ 신청하+었+다+. ]VERB
텍스트마이닝 모듈 설명 개체명 인식 인물명, 장소명, 기관명, 조직명, 브랜드명 등의 고유명사 인식 예) EXO, 진도, 고성군, 미국, 청와대, 샤넬 등 개체명 중의성 해소 개체명 또는 일반 명사 중의성 해소 개체명 분류 중의성 해소 개체명 또는 일반 명사 중의성 - 길: 인물(리쌍 길성준), 일반명사(road) - 수지: 인물(미쓰에이 수지), 장소(경기도 수지), 일반명사 개체명 분류 중의성 - 고성군: 강원도 고성군, 경상남도 고성군 구문 관계 추출 구문분석 결과를 이용하여 용언을 중심으로 하는 구문 관계 정보를 추출 법률 위반죄로 줄줄이 징역형을 선고받았다. - 법률위반죄 선고받다 - 위반죄 선고받다 - 줄줄이 선고받다 - 징역형 선고받다
사건추출 모듈 설명 개체명 관계추출 개체명에 대한 상세정보가 사전에 존재하거나 문맥에 나타난 경우 인식 - 장소(행정구역), 인물 등에 대해 처리 예) 행정구역(사전 기반) - 경남 : 경상남도 - 창원 : 경상남도 창원시 조직 - 창원서부경찰서 인물(문맥 기반) - 박희태 전 국회의장 : 박희태 - 전, 국회의장 사건/사실 추출 구문관계와 의미표지를 바탕으로 사건/사실 정보 추출 - 조건문은 사실이 아니므로 제외 - 부정문 처리 - 복합명사구는 머리어 정보도 함께 서술어와 결합하여 추출 법률 위반죄로 줄줄이 징역형을 선고받았다 - 법률위반죄 선고받다 - 위반죄 선고받다 - 징역형 선고받다
사건태깅 모듈 설명 사건/사실 정제 뉴스기사의 중심 내용은 주로 뉴스 기사의 앞쪽에 존재 - 뉴스 기사 후반부에 나타난 사건/사실 제거, 개체명은 유지 뉴스기사에 많이 나타나는 불용적 표현 제거 포함관계에 있는 사건/사실의 경우 가장 긴 것만 유지 예) 전체 탑승객 수 바꾸다, 탑승객 수 바꾸다 전체 탑승객 수 바꾸다 중심사건 및 사건분류 인식 추출된 사건/사실 가운데 중심이 되는 내용을 인식 중심사건을 이용하여 사건 분류정보를 인식 10대 남성 가두다 - 중심 사건: 감금 - 분류: 사건일반>유괴/납치/실종 10대 남성 살해 - 중심사건: 살인 - 분류: 사건일반>살인 뉴스 태깅 중심사건을 기반으로 사건과 개체명 연결 감금 { 사건:[10대 남성 가두다], 개체명:[경상남도, 창원서부경찰서 ] } 살인 { 사건:[10대 남성 살해], 개체명:[경상남도, 창원서부경찰서 ] }
03 뉴스 사건추출 지식
사건사고 분류체계 사건사고 분류체계 사건사고 분류체계 구축 사건사고 관련 뉴스들을 분류하기 위한 정보 연합뉴스 분류 중 사건사고 분류를 기반으로 2 level로 구성 사건사고 분류체계 구축 구체적인 정보제공을 위해 연합뉴스 분류체계를 세분화 - 육상사고 교통사고, 철도사고 기존 연합뉴스 중,소분류 level을 대, 중분류로 상향 - 정보 접근성 향상 기사가 적거나 타 분류체계에 중복될 수 있는 분류체계 수정 - 교육사건비리(126건) [사건 > 비리] 카테고리로 이동
사건사고 분류체계 구축 사건사고 분류체계 구축 연합뉴스 사건사고 사건사고 분류체계 중분류 → 대분류 이동 대분류(1) 대분류(6) 카테고리의 세부화 중분류(7) 중분류(43) 분류체계 삭제 or 병합 소분류(31) 태그(439)
사건추출 분류체계 현황 대분류 중분류 대분류 중분류 경제사건사고 도박 밀수 사기 횡령 정치사건사고 군관련 데모/시위 선거 안보 전쟁/테러 정부기관 사건 강절도 마약 비리 살인 성범죄 유괴/납치/실종 자살 첨단범죄 총기관련 침입 폭행 학대/착취 협박 대분류 중분류 사고 가스사고 교통사고 정전 조난안전사고 철도사고 폭발 항공사고 해상사고 화재 재해 가뭄 산사태 자연재해일반 전염병 지진 폭설 폭염 풍수해 한파 화산 사건사고일반
사건추출 지식 사건추출 지식 사건추출 지식 구성 뉴스기사 내의 사건/사실로부터 중심사건 및 사건분류 인식을 위한 지식 뉴스기사 내의 개체명을 인식하기 위한 지식 사건추출 지식 구성 사건사고 분류체계 - 대분류, 중분류의 2 level 구성 사건/사실 정제 - 주요 사건/사실에 대한 인식 및 불필요한 사건/사실 제거 주요 태그 부여 - 주요 사건/사실에 대해 정규화된 태그 정보 부여 개체명 인식 및 중의성 해소 - 문맥을 중심으로 개체명의 중의성을 해소
사건추출 지식 구축 개체명 중의성 해소 Base 사전 튜닝 태그(주제) 정보 부여 주요 사건/사실 정제 인식된 개체명에 중의성이 존재하는 경우 문맥에 기반한 중의성 해소 지식 구축 Base 사전 튜닝 오분석으로 인한 잘못된 사건/사실, 개체명 추출 방지 태그(주제) 정보 부여 주요 사건/사실을 대상으로 정규화된 태그(주제) 정보 부여 주요 사건/사실 정제 주요 내용을 담고 있는 주요 사건/사실 추출 의미 없는 사건/사실 삭제
사건/사실 정제 사건/사실 정제 사건/사실 정제 방법 사건/사실 정제를 통해 사건추출 정확도 향상 사건 분류 정보가 추출되지 않을 경우, 사건/사실 정제 작업 수행 추출된 사건/사실 중 주요 사건을 나타내는 표현을 대상으로 사전화 사건/사실 정제 방법 명사형과 동사형의 모든 패턴에 대해 주요 사건/사실 선정 예) 명사형 : 성폭력 혐의 동사형 : 성폭력 혐의 받다 무의미한 사건/사실은 삭제 대상으로 분류하여 분석에서 제외 사건/사실 정제를 통해 사건추출 정확도 향상
사건/사실 정제 예 사건/사실 정제 주요 사건/사실 주요 사건/사실 선정 삭제 불 나다 주요 사건/사실 선정 불 타다 화재 원인 조사하다 사건사고 분류 맵핑 주요 사건/사실 선정 사고 > 화재
태그 정보 구축 태그 정보 구축 다양한 표현으로 추출된 주요 사건/사실을 정규화 유사한 사건사고에 대한 공통된 태그(뉴스 주제)를 부여 태그 정보 작성 ※ 태그 정보 추출 예시 태그 정보 중분류 항공사고에 맵핑된 사건/사실에 ‘항공기 추락 사고’ 태그를 추가함으로써 사건/사실 정규화 (주제 부여) 사고 > 항공사고 항공기 추락 사고 군수송기 추락하다 소형여객기 추락 여객기 추락하다 훈련기 추락하다 소형기 추락 항공편 추락하다 여객기 추락 속성 분석 태그 정보 중분류 횡령에 맵핑된 사건/사실에 ‘공사비 횡령’ 태그를 추가함으로써 사건/사실 정규화 (주제 부여) 경제사건사고 > 횡령 공사대금 부풀리다 공사대금 가로채다 공사비 부풀리다 공사비 빼돌리다 공사비 횡령
태그 정보 구축 예시 대분류 중분류 태그 정보 사건 유괴/납치/실종 가출 감금 납치 실종 유괴 인신매매 인질 수색 피랍 첨단범죄 개인정보 유출 기술 유출 다중 계정 조작 도청 명의 도용 보이스피싱 불법 동영상 유포 사이버 공격 소액결제 사기 스미싱 스패밍 악성 코드 전산 장애 통신법 위반 해킹 허위사실 유포 대분류 중분류 태그 정보 사건 학대/착취 노동 착취 아동 학대 인권 침해 학대 가혹 행위 장애인 학대 상습 학대 협박 위협 자살 교사 분신 자살 음독 자살 자해 투신 자살 총기관련 총격 총기 난사 총기 도난 총기 분실 총기 사고 침입 불법 침입 주거 침입 대분류 중분류 태그 정보 사건 폭행 가정 폭력 경찰관 폭행 공무원 폭행 교사 폭행 구급대원 폭행 구타 기사 폭행 난동 난투 노인 폭행 동거녀 폭행 동료 폭행 보복 폭행 상습 폭행 폭행 상해 소방대원 폭행 손님 폭행 아동 폭력 연인 폭행 장애인 폭행 종업원 폭행 주인 폭행 지인 폭행 직원 폭행 집단 폭행 채무자 폭행 폭행 시비 폭행 치사 학교 폭력 흉기 폭행
사건사고 분류지식 사전구축 분류지식 사전 구축 주요 사건/사실에 대해 대/중분류 정보 및 태그 정보를 리스트로 작성 무의미한 사건/사실 제거를 위해 형태와 형태소 정보를 삭제목록 리스트로 작성 사건 분류 지식 사전 분류 지식 사전 사건/사실 삭제 목록
개체명 중의성 해소 사전구축 개체명 중의성 해소 사전 구축 개체명 중의성 해소가 필요한 개체명 리스트를 작성 개체명과 개체명 유형 작성 해당 개체명과 함께 출현하는 키워드 N개 작성 개체명 중의성 해소 사전 예) ‘빅뱅’이라는 개체명이 지드래곤, 탑 등의 키워드와 함께 출현할 경우에만 개체명 ‘빅뱅(PS.EN)’으로 추출
개체명 분류 체계 대분류 대분류설명 중분류 중분류설명 예 PS 인물 (Person) PS.EN 연예인 EXO, 유재석 등 PS.PO 시사 박근혜, 이외수, 진중권 등 PS.SP 스포츠인 류현진, 리오넬메시 등 PS.OT 일반 LC 장소 (Location) LC.AR 시설 캠프장, 휴양지, 약수터, 수련원, 체육공원, 노인정, 경로당 등 인공물 장소 LC.CI 도시 런던, 뉴욕 등. 현재 옛날 도시도 포함되어 있음 LC.CO 국가/대륙 미국, 영국, 프랑스 등. 현재 고대국가도 다수 포함되어 있음 아시아, 북아메리카 등. 현재 남유럽, 로라시아, 무대륙 등 기본 대륙 이외의 대륙도 다수 포함 LC.DS 행정구역 국내 행정구역 단위는 모두 포함되어 있음, 외국 현, 성 등도 포함 LC.NA 자연 구봉산, 구아디아니강, 광주산맥, 거문도, 감비르제도 등 국내, 세계의 산, 강, 봉, 산맥, 섬 등의 자연물, 제주도는 국내의 행정구역으로 정의됨 LC.OG 조직 장소이면서 조직적 성격으로 많이 쓰이는 항목, 백화점, 법원, 병원 등 LC.OT 최영장군묘 등 OG 조직 (Organization) OG.CO 기업 일반 기업 OG.FA 음식점 등 조직적 성격이 강한 시설 OG.LC 장소 조직이면서 장소적 성격으로 많이 쓰이는 항목. 학교 등 OG.PO 공공 시청, 대사관, 위원회 등 OG.OT 타임스토리 등 AF 인공물 (Artifact) - 인공물은 세분화 없이 인공구조물, 인공건축물 등이 포함됨 BR 브랜드 (Brand) 자동차, 휴대폰, 컴퓨터, 화장품 등 모든 제품 브랜드가 여기 포함됨 SP 이벤트 올림픽, 제전 등
Base 사전 튜닝 형태소 분석 사전 튜닝 형태소 오분석으로 잘못된 사건/사실이 추출된 경우, 사전 튜닝 신조어나 복합명사의 분석이 잘못된 경우, 사전 튜닝 등록되지 않은 개체명(지역명, 인물명 등)의 경우, 개체명 사전에 추가 지식관리자 검토를 거쳐 최종 반영여부를 결정 형태소 분석 튜닝 사건/사실 추출 결과 형태소 오분석 올바른 형태소 분석 형태로 수정 혹하다 혹한 피해 잘못된 명사 분해 결과 혹한피해 - 혹하/VBMA+ㄴ/ENTR1+피해/NNIN2 혹한+피해 고유명사가 일반명사로 분석된 경우 부르고스 - 부르/VBMA+고/ENCO1+스/NNIN2 → 개체명 사전에 등록하여 지명으로 인식 부르고스 부르다 부르고스 개체명(고유명사) 사전 추가
Base 사전 튜닝 개체명 사전 추가/삭제/분류변경 추가/삭제/분류변경을 원하는 개체명과 분류를 리스트로 작성 - 개체명 삭제 시, 삭제 이유 또는 근거가 되는 원문을 작성 개체명 사전 추가/ 분류변경 리스트 개체명 사전 삭제 리스트
04 뉴스 사건추출 실행 예
뉴스 사건추출 실행 예 뉴스 선택 – 뉴스 제목/본문 입력
뉴스 사건추출 실행 예 언어처리 결과 # start # id AKR20140101002400055 # title ; 0,0 김제서 KTX 열차에 치인 주민 중태 0 o 김제서 김제/NNIN1+서/PPAD 1 o KTX ktx/FW 2 o 열차에 열차/NNIN2+에/PPAD 3 o 치인 치인/NNIN2 4 o 주민 주민/NNIN2 5 o 중태 중태/NNIN2 # body ; 0,1 지난해 12월31일 오후 8시28분께 전북 김제시 순동에서 박모(61)씨가 서울로 향하던 KTX 열차에 치였다. 0 o 지난해 지난해/NNIN2 1 o 12월31일 12/NU+월/NNDE2+31/NU+일/NNDE2 2 o 오후 오후/NNIN2 3 o 8시28분께 8/NU+시/NNDE2+28/NU+분/NNDE2+께/SF 4 o 전북 전북/NNIN2 5 o 김제시 김제시/NNIN2 6 o 순동에서 순동/NNIN1+에서/PPAD 7 o 박모(61)씨가 박모/NNIN2+(/LQ+61/NU+)/RQ+씨/NNIN2+가/PPCA1 8 o 서울로 서울/NNIN1+로/PPAD 9 o 향하던 향하/VBMA+던/ENTR1 10 o KTX ktx/FW 11 o 열차에 열차/NNIN2+에/PPAD 12 o 치였다. 치이/VBMA+었/PE+다/ENTE+./SC ...
시작어절#, 시작형태소#, 마지막어절#, 마지막형태소# 뉴스 사건추출 실행 예 텍스트마이닝 결과 <LEntity List> 1 0 0 0 0 0 0 김제 [장소 > 행정구역] 전라북도,김제시 4 0 0 0 0 0 0 김제 [장소 > 행정구역] 전라북도,김제시 4 0 1 4 0 4 0 전북 [장소 > 행정구역] 전라북도 4 0 1 5 0 5 0 김제시 [장소 > 행정구역] 전라북도,김제시 4 0 1 8 0 8 0 서울 [장소 > 행정구역] 서울특별시 </LEntity List> <KFENT List> 4 0 1 5 0 9 1 김제시 순동 향하다 4 0 1 8 0 9 1 서울 향하다 4 0 1 10 0 12 2 ktx 열차 치이다 4 0 2 1 0 3 1 인근 병원 후송되다 4 0 2 4 0 5 2 치료 받다 4 0 2 7 0 8 0 상태 위독하다 4 0 3 2 0 3 1 철로변 있다 4 0 3 10 0 12 2 정확한경위 조사하다 4 0 3 11 0 12 2 경위 조사하다 </KFENT List> 1: 제목 2: 태그 4: 본문 문단번호 문장번호 시작어절#, 시작형태소#, 마지막어절#, 마지막형태소# 개체명 정보 사건/사실 정보
뉴스 사건추출 실행 예 사건추출 결과 <ARTICLE ID> AKR20140101002400055 <EVENT CATEGORY> 사고 > 철도사고 </EVENT CATEGORY> <MAIN KFACT> 4 0 1 10 0 12 2 ktx 열차 치이다 4 0 3 10 0 12 2 정확한 경위 조사 </MAIN KFACT> <MAIN TAG> 열차 사고 ktx 열차 치이다 전라북도,김제시,서울특별시 </MAIN TAG> <LEntity List> 1 0 0 0 0 0 0 김제 [장소 > 행정구역] 전라북도,김제시 4 0 1 4 0 4 0 전북 [장소 > 행정구역] 전라북도 4 0 1 8 0 8 0 서울 [장소 > 행정구역] 서울특별시 </LEntity List> <KFENT List> 4 0 1 5 0 9 1 김제시 순동 향하다 4 0 1 8 0 9 1 서울 향하다 4 0 1 10 0 12 2 ktx 열차 치이다 4 0 2 1 0 3 1 인근 병원 후송 4 0 2 4 0 5 2 치료 받다 4 0 2 7 0 8 0 상태 위독 4 0 3 2 0 3 1 철로변 있다 4 0 3 10 0 12 2 정확한 경위 조사 </KFENT List> 개체명 정보 (개체명, 개체분류, 상세정보) 사건 분류 중심사건 사건/사실 태그정보 (태그명, 관련사건, 관련개체명)
뉴스 사건추출 실행 예 사건추출 결과 가시화 주요 태그가 추출된 문장 주요 사건 (하이라이트) 인식된 개체명 사건 분류, 개체명, 주요태그, 주요 사건, 사건/사실 표시 주요 태그가 추출된 문장 주요 사건 (하이라이트) 인식된 개체명 (밑줄+굵은 글씨)
뉴스 사건추출 실행 예 사건추출 결과 가시화 인식된 개체명 가운데 장소-행정구역은 확장된 장소명 제공
인물 개체명의 경우, 뉴스 기사에 나타난 직위 설명도 동시에 제공 뉴스 사건추출 실행 예 사건추출 결과 가시화 주요 사건 인식이 안 될 경우, 사건 분류, 주요 태그도 인식되지 않음 인물 개체명의 경우, 뉴스 기사에 나타난 직위 설명도 동시에 제공
뉴스 사건추출 실행 예 사건추출 결과 가시화 지식 작업을 통해 세월호와 같은 인공물(고유명사)도 개체명 인식 가능
뉴스 사건추출 실행 예 사건추출 결과 가시화 주요 태그가 추출된 문장 인식된 개체명 가운데 장소-행정구역은 확장된 장소명 제공
감사합니다