Download presentation
Presentation is loading. Please wait.
1
문서 요약 (Text Summarization)
2001년 2학기 자연언어처리
2
개요 문서요약이란? 주어진 문서로부터 특정 사용자나 작업에 적합한 축약된 형태의 문서 생성
복잡도를 줄이면서 필요한 정보 유지/제공 2001년 2학기 자연언어처리
3
문서 요약의 예 (MS-Word) 25% 50% 2001년 2학기 자연언어처리
4
문서요약의 유형 (1/4) 추출요약/생성요약 추출요약 (extract) 생성요약 (abstract)
문서에 존재하는 단어나 구, 문장을 그대로 추출 보다 쉬운 접근 방법 요약문의 응집도나 가독성이 다소 부족 생성요약 (abstract) 문서의 내용을 압축하여 새로운 문서 작성 자연어 이해 및 생성 기술이 필수적 2001년 2학기 자연언어처리
5
문서요약의 유형 (2/4) 포괄적요약/질의기반요약 포괄적요약 (generic summary)
이용자에 상관없이 해당 문서 저자의 견해를 요약 제시 전통적인 방법 질의기반요약 (query-based summary) 특정 사용자의 관심사항에 중점을 두고 요약 문서 검색이나 개인화된 정보여과를 위한 환경에서 중요성 증대 2001년 2학기 자연언어처리
6
문서요약의 유형 (3/4) 지시적 요약/정보적 요약 지시적 요약 (indicative summary)
원문이 어떤 것인지만을 제시 문서의 적합성 여부 판단에 도움 정보적 요약 (informative summary) 문서의 중요내용을 모두 담고 있음 요약문만으로 사용에게 충분한 정보를 제시 2001년 2학기 자연언어처리
7
문서요약의 유형 (4/4) 단일문서요약/ 다중문서요약 단일문서 요약 다중문서 요약 문서 하나에 대한 요약 작업
여러 문서를 하나의 요약문에 표현 일련의 공통 이벤트에 대한 여러 문서로부터 요약문 생성 2001년 2학기 자연언어처리
8
문서요약 절차 (1/6) 주제 추출 해 석 생 성 extract template core concepts … abstract
해 석 abstract 생 성 2001년 2학기 자연언어처리
9
문서요약 절차 (2/6) : 주제추출 고려사항 단어의 빈도: 문서 내 빈도가 높은 단어를 포함하는 문장
제목: 문서의 제목이나 절의 제목에 사용된 단어 포함 문장 문장의 길이:길이가 짧은 문장은 요약문에 포함되지 않음 문장의 위치 제목, 머리말, 마지막 문장 기계학습에 의한 최적위치 정책 학습 실마리 단어나 구 특정 표지 역할을 하는 단어나 구 탐색 결론적으로(O), 요컨대(O), 예를 들면 (X) 응집도 의미구조상에서 연관도가 높은 문장이나 구 어휘 사슬, 질의 확장, 질의 분해 2001년 2학기 자연언어처리
10
문서요약 절차 (3/6) : 해 석 토픽 해석 or 개념 통합 작업 Extract or Abstract 유형
개념수준에서의 해석, 실세계 지식 필요 Extract or Abstract length(extract)/length(abstract) 2.76 [Marcu 1998] 유형 개념일반화 사과, 배, 바나나 과일 부분-전체 관계에 의한 대체 바퀴, 페달, 안장, 체인 자전거 스크립트 일체화 메뉴 보고 주문한 후 음식먹고 자리를 떴다 음식점에서 식사를 하였다. 환유어 미국 정부 대변인은 …라고 ~ 워싱턴은 …라고 ~ 2001년 2학기 자연언어처리
11
문서요약 절차 (4/6) : 해 석 템플릿 기반 연산 McKeown, 1997 Given two templates
If ( the location of the incident is the same and the time of the first report is before the time of the second and the report sources are different and at least one slot differs in value) Then combine the templates using a contradiction operator 2001년 2학기 자연언어처리
12
문서요약 절차 (5/6) : 해 석 WAVEFRONT Lin, 1995 개념 일반화(concept generalization)
WordNet 이용 빈도율에 의한 개념 선택 빈도율 임계치보다 작을 때까지 하향부로 진행 16 Calculator 16 Computer Cash register 2 14 PC Main Frame 3 6 5 IBM Mac Dell 2001년 2학기 자연언어처리
13
문서요약 절차 (6/6) : 생 성 생성 수준 별도 생성 없음 간단한 문장 출력 자연언어 생성 추출문이나 축어적 보고 생성
추출된 구나 절을 적절히 합쳐서 요약문 생성 자연언어 생성 생성할 문장의 내용, 길이, 순서, 단어들을 미리 계획, 이를 문법에 맞게 재구성하여 출력 2001년 2학기 자연언어처리
14
문서 요약에 대한 접근법 심리언어학적 접근법 계산학적 접근법 인간의 요약법으로부터 요약 전략 선정
상위개념, 상위동작 단어 사용, 주제 문장 선택, 표로 제시된 내용 선택 계산학적 접근법 하향식(top-down) 접근법 사용자의 요구에 맞는 내용 추출/요약 질의기반 방식에 해당 상향식(bottom-up) 접근법 해당 문서의 내용 파악 포괄적 방식에 해당 2001년 2학기 자연언어처리
15
문서요약 방법론 (1/2) 자연언어처리와 정보추출 기반 특성 구체적인 예 문서에 대한 이해 시도.
내부표현으로부터 요약을 산출하려 함 고품질 요약문 가능 속도나 확장가능성면에서 개선의 여지 구체적인 예 어휘 사슬 (lexical chain)을 이용 어휘들간의 관계 파악 문서의 주제 전개 파악 담화 구조 (discourse structure)기반 문서의 중심부(nucleus)와 주변부(satellite) 사이의 수사관계 이용 담화트리 구축 2001년 2학기 자연언어처리
16
문서요약 방법론 (2/2) 통계/정보검색 기반 특성 통계기반 정보검색 기반 어휘수준에서 동작하는 접근법
시스템 구축시 대규모 문서 데이터 요구 질의 주도 요약에 적합 요약문의 품질 저하, 개념수준에서의 정보조작 곤란 통계기반 특정 단어의 빈도, 제목, 문장의 길이, 문장의 위치, 실마리 단어나 구 등을 통계적 자질로 이용 주어진 자질에 기반하여 문장이나 문단의 중요도 판단 정보검색 기반 문장이나 문단의 선택/여과 질의 확장, 적합성 피드백, 질의분해, … 2001년 2학기 자연언어처리
17
문서요약 평가 (1/3) 기본적인 평가 척도 길이 측정 정보량 측정 압축율: CR = (length S)/(length T)
누락율 or 보존율: OR = (info in S)/(info in T) 길이 측정 문자 단위 or 단어 단위? 정보량 측정 Shannon game: 정보량을 수치화 Question game: 독자의 이해도 측정 Classification game: 전문과 요약문에 대한 분류 능력 측정 2001년 2학기 자연언어처리
18
문서요약 평가 (2/3) 압축율과 누락율의 관계 2001년 2학기 자연언어처리
19
문서요약 평가 (3/3) SUMMAC, 1998 Categorization task Ad-Hoc task Q&A task
원문으로부터 포괄적 요약 생성 요약문에 기반한 분류 vs. 원문에 기반한 분류 Precision, recall, F-measure 시스템별로 큰 차이는 없음 Ad-Hoc task Query-sensitive 원문으로부터 질의기반 요약 생성 요약문에 기반하여 문서의 적합성 판단 시스템의 성능은 3등급으로 구분됨 ( F-점수: 60% ~ 73%) Q&A task 요약문에 기반하여 주어진 질문에 대답 25% ~ 45% 2001년 2학기 자연언어처리
Similar presentations