문서 요약 (Text Summarization)

Slides:



Advertisements
Similar presentations
신진영 현지 조사 방법 및 보고서 작성법 제 7 강 - 자료 수집과 설문지 작성 -
Advertisements

Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Cinema Manager System 최종 발표 조 team05 발표자 : 임 창목 1.
SNS ! 건대 ▶ 오리 정보 제공 : 해당 지역에서 이슈화 되고 있는 서비스, 제품의 기업에게 정보 제공.
해외전자정보서비스이용교육 EBSCO eBook (NetLibrary)
KPC 자격 강원지역센터 사업계획서 OO. OO. 제안사 명칭.
컴퓨터와 인터넷.
목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.
의사 결정 트리(decision tree)
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
1. 컴파일러 개론 1-1. Compiler 정의 1-2. Language Processing System
Entity Relationship Diagram
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
연결리스트(linked list).
II. 전략기획 템플릿 (17) 과제 정의서 과제 정의서 과제명(No.) 전략 과제 명 과제성격 강화 보완 신규 과제 목표
Hybrid INDIGO project 중간보고
MySQL 및 Workbench 설치 데이터 베이스.
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사.
Management Support Mi-Jung Choi, Jae-Hyun Ham DP&NM Lab.
Heesang kim PL/SQL 3 Heesang kim.
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
D / K / I / T / E / C / H / N / O / L / O / G / Y
CAS (Computer Algebra System) 소개
(Extensible Markup Language)
분석 기획 발굴 워크북 (템플릿)
제 1장. 멀티미디어 시스템 개요.
제4장 제어 시스템의 성능.
From Block To C SW 코딩을 위한 5단계 교육
DMAIC Template (제조).
(인터페이스 상세 이용 방법 및 다운로드 (대출모드) 안내)
NDE는 NCS사의 새로운 병렬처리과정시스템입니다. LINUX PC-CLUSTER상에서 운영됩니다.
암 전이 억제 유전자 발굴 및 작동 기전 연구 (Nature지 4월 14일자 발표)
‘2012년 정보화 사업 교육 버그추적시스템(BTS) 사용 절차 2012, 02.
Technology Strategy : An Evolutionary Process Perspective
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
PHP 개요 및 설치 Yang-Sae Moon Department of Computer Science
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
프로그래밍 언어론 - 소개 순천향대학교 컴퓨터공학과 하 상 호.
웹디자인
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
판매 교육 발표자: [이름].
텍스트 분석 기초.
CAS (Computer Algebra System) 소개
경영정보시스템(MIS) management information system.
정보검색 시스템의 성능 평가 정보 검색 시스템 색인어 추출 시스템 문서 범주화 시스템 문서 요약 시스템 질의응답 시스템.
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
문서 클러스터링 일본언어문화학과 서동진.
Word2Vec.
1. 비정형 데이터마이닝의 이해.
7장. 다양한 형태의 반복문. 7장. 다양한 형태의 반복문 7-1 반복문이란? 반복문의 기능 세 가지 형태의 반복문 특정 영역을 특정 조건이 만족하는 동안에 반복 실행하기 위한 문장 7-1 반복문이란? 반복문의 기능 특정 영역을 특정 조건이 만족하는 동안에 반복.
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
강의 도입부 진행 요령 1.주의집중 2.동기부여 3.학습개요.
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
9 브라우저 객체 모델.
TPM 추진 목표설정 * 구체적인 목표는 지도 개시후 간부 워크샵을 통해 확정함
텍스트 분석 ㈜ 퀀트랩.
BioMed Central EBSCO KOREA T: (ext.230)
고등학교 독서와 문법 2. 독서의 원리 대단원 정리.
자연언어 처리 인지과학 입문.
 6장. SQL 쿼리.
버스와 메모리 전송 버스 시스템 레지스터와 레지스터들 사이의 정보 전송을 위한 경로
Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.
6 객체.
1. 실습 시간에 수행한 avd 생성 및 실행, adb shell 접속 및 명령어 수행 결과를 제출한다.
졸업프로젝트.
LSA를 이용한 시소러스 자동 구축 인지과학 협동과정 신 동 호.
생산성 증대 효율성 향상 측정 수행 능력.
Presentation transcript:

문서 요약 (Text Summarization) 2001년 2학기 자연언어처리

개요 문서요약이란? 주어진 문서로부터 특정 사용자나 작업에 적합한 축약된 형태의 문서 생성 복잡도를 줄이면서 필요한 정보 유지/제공 2001년 2학기 자연언어처리

문서 요약의 예 (MS-Word) 25% 50% 2001년 2학기 자연언어처리

문서요약의 유형 (1/4) 추출요약/생성요약 추출요약 (extract) 생성요약 (abstract) 문서에 존재하는 단어나 구, 문장을 그대로 추출 보다 쉬운 접근 방법 요약문의 응집도나 가독성이 다소 부족 생성요약 (abstract) 문서의 내용을 압축하여 새로운 문서 작성 자연어 이해 및 생성 기술이 필수적 2001년 2학기 자연언어처리

문서요약의 유형 (2/4) 포괄적요약/질의기반요약 포괄적요약 (generic summary) 이용자에 상관없이 해당 문서 저자의 견해를 요약 제시 전통적인 방법 질의기반요약 (query-based summary) 특정 사용자의 관심사항에 중점을 두고 요약 문서 검색이나 개인화된 정보여과를 위한 환경에서 중요성 증대 2001년 2학기 자연언어처리

문서요약의 유형 (3/4) 지시적 요약/정보적 요약 지시적 요약 (indicative summary) 원문이 어떤 것인지만을 제시 문서의 적합성 여부 판단에 도움 정보적 요약 (informative summary) 문서의 중요내용을 모두 담고 있음 요약문만으로 사용에게 충분한 정보를 제시 2001년 2학기 자연언어처리

문서요약의 유형 (4/4) 단일문서요약/ 다중문서요약 단일문서 요약 다중문서 요약 문서 하나에 대한 요약 작업 여러 문서를 하나의 요약문에 표현 일련의 공통 이벤트에 대한 여러 문서로부터 요약문 생성 2001년 2학기 자연언어처리

문서요약 절차 (1/6) 주제 추출 해 석 생 성 extract template core concepts … abstract 해 석 abstract 생 성 2001년 2학기 자연언어처리

문서요약 절차 (2/6) : 주제추출 고려사항 단어의 빈도: 문서 내 빈도가 높은 단어를 포함하는 문장 제목: 문서의 제목이나 절의 제목에 사용된 단어 포함 문장 문장의 길이:길이가 짧은 문장은 요약문에 포함되지 않음 문장의 위치 제목, 머리말, 마지막 문장 기계학습에 의한 최적위치 정책 학습 실마리 단어나 구 특정 표지 역할을 하는 단어나 구 탐색 결론적으로(O), 요컨대(O), 예를 들면 (X) 응집도 의미구조상에서 연관도가 높은 문장이나 구 어휘 사슬, 질의 확장, 질의 분해 2001년 2학기 자연언어처리

문서요약 절차 (3/6) : 해 석 토픽 해석 or 개념 통합 작업 Extract or Abstract 유형 개념수준에서의 해석, 실세계 지식 필요 Extract or Abstract length(extract)/length(abstract)  2.76 [Marcu 1998] 유형 개념일반화 사과, 배, 바나나  과일 부분-전체 관계에 의한 대체 바퀴, 페달, 안장, 체인  자전거 스크립트 일체화 메뉴 보고 주문한 후 음식먹고 자리를 떴다  음식점에서 식사를 하였다. 환유어 미국 정부 대변인은 …라고 ~  워싱턴은 …라고 ~ 2001년 2학기 자연언어처리

문서요약 절차 (4/6) : 해 석 템플릿 기반 연산 McKeown, 1997 Given two templates If ( the location of the incident is the same and the time of the first report is before the time of the second and the report sources are different and at least one slot differs in value) Then combine the templates using a contradiction operator 2001년 2학기 자연언어처리

문서요약 절차 (5/6) : 해 석 WAVEFRONT Lin, 1995 개념 일반화(concept generalization) WordNet 이용 빈도율에 의한 개념 선택 빈도율 임계치보다 작을 때까지 하향부로 진행 16 Calculator 16 Computer Cash register 2 14 PC Main Frame 3 6 5 IBM Mac Dell 2001년 2학기 자연언어처리

문서요약 절차 (6/6) : 생 성 생성 수준 별도 생성 없음 간단한 문장 출력 자연언어 생성 추출문이나 축어적 보고 생성 추출된 구나 절을 적절히 합쳐서 요약문 생성 자연언어 생성 생성할 문장의 내용, 길이, 순서, 단어들을 미리 계획, 이를 문법에 맞게 재구성하여 출력 2001년 2학기 자연언어처리

문서 요약에 대한 접근법 심리언어학적 접근법 계산학적 접근법 인간의 요약법으로부터 요약 전략 선정 상위개념, 상위동작 단어 사용, 주제 문장 선택, 표로 제시된 내용 선택 계산학적 접근법 하향식(top-down) 접근법 사용자의 요구에 맞는 내용 추출/요약 질의기반 방식에 해당 상향식(bottom-up) 접근법 해당 문서의 내용 파악 포괄적 방식에 해당 2001년 2학기 자연언어처리

문서요약 방법론 (1/2) 자연언어처리와 정보추출 기반 특성 구체적인 예 문서에 대한 이해 시도. 내부표현으로부터 요약을 산출하려 함 고품질 요약문 가능 속도나 확장가능성면에서 개선의 여지 구체적인 예 어휘 사슬 (lexical chain)을 이용 어휘들간의 관계 파악  문서의 주제 전개 파악 담화 구조 (discourse structure)기반 문서의 중심부(nucleus)와 주변부(satellite) 사이의 수사관계 이용  담화트리 구축 2001년 2학기 자연언어처리

문서요약 방법론 (2/2) 통계/정보검색 기반 특성 통계기반 정보검색 기반 어휘수준에서 동작하는 접근법 시스템 구축시 대규모 문서 데이터 요구 질의 주도 요약에 적합 요약문의 품질 저하, 개념수준에서의 정보조작 곤란 통계기반 특정 단어의 빈도, 제목, 문장의 길이, 문장의 위치, 실마리 단어나 구 등을 통계적 자질로 이용 주어진 자질에 기반하여 문장이나 문단의 중요도 판단 정보검색 기반 문장이나 문단의 선택/여과 질의 확장, 적합성 피드백, 질의분해, … 2001년 2학기 자연언어처리

문서요약 평가 (1/3) 기본적인 평가 척도 길이 측정 정보량 측정 압축율: CR = (length S)/(length T) 누락율 or 보존율: OR = (info in S)/(info in T) 길이 측정 문자 단위 or 단어 단위? 정보량 측정 Shannon game: 정보량을 수치화 Question game: 독자의 이해도 측정 Classification game: 전문과 요약문에 대한 분류 능력 측정 2001년 2학기 자연언어처리

문서요약 평가 (2/3) 압축율과 누락율의 관계 2001년 2학기 자연언어처리

문서요약 평가 (3/3) SUMMAC, 1998 Categorization task Ad-Hoc task Q&A task 원문으로부터 포괄적 요약 생성 요약문에 기반한 분류 vs. 원문에 기반한 분류 Precision, recall, F-measure 시스템별로 큰 차이는 없음 Ad-Hoc task Query-sensitive 원문으로부터 질의기반 요약 생성 요약문에 기반하여 문서의 적합성 판단 시스템의 성능은 3등급으로 구분됨 ( F-점수: 60% ~ 73%) Q&A task 요약문에 기반하여 주어진 질문에 대답 25% ~ 45% 2001년 2학기 자연언어처리