역사적 기록문서에서 색인어 추출 기법과 구현 :조선왕조실록

Slides:

Advertisements

Similar presentations

CI(Continuous Integration) 이학성. C ontinuous I ntegration? 2 지속적으로 품질관리 를 적용하는 과정 개발자가 기존 코드의 수정 작업 을 시작할 때, 코드 베이스의복사본을 받아서 작업을 시작하면서 코드의 변경.

Advertisements

신진영 현지 조사 방법 및 보고서 작성법 제 7 강 - 자료 수집과 설문지 작성 -

프로그램이란 프로그램 생성 과정 프로젝트 생성 프로그램 실행 컴퓨터를 사용하는 이유는 무엇인가 ? – 주어진 문제를 쉽고, 빠르게 해결하기 위해서 사용한다. 컴퓨터를 사용한다는 것은 ? – 컴퓨터에 설치 혹은 저장된 프로그램을 사용하는 것이다. 문제를 해결하기 위한.

1/ 편집 기능 사용하기 – 실습 1 글자 모양을 바꾸고 싶은 곳을 블록 설정 [ 글자 모양 ] 대화 상자에서 [ 글꼴 ] ‘ 궁서체 ’, [ 글자 색 ] ‘ 토마토색 ’ 으로 선택 → [ 설정 ] 클릭 → 글자 모양 변경.

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.

영화 예매 시스템 - 많이 봤다이가 ? CSE Corp. PM 송진희 김성욱 김보람 천창영.

도서관에서 역사인물 정보자료 찾 기 다양한 검색방법으로 역사 속 인물의 자료를 검색 해보자.

Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.

문자코드 1 박 2 일 (4 조 ) 이경도 이준집 이수연 엄태규. 문자코드란 ? 문자나 기호를 컴퓨터로 다루기 위하여, 문자나 기호 하나하나에 할당 시키는 고유의 숫자를 말하는 것이다.

컴퓨터와 인터넷.

목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.

파워포인트 2007.

2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;

김태원 심재일 김상래 강신택. 김태원 심재일 김상래 강신택 인터넷 통신망의 정보를 제공하는 서비스 인터넷의 자원 및 정보는 NIC가 관리 IP주소 또는 도메인으로 정보 검색 이용자 및 통신망 관한 정보를 제공.

Entity Relationship Diagram

Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.

Hybrid INDIGO project 중간보고

MICE IT 프로젝트 2011년 1학기.

분석적 사고 (Analytical Thinking)

11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.

SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.

멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :

고급 웹 개발 응용 프로젝트 2010년 1학기.

D / K / I / T / E / C / H / N / O / L / O / G / Y

학습목표 학습목차 다른 홈페이지의 HTML 파일 코드를 보는 방법에 대해 알아봅니다.

제 1장. 멀티미디어 시스템 개요.

제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법

프로그래밍 개요

7가지 방법 PowerPoint에서 공동 작업하는 다른 사용자와 함께 편집 작업 중인 사용자 보기

자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.

Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의

Term Project 수행 안내 2007 컴퓨터공학실험(Ⅰ).

HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.

Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)

Adobe 제품 다운로드 및 설치 방법 안내 Adobe Creative Cloud Adobe License 권한을 받으신 분

USN(Ubiquitous Sensor Network)

FileMaker를 이용한 데이터 관리 옥현진(KICE).

AUTODESK AUTOCAD ELECTRICAL 전기제어 2D 설계 소프트웨어 표준기반 설계 생산성 도구 구조도 설계

메모리 타입 분석을 통한 안전하고 효율적인 메모리 재사용

보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.

데이터 베이스 DB2 관계형 데이터 모델 권준영.

※ 편리한 사이버 연수원 사용을 위한 인터넷 최적화 안내 ※

텍스트 분석 기초.

컴퓨터공학실험 (I) 년 1학기 실험계획 -.

( Windows Service Application Debugging )

알고리즘 알고리즘이란 무엇인가?.

김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리

클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책

문서 클러스터링 일본언어문화학과 서동진.

AT MEGA 128 기초와 응용 I 기본적인 구조.

01. 분산 파일 시스템의 개요 네트워크에 분산된 파일을 사용자가 쉽게 접근하고 관리할 수 있게 해준다.

Chapter 10 데이터 검색1.

12 그리드 시스템.

멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.

슬라이드 쇼의 설정 슬라이드 쇼의 실행 파일과 폴더의 관리 글꼴을 포함해서 저장 웹 페이지로 게시 압축 파일

.Net FrameWork for Web2.0 한석수

TrustNet 전자 협조전 사용설명서 목 차 작성,수정,삭제 결재함 처리현황 발송대장,접수대장

1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.

6장. SQL 쿼리.

DBMS & SQL Server Installation

Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.

오늘의 강의 제목을 입력하세요 소 속 : 인문대학 국어국문학과 이 름 : 홍길동 교수 1.

7 생성자 함수.

생산성 증대 효율성 향상 측정 수행 능력.

Presentation transcript:

역사적 기록문서에서 색인어 추출 기법과 구현 :조선왕조실록 전자기록물관리특강 13211001 원초롱 2013.03.25

목차 1. 연구 배경 1.1 연구 목적 1.2 연구 대상 2. 색인 알고리즘 2.1 색인의 통계적 기법 2.2 색인의 구문적 기법 2.3 색인어 추출 정보 검색 시스템 2.4 색인어 검색 기술 2.5 핵심 키워드와 주변 키워드 추출 2.6 역사적 기록문서특징 분류 3. 색인어 작업 3.2 역사적 기록문서 색인의 예 3.3 자동 색인어 추출 기법 4. 결론

1. 연구 배경 1.1 연구의 목적 보존 목적 관리 ->역사적 기록물 문서 디지털화된 자료 환경으로 구축 및 활용 기존의 고문서 색인 기법 방식(다중 n-gram 방식) 개선 문제점 색인의 크기가 매우 커짐 다양한 확장 낱자 색인 필요 해결 방안 고문서 색인에 대체할 만한 기술 개발 한국어와 한자어의 특성 반영한 정확한 색인어 처리 기법 요구 연구는 사료 적 가치가 있음에도 불구하고 주로 보존을 목적으로 관리해왔던 역사적 기록 문서에 대해 디지털화된 자료 환경으로 구축 및 활용하는데 목적을 두었다. 조선왕조실록은 1994년에 CD-ROM으로 개발되었고, 웹 자료로도 개발되어 조선왕조실록을 연구하는 전문인과 관심이 있는 사람들에게 많은 도움을 주고 있다. 최근에 국사편찬위원회에서 조선왕조실록 정보화 프로젝트 사업을 주 관하여 텍스트 데이터 기반 XML 가공 형식으로나마 KRISTAL이 개발되었다.

1. 연구 배경 1.2 연구 대상 조선왕조실록 인조 실록 2년 문제점 단순 질의, 단순 검색만을 제공 직접 자료 입력방식으로 채택 시간·비용 손실 증대 해결 방안 역사적 기록문서의 색인 추출 방법을 연구 자동화 생성 구축 알고리즘을 제시

2. 색인 알고리즘 색인의 일반적인 의미는 문서의 빠른 탐색을 허용할 수 있도록 자료구조를 구축하는 것이 있고, 자료 구축 및 탐색방법에 대해서 많은 연구가 이루어지 고 있다. 그림 2.11은 색인 처리의 전반적인 과정을 보여준다. 색인은 트리구조이거나 해싱에 근거를 두고 있으며 색인을 만들기 위해 필요한 모든 처리 시간은 탐색 시에 그 시간만큼 더 소요됨

2.1 색인의 통계적 기법 단순 빈도와 상대빈도 1)단순 빈도 문서 집단의 크기, 색인 하고자 하는 색인 텍스트의 길이, 색인 선정에 가장 중요한 단어의 사용빈도를 고려하지 않음 2)상대 빈도 문서 집단의 크기, 색인 텍스트 길이, 사용빈도를 고려해 빈도의 값을 표준화하여 색인을 선정하는 방법 *상대빈도가 더 적합한 기준으로 평가됨 단순 빈도와 상대빈도 1)단순 빈도 문서 집단의 크기와 색인하고자 하는 색인 텍스트의 길이 색인 선정에 가장 중요한 단어의 사용빈도도 고려하지 않기 때문에 실제로는 색인어 설정에 거의 사용되지 않음. 2)상대 빈도 문서 집단의 크기, 색인 텍스트 길이, 사용빈도를 고려해 빈도의 값을 표준화하여 색인을 선정하는 방법 *상대빈도가 더 적합한 기준으로 평가

2.1 색인의 통계적 기법 단어 빈도(Term Frequency) 색인 대상이 되는 각각의 문서 i에 특정한 단어 k가 출현한 횟수로 문서 빈도(Document Frequency) 특정한 단어 k가 출현한 문헌의 수 장서 빈도(CF, collection frequency) 특정한 단어 k가 전체 문서 집단 내에 출현한 총 빈도

2.1 색인의 통계적 기법 3)역문서 빈도 전체 문서가 n개 일 때 Wik는 문서 i 에 단어 k가 갖는 주제어로서의 중요도를 의미하고 가중치임 문서 빈도가 낮은 단어에 높은 중요도를 부여함. 역문서 빈도를 가중치로 생각하는 색인 방식이 가중치를 사용하지 않은 경우보다 효과적인 검색 결과를 가져옴. 상대빈도는 단어의 한 문서 내에서 상대빈도와 전체 문서 집단 내에서의 상대적 빈도 차이를 이용함. 스파크 존스(Spark Jones)가 제시한 역문서 빈도의 수식 공식은 전체 문서가 n개일 때 다음과 같다. 이때 Wik는 문서 i 에 단어 k가 갖는 주제어로서의 중요도를 의미하며 가중치라고 한다. 역 문서 빈도는 문서 빈도가 낮은 단어에 높은 중요도를 부여하는 결과를 가져온다. 스파크 존스는 실험을 통해 위에서 제시한 역문서 빈도를 가중치로 생각된 색인 방식이 가중치를 사용하지 않은 경우보다 효과적인 검색 결과를 가져온다는 것을 입증하였다. 결과적으로 상대빈도는 단어의 한 문서 내에서 상대빈도와 전체 문서 집단 내에서의 상대적 빈도 차이를 이용

접속사, 조사 등을 사용 문장 분석 후 주제를 나타내는 단어 구를 2.2 색인의 구문적 기법 주제적 구문 단위 완전 분석 완전한 문장 분석 구문분석이란 특정한 구문적 기능을 수행하는 단어나 구문단위의 단어구가 문서의 내용을 나타낸다는 가정 하에 사용되는 기법으로 분석 수준에 ᄄᆞ라 일반적으로 세 단계로 구분하고 있다 1. 완전한 문장을 분석함으로 컴퓨터에 내장도니 문법과 어의 사전을 이용하여 문장 자체를 완전히 분석하는것이다. 그러나 이 방법은 문장의 복작성으로 인해 큰 효과가 나타나지 않으므로 색인 시스템에서는 거의 사용을 하지 않고, 오히려 질문 응답 시스템이나 자동 번역 분야에서 사용되고 있다. 2. 첫번째와 마찬가지로 거의 완전하게 분석하기는 하나 어의적인 처리를 하지 않은 분석을 한다. (예: LEADERMART, PHRASE) 3. 첫번째나 두번째보다 복잡성이 적은 것으로 특정한 단서를 이용하여 주제적 구문단위를 선택하는 방법(구두점, 전치사,접속사,조사 등 사용 문장 분석 후 주제를 나타내는 단어 구를 식별하는 방법) 초록은 색인어와 함께 문서의 내용을 집약적 또는 타이틀로 표현해 주는 것 으로 정보검색에 있어서 중요한 요소로 작용하고 있다[42,50]. 대부분의 정보 이용자, 정보 탐색자, 정보 요구자들은 색인을 이용하여 문서를 검색하고, 검 색된 문서에 포함되어 있는 초록을 보고 원문 보기를 결정한다. 초록은 대부 분 저자나 초록을 전문적으로 작성하는 자에 의해 수작업으로 작성되어 왔으 나, 정보량의 급증으로 자동화에 대한 요구가 뒤따르고 있다. 일반적으로 지시 적 초록(Indicative Abstracts), 통보적 초록(Information Abstracts), 비평적 초록(Critical Abstracts), 발취문(Extracts) 등 네 가지로 분류된다. 문법 어의 사전 이용 문장 자체 완전 분석 어의적인 처리 하지 않음 구두점, 전치사, 접속사, 조사 등을 사용 문장 분석 후 주제를 나타내는 단어 구를 식별하는 방법

2.3 색인어 추출 정보 검색 시스템 1) KRISTAL(Knowledge Retrieval In Science & Technology Affiliated Literatures) 국내 기술로 개발된 정보 검색 관리시스템 기능 한글 형태소 분석 기능, 영어 스테밍 기능, 한자 변환 기능, 불용어 관리 기능, 사용자 사전 기능 등 특징 고문서 색인을 위해 한자 변환 기능을 옵션으로 처리 각 색인 타입마다 한자에 대한 처리를 지정 문서에서 색인어를 추출하는 데는 여러 가지 방법이 있다. 색인어 추출은 입 력 문서의 구성 및 형태에 따라 다양한 어절 및 문자열을 구분하고, 적절한 분석 방법이 선택되어 이루어진다. 사용자의 편이성, 융통성 그리고 유연성을 위해 여러 가지의 색인 기법들이 개발되어 있다. 다음은 한글 문서 검색을 위 한 대표적인 검색 시스템을 설명한다.

2.3 색인어 추출 정보 검색 시스템

2.3 색인어 추출 정보 검색 시스템 2) Wise KMA(Korean Morphological Analyzer) 코리아 와이즈넛에서 개발한 한국어 형태소 분석기 시스템 기능 동의어,불용어 처리, 띄어쓰기 오류 자동 보정, 분석결과 랭킹, 고품질의 기본사전, 복합명사 사전, 고유명사 사전 보유, 강력한 미등록어 추천 기능, 다양한 형태소 분석 옵션 제공, 멀티 플랫폼 지원, 색인어 추출을 위한 검색 솔루션에 최적화, 포털, 공공기관, 금융기관 등 다양한 적용분야, 검색,개체명 인식등 응용 분야별 독립된 API 제공 등

2.3 색인어 추출 정보 검색 시스템 형태소 분석은 정보검색의 기반 기술이며, 형태소 분석은 검색 관련 솔루션의 품질을 결정짓는 핵심적 기반 모듈입니다. 특히 사용자가 입력한 검색어를 분석하고, 검색 대상 문서 내에서 색인어를 추출하는 것이 프로세스의 처음과 끝인 검색솔루션에서는 형태소 분석의 품질이 검색엔진의 품질을 좌우한다고도 볼 수 있습니다. 특장점 고성능 형태소 분석 품질 및 성능 - 순수한 자체 개발, 원천기술 보유 - 약 40여 개의 품사로 구분하여 분석 - 미등록어 추천 기능 - 사전 솔루션 원천기술 보유 사전 전담팀의 전문적 사전 관리 - 전문가로 구성된 사전 전담팀의 지속적 사전 관리 - 기본 사전, 복합명사 사전, 전문어 사전, 유의어 사전 등 다양한 활용처 - 문서분류/범주화/요약/마이닝 등에서도 적용 가능 - 색인어 추출 및 검색어 분석에 활용은 기본 - 응용 분야별 독립된 API 제공 - 검색 관련 전 솔루션과의 연계 가능 다양한 부가 기능 - 일반문서와 특수문서(상품 데이터, 카테고리 데이터 등) 각각의 분석에 최적화된 옵션 및 모드 선택 가능 - 품사태거 부가적 장착 가능 - Search Formula-1 등 기타 제품과의 연동 시 선택 적용 가능 주요 기능 예) "아햏햏", "얳" 등과 같은 한글 처리 가능 한글코드 : 현대 한글 모두 처리 한자/한글 변환 처리 : 한자로 입력된 단어를 한글로 변환 처리 가능 예) "大學校" → "대학교" 불용어 처리 : 사전에 기반, 무의미한 색인어 제거 예) "하회탈" → "민속탈", "안동 하회 마을 탈" 동의어 처리 : 사전에 기반, 색인어 확장 규칙/불규칙 용언의 원형 복원, 본용언/보조용언의 분리 및 원형 복원 예) "도와줘"의 어절에 대해 "돕다" & "주다"의 원형 복원 복합명사 분해 : 복합명사 추정 루틴과 사전을 이용한 방법을 혼합하여 최적의 단위명사 생성 미등록 처리 : 신조어/미등록어(사전에 등록되지 않은 단어) 색인어로 추천 예) "국민연금관리공단" > "국민", "연금", "관리", 공단" 예) "슈마허는" 에서 "슈마허"가 사전에 등록되어 있지 않아도 "슈마허" 추출 가능 접두어 및 접미어 분해/결합 유연 : 접두어 및 접미어 분해/결합으로 유연한 색인어 추출 예) "담당자" → "담당자", "담당" 모두 또는 선택적 색인어 추출 예) "대학생선교회" : "대학생+선교회", "대학+생선+교회" → "대학생+선교회" N-best Ranking(optional) : 여러개의 분석결과(중의성)가 존재하는 경우에 일정 scoring에 의해 N-best 선택 추출 2-level 품사 태깅(optional) : 두 가지 모드의 품사 태깅 방법을 제공 1) N-best Ranking에서 1-best Ranking을 이용한 품사 태깅(명사 위주의 keywords를 주로 사용하는 경우, retrieval, clustering, classification etc.) 2) 경험적 통계 및 문법 규칙을 이용한 hybrid 품사 태깅(명사 위주의 keywords 사용이 아닌 경우, text mining, syntax analysis etc.) 사양) Intel® Qaud CPU Q6700 2.66GHz 분석 속도 : 초당 130,000 어절 처리(File input processing and reading 시간 포함) 고효율의 분석성능 및 언어자원 관리 : 적절한 사전 엔트리 관리를 통해 낭비되는 메모리가 생기지 않도록 감시, 수백만건의 기분석 사전 엔트리를 들고 다니지 않아도 고효율의 분석 성능과 적절한 언어자원 관리를 통해 동등 또는 그 이상의 performance를 보임

2.3 색인어 추출 정보 검색 시스템

2.3 색인어 추출 정보 검색 시스템 3) HAM(Hangul Analysis Module) ->KLT(Korean Language Technology) 변경 한국어 형태소 분석 기반한 자동색인 및 철자검사 기능 모든 한국어 정보처리 시스템에 쉽게 활용 가능한 범용 형태소 분석기 특징 한국어의 음절 특성을 이용하는 음절단위 형태소 분석기법

2.3 색인어 추출 정보 검색 시스템

2.3 색인어 추출 정보 검색 시스템

2.4 색인어 검색 기술 1. Named Entity Recognition(Extraction) 역사적 기록문서에서 색인어를 추출할 경우 문서를 대표할 수 도 있는 단어가 색인어로서의 채택되지 못했을 경우를 대비한 기법 형태소나 어절의 단위를 넘는 named entity에 대해서도 색인어를 추출할 수 있는 기법 형태소 색인으로 추출 불가능하거나, 형태소 분석의 실수를 최소화할 수 있다는 강점이 있다. 다만, named entity recognition기법을 적용하기 위해서는 named entity data base가 구축 전제 필요

2.4 색인어 검색 기술

2.4 색인어 검색 기술 2. Mutual Information Extraction 역사적 기록문서에서 색인어를 추출했을 경우 색인어 로서 가치가 없는 것이 선택했을 경우 제거하는 기법 자동으로 추출된 색인어를 검증하는 방식으로서 추출된 모든 단어들에 대해서 mutual information data base를 이용해서 추출된 해당 단어가 나타난 경우 주변의 단어와 상호 정보를 고려하여 해당 단어가 색인어 수준인지, 색인어 수준이 아닌지의 여부를 판단할 때 사용하는 기법

2.4 색인어 검색 기술 예를 들면 숭례문 화재에 대한 검색에서 화재를 일으킨 자가 예전에 창경궁 문성전에서 불을 질러 문화재 보호법 위반으로 선고받았던 사실에 숭례문 화 재에 관련이 없는 “창경궁”, “문성전”등이 색인어로 추출이 될 경우에 상호 정보 기법을 사용하여 색인에서 제거할 수 있다.

2.4 색인어 검색 기술 3. Automatic Lexicon Building 범용 한글 색인 생성기는 고문서, 역사적 기록문서, 조선왕조실록과 같이 특수 도메인(domain) 내용을 색인할 때에는 성능이 저하될 수 있다. 자동어휘 목록구축은 자동 색인어의 문제점을 극복하고자 대상도메인에 적합한 단어사전을 자동적으로 구축하는 자동어휘 목록 구축 기법 접근하는 방법으로는 전체 문서를 어절 단위로 분리하고 발생빈도를 누적(count)하여 어절, 빈도 테이블을 작성 각각의 어절에 대해 명확한 조사를 분리시켜 (Word+i)를 만들고, Word에 대해서 (Word+i)의 발생 현상을 관찰하여 고빈도가 나타난다는 증거가 충분할 때 Word를 새로운 단어로 인정

2.4 색인어 검색 기술 한국어에서는 (단어+조사) 접속시 유종성, 무종성, ㄹ종성에 따라 조사(i)값을 적절하게 선택해야 하고 “Word+가”, “Word+는”, “Word+에서”, “Word+때 문에”, “Word+로 인해” 등 조사가 일반적인 단어의 일부로 나타날 수 있는 경우에 새로운 단어로 인정하여(evidence) 사용하는 것이 위험할 수 있다. 예 를 들어 “이괄이 금부 도사를 죽이고,”에서 파생되는 단어가 이괄이, 이괄이 가, 이괄이는, 이괄에서, 이괄에게, 이괄만 등을 뽑을 수 있다.

2.5 핵심 키워드와 주변 키워드 추출 색인어 추출 시 주제문서 부분에 표출되는 형태소, 어절 등은 높은 가중치를 주고, 본 문서 내용에 나 오는 주변 키워드는 낮은 가중치를 주는 기법 문서에서 핵심이 되는 부분은 타이틀 문서 부분으로 생성시킨다는 관점에서 만든 것

2.5 핵심 키워드와 주변 키워드 추출

2.5 핵심 키워드와 주변 키워드 추출

2.6역사적 기록문서의 특징 분류 1)사건 중심 기록 문서 육하원칙에 의해 내용을 논리적 형태로 기술 2)시간 중심 기록 문서 육하원칙에 의해 내용을 논리적 형태로 기술 2)시간 중심 기록 문서 시간을 기본으로 한 사건 중심 기술 *조선왕조실록: 시간을 축으로 사건 기술 (시간대별, 목차별로 기술)

기사 내용을 유효 색인 단어로 분해하는 과정을 거침 3. 색인어 작업 조선왕조실록분류사편찬요강서에서 제시한 내용 기준으로 색인어 추출 색인 기법 조선왕조실록 웹 자료 있는 형태의 기사 내용을 유효 색인 단어로 분해하는 과정을 거치고, 색인어 추출 과정은 대부분 형태소 분석기법을 사용 기사 내용을 유효 색인 단어로 분해하는 과정을 거침 색인어 추출 과정은 대부분 형태소 분석기법

3. 색인어 작업 한국어 복합명사 확장 한국어를 색인하는 데 있어서 큰 요소로 작용하는 것은 복합명사의 발생이 다. 이것은 한국어에서 자주 발생하는 색인어의 한 형태로서 영어권 중심에서 는 찾아보기 힘든 언어 현상이다. 한국어에서 체언과 용언은 조사/어미에 따라 서 품사가 명확하게 구별된다. 특히, 품사에 따라 형용사의 관형형과 책이나 영화 제목, 노래 제목 등 극히 일부를 제외하면, 한국어의 대부분은 명사들로 한정된다. 대부분 일반적인 한국어 정보 검색 시스템에서는 명사만을 색인어로 추출하고 있다[30]. 그림 2.8과 같이 “기록문서”는 복합명사 2개 이상의 단일어들로 조합이 이루 어져 있는데, 이런 형태는 같은 색인 도구에 따라 배합(match)하는 과정에서 서로 달라질 수 있다.

3.2역사적 기록문서 색인의 예 조선왕조실록 홈페이지 한국인명색인의 용어색인 "이괄"

3.3자동 색인어 추출 기법 HAM(Hangul Analysis Module)은 한글 자동 색 인 분석기 및 생성에 관한 색인어 추출기 실험자료 한국어 형태소 분석 기능과 한국 어의 음절 특성을 이용하는 음절단위 형태소 분석 기법이다. 이것은 음절 단 위 형태소를 이용해 키워드를 생성하기 때문에 한글 자동 색인 생성에 많이 사용된다[36]. HAM의 한국어 형태소 분석 기능은 입력 문서에서 한 단어씩 추출하여 입력된 단어의 한글 코드를 HAM의 내부코드인 조합형 한글 코드로 변환하는 전처리 단계를 거쳐 형태소 분석을 한다. 형태소 분석 결과는 응용 시스템의 요구 사항에 맞게 출력하고, 그 결과를 조절하는 후처리 단계의 결 과를 출력하는 구조로 되어 있다. 형태소 분석 과정에서 각 단계별로 처리되 는 기능은 문법형태소 분리, 체언분석, 용언분석, 단일형태소 분석, 복합명사 추정, 준말처리, 미등록어 추정, 후처리 등으로 구분된다. 전반적인 진행 과정 은 그림 2.13을 참조한다. HAM에 의한 색인어 추출 결과의 특징을 파악하자 면, 한글과 한문을 형태소 분석을 했을 경우 같은 단어의 결과가 나온다. 이런 과정의 예로 “고덕률(高德律)”을 형태소 분석했을 경우 2개의 같은 “고덕률”, “고덕률” 색인어가 추출되는데 이는 중복도 계수를 측정하는데 영향을 끼친

3.3자동 색인어 추출 기법 그림 3.5 HAM의 자동 색인어 자료를 분석하자면, “부원수 이괄이 금부 도사 고덕률(高德律), 심대림(沈大臨), 선전관 김지수(金芝秀), 중사(中使) 김천림(金天霖) 등을 죽이고 군사를 일으켜 반역하였다. 이괄이 드디어 도사 등을 죽이 고 제장(諸將)을 위협하여 난을 일으켰다.” 일 때 “이괄”이라는 주제어가 참조 어 정도로만 인식한다면 “이괄”이라는 이름에만 적용 될 수 있다. 그러나 “이 괄”이라는 이름이 역사적 사건으로 중요하게 처리된다면, 포괄성에 매우 중요 한 의미를 둘 수 있다. 다만 HAM의 자동 색인어 실험 자료로서는 완벽히 쓸 수 없기 때문에 실험에 사용 가능한 색인어들은 일부 편집해서 만들어 사용했 다는 제약점이 있다.

4. 결론 현재 조선왕조실록에서 는 단순 질의, 단순 검색 제공 문제점 개선점 현재 조선왕조실록에서 는 단순 질의, 단순 검색 제공 특정 질의에 따른 문서들 간의 상대적 중요도와 관계 정도 표현 못함, 문서 속 엔티티 간의 유사도나 클러스터링에 대한 연구가 없다 조선왕조실록 웹에서 추출한 텍스트 파일 자동화 생성 구축 알고리즘으로 제시 역사적 기록문서의 색인 추출 방법을 연구하여 문서 사이의 유사도 관계와 클러스터링을 쌍방 점검(cross check)하여 질의에 대한 흐름을 파악할 수 있도록 실험 현재 조선왕조실록에서는 단순 질의, 단순 검색만을 제공함. 특정 질의에 따른 문서들 간의 상대적 중요도와 관계 정도를 표현하지 못하였을 뿐 만 아니라 문서 속 엔티티 간의 유사도나, 클러스터링에 대한 연구가 없었음 조선왕조실록 웹에서 추출한 텍스트 파일을 사람에 의한 직접 입력방식이 아닌 자동화 생성 구축 알고리즘으로 제시함. 역사적 기록문서의 색인 추출 방법을 연구하여 문서 사이의 유사도 관계와 클러스터링을 쌍방 점검(cross check)하여 질의에 대한 흐름을 파악할 수 있도록 실험 함.

참고문헌 한광덕 (2008). 역사적 기록문서에서 사건 중심문 서 검색을 위한 색인어 추출 기법과 XML 구현, 한 국외국어대학교, 1-125. <참고사이트> 조선왕조실록: http://sillok.history.go.kr/main/main.jsp KRISTAL: http://www.kristalinfo.com/ Wise KMA:http://company.wisenut.co.kr/ KRISTAL은 과학기술문헌 정보서비스를 목적으로 개발을 시작한 정보검색관리시스템(情報檢索管理시스템; IRMS; Information Retrieval Management System)입니다. KRISTAL은 정보검색엔진에서 출발하여 IRMS의 틀을 잡아가고 있으며 최종적으로는 DB-IR 통합을 지향하고 있습니다. KRISTAL-IRMS는, 본 페이지에서 사용하고 있는 KRISTAL 기반의 게시판과 같이 문서를 저장하고 편집할 수 있으며 실시간 검색이 가능한, 정보검색관리시스템(IRMS)을 표방하고 있습니다. KRISTAL은 오픈소스(Open Source)를 지향합니다 (KRISTAL License 보기). KRISTAL 정보검색엔진(IRS)과 데이터베이스관리시스템(DBMS) 기능을 통합한 순수 국내기술의 오픈소스 정보검색관리시스템(IRMS) ☞ 자세히 정보검색관리엔진으로서의 KRISTAL을 적용할 경우 별도의 DBMS없이 문헌정보서비스시스템을 구축할 수 있습니다. KRISTAL은 문서와 색인을 하나의 단위로 취급함으로써 문서의 추가/수정과 동시에 검색이 가능하게 하여 "정보의 생산 즉시 서비스"가 이루어질 수 있습니다. KRISTAL 활용사이트를 참조하십시오.