Download presentation
Presentation is loading. Please wait.
1
검색2주(텍스트표현기법)
2
고전적 의미의 정보검색 문헌집합 (데이터베이스, 파일의 형태) 데이터 (정보) 이용자 질의 (질의어, 키워드)
검색시스템은 이용자의 질의에 해당되는 문헌을 제공 질의어 (이용자 요구)
3
문헌집합과 질의어 검색 효율 증대를 위한 문헌집합과 질의어의 관계 문헌집합 질의어 결국 검색의 효율은
어떻게 하면 문헌 집합이 잘 검색될 수 있도록 할 것인가에 대한 방법 모색 색인, 초록, 요약, 주제 분류, 간략정보 (서지정보, 메타데이터) 질의어 이용자의 질의를 어떻게 하면 보다 문헌집합에 정확하게 접근할 수 있을까에 대한 방법 모색 결국 검색의 효율은 문헌집합의 내용표현을 보다 이용자의 요구(질의형태로 표현)에 잘 부합되도록 표현해 주느냐의 문제와 이용자의 요구를 얼마나 문헌집합의 내용 표현에 가깝게 표현할 수 있느냐의 문제
4
질의작성 비교, 매칭 적합성평가 문헌표현 정보검색 시스템 구조 새로운 질의어 입력 적합성 여부 판단 정보 요구 유사도에 따른
검색된 문헌의 제시 구체화된 요구 검색 효율성에 대한 평가 질의어 작성 질의어와 문헌과의 유사도 계산 적합성 정보 문헌 DB 문헌표현 색인생성 문헌 입력
5
데이터의 축약 (Abstraction of Data)
실세계와 실세계에 대한 압축 표현 단행본 -> 서지레코드 -> 데이터베이스 데이터베이스 색인어 집합 (원문의 축약된 형태) 원문을 포함하고 있는 문헌집합 정보검색시스템은 색인어 집합을 대상으로 검색을 수행하고 검색 결과를 가지고 원문 문헌집합으로부터 해당되는 정보를 제공 축적된 정보의 양과 종류에 따라 검색 처리과정이 달라짐
6
이용자 요구의 축약 (질의어) (Abstraction of Query)
이용자는 정보에 대한 요구를 가지고 있음 정보검색시스템은 이용자의 정보요구(일반적으로 자연어로 구성)를 이해하지 못함 자연어로 구성된 이용자의 정보 요구는 컴퓨터가 이해할 수 있도록 간략화 되어야 함 이용자 자신에 의한 축약 검색전문가에 의한 축약 이용자의 정보 요구가 축약된 상태가 질의어 일반적으로 키워드 형태로 나타남 이용자의 질문은 문장의 형태로 나타나지만 실제 검색에 사용할 때에는 키워드로 변환하여 사용
7
실세계와 축약물 연결 실세계 (1차 정보) 실세계의 축약물 (대용물) 요구 정보 검색 대상 정보 요구 질의어 요구의 표현
8
문헌(문헌 집합) 축적 및 검색 대상이 되는 어떤 정보 구성 형태 책자 형태의 문헌만을 포함하는 것이 아님 음성, 동화상 등
단행본, 학술지 등 정보를 포함하고 있는 대상물 한 부분, 단위 논문 등 형태 어떠한 형태도 무관 (축적과 검색의 대상이 된다면) Programs, 이미지, 음악 파일, 텍스트, 멀티미디어
9
질의어 (Query) 정보 요구에 대한 표현 찾고자 하는 정보를 검색하기 위한 도구
일반적으로 검색에 적합한 구체적인 단어의 제시보다는 필요한 자료에 대한 불명확한 어휘로 표현으로 시작 사서들에 대한 질문 자연어 형태의 질문 “~와 같은”
10
문헌 대용물 Document surrogates
복잡한 내용을 보다 간략하게 표현해 놓은 것 원문과 비교하여 내용상 불완전한 단점을 가짐 반면 원문이 포함하고 있는 전체적인 내용을 보다 쉽게 판단할 수 있는 장점 요구 발생시 문헌에 대한 접근을 보다 용이하도록 (내용을) 축약해 놓은 형태 서지정보 (초록, 분류번호, 키워드 등)나 메타 데이터 컴퓨터의 저장 공간의 확보나 인쇄 자료의 디지털화에 소요되는 노력의 최소화 가능 문헌 대용물의 생산 인간 : 규칙, 경험 서지 데이터의 생산, 색인, 초록 작업 등 컴퓨터 : 프로그램에 의해 실행 (인공지능의 활용) 자동 색인, 자동 분류, 자동 요약 등
11
문헌과 대용물 Documents and surrogates
대용물 : 검색을 위하여 디지털화된 데이터 전자 문헌 (이미지) : 전자화되어 있지만 검색의 대상이 되지 않는 문헌 이 경우 대용물을 통한 검색과 주소 값을 통한 연결 디지털화 되어 있지 않고 도서관의 서고에 배열되어 있는 문헌 대용물의 검색을 통하여 문헌의 위치를 파악하고, 접근 대용물 전자문헌 데이터베이스 외부에 축적된 데이터
12
문헌 대용물 종류 문헌 ID (시스템 용도, access number) 서지, 메타데이터 : 저자, 제목, 출판사항 등
키워드, 분류번호 색인, 초록 (요약, 발췌), 목차 등
13
정보의 분석과 가공 전통적인 도서관 운영 방식에서는 이용자가 필요한 정보를 찾고자 하여도 특정 정보(분류번호 등)를 알고 있어야만 문헌에 접근할 수 있는 문제점 찾고자 하는 주제를 알고 있어도 그 주제에 바로 접근할 수 없는 경우가 대부분 이러한 문제점을 해결하기 위한 것이 문헌을 분석하여 정보에 대한 접근점을 제공 문헌의 분석은 해당 문헌에 대한 다양한 속성을 파악하는 것 정보 검색을 위한 분석과 가공의 결과는 문헌 대용물의 생산 속성 : 내적 속성(키워드, 분류)과 외적 속성(저자, 표제, 출판사 등)
14
문헌 처리 과정 문헌 DB Intelligent Miner for Text turns unstructured information into business knowledge for organizations of any size, from small businesses to global corporations. This knowledge-discovery "toolkit" includes components for building advanced text-mining and text-search applications. Intelligent Miner for Text offers system integrators, solution providers, and application developers a wide range of text-analysis tools, full-text retrieval components, and Web-access tools to enrich their business-intelligence and knowledge management solutions. With Intelligent Miner, you can unlock the business information that is "trapped" in , insurance claims, news feeds, and Lotus Notes, and analyze patent portfolios, customer complaint letters, even competitors' Web pages. 색인 작업 intelligent,text miner business, knowledge management 색인 DB
15
문헌에 대한 처리와 검색 문헌집합 검색 가능한 구조 (색인DB) 가공 처리 문헌 DB (원문DB, 서지DB) 검색실행
16
색인 작업 색인 DB 문헌집합 Tokenizing Stop Lists Stemming Indexing
17
문헌의 속성 외적 속성 (formal type)과 내적 속성(topical type)으로 구분
외적 속성 : 문헌에 나타난 정보 그 자체 (서지 데이터) 표제 요소 : 논문명, 서명, 학술지명 등 시간적 요소 : 작성일, 발행일, 출판년도 장소요소 : 발행지, 회의 개최지 식별요소 : 문헌번호, 코드번호, 계약번호 매체 요소 : 자료 종류, 신문명 내적 속성 (문헌에 대한 내용의 분석 결과로 나타나는 것) 분류기호 : 문헌의 내용에 대한 주제를 표시하는 기호 주제명 : 문헌의 내용을 나타내는 단어나 단어집합
18
문헌의 속성 - 계속 내적 속성 - 계속 키워드 : 문헌의 내용을 특정한 용어나 단어로 나타낸 것
키워드를 너무 상세히 나타내면 불필요한 잡음의 원인 키워드는 동의어가 많고 의미가 다양하여 정의가 불명확하기 때문에 어휘에 대한 통제가 요구 통제된 용어 가운데 색인의 표목으로 사용 가능한 용어를 디스크립터 초록 : 원문의 내용을 요약해 놓은 문장의 집합 500 내외의 단어로 전체 내용을 축약, 기술하여 원문을 대용하는 기능과 검색된 문헌의 적합성에 대한 여부 판정에 도움
19
주제 분석 - 정의 문헌의 내용을 개념적으로 분석하고 문헌에 대한 효율적인 접근이 가능하도록 조직하는 행위
문헌에 포함된 내적 속성을 분석하는 행위 복잡한 내용이 포함된 주제를 그 구성 요소인 중요 개념으로 분석, 처리하는 것 문헌의 내용에 일치하도록 분석하여 정보의 접근에 대한 효율성을 높이기 위한 수단 분석결과의 표현 방법에 따라 분류표에 따라 코드화하면 분류기호 용어로 나타내면 주제명 자연어의 문장으로 나타내면 초록 소정의 기호 또는 용어로 표시하면 색인
20
색인 정보이용자와 정보원을 연결하는 중간 매체
이용자와 정보자료를 연결시켜주는 정보검색의 핵심적 도구 정보원에 포함된 정보의 내용을 항목으로 추출하여 그 소재를 용이하게 탐지할 수 있도록 소재지시기호를 첨부하여 일정한 순서로 배열한 검색 매체 정보원과 정보 이용자 사이에 동일한 주제의 정보자료를 선별해 주고 선별된 자료의 위치에 대한 안내 기능을 수행 문헌에 나타난 단어, 개념 및 기타 항목들의 소재 위치에 대한 체계적 안내도구 (저자, 서명, 키워드 등) 문헌을 대표적으로 표현할 수 있는 어휘를 추출하는 과정 정보검색의 효율성을 높이기 위한 검색 도구 Index & Indexing
21
색인 작업 (Indexing) 문헌 주제분석 (색인작업) 색인 생성 intelligent text miner business
Intelligent Miner for Text turns unstructured information into business knowledge for organizations of any size, from small businesses to global corporations. This knowledge-discovery "toolkit" includes components for building advanced text-mining and text-search applications. Intelligent Miner for Text offers system integrators, solution providers, and application developers a wide range of text-analysis tools, full-text retrieval components, and Web-access tools to enrich their business-intelligence and knowledge management solutions. With Intelligent Miner, you can unlock the business information that is "trapped" in , insurance claims, news feeds, and Lotus Notes, and analyze patent portfolios, customer complaint letters, even competitors' Web pages. intelligent text miner business knowledge management
22
색인 작업 필요성 정의 문헌의 내용 전체를 검색 대상으로 할 경우 검색의 효율성 저하가 우려
따라서 문헌의 내용을 대표적으로 표현할 수 있는 방법이 요구 정의 색인 작업은 문헌의 내용을 대표할 수 있는 키워드를 추출하는 작업
23
색인 시스템 색인 시스템은 3가지 방식으로 구분됨 수작업 색인 자동 색인 : 컴퓨터에 의해 수행되는 색인
부여방법 : 색인자의 판단에 의해 색인어를 부여 자동 색인 : 컴퓨터에 의해 수행되는 색인 추출방법 : 문헌에 나타난 자연어를 그대로 색인 비색인 : 색인 작업을 수행하지 않고 본문의 내용을 그대로 사용 문헌의 텍스트 전문을 디지털화 하여 사용 초록이나 목차 등과 같은 문헌의 일정 부분을 축적해서 사용
24
문헌 수작업 색인 자동 색인 색인하지 않음 추출 부여 발췌 본문전체 본문일부 색인 시스템
25
색인 - 기능 정보원과 탐색자 사이에서 탐색자가 원하는 정보를 정보원으로부터 찾을 수 있도록 도와 주는 매개기능
지시기능 : 탐색자에게 정보의 위치를 알려주는 기능 즉, 특정한 내용의 정보가 어느 정보자료에 포함되어 있는 가를 알려 주는 기능 권말색인, 목차: 책에 정보가 포함되어 있는 위치를 알려줌 선별기능 : 방대한 정보원으로부터 요구에 가장 적합한 내용의 정보자료만을 선별해 주는 기능 (논문의 주제어)
26
색인의 종류 주제 색인 비주제 색인 정보원의 주제를 나타내는 용어를 색인어로 채택 (검색시 접근점)
색인자의 지적 작업으로 내용을 분석하고 중요한 개념을 추출하여 색인어로 변환하는 작업이 수반 주제명 색인, 분류색인, 키워드 색인, 용어열 색인 통제어 색인, 자연어 색인 (색인어에 대한 통제 여부) 수동 색인, 자동 색인, 반자동 색인 (색인어 추출 방법) 전조합 색인, 후조합 색인 (색인어를 부여하는 관점) 비주제 색인 문헌에 포함된 내용을 그대로 이용하여 하는 색인으로 저자, 표제 등 정보원에 대한 서지사항을 대부분 채택하여 사용 저자, 표제(제목), 출판년도, isbn, issn 저자명 색인 (인명 색인, 기관명 색인 등)
27
주제 색인 색인어 추출과정에서의 통제 여부에 따른 구분 통제어 색인 자연어 색인
문헌을 분석하여 대표적인 개념을 추출하되 추출된 개념들은 통제어휘집으로부터 색인어를 선택하여 채택 통제어휘집 : 색인어의 선택을 위한 기준이 되는 어휘사전 분류색인을 위한 분류표 주제명 색인을 위한 주제명 표목표 키워드 색인을 위한 시소러스 자연어 색인 문헌의 포함된 용어 가운데 주요 용어들을 그대로 색인어로 사용 색인자에 의한 작업 보다는 컴퓨터를 이용한 자동색인에서 주로 채택
28
자연어 색인과 통제어 색인의 장점 비교 자연어 색인 통제어 색인 장점 . 비용이 저렴하다 . 다양한 접근점을 제공한다
. 신축성이 높다 . 새로운 개념의 표현이 용이 . 복잡한 개념의 표현이 용이 . 특정성이 높다 . 융통성과 표현력이 좋다 . 정확율을 높일 수 있다 . 주제 전문가에게 유리하다 . 용어의 의미문제를 해결한다 . 동의어가 통제된다 . 동음이의어가 통제된다 . 부적합 문헌의 통제를 위한 전조합이 가능 . 용어의 계층관계를 나타낸다 . 관련 개념의 용어를 제시한다 . 재현율을 높일 수 있다 . 지식의 영역 파악이 가능하다 . 검색 전문가에게 유리하다 자연어 색인과 통제어 색인의 장점 비교
29
자연어 색인과 통제어 색인의 단점 비교 자연어 색인 통제어 색인 단점 . 탐색자에게 부담을 준다 . 동의어 문제가 발생한다
. 동음이의어 문제가 발생한다 . 동일한 개념이 저자에 따라 다양하게 주제의 분산이 발생 . 재현율이 낮다 . 상위개념에 대한 탐색이 난이 . 색인 파일의 유지비용이 과다 . 표준화가 불가능하다 . 해당분야의 어휘를 알아야 함 . 개념간의 관계정립이 불가능 . 색인자의 오류가 있을 수 있다 . 소수의 접근점 만을 제공한다 . 신축성 낮다 . 새로운 개념의 표현이 어렵다 . 복잡한 개념 표현이 어렵다 . 특정성이 낮다 . 표현이 자유롭지 못하다 자연어 색인과 통제어 색인의 단점 비교
30
주제 색인 (수작업 색인) 수작업 색인 (Manual Indexing) 부여방식 (Assigned Indexing)
주제분석을 통하여 주제개념을 명확히 표현하는 어휘를 색인어로 선택 선택된 어휘가 중요한 개념을 명확히 표현할 수 있어야 함 훈련된 사서나 주제 전문가에 의한 색인방법 비용 및 시간 투자가 요구 정보 검색의 효율성을 증대시킴
31
주제 색인 (수작업 색인) 자동색인 (Automatic Indexing) 추출방식 (Derived Indexing)
문헌에 나타나는 어휘를 사용하여 색인 컴퓨터를 이용하여 본문을 분석하여 문헌의 내용을 나타낼 수 있는 대표적인 용어들을 선택하여 색인 형태소분석, 불용어처리, 빈도분석, 위치분석 등 다양한 가중치 부여와 동의어, 유사동의어 등에 대한 처리 기술 요구 통계적 기법, 언어학적 기법(불용어기법과 구문분석기법), 문헌구조학적 기법(문헌에 단어가 나타난 위치)으로 구분 색인작업에 필요한 시간과 노력의 최소화가 가능 문헌의 개념(내용)을 나타내는 용어를 부여하는 수작업 색인 방식과 동시에 쓰는 것이 바람직
32
주제 색인 전조합 색인과 후조합 색인 (문헌의 주제를 구성하는 개념의 조합 시점에 따른 구분)
전조합 색인 : 색인 작업시 미리 조합하여 단일 표목으로 변환 (도구 : 열거식 분류, 주제명 표목표) 후조합 색인 : 색인 작업시 문헌의 주제를 나타내는 개념별로 색인어를 개별적으로 부여하고 정보의 검색시 개별 색인어의 조합으로 문헌을 검색 주로 Boolean 연산자 (AND, OR, NOT)와 같은 논리관계에 의하여 색인어를 조합하여 탐색 키워드 색인, Thesaurus
33
색인 작성법 - 주제의 분석 주제 분석 (내용분석) 문헌에 포함된 주제를 분석하는 단계 표제의 분석 목차의 분석 초록의 분석
서론의 분석 결론의 분석 각 장, 절의 표제 등의 분석 키워드의 분석 인용문헌의 검토 및 분석 본문의 검토
34
색인 작성법 - 주제의 분석 주제 분석시 유의사항 망라성(Comprehensiveness) : 문헌당 주어지는 색인어 수
검색효율의 재현율과 연관 망라성이 지나치게 강조되면 지나치게 포괄적인 개념이 포함 정도율의 하락을 초래 색인어 선택시 중요 요소인 명확한 개념의 표현에 한계가 발생 특정성 : 주제를 정확하게 표현하는 능력 검색시 검색의 정도율과 직접적인 연관 색인별 특정성의 비교 분류색인 : 문헌에 포함된 모든 개념을 대표하는 하나의 분류기호가 색인어로 채택 주제명 색인 : 몇 개의 소개념을 통합하여 주제명을 부여 키워드색인 : 하나의 개념이 하나의 디스크립터로 변환된 색인
35
색인 작성법 - 색인어로의 변환 분석된 주제를 색인어로 변환 의미상의 관계 (Semantic Relationship)
동등관계 (Equivalence Relationship) : 동일한 개념의 용어의 표시 동의어, 유사어, 약어, 상이한 철자어, 번역어 (Used for, Use) 계층관계 (Hierarchical Relationship) : 색인어간의 계층 (상하위) 관계에 해당하는 용어의 표시 광의어, 협의어 (BT, NT) 연관관계 (Associative or Affinitive Relationship) : 동등관계나 계층관계에 해당되지는 않지만 연관이 있는 용어를 표시 관련어 (RT, see also)
36
색인 작성법 - 색인어 변환 및 기술 서지사항의 기술 (Description)
구문적 관계 (Syntactic Relationship) 용어간의 구문적 관계를 표시 (자연어 처리를 활용한 자동색인) 복합 주제를 표현할 때 의미상의 구분에 도움 정보시스템, 시스템 정보 서지사항의 기술 (Description) 서지사항을 포함 : Index Medicus, British Technology Index 색인표목만을 기술 : 순열표제색인(KWIC), 인용색인(SCI)
37
색인 언어 정의 역할 종류 : 분류표, 주제명 표목표, 시소러스, 키워드 집 등
색인 표목(색인어)을 조절하기 위해 사용하는 기호군 검색 대상 문헌의 내용을 표현하기 위하여 선정한 기호군(용어, 숫자, 부호 등)으로 문헌과 탐색자 간의 효과적인 커뮤니케이션을 위해 사용되는 일종의 인공적인 매개 언어 문헌의 내용을 나타내는 개념을 일관성 있게 표현하기 위하여 인공적으로 규정한 언어를 색인어라고 함 역할 색인언어는 문헌의 표제가 본문에서 사용된 자연언어를 그대로 사용할 수도 있으나 인공적인 통제를 가함으로써 검색의 효율성을 높이고 있음 종류 : 분류표, 주제명 표목표, 시소러스, 키워드 집 등
38
색인언어의 종류 분류표 문헌의 주제를 기호로 나타낸 색인 언어 분류표에 의해 작성된 분류기호들은 색인어의 집합
분류색인 : 분류기호로 이루어진 색인어가 일정한 순서로 나열된 것 장점 인접한 주제를 한 곳에서 검색이 가능 사용된 언어의 다양성에도 불구하고 관련 주제를 한 곳에서 검색 가능 단점 특정한 주제에 대한 접근이 반드시 분류표를 이용 (분류표에 대한 사전 지식이 필요) 동일한 주제가 다루어진 관점에 따라서 분산될 경우 이의 검색이 난이 분류표에 나타나 있지 아니한 새로운 주제의 자료 검색이 어려움
39
색인언어의 종류 주제명 표목표 (Subject Heading List) 도서관에서 사용하는 주제명 통제 도구
문헌 내용을 분석하여 추출한 키워드에 대한 용어통제도구 색인어(주제명)로 결정하기 위한 도구로 자모순 배열(Alphabetical Order)이 원칙 학술지의 논문기사나 보고서의 색인어 추출을 위하여 사용 LC Subject Heading, MeSH (Index Medicus의 작성 도구) 장점 주제를 나타내는 용어에 대한 직접 탐색이 가능 다루어진 관점이 달라도 한 주제 하에 집합이 됨 단점 체계상 인접한 주제라도 자모순에 의해 색인어가 분산 동일한 주제를 나타내는 문헌이라도 사용된 언어가 다를 때는 분산되어 배열됨 동의어와 변용어 처리가 어려움
40
색인언어의 종류 시소러스 : 주제 분야별로 모든 개념을 수집하여 이들에 대한 개념의 대소(상하위, 혹은 체계)관계나 동의어, 동형이의어, 관련어들을 체계적으로 정리해 놓은 용어 통제표로 사전의 형태를 가지고 있음 정보시스템과 문헌 생산자, 색인작성자, 이용자 간의 용어를 통일하여 사용하도록 작성된 용어 안내 도구 용어에 대한 설명은 포함되어 있지 않음 1952년 로제에 의해 최초로 사용됨 시소러스는 주제명 표목표를 발전시킨 형태 주제명 표목표 : 관련 문헌을 한 곳에 모으기 위한 것이 주된 기능 시소러스 : 관련 문헌을 일괄적으로 탐색하기 위한 것임
41
색인언어의 종류 키워드 : 1950년대 기계를 이용한 정보검색시스템에서 사용되기 시작한 색인언어이며, 자연어를 그대로 색인어로 결정하는 방식 자연어를 색인어로 그대로 사용하기 때문에 색인작업이 용이한 반면, 용어에 대한 통제가 어려움 문헌에 나타난 자연어를 그대로 색인어로 채택하는 자유 키워드 방식과 통제어휘집에 따라 통제된 색인어를 활용하는 고정 키워드(통제 키워드) 방식이 있음 컴퓨터 정보검색시스템은 대부분 키워드 색인을 채택하고 있음 (자동색인)
42
색인언어와 탐색언어 색인 언어 탐색 언어 정보검색시스템은 색인 언어와 탐색 언어의 통제 여부에 따라 구분
색인 언어와 탐색 언어가 모두 통제 언어인 시스템 색인 언어는 통제 언어 탐색 언어는 자연어 시스템 색인 언어와 탐색 언어가 모두 자연어인 시스템 색인 언어는 자연어, 탐색 언어는 통제 언어인 시스템 색인 언어와 탐색 언어에 통제 언어와 자연어를 모두 사용하는 시스템
43
색인 언어와 통제 언어 색인 언어와 탐색 언어가 모두 통제 언어인 시스템
분류표, 주제명표목표, 시소러스와 같은 색인 언어를 사용하여 색인어를 통제하는 시스템으로 사전 (Pre-) 통제어휘시스템 장점 주제별로 동일한 용어로 색인되므로 검색의 재현율 향상 용어간의 다양한 의미 관계를 이용하여 관련된 용어로 추가 탐색이 가능하여 탐색 범위를 확장할 수 있음 단점 통제 언어는 용어의 특정성이 떨어지므로 구체적인 표현이 어려움 통제 언어에 익숙해야 효과적인 탐색이 가능 통제 어휘집에 대한 지속적인 갱신이 이루어져야 함
44
색인 언어와 통제 언어 (*) 색인 언어는 통제 언어 탐색 언어는 자연어 시스템
탐색을 위한 용어 통제가 없기 때문에 탐색자는 어떤 용어든지 사용할 수 있으며, 자연어 형태의 시스템 내에서 통제 언어로 자동 변환시켜 주는 장치가 요구됨 (시소러스, 다국어 사전, 질의어 변환 장치 등) 장점 탐색자가 통제어휘에 익숙할 필요 없이 자연어를 사용 단점 용어의 자동 변환을 위한 장치가 요구되고, 동형이의어, 다의어로 인한 정확한 탐색 및 자동 변환의 어려움 존재
45
색인 언어와 통제 언어 색인 언어와 탐색 언어가 모두 자연어인 시스템
현재 혹은 미래 정보검색시스템의 특징이며, 전문을 수록한 DB의 제작이 활성화되면서 나타난 본문에 대한 자연 언어로 탐색하는 본문 탐색에 활용 본문이나 초록에 나타난 기능어(불용어)를 제외하고 모두 탐색어로 사용됨 따라서 문헌의 주제와 관련 없는 용어 또한 탐색어로 사용하게 되어 검색의 정도율이 저하 또한 정확하게 일치하는 문헌 만을 대상으로 검색하기 때문에 검색의 재현율 또한 저하 재현율의 저하를 방지하기 위하여 절단 검색을 사용하는 것이 바람직 검색이 용이
46
색인 언어와 통제 언어 색인 언어는 자연어, 탐색 언어는 통제 언어인 시스템
색인을 위한 용어의 통제는 하지 않고 검색할 때 동의어 사전과 유사한 탐색용 시소러스를 이용하여 검색 효율을 높이기 위해 탐색어의 대략적인 통제만을 해주는 사후 통제어휘시스템 자연어 시스템의 장점에 전통적인 통제언어시스템의 장점을 추가시킨 시스템 시스템 내에 시소러스나 전거 통제가 요구됨
47
색인 언어와 통제 언어 색인 언어와 탐색 언어에 통제 언어와 자연어를 모두 사용하는 시스템
대규모의 정보검색시스템에서는 통제 언어와 자연어를 함께 사용하고 있음 색인어로는 디스크립터를 사용하며, 표제나 초록에 나타난 용어는 기능어(불용어)를 제외하고 자연어를 그대로 탐색어로 사용 디스크립터 : 통제 어휘집에 나타나는 표제어 (디스크립터를 용어의 관계에 따라 체계표로 만들어 놓은 것이 시소러스임)
Similar presentations