색인이란 어떤 문서에 대해 그 문서를 다른 문서들로 부터 구별할 수 있도록 선택 단서가 되는 단어 또는 단어구 등을 추출하는 것 정보원과 정보입수자 사이 위치하여 정보를 전달시키는 장치 정보원색인 정보 입수자
색인과정 C1 C2 C3. Cn 주제분석 및 주요 개념 추출단계 코드와 단계 색인단계 문헌 D T1 T2 T3. Tn 색인어휘 V
색인개념의 특정성 비교 c s1 s2 k1 k2 k3 k4 c1 c2 c3 c4 분류시스템 주제명 시스템 정보자료 키워드시스템
자 동 색 인자 동 색 인 주제어나 핵심어를 컴퓨터를 이용하여 자동으로 찾아 내는 것. 색인자, 즉 인간이 작성한 것과 같은 색인을 만든다 종류 1. 통계적인 기법 2. 언어학적 기법.
Luhn 의 빈도에 따른 자동색인 분별력 있는 중요단어 빈도수 순서의 단어 단어의 빈도수 상한선 하한선 중요단어
자동색인기법의 분류 색인의 종류 구 현장 점단 점 통계적 기법 단어의 빈도계 산. 불용어제거 구현이 간단 정확도가 떨어 짐. 한국어에는 적용이 어려움 형태소해 석을 이용 한 기법 단어의 형태 소 해석 빈도수 계산 구현이간단. 한국어에 적용가 능 정확도가 떨어짐 구단위의 추출이 어 려움 구문을 이용한 기법 단어의 형태소해석 구문해석 특정 의미구를 선택 정확한 색인어 추출. 구단위의 색인어 추출 단어, 해석 결과 의 애매성 구문해석기구 구 현이 복잡 의미해석 을 이용 한 기법 문장의 완전한 이해 가장 정확한 색인 추출 현실적으로각종 사 전의 구성과 문장의 완전한 이해 불가능
색인을 위한 사전 및 정보 1. 명사 및 좌우 접속 정보 2. 복합 명사 사전 3. 기능어 사전 4. 불용어 사전 5. 전거어 사전 6. 유사어 사전
한국어를 위한 격문법 단문내에서 서술어가 지배하는 명사구들의 역할을 분 석하기위한 문법체계 격문법의 논리구조 1.Sentence Modality Proposition 2. 법 : 시제, 부정, … ( 보조용언에 의해 표현됨 ) 3. 명제 : 서술어 + 격 1+ 격 격 n 4. 격 : 격 판별자 + 명사구 5. 격 판별자 : 격조사 ( 보조 조사 포함 ) 6. 서술어 : 동사, 형용사, 서술격조사 단문법명제
한국어 색인을 위한 격과 격률의 설정 기본 문형에 자주 출현하는 15 가지 격 AGT: 행위자 INS: 도구 REA: 원인 BEN: 수익자 EXP: 경험자 OBJ: 대상 ELM: 요소 FCS: 초점 GOA: 목표 LOC: 장소 MEA: 수단 PRT: 비교 SOR: 출발 TAR: 종착 DUP: 유사목적
전자사전의 요구사항 형태소 해석기의 사전 검색형태를 유지하여 빠른 검색속도를 제공해야 한다. 사전의 색인 구조를 포함한 많은 부분이 주기억 장치내에 상주해야하고 적은 양의 주기억장치를 차지해야 한다. 시스템의 초기화 시 사전 색인 구조를 주기억 장 치로 읽는 시간이 짧아야 한다. 사전 엔트리의 수정시 검색과 동시에 삽입 삭제 가능하여야 한다.
HSPELL 의 사전구조 학 학교 학생 학원 학원장 학장 … ㄱ.. ㅅ ㅇ ㅈ.. ㅎ. ㅏ … ㅣ 텍스트사전 학 ㄱ.. ㅛ.. ㅣ …ㅐ……ㅐ… …눠……눠… ㅏ …ㅇ……ㅇ……ㄴ……ㄴ….. ㅇ ㅈ ㅏ…ㅏ….. ㅇ 주기억장치에 로딩된 사전
DACOHSE 의 사전구조 학 학교 학생 학원 학원장 학장 … 학 학교 학생 학원 학원장 학장 ….…. 파일에 구현된 사전 메모리에 코드된 사전화일정보 A. 텍스트사전 B. 구현된 사전 색인 구조
BTI 의 사전구조 학 학교 학생 학원 학원장 학장 … … … … 교 생 원 장 장 학 자식 포인터 접속 정보 테이블 주기억장치 A. 텍스트사전 B. 저장상태 ㈜ : 형제포인터