텍스트 분석 색인 작성 행렬 모델 용어 추출 및 분석 어휘 척도 문헌 유사도 어휘 통제 분석.

Slides:



Advertisements
Similar presentations
Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
Advertisements

의사 결정 트리(decision tree)
김태원 심재일 김상래 강신택. 김태원 심재일 김상래 강신택 인터넷 통신망의 정보를 제공하는 서비스 인터넷의 자원 및 정보는 NIC가 관리 IP주소 또는 도메인으로 정보 검색 이용자 및 통신망 관한 정보를 제공.
제2장 주파수 영역에서의 모델링.
Report #5 - due: 4/13 다음 10*5의 희소 행렬 A, B를 고려하라.
Entity Relationship Diagram
Excel 일차 강사 : 박영민.
제 9 장 구조체와 공용체.
컴퓨터 프로그래밍 기초 [Final] 기말고사
10장 랜덤 디지털 신호처리 1.
Hybrid INDIGO project 중간보고
Learning Classifier using DNA Bagging
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
23장. 구조체와 사용자 정의 자료형 2.
상관함수 correlation function
Missing Value.
11장. 1차원 배열.
제4장 제어 시스템의 성능.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
프로그래밍 개요
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
27장. 모듈화 프로그래밍.
제 10 장 의사결정이란 의사결정은 선택이다.
Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의
퍼지이론(Fuzzy Theory) 지 은 희.
마인드 맵.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
원격탐사의 활용 - Mapping -.
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
USN(Ubiquitous Sensor Network)
4 장 신호(Signals) 4.1 아날로그와 디지털(Analog and Digital)
Frequency distributions and Graphic presentation of data
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
제 11장 인자분석(Factor Analysis)
문자열 컴퓨터시뮬레이션학과 2015년 봄학기 담당교수 : 이형원 E304호,
텍스트 분석 기초.
논문작성을 위한 연구모형 설정 양동훈.
알고리즘 알고리즘이란 무엇인가?.
데이터 동적 할당 Collection class.
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
에어 PHP 입문.
문서 클러스터링 일본언어문화학과 서동진.
홍수추적 담당교수명 : 서 영 민 연 락 처 :
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Word2Vec.
Support Vector Machine
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
Chapter 10 데이터 검색1.
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
비교분석 보고서 Template 2015.
상관계수.
Numerical Analysis Programming using NRs
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
텍스트 분석 ㈜ 퀀트랩.
제 4 장 Record.
In-house Consultant Training
 6장. SQL 쿼리.
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
C++ Espresso 제15장 STL 알고리즘.
7 생성자 함수.
6 객체.
Presentation transcript:

텍스트 분석 색인 작성 행렬 모델 용어 추출 및 분석 어휘 척도 문헌 유사도 어휘 통제 분석

텍스트 분석 및 색인 텍스트 분석 색인 : 문헌분석을 통한 생산된 문헌 대리자의 일종 색인의 목적 텍스트 문헌의 전문에 대한 데이터베이스 표현의 어려움 효율적인 문헌 검색 문헌 대리자 생성 ← 문헌의 원문 분석 작업 색인 : 문헌분석을 통한 생산된 문헌 대리자의 일종 문헌내에서의 선정된 용어 + 용어의 위치 빈도 수치, 관련 수학법칙, 저자 인용사항 등 다양한 형태로 구성 색인의 목적 주제에 의해 문헌의 소재를 쉽게 검색 주제영역을 정의함으로 문헌간의 연계가능 주어진 문헌의 적합성 여부 예측 가능 모든 문헌이 색인을 갖는가 ? 일반적인 전문 서적류 : 색인 있음. 소설, 희곡, 논문 등은 색인 없음

색인(Index) - 1 색인언어 특성 색인 작성(indexing) 망라성 (exhaustivity) 색인 용어(index term)가 갖는 범위의 포괄성 : 문헌의 주제와 개념의 포괄 정도 특정성 (specificity) 색인 용어의 깊이를 의미 : 문헌 주제 표현의 상세 정도 색인 작성(indexing) 하나의 문헌에 색인 용어를 할당하는 작업 색인 작성 방식 수작업 방식 : 문헌 작성자 또는 전문적인 색인 작성자가 생성 자동 생성 방식 : 색인 용어 결정 알고리즘에 의해 생성 통제된(controlled) 색인언어 또는 통제되지 않은(uncontrolled) 색인언어

색인(Index) - 2 색인 작성을 위한 전처리 단계 문 헌 액센트, 띄어쓰기 구조 인식 불용어 명사 집합 스테밍 색인 생성 텍스트 + 구조 텍스트 전문 색인어

수작업 색인 수작업 색인작성 +. 문헌을 표현하는 것에 대한 융통성 부여 색인언어를 직접 사람이 가공 특성 −. 일관성 결여 : 다양한 수준의 망라성과 특정성 −. 자신의 견해에 대한 편견 개입 −. 색인작성자와 사용자 사이의 불일치 : 용어 개념 차이 동일 문헌에 대한 색인 작성자들간의 결과 일치율 : 20% 대처 방안 : 통제된 어휘 사용 유도 색인작성자 및 사용자 : 공통의 용어 집단 사용 문헌 내용 표현의 어려움 존재

자동 색인 자동 색인작성 색인용어의 결정 과정에서 알고리즘 사용 특성 +. 수작업 색인작성자의 편견 개입을 배제 −. 알고리즘 개발자의 편견이 여전히 존재 자동 색인 작성 알고리즘 문헌내에 등장하는 단어의 출현 빈도 기반 의미단어와 무의미 단어로 구분 의미 단어에 대한 문헌 출현 빈도수 산정 중요성이 높은 대표 색인 : 출현빈도수(특정 용어) >> 평균빈도수(전체 용어)

색인 - 상호 참조 색인 엔트리(entry) 상호 참조 (cross referencing) 핵심 명사 기반의 엔트리 정의 : “Digital Computer”에 대한 색인 → “Computer, Digital” 상호 참조 (cross referencing) 색인 언어가 갖는 연결(links)과 역할(roles)의 개념 색인 용어에 대한 유용성을 강화 상호 참조 색인의 유형들 유 형 형 태 예 제 통제 용어 See coal, see fuel 관련 용어 See also microcomputer, see also personal comp. 광의 용어 Broader term (BT) poodle, BT dog 협의 용어 Narrower term (NT) dog, NT poodle, pointer, spaniel

행렬모형(1) 문헌과 용어 또는 이들간의 관계를 표현하기 위한 방법 행렬 모형 행렬 모형 종류 3 가지 행렬을 사용하여 용어와 문헌 사이의 관계 규명 행 객체와 열 객체 사이의 관계를 계량화 행렬 모형 종류 용어-문헌 행렬 ‘A’ 행은 어휘 용어, 열은 문헌을 표시하는 모형 ex) Aij = 0 : i번째 용어가 j번째 문헌에 출현하지 않음. 용어-용어 행렬 ‘T’ 행과 열 모두 어휘 용어를 표시하는 정방형의 모형 ex) Tij ≠ 0 : i번째 용어와 j번째 용어가 어떤 문헌에 동시에 출현 하거나, 두 용어 사이에 특정 관계가 있음

행렬모형(2) 행렬 모형 종류 (계속) 문헌-문헌 행렬 ‘D’ 행과 열 모두 문헌을 표시하는 모형 ex) Dij ≠ 0 : 해당 문헌들이 어떤 용어를 공통으로 포함하고 있거나, 해당 문헌들이 동일 저자에 의해 생산되었을 때와 같이 문헌들 사이에 특정한 관계가 있음 1 행렬 모형의 단점 - 계량화의 어려움 : 방대한 행렬 크기 - 예제 : 5만개 어휘를 가진 3백만권 장서 : A 행렬 = 15 X 1010 개의 Cells : T 행렬 = 25 X 108 개의 Cells : D 행렬 = 9 X 1012 개의 Cells → 대체 모형 사용 : 용어리스트 , 문헌리스트 <행렬 모형 예제>

용어의 추출과 분석 (1) 색인용어를 결정하는 관점 문헌의 한 두 번 나오는 용어는 부적합 예) 서문, 요약, 결론 등 ? 출현빈도가 높은 용어는 부적합 일상적인 용어는 문헌의 주제와 특별한 관련이 없다 예) 그러나, 그리고, and , or , the 출현빈도가 거의 사용되지 않는 용어는 부적합 문헌의 한 두 번 나오는 용어는 부적합 예) 서문, 요약, 결론 등 일반적으로 위의 두 경우 사이에 나오는 용어를 색인용어로 고려 ?

용어의 추출과 분석 (2) Zipf 의 법칙 순위 * 출현 빈도 = 상수 가장 흔히 등장하는 20%의 단어들이 문헌 전체 용어의 70%를 구성 쓰이는 횟수가 매우 드문 희귀한 단어들 역시 일반적인 문서 구분에는 도움이 안됨 이 부분은 문서에 너무 많이 등장하기 때문에 문서들을 구분하고 대표하는 데 별 의미가 없음

용어 관계 색인용어 추출 시, 용어들 사이의 관계 고려하여 색인어로 선정 용어 사이의 근접성 추출된 용어와 문헌 그룹과의 관계 단어 사이의 근접도를 시스템 설계에 활용 ex) the felon’s information assured retrieval of the money  information과 retrieval은 동일 문장에서 사용되었지만 ‘information retrieval’이 갖는 의미와는 다름 근접도 측정 방법 두 단어 사이에 끼어 있는 단어의 수 동일 문장에 나타나는 단어들의 근접도를 높게 고려 단어의 순서, 구두점(쉼표) 추출된 용어와 문헌 그룹과의 관계 Digital Computer : (?) 의학문헌, 음학문헌, 전산 문헌, 철학문헌 the felon’s information assured retrieval of the money : 악당에 대한 정보는 돈의 추적에서 확인되었다.

용어의 중요성 판단을 위한 어휘 척도 문헌 분석 : 용어의 출현 빈도에 기초 절대용어빈도 (absolute term frequency) 용어가 출현된 절대적인 빈도수를 기준 문헌 크기에 따라 출현 빈도가 동일한 용어의 상대적 중요도는 다름 ex) 100 단어로 구성된 문헌에서 10번 출현하는 용어가 10,000단어로 구성된 문헌에서도 10번 출현하는 경우 상대용어빈도 (relative term frequency) 문헌과 문헌집단의 크기와 특성을 고려하여 용어의 출현빈도 측정 개별 문헌에서의 용어의 순수 출현빈도를 문헌의 길이로 나눔 문헌 집합에서의 상대용어 빈도 산출 (특정단어의 출현빈도 / 모든 단어 수) for  di  D (특정단어가 출현하는 문헌수 / 문헌집합의 전체 문헌수)

어휘척도 1 - 역문헌빈도 가중치(1) 역문헌빈도 가중치(inverse document frequency weight) 개별 문헌의 관점이 아닌 문헌 집단의 관점에서 출현 빈도 고려 한 문헌에서 어떤 용어의 출현빈도를 산출할 때 그 용어를 포함하고 있는 집합내의 문헌의 수에 의거하여 가중치를 부여 문헌 집단의 다수의 문헌에 출현하는 용어 개별 문헌 식별성이 떨어짐 → 낮은 가중치 부여 역문헌 빈도(idf) 산출 공식 N : 문헌집단에 포함된 문헌의 총 수 dk : 용어 k를 포함하고 있는 문헌의 수 fik : 문헌 i에서 용어 k의 절대 빈도 wik : 문헌 i에서 용어 k의 가중치 idf 공식에서 dk 값이 증가하면 idf 값은 감소 - N/dk : 주어진 용어를 포함하는 문헌들이 문헌집합을 구성하는 비율

어휘척도 1 - 역문헌빈도 가중치(2) 역문헌 빈도 가중치 문헌 i에서 용어 k의 역문헌빈도 가중치 , Wik = 역문헌빈도(idf) X 용어빈도(tf), 즉 한 문헌에서 특정 용어의 중요도(역문헌 빈도 가중치) 문헌 내에서 : 해당 용어의 출현 빈도에 따라 증가 문헌집합에서 : 해당 용어를 포함하는 문헌의 수에 따라 감소

어휘척도 2 - 신호 대 잡음 비율(1) 정보이론을 이용한 용어의 가치 측정 기본 개념 주어진 신호 혹은 일련의 단어들에 포함된 정보량(information content)에 대한 정의 정보량 H의 기본 가정 Pi(i=1,…,n) : i 번째 단어가 대상 단어 집합에서 선택될 확률 (1) 정보량 H는 Pi가 아주 미세하게 변할 때, 그만큼만 변한다. (2) 모든 Pi가 동일하다면(즉, Pi = 1/n), H는 메시지의 숫자인 n이 증가함에 따라 증가 정보량 H는 선택 가능한 메시지의 수가 많을수록 커짐. (3) 하나의 작업이 두 개의 연속적인 작업으로 분리된다면, 최초 H는 분리된 두 과정에서 나타나는 결과(정보량)의 합

어휘척도 2 - 신호 대 잡음 비율(2) 정보량 H 함수 K: 양의 값을 갖는 스케일링 상수 pi : 어떤 텍스트에서 각 심볼이 출현할 확률 예제 3 메시지의 확률 : P1=1/2, P2=1/3, P3=1/6 H(1/2, 1/3, 1/6) Where, K=1 보다 빈번히 등장 하는 단어일수록 (즉, 확률 Pi값이 클수록) 그 단어가 내포하는 정보량은 적다.

어휘척도 3 - 용어의 문헌 식별 값 (1) 용어의 문헌 식별 값(Term discrimination value) 색인용어는 문헌을 두 개의 집합으로 분리하는 수단 검색될 문헌집합, 검색되지 않을 문헌집합 용어의 문헌 식별 값 하나의 용어가 서로 유사한 문헌들을 다른 문헌집단으로부터 분리해 낼 수 있는 측도 특정한 단어가 한 문헌집단 속에서 상호 관련 없는 문헌들을 분리시키는 능력을 측정한 것 두 문헌 사이의 유사성()을 이용하여 정의됨 두 문헌 간의 유사성은 그 문헌들이 포함한 주요 용어를 비교하여 평가 (D1, D2) = 1에 가까우면 : 두 문헌의 주요 용어가 (거의) 동일함 (D1, D2) = 0에 가까우면 : 두 문헌의 주요 용어가 서로 다름 문헌 간의 유사도는 5.7절에서 자세히 소개됨

어휘척도 3 - 용어의 문헌 식별 값 (2) 용어의 문헌 식별 특정한 단어의 문헌 분리 “좋은 색인어는 문헌집단을 구성하는 문헌들 가운데 서로 주제가 다른 문헌들을 가능한 분리시키며 나쁜 색인어는 반대로 이러한 문헌들을 무리 짓는다.” 특정한 단어의 문헌 분리 단어가 색인어로 부여되기 이전과 부여된 이후의 문헌간의 평균유사도의 차이를 측정 좋은 색인어는 이 색인어를 문헌집단에서 제거했을 때 문헌간의 평균 유사도를 증가 시킴. 색인어 부여 전의 문헌집단 색인어 부여 후의 문헌집단 관련문헌 비 관련문헌

어휘척도 3 - 용어의 문헌 식별 값 (1) 용어의 문헌 식별 값(Term discrimination value) (계속) 문헌 식별값 계산 방법 문헌 집단내의 모든 문헌들의 평균 유사도 : D*는 중심문헌 (또는 임의의 다른 문헌) 용어 k를 제외했을 때의 평균 유사도 : 용어 k에 대한 식별값 : 문헌 식별 값을 이용한 용어 가중치 정의

어휘척도 4 - 구와 근접도 (1) 구의 출현 빈도 및 가중치 구의 출현빈도(phrase frequency)나 가중치 계산 개별 단어 산출 방법과 동일 구(phrase)의 고유 출현빈도 구성 단어의 출현 빈도보다 낮기 때문에 다른 방식 사용 예제 : information 172번, retrieval 67번 출현 : freq (information retrieval)  67번 구의 가중치 부여 문헌에서 information 만 나오는 경우 : 가중치 1 문헌에서 retrieval만 나오는 경우 : 가중치 2 문헌에서 information retrieval이 나오는 경우 : 가중치 3

어휘척도 4 - 구와 근접도 (2) 구와 근접도 구는 다양한 형태로 존재 가능 Information retrieval, information storage and retrieval, retrieval of information, … 단어간의 근접도를 이용하여 구에 대한 처리 가능 근접도가 높은 경우 구를 색인어로 선정 가능 예제 : 두 단어간의 근접도가 2이하인 경우 Information retrieval Information storage and retrieval Retrieval of information 3가지 경우가 모두 선택 가능

어휘척도 5 – 그 밖의 방법들 실용적인 인자(Pragmatic factors) 어휘척도 5 – 그 밖의 방법들 실용적인 인자(Pragmatic factors) 키워드(색인 용어)외에, 데이터베이스 검색이나 정보검색 과정에서 나타나는 특징으로부터 추출된 실용적인 요소들을 정보 검색에 활용 가능함 트리거 구 문헌이 포함하고 있는 정보의 명확한 특징을 나타내 주는 구를 이용 ex) ‘결론’이나 ‘발견’과 같이 해당 문헌의 중심 내용과 아이디어를 제시한 구 트리거 구는 종종 색인 용어로는 포함될 수 없으나, 검색에 유용하게 활용 가능함 문헌의 ‘소스(출처)’ 예) 어떤 저자가 특정 분야의 leader일 경우 그사람의 문헌에 특별한 가중치 부여 검색 시스템 사용자의 배경/특징 예) 사용자가 고등학생인가? 아니면 박사학이 소지자인가?

문헌유사도 (1) 유사도(similarity) 측정 목적 유사문헌 검색 지원 유사도 측정법 질의를 통해 표출된 정보요구에 유사한 내용을 가진 문헌을 검색 유사한 문헌들을 클러스터링/분류 유사문헌 검색 지원 목록이나 색인의 작성자들은 문헌집단을 조직할 때 유사 문헌들을 한데 묶어줌으로써 최소한의노력으로 문헌그룹 검색 유사도 측정법 어휘 중심의 측정 1) 특정 용어의 존재 유무만을 기본으로 하는 측정법 2) 출현빈도를 기본으로 하는 측정법 기타 측정법 용어에 대한 중요성을 고려한 측정 구(phrase) 및 단어 근접도를 고려한 유사도 측정 어간법, 시소러스 등을 이용한 두 문헌간의 유사성 파악

문헌유사도(2) 문헌의 기본적인 벡터 표현 용어 존재 여부만 고려한 문헌 유사도 D = <t1,t2, … , tN>, where ti=0 or 1 (용어 존재 유무만 고려할 경우) or 출현 회수/가중치 용어 존재 여부만 고려한 문헌 유사도 두 문헌 벡터 D1과 D2에 대하여 D1 = <t11, t12, .., t1n>, D2 = <t21, t22, …, t2n> w = t1i = t2i = 1인 용어의 수 x = t1i = 1, t2i = 0인 용어의 수 y = t1i = 0, t2i = 1인 용어의 수 z = t1i = t2i = 0인 용어의 수 n1 = w + x, n2 = w + y, N = w + x + y + z 두 문헌이 유사한 경우 : w는 비교적 큰 수 두 문헌에 유사도가 거의 없는 경우 : x와 y의 수가 큼. t1i = 0 t1i = 1 t2i = 1 t2i = 0 w x y z n1 n2 N-n1 N-n2 N D1 D2

문헌유사도(3) 용어 존재 여부만 고려한 문헌 유사도 (계속) 유사도의 기본적인 정의 (기본적인 요소) 두 문헌의 유사도 정의 확장 연관 계수 선택 방법 1 : 두 문헌 D1과 D2의 분리 정도를 이용 x w y z N D1 D2 (α : 연관계수) 유사도가 0인 경우의 분리 정도 즉, 최대로 분리될 때 현재의 분리 정도

문헌유사도(4) 연관 계수 선택 방법들 α(S) = N/2 기타 비교 계수 들 다양한 문헌 비교 계수, α 기타 비교 계수 들 : 중복 계수(α(P)), 확률 차분 I(α(U)), 확률 차분 II(α(V)), 선형 상관(α(L)), 율(Yule) 결합 계수(α(Y)), 율 보조량(α(Q)), 독립 색인(α(I)) 등 계수 특성식 계 수 직각거리, α(R) Max(n1, n2) 조건부 확률, α(W) Min(n1, n2) 벡터 각, α(G) (n1n2) 1/2 산술평균, α(E) (n1+n2) / 2

문헌유사도(5) 문헌 계수의 관계 유사성 측도간의 순위 관계 문헌 분리 α(S) 직각거리 α(R) 조건부 확률 α(W) 벡터 각 α(G) 산술 평균 α(E) 중복계수 α(P) 확률차분 α(U), α(V) 선형상관 α(L) 율(Yule) 결합계수 α(Y) 율(Yule) 보조량 α(Q) 독립색인 α(I) S R E G W I P U L V Y Q α(S)  α(E)  α(G)  α(W)  α(I) 연결성이 없는 경우 : 매개변수의 값에 따라 관계 변경 가능

문헌유사도(6) 또 다른 계수들 (w를 고려하는) 다이스 계수 (Dice’s Coefficient) : 산술 평균과 관련 코싸인 계수 : 벡터 각과 관련 조건부 중복 계수 : 조건부 확률 관련 자카드 계수(Jaccard’s Coefficient) 계수 : 문헌의 형태나 유사성을 설명하기 위해 사용하나 최고의 측정 방법(계수)는 존재하지 않는다.

문헌유사도(7) 거리 측도를 이용한 문헌 유사도 문헌들 간의 거리가 멀면 멀수록 유사성은 떨어진다 질의어와 질의 조건을 모두 만족시키는 문헌 : 거리가 0인 문헌 문헌 텍스트와 질의 텍스트간의 차이가 존재하나 가장 높은 유사도를 갖는다면 거리 = 0 선형 관계에서의 거리 측도 L (d: 거리) Where,  = {1 | 2 |  }   = 1인 경우(도시블럭거리)   = 인 경우 (최적방향거리) :  = 2인 경우는 일반적인 Euclidean distance를 의미하는 직선 거리 관계

예 제 4개의 문헌에 각기 다른 4개의 주요 용어 및 이의 가중치 문헌 쌍 들사이의 거리  예 제 4개의 문헌에 각기 다른 4개의 주요 용어 및 이의 가중치 D1=<2, 0, 3, 5> D2=<0, 4, 0, 1> D3=<3, 1, 1, 2> D4=<2, 4, 1, 0> 문헌 쌍 들사이의 거리  문헌쌍 (D1, D4) 사이의 거리 : 어떠한 거리 측도를 사용했는가에 따라 값의 형태가 달라짐  측도에 따라 거리가 다양하게 변화 가능 (측도 선정의 주의성)

어휘 통제 - 불용어 목록 (1) 통제되지 않는 어휘 출현빈도가 아주 높은 단어들의 부정적 영향 해결 방안 일상적인 단어, 단어의 변형, 동의어의 사용 the, of, and, to, a, in : 인쇄된 텍스트의 20 ~ 30% 출현빈도가 아주 높은 단어들의 부정적 영향 단어 빈도에 의한 측정법 : 단어 출현빈도의 차이에 대한 비교 의미 감소 단어 자체의 의미가 없기 때문에 비생산적인 처리과정을 유발 해결 방안 불용어 목록(stop list) 또는 부정어 사전(negative dictionary) 개발 일반적인 불용어 목록의 크기 : 250 ~ 300 단어 문헌 비교 및 검색 과정의 단순화 및 효율성 증대

어휘 통제 - 불용어 목록 (2) 구에 대한 불용어 처리 방법 불용어 식별을 위한 자료 구조 “To be, or not to be” 불용어로 구성된 구를 고려하기 위한 특별한 기법 적용해야 함. 불용어 식별을 위한 자료 구조 이진트리 불용어 목록의 크기가 작고 일반적으로 알려져 있는 경우 해싱기법 각 불용어에 상호 구별될 수 있는 해쉬 함수 값 할당 트라이(Trie) 구조 불용어에 대한 문자 단위 확인 Ex) the, then, to 와 technology

어휘 통제 – 어간법 (1) 하나의 단어가 다양한 형태로 파생될 때, 스테밍 알고리즘 이용 ex) computer, computers, computing, compute, computes, computed, computational, computationally, computable 스테밍 알고리즘 단어의 핵심이 되는 어근에 도달하기 위해 단어 끝부분을 반복적으로 제거 Ex) Computationally의 경우 : computational →computation → computa → comput 접두사의 제거의 어려움 접두사인지, 단어의 일부인지 구분 모호 Ex) impossible v.s. immediately

어휘 통제 – 어간법(2) 스테밍 알고리즘의 문제점 문헌 전체에 대한 스테밍 작업의 부하 단어의 끝부분에 대한 잘못된 제거 ex) ‘bed’에서 끝부분 ‘ed’를 제거할 수 없음 → 최소 어근 길이 정의 또는 예외 단어 리스트 정의로 해결 단어의 어근(stem) 자체가 변하는 경우 ex) knifeknives → 일반화된 패턴 구조 : 복수형 변환 → 예외 규칙으로 정의하여 알고리즘에 적용 문헌 전체에 대한 스테밍 작업의 부하 단어의 파생 및 변화 : 전체 문헌 두성 단어의 5~10% 스테밍을 위한 과도한 처리 부하 발생 가능성 해결 방안 사용자 질의 자체를 스테밍한 후 와일드 문자(*)로 대체 검색

어휘 통제 - 다언어 검색 시스템 개발 배경 각 언어만의 특성이 검색시스템에 반영되어야 함 초기 작업은 영어로 된 문헌 대상 인터넷과 웹의 보급으로 인해 다른 언어들도 처리할 수 있는 검색 시스템들이 개발 각 언어만의 특성이 검색시스템에 반영되어야 함 예) 중국어 : 단어들 사이에 공간이 없이 연속된 문자열로 작성됨 영국영어와 미국영어에 있어서 철자 및 단어 의미의 차이 존재 하나의 언어로 작성된 질의어를 통해 다른 언어로 된 문헌도 검색 가능한 시스템 개발 노력 다언어 검색 시스템의 활용성 사용자 그룹의 성격과 규모에 좌우 외교 업무, 연구활동에 종사하는 등의 특정집단에서 유용한 도구로서 사용

어휘 통제 - 시소러스 동일한 의미를 갖는 관련 용어가 서로 다른 형태로 구성된 경우 예: post a letter 와 mail a letter → 용어 유의어 사전(시소러스) 사용 시소러스의 정의 용어들의 동의어와 유사어를 분류하고 용어 상호간의 관계와 계통을 구분 하여 생성한 용어사전 광의어, 협의어, 관련어, 유사어, 반의어 시소러스 사용 목적 유사 혹은 관련 용어의 사용으로 인한 단어의 변형을 처리 문헌의 조직 및 축적 단계에서 어휘를 통제하기 위해 사용 질의 과정에서 질의의 범위를 확대하기 위해 사용 적절한 동의어를 누락되지 않게 구성하는 작업이 중요 항상 동시 출현하는 용어 : 시소러스에 포함하여 활용 가능