Download presentation
Presentation is loading. Please wait.
Published byPhùng Dung Modified 5년 전
1
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
2.5 전형적인 정보 검색 2.6 다른 집합 이론 모델 2.7 다른 대수 모델 2.8 다른 확률 모델 2.9 구조적 텍스트 검색 모델 2.10 브라우징 모델 2.11 연구 동향 및 쟁점 2.12 참고 문헌 고찰 Chapter 2
2
2.1 소 개 전형적인 IR 시스템 색인어 (Indexing Term) 순위 결정 (Ranking) 알고리즘
2.1 소 개 전형적인 IR 시스템 문헌 색인과 검색에 색인어 적용 색인어 (Indexing Term) 키워드(Keyword) : 의미를 갖는 용어 (명사) 문헌 텍스트에 나오는 모든 단어 순위 결정 (Ranking) 알고리즘 검색된 문헌을 연관성에 기반하여 순위화 문헌 연관성: 여러 정보 검색 모델을 구분 Chapter 2
3
2.2 IR 모델의 분류체계 Chapter 2
4
검색 모델 분류 문헌의 논리상 색인어 전문 전문 + 구조 검색 전 통 집합론 대수론 확률론 구조 브라우징 평 면 하이퍼텍스트
전 통 집합론 대수론 확률론 구조 브라우징 평 면 하이퍼텍스트 구조 기반 사 용 자 과 제 Chapter 2
5
2.3 검색 축적 (Ad hoc) 검색 여과 (Filtering) 문헌 컬렉션은 정적 질의는 정적, 문헌은 동적
2.3 검색 축적 (Ad hoc) 검색 문헌 컬렉션은 정적 질의는 동적 (Ad hoc: 임시) 사용자 과제의 일반적인 형태 여과 (Filtering) 질의는 정적, 문헌은 동적 사용자 프로파일 (profile) - 사용자의 기호(preference)를 서술 라우팅 (Routing,3장 참조) - 여과된 문헌의 순위까지 제공 Chapter 2
6
2.4 IR 모델의 형식 특성 IR 모델 Chapter 2
7
2.5 전형적인 정보검색 불리안 (Boolean) 모델 벡터 (Vector) 모델 확률 (Probabilistic) 모델
2.5 전형적인 정보검색 불리안 (Boolean) 모델 - 집합 (Set) 모델 문헌과 질의가 색인어의 집합으로 표현 집합과 표준적인 집합 연산자로 구성 벡터 (Vector) 모델 - 대수 (Algebra) 모델 문헌과 질의가 t 차원 공간의 벡터로 표시 벡터 계산을 위한 표준 선형 대수 연산자로 구성 확률 (Probabilistic) 모델 문헌과 질의 표현이 확률론에 근거 집합, 확률 연산과 베이즈 정리 (Bayes’ theorem)로 구성 Chapter 2
8
2.5.1 기본 개념 (1) 색인어 문헌의 주제를 나타내는 의미를 지닌 단어 명사가 주 명사는 자신만의 의미를 지님
기본 개념 (1) 색인어 문헌의 주제를 나타내는 의미를 지닌 단어 명사가 주 명사는 자신만의 의미를 지님 가중치 (Weights) 문헌 대표성의 차이 정의 Chapter 2
9
기본 개념 (2) 색인어 상호 독립성 가정 색인어 상호 연관성 색인어 가중치는 상호 독립이라고 가정
(ki, dj) 의 가중치 wij 는 (ki+1, dj) 의 가중치 w(i+1)j 와 무관 색인어 가중치 계산을 단순화 빠른 순위 계산 가능 색인어 상호 연관성 실제 문헌 내에서의 색인어 출현은 서로 연관 예 컴퓨터 네트워크 분야: ‘컴퓨터’와 ‘네트워크’ 두 단어는 상호 연관되어 가중치에 영향 실제 상황에서 색인어 연관성은 순위화에 악영향 Chapter 2
10
2.5.2 불리안 모델 (1) 근거 장점 단점 집합 이론, 불 대수 연산 : and, or, not
불리안 모델 (1) 근거 집합 이론, 불 대수 연산 : and, or, not 장점 직관적이고 이해하기 쉬운 형식 명확한 의미를 지닌 질의 단점 이진 결정 부분 정합 불가 너무 작거나 많은 검색 결과 사용자 요구의 불리안 표현 작성이 어려움 Chapter 2
11
불리안 모델 (2) 정의 Chapter 2
12
불리안 모델 (3) 예 Chapter 2
13
2.5.3 벡터모델 (1) 동기 이진 가중치의 제한 색인어에 비이진 가중치 할당 부분 정합이 가능한 틀 제공
벡터모델 (1) 동기 이진 가중치의 제한 색인어에 비이진 가중치 할당 부분 정합이 가능한 틀 제공 문헌과 질의의 유사도(similarity)에 따라 순위화 가능 Cosine 유사도 예 Chapter 2
14
벡터모델 (2) 정의 Chapter 2
15
벡터모델 (3) 클러스터링 (Clustering) 문제 IR 문제 클러스터내(Intra-cluster) 유사도
객체를 가장 잘 표현한 속성 클러스터간 (Inter-cluster) 유사도 객체를 가장 잘 구분한 속성 IR 문제 클러스터내 유사도 tf : term frequency 문헌 dj 에서 용어 ki 의 순수 빈도수 클러스터간 유사도 idf : inverse document frequency 용어 ki 의 문헌 빈도수의 역수 (역문헌 빈도수) Chapter 2
16
벡터모델 (4) 가중치 기법 용어 빈도수 (tf) 문헌내 용어 빈도수가 높을 수록 연관이 큼 역문헌 빈도수 (idf)
많은 문헌에 출현한 용어는 연관/비연관 문헌을 구분하기 어려움 Chapter 2
17
벡터모델 (5) 잘 알려진 색인어 가중치 기법 tf 와 idf 의 균형 (tf-idf 기법) 질의 용어 가중치 기법
Chapter 2
18
벡터모델 (6) 장점 단점 용어 가중치 기법이 검색 성능을 향상 질의에 근접한 부분 정합 문헌 검색 가능
질의와의 유사도에 따라 문헌 순위화 가능 질의 확장이나 연관 피드백을 사용하여 성능 향상 단순하고 빠르기 때문에, 현재 가장 대중적인 검색 모델 단점 색인어간 상호 독립성 가정 tf-idf 기법은 색인어 독립을 가정 실제적으로 용어 종속은 성능에 악영향 Chapter 2
19
2.5.4 확률 모델 (1) 동기 가정 (확률 원칙) IR 문제를 확률 틀로 해석
확률 모델 (1) 동기 IR 문제를 확률 틀로 해석 1976년에 Robertson과 Sparck Jones[677]가 제안 가정 (확률 원칙) 연관 확률은 문헌과 질의 표현에만 종속 질의 q 의 이상적인 정답 집합 (R) 가정 R 집합의 문헌은 질의에 연관 (relevant)되고 다른 문헌은 비연관 (non-relevant) Chapter 2
20
확률 모델 (2) 정의 Bayes’ rule 색인어 독립성 가정 Log를 취하고, 상수 무시 Chapter 2
21
확률 모델 (3) Initial Probability Improving Probability 너무 작은 V 와 Vi 의 경우,
조정 요소를 더함 Chapter 2
22
확률 모델 (4) 장점 단점 연관 확률에 따라 문헌 순위화 초기 문헌을 연관/비연관으로 분리 가정 이진 가중치
색인어의 문헌내 빈도수 비고려 색인어 독립성 가정 Chapter 2
23
2.5.5 전통 모델의 비교 불리안 모델 벡터 모델 벡터 모델과 확률 모델 가장 약한 모델
전통 모델의 비교 불리안 모델 가장 약한 모델 부분 정합 인식 불가 -> 낮은 성능 벡터 모델 널리 사용되는 검색 모델 벡터 모델과 확률 모델 Croft 확률 모델이 더 좋은 검색 성능을 제공 Salton, Buckley 일반 컬렉션에서 벡터 모델이 더 좋은 성능을 보임 Chapter 2
Similar presentations