검색모델의 종류 불리안 모델 벡터 공간 모델 퍼지 집합 모델 확률 모델
불리안 모델 가장 많이 사용하는 검색기법 Boolean logic을 이용한 탐색문. 탐색어와 탐색어간의 논리적인 관계로 구성됨 집합문서 들이 선택되고 논리곱,논리합,논리차의 논리 관계에 해당하는 집합연산을 실시함
불리안 모델의 장단점 장점: 1.이용자가 작성 용이 2.컴퓨터가 처리 용이 단점:1.탐색어 들 간의 상대적인 중요도를 나타내지 못함 2.유사도의 크기순으로 검색문헌을 출력할수 없음 3.탐색문과 완전히 일치되는 문헌만 검색됨
벡터공간모델 질문과 문헌의 유사도를 측정함 유사계수가 일정치 이상인 문헌을 모두 검색 유사도가 가장 큰 일정수의 문헌만을 검색할 수 있다.
부분 멤버쉽을 이용한 것 색인어에 부여된 가중치에 의해 부분 맴버쉽을 표현 퍼지 집합상의 연산을 통해 적합한 문헌을 검색 퍼지집합모델 부분 멤버쉽을 이용한 것 색인어에 부여된 가중치에 의해 부분 맴버쉽을 표현 퍼지 집합상의 연산을 통해 적합한 문헌을 검색
3가지 기본연산 합집합:퍼지집합 A와 B의 합집합 fAUB(X)=max[fA(x),fB(x)] fA∩B(X)=min[fA(x),fB(x)] 여집합:퍼지집합 A의 여집합 fA(X)=1- fA(X)
질문에 대해 각 문헌이 적합할 확률과 부적합확률을 산출 적합확률이 부적합확률보다 큰 문헌을 검색하는 모델. 확 률 모 델 질문에 대해 각 문헌이 적합할 확률과 부적합확률을 산출 적합확률이 부적합확률보다 큰 문헌을 검색하는 모델.
정보검색시스템의 평가 검색효율 ,신속성,경제성의 세가지 측면 검색효율이 가장 중요한 평가기준으로 간주 검색효율: 가능한 한 적합문헌을 모두 검색해 내며 동시에 부적합문헌은 검색해 내지 않는 검색시스템의 능력을 평가하는 것.
검색결과에 따른 문서의 구분 적합문헌 검색되지 않은 적합문헌 부적합문헌 c 검색된 적합문헌 b 검색되지 않은 부적합문헌 a d 검색 되지 않은 문헌 검색된 문헌
재현율(Recall ratio) 시스템이 적합문헌을 검색해 내는 능력 검색의 완전성을 측정 검색효율 척도 중 가장 널리 사용되고 있슴. 재현율= 검색된 적합 문헌 수 a = 검색된 문헌 총수 a+c
정확률(precision ratio) 시스템이 부적합문헌을 검색해 내지 않는 능력 정확률= 검색된 적합 문헌 수 a = 검색된 문헌 총수 a+b
재현율과 정확율의 성능곡선 1.0 최대곡선 a 0.8 정확율 0.6 b c d 0.4 0.2 1.0 0.2 0.4 0.6 0.2 0.4 0.6 0.8 재현율