정보검색 시스템 평가 및 테스트 컬렉션 개발 조영환, 박혁로, 이준호 정보과학회지 1998.8
시스템 평가를 위한 기본 모형 정보검색 시스템 질의-검색 평가 기준 부적합한 평가항목 문서의 등록, 저장, 검색 포함 정확률과 재현율 부적합한 평가항목 상용의 정보검색 시스템에서 제공하는 부가적인 기능 Web 인터페이스 에이전트 기능 Z39.50 프로토콜 디렉토리 서비스 시스템 도입자의 목적에 의존, 지속적인 추가가 가능
시스템 구성을 위한 S/W, H/W, Media, Interaction의 지원 상용의 정보검색 시스템 도입시 검토 사항 색인어 추출의 품질 및 색인에 소요되는 시간 대량의 데이터에 대한 적재 경험 및 적재 시간 시스템 구성을 위한 S/W, H/W, Media, Interaction의 지원 지식관리, 계정 관리 등의 검색 보조기능
정보검색 시스템을 구축하는 관점에서의 평가항목 정보검색 시스템을 구축하는 관점에서의 평가항목 일반적인 평가 항목 기능적 점검 항목 성능적 평가 항목 작업에 따른 평가항목 색인어 추출에 관련된 평가 항목 문서의 등록에 관련된 평가 항목 정보 질의에 관련된 평가 항목 정보 관리에 관련된 평가 항목
기능적 점검항목(1) 색인어 추출 필수적 기능 부가적인 기능 띄어쓰기 오류를 포함한 경우에 대한 처리 한자를 한글로 변환하는 기능 다양한 종류의 코드로 된 원문의 처리 분야별 명사 사전의 제공 시스템/사용자/불용어 사전의 제공 복합명사 분리 기능 한영 혼합 색인어 추출 기능 품사별로 색인어를 선택하는 기능 색인어의 타입을 정의하는 기능 미등록어 추정 기능 부가적인 기능 띄어쓰기 오류를 포함한 경우에 대한 처리 사전 표제어를 표준 색인어로 변환하는 기능
기능적 점검항목(2) 문서 등룍 필수적 기능 부가적인 기능 원문 화일 포멧에 대한 검사 논리적 문서 모음(Collection)의 개념이 제공 원문 화일 포멧에 대한 검사 제공되는 원문에 대한 필터의 종류 다양한 색인어 추출 방식 지원 필드별로 색인어 추출 방식을 지정하는 기능 추출된 색인어를 후통제하는 기능 On-Line 방식으로 문서를 등록/수정하는 기능 부가적인 기능 동시에 여러 프로세스가 문서를 등록하는 기능 문서의 등록과 검색이 동시에 이루어지는 기능 DB의 이상적 사태에 대한 동일성 유지 기능 논리적 문서 모음에서 이질적인 문서 형식을 지원
기능적 점검항목(3) 정보 질의 필수적인 기능 부가적인 기능 질의 표현과 저장된 문서 표현의 일치 표준 질의어 형식을 지원 좌/우 절단된 색인어 지원 색인어간의 위치 관계 연산자 지원 정형 필드와 비정형 필드 지원 문서 집합에 대한 가중치 부여 기능 검색 결과를 질의에 따라 순서화하는 기능 이전의 검색 결과 집합에 대한 history 지원 이전의 질의문을 피드백하는 기능 결과에 검색어가 특정 마크로 표시되는 기능 부가적인 기능 검색된 문서의 요약 기능 질의에 사용된 단어의 의미 이해 질의를 고려하여 문서를 요약하는 기능 사용할 시소러스를 선택하는 기능
기능적 점검항목(4) 정보 관리 필수적인 기능 부가적인 기능 사용자 / 불용어 사전관리기 지원 시소러스 관리기 지원 저장된 문서의 On-Line Update 기능 색인, 저장, 검색, 관리에 대한 지침서 제공 구조적으로 정돈된 API를 제공 쉬운 인스톨을 제공 시스템의 모니터링 기능 지원 변경중인 문서에 대한 정보 제공 부가적인 기능 사용자의 계정 관리 기능 지원 사용자의 세션에 대한 로그 작성 시스템 프로세스의 부하 조정 기능 지원 색인 정보의 관리 기능 지원
성능적 평가 항목 정보검색 시스템의 성능적 평가는 시스템 운영에 대한 예측을 충족시키는지에 대한 판단의 측면에서 다루어져야 한다.
성능적 평가항목(1) 색인어 추출 대량 색인어 추출 속도 소량 색인어 추출 속도 사전 표제어의 크기 색인어의 정확성 1 Mega Byte 문서를 처리하는 시간 소량 색인어 추출 속도 1 KiloByte 문서를 처리하는 시간 사전 표제어의 크기 품사별 단어의 개수 색인어의 정확성 전문가의 색인어와 자동 색인어 비교 색인어 추출의 견고성 최악의 경우 테스트 문서에 대한 색인
성능적 평가항목(2) 문서 등록 색인어별 문서 등록 속도 건수별 문서 등록 속도 최대 동시 문서 등록 프로세스의 수 10만 keyword에 대한 등록 속도 건수별 문서 등록 속도 1K 크기의 10만 문서에 대한 등록 속도 최대 동시 문서 등록 프로세스의 수 프로세스의 수와 등록 속도의 증가 비율 건수 증가에 대한 등록 시간의 감소율 초기 10%부터 점진적으로 속도 증가 함수 문서 수정 속도 1개의 문서를 N번 수정하는 시간 원문 대비 색인 정보의 비율 색인 필드의 전체 크기와 색인 정보 저장 공간 최대로 저장이 가능한 전체 DB의 크기 최대로 저장이 가능한 1Kbyte 문서의 개수
성능적 평가항목(3) 정보 질의 단일 키워드에 대한 검색 속도 검색된 문서중에서 질의에 적합한 문서의 비율 성능적 평가항목(3) 정보 질의 단일 키워드에 대한 검색 속도 결과가 각각 10건/10000건인 색인어 100회 검색된 문서중에서 질의에 적합한 문서의 비율 결과의 top 20에 포함된 정도 적합한 문서 중에서 검색된 문서의 비율 최대 동시 검색 프로세스의 수 프로세스의 검색 속도의 증가 비율
테스트 컬렉션의 중요성 개발중인 검색 기법의 성능 평가 검색 효과(Retrieval Effectiveness) 향상 색인어 가중치 자연언어 처리 적합성 피드백 등을 이용 개발중인 검색 기법의 성능 평가 테스트 컬렉션 이용
테스트 컬렉션 개발 현황 국내의 경우 한글 문서들로 구성된 테스트 컬렉션의 필요성은 인식. 한글 테스트 컬렉션은 KT 컬렉션과 KRIST 컬렉션이 있다.
정보검색용 테스트 컬렉션의 구성 문서 집합 질의 집합 질의에 적합한 문헌 리스트
문서 집합과 질의 집합 문서집합 질의 작성 테스트 컬렉션 구축에 있어서 가장 기본적인 요소 다양한 분야의 문서들로 문서 집합을 구성 다양한 크기의 문서들로 구성 질의 작성 여러 분야에 골고루 분포
적합 문헌 후보 리스트 생성 각각의 질의에 대하여 풀링 방법(Pooling Method) 테스트 컬렉션의 문서 집합에 포함된 모든 문서들을 읽고 적합성 여부를 판단. 풀링 방법(Pooling Method) 다수의 정보검색 시스템들을 사용하여 검색을 수행하고, 각각의 시스템에 의해 높은 순위를 부여받은 문서에 대해 적합성 여부를 판단하는 방법.
적합 문헌 선정 적합 문헌 후보들을 사람이 직접 검토 사람마다 다를 수 있기 때문에 각각의 적합 문헌들을 합집합 또는 교집합 중 어느것을 사용해도 무관.
결론 정보검색 시스템의 중요성이 급증 사용자들의 요구사항 정리 정보검색 시스템 평가 인터넷, 인트라넷을 통한 정보 서비스 활성화 사용자들의 요구사항 정리 정보검색 시스템 개발의 방향 제시 정보검색 시스템 평가 한글 테스트 컬렉션의 개발이 시급