정보검색 테스트 컬렉션 HANTEC 구축 사례 2000년 4월 1일 맹 성 현 충남대학교 정보통신공학부
Outline HANTEC 구축 배경 HANTEC 이전 현황 (국내, 국외) ‘98년도 구축 결과 ‘99년도 추진 결과 결론
구축 배경 목적 1998년도에 구축된 HANTEC (Hangul TEst Collection) 정보검색 테스트 컬렉션의 품질 향상 및 규모 확장 필요성 정보검색시스템 신뢰도(effectiveness) 평가의 표준화 관련 기술, 운용 시스템, 검색 서비스의 품질 향상 국제 수준의 컬렉션 개발을 통한 international community와의 협력
HANTEC 이전 현황 KT-SET 1.0 (1994) 1,053건 문서 (학회 논문 초록) 30개의 단순 질의 4,414건 문서 (논문, 신문기사 포함) 50개의 자연어 및 불리언 질의 KRIST 컬렉션 (1995) 13,315건 (과기처연구보고서 초록) 30개 질의 (topic statements) ETRI-Kyemong 계몽사 백과사전 23,113건, 46개 질의, 76개 범주로 분류
외국 사례 (1) - 미국 TREC Test Collection 미국 NIST주관 + 정보검색분야 전문가 위원회 대규모 컬렉션 구축을 목표로 1991년부터 매년 컬렉션 규모 및 평가 분야 추가 TREC-7 (1998): 총 1,634,243건 문서, 350 질의 매년 시스템 및 알고리즘 평가 결과 발표 평가 대상 종류 ad-hoc vs. routing algorithms English, Japanese, Spanish, (Chinese),German, French, Italian Cross-language IR (English, French, German) Filtering, High Precision, Interactive, SDR(Spoken Document Retrieval), VLC(Very Large Corpus) 99년 Web Track 추가
외국 사례 (2) - 일본 NACSIS test collection (일본) BMIR-J1 & J2 (일본) 330,000문서 (65개 분야 학회논문 요약) 100 개 질의 일어-영어 병행 코퍼스 대상 평가를 위한 conference 개최 (99.8) BMIR-J1 & J2 (일본) 600건 문서, 60개 질의 (J1) 5080건 문서, 60개 질의 (J2) Economics and engineering Query categorization
HANTEC (HANgul TEst Collection) -1998년도 구축 결과- 문서: 12만건 (244MB) 일반, 사회과학, 자연과학기술 각각 40,000건 문서 크기 (51byte - 360Kbyte/doc) 질의: 30건 TREC-6 형식 적합성 판정 5점 척도 1건 당 2인 판정
… 적합성 판정을 위한 pooling 질의 검색기 1 검색기 2 검색기 n 상위 200건 검색결과 적합문서 후보 500건 생성 문서당 적합성 판정
HANTEC 질의 예 <num> 01 <title> 월드컵 축구 유치 <desc> 한국의 2002년 월드컵 축구 유치 활동 내용 <narr> 한국의 2002년 월드컵 축구 유치를 위한 국내외 적인 활동이나 한국개최에 대한 회원국들의 반응 을 포함한 정보는? <quer> 2002년 월드컵 축구 피파 FIFA 회원국 한국 개최 주최 유치 전략 홍보 활동
HANTEC의 특징(1) 문서의 다양성 분야별 문서집합 일반 사회 과학 과학 기술 한국 일보: 22,000 웹(gov): 9,000 웹(com): 9,000 한국 경제 신문: 39,480 여성 개발원 논문: 110 경북 도의회 회의록: 410 과기처지원연구보고서: 10,000 해외 과학기술 동향: 18,000 학술논문 서지사항: 12,000
HANTEC의 특징(2) 질의 종류의 다양성 적합성 판정 일반인 영역 전문가 중고등학생 일반종합 과학 기술 사회 과학 4 3
“HANTEC-98” 분석 (1) Pool depth에 따른 평균 적합문서 분포도 2,3,4,5: relevant
“HANTEC-98” 분석 (2) 내용별 적합 문서의 분포도
“HANTEC-98” 분석 (3) 사용자별 적합 문서의 분포도 년
1999년도 구축 목표 HANTEC 98 품질 향상 HANTEC의 확장 일한 교차 언어 검색용 컬렉션으로 확장 수정된 검색기로 새로운 검색 결과 생성 추가 문서의 적합성 판정 실시 추가 문서 5571건 => 추가 적합 문서 182건 HANTEC의 확장 질의 20건 추가 각 질의에 대한 기존 문서 (12만건) 적합성 판정 일한 교차 언어 검색용 컬렉션으로 확장 한일 교차언어 검색용 컬렉션 구축 지원
HANTEC 2.0 (1) 목표: 자연과학기술 분야 질의를 총 30개로 확장 일본 NACSIS의 질의 사용 (science & engineering 분야) 총 83개를 한글로 번역 HANTEC 컬렉션과 관련 있는 질의 79개 선정 질의 20개 선정을 위한 작업 선정된 질의를 사용하여 일차 검색 검색 결과에 대한 일차 적합성 판정 적합성 문서 분포에 따른 최종 질의 선정
HANTEC 2.0 (2) -후보 문서 생성 - Pooling 방법 사용된 후보 문서 생성 시스템 총 41개 run들로부터 상위 50개 문서 사용 중복 문서 제거 사용된 후보 문서 생성 시스템 충남대 검색기 (20 runs) 색인 방법, 질의 구성 방법, relevance feedback (RF) 사용 여부 KRISTAL II (2 runs) P-norm사용, P-norm 사용+거리밀도 사용 숭실대 검색기 (18 runs) Bigram혹은 형태소 단위 색인, 가중치 부여 방법, RF 사용 여부 다센21 (1 run)
HANTEC 2.0 (3) - 적합성 판정 - 대상: 각 질의 당 생성된 최종 후보문서 집합 8명의 평가자를 2인1조로 구성 각 질의 당 각 문서의 적합성을 2인이 판정 평가자 들간의 관점 차이 최소화 가평가 과정을 거쳐 적합성 판정 과정을 숙지 각 질의의 내용에 대한 사전 토의 -> 독립된 평가 평가자 간 3점 이상의 차이는 상호협의를 통해 조정 5점 척도 섬세한 평가 -> 평가자간의 양극화 현상 방지 시간이 많이 걸리는 단점
HANTEC 2.0 (4) - 질의 별 적합문서 개수 -
HANTEC 2.0 (5) - 유효성 평가 - 문제점: 후보 문서만을 대상으로 적합성 평가 평가 방안 1번 방법 사용 나머지 문서 중 적합한 문서가 존재할 가능성 재현율이 고평가 될 수 있는 가능성 새로운 시스템 평가가 불공정할 수 있음 평가 방안 1. 각 질의 별 pool depth를 가변적으로 증가 시키면서 새로운 적합문서의 출현 상황 관찰 2. 새로운 시스템으로부터 추가되는 적합 문서 개수 관찰 1번 방법 사용 Pool깊이를 50까지 증가 시켜 가면서 추이 관찰
HANTEC 2.0 (6) - Pool Depth에 따른 적합문서의 변화 추이도 -
HANTEC 2.0 (7) - Pool Depth에 따른 적합문서의 변화 추이도 -
HANTEC 2.0 (8) - Pool depth증가에 따른 추가 적합문서 수의 예측 -
HANTEC 2.0 (9) - Pool depth증가에 따른 추가 적합문서 수의 예측 - 50이후 줄어들지 않는 질의 제외 (G2:10, L2:3)
결론 보다 객관적인 test collection을 위한 노력 TREC과 같은 검색 시스템 및 알고리즘 평가회 필요 규모의 확장 일본, 중국과의 협력 고려 규모의 확장 Test collection종류의 확장 교차언어 검색, interactive IR, etc. Filtering, Summarization, Categorization, etc. 지속적인 지원 및 관심 필요 국가 기관 및 전문가의 협조 평가 체제 및 분위기 확산