정보검색 테스트 컬렉션 HANTEC 구축 사례

Slides:



Advertisements
Similar presentations
신진영 현지 조사 방법 및 보고서 작성법 제 7 강 - 자료 수집과 설문지 작성 -
Advertisements

빅 데이터의 정의와 특징 빅 데이터의 이용사례 빅 데이터의 문제점 or 한계점 빅 데이터의 전망.
Popcon 이규태 김준수 강예진. 목차  Popcon 이란  개발동기 및 목적  필요성  차별성  설계  개발일정  기대효과 및 향후 계획.
PASSION PASSION Spanish Language! 최고를 위한 열정 스페인어과.
( 주 ) 이 즈 회사소개서 ( 외주 임가공 전문업체 ) ( 주 ) 이 즈 회사소개서 ( 외주 임가공 전문업체 )
N.G.O (Nuclear GNFL Organization) 경남외국어고등학교. Table of Contents 활동계획 활동방법 1) 경제부서 2) 과학부서 3) 국제관계부서 참고사이트.
最高 와 最高 의 相生 더클래스효성 삼성화재손사 Premium Lifestyle Provider Contents 1. History & Awards 2. Network 3. What? 4. Past 5. How to? 6. Progress 7.
Ⅰ Ⅰ 선진국 직업교육훈련의 특징과 우리의 일 · 학습병행제 1. 선진국 직업교육훈련의 특징 2. 선진국과 우리나라의 청년고용률 3. 일 · 학습병행제 추진현황 4. 우리의 일 · 학습병행제 특징 Ⅱ Ⅱ 산업계 주도 직업교육훈련체제 구축 및 산업별단체.
SCIE 학술지에서 시작하는 선행 연구조사 Thomson Reuters 한국지사 김 문선.
Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
-국제 임상화학회 학술대회 및 당화혈색소 네트워크 연례정기회의 참석-
접수번호 : 스마트콘텐츠 중화권 전략 비즈니스 지원사업 참가 업체 사업계획서 - 프로젝트명(앱) : 업 체 명 :
4 vs 2 KMU & YIC 강보람 김희선 이은지 최소영.
Smartphone & Mobile Internet
2010 – 06 – 24 주간 보고서.
- 예∙결산 및 기본재산 운영 신뢰도 제고를 위한 실태점검, 결산지원사업 -
의사 결정 트리(decision tree)
2014학년도 중학교 교육과정 편성시 유의사항 울산광역시교육청 교육과정운영과 한 상 철.
· 학과별 진행(자세한 심사 일정은 학과사무실 문의) · 논문제목수정, 심사위원 변경, 심사취소 신청은 해당자에 한함
온 라 인 (On-Line) 유치원 교원능력개발평가시스템 기 능 설 명 유아교육과.
서강대-하이닉스『SoHy II』프로그램
Hybrid INDIGO project 중간보고
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
◆ 응시자격별 상담심리사 자격취득 절차 자격심사 청구를 위한 최소수련내용(상담심리사 2급) 영역 내용 영역 내용 접수면접
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Information Retrieval (Chapter 3: 검색 평가)
Progress Seminar 선석규.
Central Gas Monitoring System 2005
18F-FDG 생산 효율 증가 및 안정화 30 th May 2009 화순전남대학교병원 핵의학과 *이지웅,장화연,신상민,김명준
Grade Server Team14. Attention Seeker
TREC (Text Retrieval Conference) 소개
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
제 10 장 의사결정이란 의사결정은 선택이다.
소규모 IPTV 사업자용 실시간 미디어 플랫폼 기술
Term Project 수행 안내 2007 컴퓨터공학실험(Ⅰ).
Visual Basic 실습 Project Portfolio 한문 모의고사 생성기
남다른 아이로 미래를 디자인하라!.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
학술 Data Base Search Engine KCI , KSCI, DBpia, Naver 정현탁
USN(Ubiquitous Sensor Network)
UNISDR ONEA-GETI 안내.
2012 PISA 한국 VS 핀란드.
고등학교에서 고등교육기관으로 진학하는 비율 (진학률, %)
경영학부 교육특성화 계획 정경대학 경영학부 정경대학 경영학부 1.
1. 학교생활기록부 반영 비중 확대 (1) 학생부 신뢰도 현황과 제고 노력
정보검색 시스템의 성능 평가 정보 검색 시스템 색인어 추출 시스템 문서 범주화 시스템 문서 요약 시스템 질의응답 시스템.
3-2학기 종료 동계방학 시점에서 취업준비 정보통신공학부 안병철 교수.
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
· 논문제목수정, 심사위원 변경, 심사취소 신청은 해당자에 한함
2018학년도 2학기 상담심리대학원 학위청구논문 진행 절차
· 학과별 진행(자세한 심사 일정은 학과사무실 문의) · 논문제목수정, 심사위원 변경, 심사취소 신청은 해당자에 한함
연구학교 운영 절차 및 평가 단계별 협의회 운영 절차 협의록 처리 절차 과정 평가 절차.
빈곤 및 소득분배와 개선효과 추이 대통령자문 빈부격차ㆍ차별시정위원회.
Information Communication Technology
제13주: 재벌과 중소기업 1. 기업경영의 글로벌화 1.1 국경없는 경쟁시대 - 세계화와 우리경제의 글로벌화 1.2 기업경영의 글로벌화 - 기업의 글로벌화와 해외직접투자의 증가 2. 재벌의 명암 2.1 재벌의 흥망성쇠 - 10위 이내 재벌의 변화
· 학과별 진행(자세한 심사 일정은 학과사무실 문의) · 논문제목수정, 심사위원 변경, 심사취소 신청은 해당자에 한함
년 11월호 영업현황1p 요약 재무제표 4p 주가동향 6p.
제12회 KHU 봄 프로그래밍 경시대회 경희대학교 학생들의 졸업 후 국내외 최고 수준의 소프트웨어 인재 양성의 비전 아래, 프로그래밍 실력 향상에 대한 동기를 부여하고자 프로그래밍 경시대회를 개최합니다. 본 대회는 경기남부 6개 대학 프로그래밍 경시대회(SHAKE)의 예선을.
정보검색 시스템 평가 및 테스트 컬렉션 개발 조영환, 박혁로, 이준호 정보과학회지
No : Application Title ㈜회사명 담당자명 담당자 연락처 Company logo.
2017년도 대동철학회 연구윤리교육 (연구윤리위원회).
Journal 논문 검색 이재근, 황유진.
I. SciVal: 연구성과 분석 솔루션 1. 연세대학교 의학분야 연구성과와 역량 분석
하계학술대회 국문 논문 제목을 입력하세요. [맑은 고딕 또는 나눔 고딕체 사용]
철강기술솔루션 및 아이디어 공모 (안내) 1. 주관 / 후원 : 대한금속재료학회 철강분과위원회 (주관) / 포스코 (후원)
해외서, 국내서 요약 ‘북집’ 모바일 서비스 이용방법
LEON3 DBT 엔진을 이용한 ERC32 기반의 하이퍼바이저 프로토 타입 개발
정부장학금 받아 유학가기 (수).
(Global Expert Education for Korea-Belgium Future Innovation)
Presentation transcript:

정보검색 테스트 컬렉션 HANTEC 구축 사례 2000년 4월 1일 맹 성 현 충남대학교 정보통신공학부

Outline HANTEC 구축 배경 HANTEC 이전 현황 (국내, 국외) ‘98년도 구축 결과 ‘99년도 추진 결과 결론

구축 배경 목적 1998년도에 구축된 HANTEC (Hangul TEst Collection) 정보검색 테스트 컬렉션의 품질 향상 및 규모 확장 필요성 정보검색시스템 신뢰도(effectiveness) 평가의 표준화 관련 기술, 운용 시스템, 검색 서비스의 품질 향상 국제 수준의 컬렉션 개발을 통한 international community와의 협력

HANTEC 이전 현황 KT-SET 1.0 (1994) 1,053건 문서 (학회 논문 초록) 30개의 단순 질의 4,414건 문서 (논문, 신문기사 포함) 50개의 자연어 및 불리언 질의 KRIST 컬렉션 (1995) 13,315건 (과기처연구보고서 초록) 30개 질의 (topic statements) ETRI-Kyemong 계몽사 백과사전 23,113건, 46개 질의, 76개 범주로 분류

외국 사례 (1) - 미국 TREC Test Collection 미국 NIST주관 + 정보검색분야 전문가 위원회 대규모 컬렉션 구축을 목표로 1991년부터 매년 컬렉션 규모 및 평가 분야 추가 TREC-7 (1998): 총 1,634,243건 문서, 350 질의 매년 시스템 및 알고리즘 평가 결과 발표 평가 대상 종류 ad-hoc vs. routing algorithms English, Japanese, Spanish, (Chinese),German, French, Italian Cross-language IR (English, French, German) Filtering, High Precision, Interactive, SDR(Spoken Document Retrieval), VLC(Very Large Corpus) 99년 Web Track 추가

외국 사례 (2) - 일본 NACSIS test collection (일본) BMIR-J1 & J2 (일본) 330,000문서 (65개 분야 학회논문 요약) 100 개 질의 일어-영어 병행 코퍼스 대상 평가를 위한 conference 개최 (99.8) BMIR-J1 & J2 (일본) 600건 문서, 60개 질의 (J1) 5080건 문서, 60개 질의 (J2) Economics and engineering Query categorization

HANTEC (HANgul TEst Collection) -1998년도 구축 결과- 문서: 12만건 (244MB) 일반, 사회과학, 자연과학기술 각각 40,000건 문서 크기 (51byte - 360Kbyte/doc) 질의: 30건 TREC-6 형식 적합성 판정 5점 척도 1건 당 2인 판정

… 적합성 판정을 위한 pooling 질의 검색기 1 검색기 2 검색기 n 상위 200건 검색결과 적합문서 후보 500건 생성 문서당 적합성 판정

HANTEC 질의 예 <num> 01 <title> 월드컵 축구 유치 <desc> 한국의 2002년 월드컵 축구 유치 활동 내용 <narr> 한국의 2002년 월드컵 축구 유치를 위한 국내외 적인 활동이나 한국개최에 대한 회원국들의 반응 을 포함한 정보는? <quer> 2002년 월드컵 축구 피파 FIFA 회원국 한국 개최 주최 유치 전략 홍보 활동

HANTEC의 특징(1) 문서의 다양성 분야별 문서집합 일반 사회 과학 과학 기술 한국 일보: 22,000 웹(gov): 9,000 웹(com): 9,000 한국 경제 신문: 39,480 여성 개발원 논문: 110 경북 도의회 회의록: 410 과기처지원연구보고서: 10,000 해외 과학기술 동향: 18,000 학술논문 서지사항: 12,000

HANTEC의 특징(2) 질의 종류의 다양성 적합성 판정 일반인 영역 전문가 중고등학생 일반종합 과학 기술 사회 과학 4 3

“HANTEC-98” 분석 (1) Pool depth에 따른 평균 적합문서 분포도 2,3,4,5: relevant

“HANTEC-98” 분석 (2) 내용별 적합 문서의 분포도

“HANTEC-98” 분석 (3) 사용자별 적합 문서의 분포도 년

1999년도 구축 목표 HANTEC 98 품질 향상 HANTEC의 확장 일한 교차 언어 검색용 컬렉션으로 확장 수정된 검색기로 새로운 검색 결과 생성 추가 문서의 적합성 판정 실시 추가 문서 5571건 => 추가 적합 문서 182건 HANTEC의 확장 질의 20건 추가 각 질의에 대한 기존 문서 (12만건) 적합성 판정 일한 교차 언어 검색용 컬렉션으로 확장 한일 교차언어 검색용 컬렉션 구축 지원

HANTEC 2.0 (1) 목표: 자연과학기술 분야 질의를 총 30개로 확장 일본 NACSIS의 질의 사용 (science & engineering 분야) 총 83개를 한글로 번역 HANTEC 컬렉션과 관련 있는 질의 79개 선정 질의 20개 선정을 위한 작업 선정된 질의를 사용하여 일차 검색 검색 결과에 대한 일차 적합성 판정 적합성 문서 분포에 따른 최종 질의 선정

HANTEC 2.0 (2) -후보 문서 생성 - Pooling 방법 사용된 후보 문서 생성 시스템 총 41개 run들로부터 상위 50개 문서 사용 중복 문서 제거 사용된 후보 문서 생성 시스템 충남대 검색기 (20 runs) 색인 방법, 질의 구성 방법, relevance feedback (RF) 사용 여부 KRISTAL II (2 runs) P-norm사용, P-norm 사용+거리밀도 사용 숭실대 검색기 (18 runs) Bigram혹은 형태소 단위 색인, 가중치 부여 방법, RF 사용 여부 다센21 (1 run)

HANTEC 2.0 (3) - 적합성 판정 - 대상: 각 질의 당 생성된 최종 후보문서 집합 8명의 평가자를 2인1조로 구성 각 질의 당 각 문서의 적합성을 2인이 판정 평가자 들간의 관점 차이 최소화 가평가 과정을 거쳐 적합성 판정 과정을 숙지 각 질의의 내용에 대한 사전 토의 -> 독립된 평가 평가자 간 3점 이상의 차이는 상호협의를 통해 조정 5점 척도 섬세한 평가 -> 평가자간의 양극화 현상 방지 시간이 많이 걸리는 단점

HANTEC 2.0 (4) - 질의 별 적합문서 개수 -

HANTEC 2.0 (5) - 유효성 평가 - 문제점: 후보 문서만을 대상으로 적합성 평가 평가 방안 1번 방법 사용 나머지 문서 중 적합한 문서가 존재할 가능성 재현율이 고평가 될 수 있는 가능성 새로운 시스템 평가가 불공정할 수 있음 평가 방안 1. 각 질의 별 pool depth를 가변적으로 증가 시키면서 새로운 적합문서의 출현 상황 관찰 2. 새로운 시스템으로부터 추가되는 적합 문서 개수 관찰 1번 방법 사용 Pool깊이를 50까지 증가 시켜 가면서 추이 관찰

HANTEC 2.0 (6) - Pool Depth에 따른 적합문서의 변화 추이도 -

HANTEC 2.0 (7) - Pool Depth에 따른 적합문서의 변화 추이도 -

HANTEC 2.0 (8) - Pool depth증가에 따른 추가 적합문서 수의 예측 -

HANTEC 2.0 (9) - Pool depth증가에 따른 추가 적합문서 수의 예측 - 50이후 줄어들지 않는 질의 제외 (G2:10, L2:3)

결론 보다 객관적인 test collection을 위한 노력 TREC과 같은 검색 시스템 및 알고리즘 평가회 필요 규모의 확장 일본, 중국과의 협력 고려 규모의 확장 Test collection종류의 확장 교차언어 검색, interactive IR, etc. Filtering, Summarization, Categorization, etc. 지속적인 지원 및 관심 필요 국가 기관 및 전문가의 협조 평가 체제 및 분위기 확산