Information Retrieval (Chapter 3: 검색 평가)

Slides:



Advertisements
Similar presentations
신진영 현지 조사 방법 및 보고서 작성법 제 7 강 - 자료 수집과 설문지 작성 -
Advertisements

Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
SCIE 학술지에서 시작하는 선행 연구조사 Thomson Reuters 한국지사 김 문선.
Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
2010 – 06 – 24 주간 보고서.
컴퓨터와 인터넷.
재료수치해석 HW # 박재혁.
URLink 팀명: S.B.S. 팀원: 김보성, 박지수.
구간추정 (Interval Estimation)
3장 검색 평가 3.1 소개 3.2 검색 성능 평가 3.3 참조 컬렉션 3.4 연구 동향 및 쟁점 3.5 참고 문헌 고찰
Report #5 - due: 4/13 다음 10*5의 희소 행렬 A, B를 고려하라.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
컴퓨터 프로그래밍 기초 [Final] 기말고사
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
Hybrid INDIGO project 중간보고
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
Windows Server 장. 사고를 대비한 데이터 백업.
Management Support Mi-Jung Choi, Jae-Hyun Ham DP&NM Lab.
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Chapter 02 순환 (Recursion).
정보검색 테스트 컬렉션 HANTEC 구축 사례
CHAPTER 02 OpenCV 개요 PART 01 영상 처리 개요 및 OpenCV 소개.
1장 소개 목 차 1.1 동기 1.2 기본 개념 1.3 과거, 현재와 미래 1.4 검색 과정 1.5 교재의 구성
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
Error Detection and Correction
컴퓨터과학 전공탐색 배상원.
CAS (Computer Algebra System) 소개
보고서 #5(제출기한: 10/14) 다음 문제를 해결하시오.
TREC (Text Retrieval Conference) 소개
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
3장 검색 평가 3.1 소개 3.2 검색 성능 평가 3.3 참조 컬렉션 3.4 연구 동향 및 쟁점 3.5 참고 문헌 고찰
자바 5.0 프로그래밍.
프로그래밍 개요
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
군집 분석.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
제 10 장 의사결정이란 의사결정은 선택이다.
퍼지이론(Fuzzy Theory) 지 은 희.
뇌를 자극하는 Windows Server 2012 R2
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
USN(Ubiquitous Sensor Network)
American Society for Microbiology
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
데이터 베이스 DB2 관계형 데이터 모델 권준영.
VHDL를 이용한 DES 설계 정보통신컴퓨터공학부 5조 김인옥, 백미숙
ULRICHSWEB ㈜신원데이터넷.
CAS (Computer Algebra System) 소개
알고리즘 알고리즘이란 무엇인가?.
제 5장 교수설계의 실제 - ASSURE 모델 적용
정보검색 시스템의 성능 평가 정보 검색 시스템 색인어 추출 시스템 문서 범주화 시스템 문서 요약 시스템 질의응답 시스템.
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
문서 클러스터링 일본언어문화학과 서동진.
제 5장 제어 시스템의 성능 피드백 제어 시스템 과도 성능 (Transient Performance)
아두이노와 충격감지센서, GPS를 활용한 자전거 주행 중 응급 상황 발생 시 자동 신고 시스템
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
Chapter 10 데이터 검색1.
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
종이의 종류의 따른 물 흡수량 수원초등학교 6학년 이형민.
비교분석 보고서 Template 2015.
9 브라우저 객체 모델.
슬라이드 쇼의 설정 슬라이드 쇼의 실행 파일과 폴더의 관리 글꼴을 포함해서 저장 웹 페이지로 게시 압축 파일
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 4 장 Record.
In-house Consultant Training
Ch 07. 조사 도구 개발 조사 도구 개발 과정 조사주제 •가설 정의 개념화•조작화 척도 질문지 구성-원칙과 양식
 6장. SQL 쿼리.
문제의 답안 잘 생각해 보시기 바랍니다..
American Society for Microbiology
Presentation transcript:

Information Retrieval (Chapter 3: 검색 평가) 서정연교수 Office: 공학관 816 Tel: 705-8488 Email: seojy@sogang.ac.kr

소개 검색 시스템이 얼마나 정확하게 원하는 답을 검색하는가? 검색 평가를 위해서는 시험 참조 컬렉션(test reference collection)이 필요하다. 시험 참조 컬렉션의 구성 문헌의 컬렉션 사용자 정보요구 집합(질의 집합) 정보요구에 연관된 문헌 집합(answer set) TIPSTER/TREC, CACM, CISI, Cystic Fibrosis HANTEC

소개(계속) 검색 작업에 따른 평가 대화형 작업 (대화세션, 10장 참조) 일괄처리 작업 사용자의 노력, 인터페이스 설계의 특성, 시스템이 제공하는 안내, 세션의 길이 등이 중요한 평가 척도 일괄처리 작업 응답 집합의 Quality가 가장 중요한 척도 검색 성능 평가의 주류 실험실 수준의 평가가 반복적인 가능성과 확장 가능성 때문에 평가의 주류를 이루고 있음

소개(계속) 정보검색 시스템 평가 검색성능 평가 기능 평가 성능 평가(performance evaluation) 효율(efficiency): 시간 복잡도, 공간 복잡도 효과(effectiveness): 검색 성능 평가 질의 결과의 정확성 평가 실험 참조 컬렉션과 평가 척도 사용 검색성능 평가 재현율(recall) 정확률(precision)

재현율과 정확률 N 가장 널리 사용되는 평가 척도 both 컬렉션 |Ra| |A| |R| |Ra| =2 연관문헌 집합 |A|=8 시스템 결과 집합 both |Ra| =2 시스템 결과가 연관문헌에 포함된 문헌 N 컬렉션 검색된 연관 문헌 검색되지 않은 비연관 문헌 검색(O) 검색(X) 연관 (X) (O)

재현율과 정확률(계속) 재현율: 연관 문헌 집합(R) 중에서 연관된 문헌이 검색된 비율 R = |Ra| / |R| 예) P = |Ra| / |A| |A| - 질의에 의해서 검색된 문헌 수 예 ) P=2/8=0.2 이상적인 검색 결과: 재현율 100%, 정확률 100% 원하는 모든 문헌이 검색되고, 원하지 않는 모든 문헌이 검색되지 않는다.

재현율과 정확률(계속) 예) Rq={d3, d5, d9, d25, d39, d44, d56, d71, d389, d123} Rq : 질의 q에 대한 연관 문헌 집합. (1) 질의 q에 의해서 검색된 문헌의 순위 : d123, d84, d56 정확률 : 66 % (2 / 3) 재현율 : 20 % (2 / 10) 1. d123*! 6. d9! 11. d38 2. d84 7. d511 12. d48 3. d56*! 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25! 15. d3! (2) 질의 q에 의해서 검색된 문헌의 순위 : d123, d84, d56 ,d6, d8, d9 정확률 : 50 % (3 / 6) 재현율 : 30 % (3 / 10)

재현율과 정확률(계속) – 구체적인 계산 방법 가정: 전체 연관 문헌 = 5 R=1/5=0.2; p=1/1=1 R=2/5=0.4; p=2/2=1 R=2/5=0.4; p=2/3=0.67 R=5/5=1; p=5/13=0.38

질의 용어가 결과에 미치는 영향 과제: Information retrieval 초기 질의: Information and retrieval 넓은 질의(Broader query): Information or retrieval 높은 재현율, 낮은 정확률 좁은 질의(Narrower query) : Information adjacent Retrieval 높은 정확률, 낮은 재현율

재현율/정확율 그래프 정확률 재현율 재현율을 고정했을 때, 평균 정확률 그래프 이상적인 정확률 0 0.1 0.2 1 0 0.1 0.2 1 재현율 정확률 0 0.1 0.2 1 이상적인 정확률 재현율을 고정했을 때, 평균 정확률 그래프

평균정확률(Average Precision) 재현율 수준에 따른 평균 정확률 Nq : 질의 수 Pi(r) : i번째 질의에 대해 재현율 r에서 정확률 보간된 정확률(Interpolated precision) Pj(r):j번째 재현율 수준과 j+1번째 재현율 수준에서의 정확률의 최대값 8쪽에 있는 테이블의 보간된 정확률

평균정확률(계속) 0.4 0.8 1.0 0.6 0.2 1 2 3 4 5 6 7 12 13 200 recall precision

평균정확률(계속) 보간된 정확률(Interpolated precision) 1.0 0.8 0.6 0.4 0.2 x 보간된 원래

단일 요약 수치(Single value summary) 단일 정확률의 필요 질의에 대해서 검색 알고리즘의 검색 결과를 비교할 때, 재현율과 정확률의 두 수치로는 어느 시스템이 우수한지 알 수 없다. 재현율에 따른 평균 정확률 도표의 단점 여러 질의에 대한 정확률 평균 : 검색 알고리즘의 중요한 결점이 숨겨질 수 있다 각각의 질의에 대한 성능 검사 필요하다. 검색된 연관 문헌에서의 평균 정확률 (Average Precision) Pavg : 새로운 연관 문헌이 검색될 때, 정확률의 평균 예) 연관 문헌 수: 1 2 3 4 5 정확률 1 0.66 0.5 0.4 0.3 Pavg= (1 + 0.66 + 0.5 + 0.4 + 0.3) / 5 = 0.57 연관 문헌을 빨리 찾는 시스템이 좋은 성능을 갖는다

단일 요약 수치 (계속) R-정확률 : R 번째 검색 순위에서 정확률 R : 질의에 대한 연관 문헌의 전체 수 개별적인 질의에 대한 검색 성능을 관찰할 수 있다. 모든 질의에 대한 R-정확률의 평균도 구할 수 있다. 정확률 히스토그램(Precision histogram) : 두 알고리즘에 대한 R-정확률 차이를 그린 막대 그래프 RPA/B(i) = RPA(i) - RPB(i) RPA(i) : i번째 질의에 대한 검색 알고리즘 A의 R-정확률 RPB(i) : i번째 질의에 대한 검색 알고리즘 B의 R-정확률 두 알고리즘의 성능 차이를 시각적으로 확인할 수 있다.

단일 요약 수치 (계속) 요약 테이블 통계치(Summary table statistics) : 모든 질의들에 대한 단일 수치를 테이블로 작성 예) 검색 작업에 사용된 질의 수 전체 질의에 의해 검색된 문헌 수 전체 질의에 의해 검색될 수 있는 연관 문헌의 수 모든 질의를 고려할 때, 검색된 연관 문헌의 수

정확률과 재현율의 문제점 높은 재현율을 얻기 위해서 컬렉션에 있는 모든 문헌에 대한 지식이 필요하다. 대규모 컬렉션일 경우에는 불가능하다. 질의의 개별적인 특성은 관찰하기 위해서 재현율과 정확률을 사용하는 것은 적절하지 않다. 재현율과 정확률은 시스템의 전체 성능은 관찰할 수 있다. 단일 수치를 사용하는 것이 바람직하다. 대화형 검색에서 재현율과 정확률은 적합하지 못하다. 최근의 대부분 검색 시스템은 대화형 검색 시스템이다 검색 결과를 순위화하지 않을 때, 재현율과 정확률을 사용하는 것은 적합하지 않다.

다른 척도 조화 평균(Harmonic mean) F(j) r(j) : j번째 순위의 문헌의 재현율 p(j) : j번째 순위의 문헌의 정확률 F(j) = 0 : 연관된 문헌이 하나도 검색되지 않음 F(j) = 1: 연관된 문헌이 모두 검색됨. 재현율과 정확률이 모두 높아야 조화평균이 높다. E 척도(E-measure) E(j) b : 재현율과 정확률의 중요도를 조절하는 매개변수 b = 1 : F(j)의 보수(complement) b > 1 : 정확률을 강조 b < 1 : 재현율을 강조

다른 척도 - 사용자 중심의 척도들(User-oriented measure) 사용자에 따라 연관 문헌이 서로 다르다. 적용율(coverage ratio) = |Rk| / |U| 사용자에게 미리 알려진 연관문헌 중에서 실제로 검색된 연관 문헌의 비율 높은 적용율 : 검색 시스템이 사용자가 기대하는 대부분의 연관문헌을 검색 신문헌율(novelty ratio) = |Ru| / (|Ru| + |Rk|) 검색된 연관 문헌 중에서 사용자에게 미리 알려지지 않은 문헌의 비율 높은 신문헌율: 시스템이 사용자에게 미리 알려지지 않은 새로운 연관 문헌을 많이 검색 |R| |A| |U| |Rk| |Ru|

다른 척도 - 사용자 중심의 척도들(User-oriented measure) 상대 재현율(relative recall) 검색한 연관문헌 수와 사용자가 검색하기를 기대하는 연관문헌 수 사이의 비율 재현 노력도(recall effort) 사용자가 기대하는 수의 연관 문헌을 발견하기 위해 검사해야 하는 문헌 수 사이의 비율

다른 척도 - 예 검색 결과의 요약 사용자가 알고 있는 연관 문헌의 수 : 15 검색된 연관 문헌의 수: 10 검색된 연관 문헌의 수: 10 검색된 연관 문헌 중에 알고 있는 문헌의 수: 4 적용율 : 4 /15 신문헌율 : 6/ 10 (새로운 관련 문헌 수: 6)

참조 컬렉션 - TREC 정보 검색 연구에 대한 비판 객관적인 평가 기준이 없었다. 일관성 있는 테스트베드와 벤치마크가 없다 1990년 초: NIST(National Institute of Standard and Technology), Donna Harman이 학술회의 Text REtrieval Conference (TREC) 창설 TIPSTER/TREC 실험 컬렉션 또는 TREC 컬렉션 제1회 TREC 학술회의: 1992년 11월 NIST에서 개최 구성: 문헌집합, 정보요구(질의), 각 정보요구에 대한 연관문헌 집합 6 CD-ROM : 1GB, tagged with SGML

참조 컬렉션 – TREC-6 종류: WSJ : wall street Journal AP : Associated Press (news) ZIFF : Computer Selects (articles) FR : Federal Register DOE : US DOE Publications (abs) SJMN : San Jose Mercury News PAT : US Patents FT : Financial Times CR Congressional Record FBIS : Foreign Broadcast Information Service LAT : LA Times

TREC – 정보요구

TREC 연관문헌의 선정 방법 풀링 방법(pooling method) 작업 축적 검색(ad-hoc) : 주어진 질의에 대해 검색 시스템으로부터 검색된 문헌 중 상위 K의 문헌을 하나의 풀을 생성한다. 이들 풀에 속한 K개의 문헌을 전문가에 의해서 연관 여부를 결정한다. 가정: 연관문헌의 대부분은 풀에 포함될 것이다. 풀에 포함되지 않은 문헌은 비연관 문헌이다. 작업 축적 검색(ad-hoc) : 변하지 않는 문헌 컬렉션에 대해서 여러 질의를 적용하는 방법 라우팅(routing) : 사용자 요구인 질의는 고정되고 문헌 컬렉션이 변하는 경우이다. 같은 질의가 동적인 문헌 집합을 대상으로 실행되는 여과(filtering) 작업 (예, 뉴스 클립핑 서비스) 순수 여과 작업과는 달리 검색된 문헌은 순위화 실험 정보 요구와 2개의 서로 다른 문헌 컬렉션 제공 (검색 알고리즘의 학습과 튜닝, 튜닝된 알고리즘의 테스트)

TREC-6 - 보조 작업 중국어(Chinese): 문헌과 토픽 모두가 중국어로 된 축적 검색 작업 여과(filtering): 새로 도착한 문헌이 연관문헌인지 아닌지만 결정하는 라우팅 작업이며, 문헌 순위화하지 않고, 테스트 자료는 도착 순서대로 처리 대화(interactive): 탐색자가 문헌의 연관성을 평가하기 위하여 정보 검색 시스템과 대화적으로 작업하며, 문헌은 연관 혹은 비연관 문헌으로 구분(순위화 비제공). 자연언어 처리(natural language): 자연언어 처리에 기반을 둔 검색 알고리즘이 기존의 색인어를 이용한 검색 알고리즘에 비해 장점이 있는지 여부를 검증하기 위한 작업 다국어 축적 검색(cross language): 문헌은 하나의 언어를 사용하나 질의는 여러 가지 다른 언어를 사용

TREC - 보조 작업 높은 정확률(high precision): 정보 검색 시스템 사용자가 주어진 정보 요구(이전에 알려지지 않은)에 대한 응답으로 5분 이내에 10개의 문헌을 검색하도록 하는 작업 구어체 문헌 검색(Spoken document retrieval ): 라디오 방송의 뉴스 쇼를 기록한 문헌을 검색하는 작업이며, 구어체 문헌 검색 기술에 대한 연구를 촉진하기 위한 것임 대용량 코퍼스(Very large corpus): 축적 검색 작업으로 검색 시스템은 20 기가바이트(7500만 문헌) 크기의 컬렉션을 처리해야 함.

TREC – 평가 척도 요약 테이블 통계(summary table statistics): 주어진 작업에 대한 통계값들을 요약한 테이블. 작업에 사용된 토픽(정보 요구) 수, 전체 토픽에 대해 검색된 문헌의 수, 전체 토픽에 대해 효과적으로 검색된 연관 문헌의 수, 전체 토픽에 대해 검색했어야 할 문헌의 수 재현율-정확률 평균(recall-precision averages): 11 표준 재현율 수준에 있어서 평균 정확률을 표시하는 그래프나 표로 구성 문헌 수준 평균(document level averages): 전체 토픽에 대한 평균 정확률이 미리 정의된 문헌 컷오프에서 계산된다. 평균 정확률 히스토그램(average precision histogram): 각 토픽에 대한 단일 수치 척도를 포함하는 그래프.

CACM 컬렉션 3204 문헌으로 구성 부가 정보 52개의 정보요구 저자명 날짜 제목과 요약에서 추출된 키워드 계층적 분류 체계에서 추출된 범주(Computing Review의 범주 체계) 논문 사이의 직접 인용 정보 서지학적 연결(bibliographic coupling) 정보 두 문헌 사이에 상호 인용(co-citation) 빈도 52개의 정보요구 예) 1번 정보요구 What articles exist which deals with TSS(Time Sharing System), an operating system for IBM computers (IBM 컴퓨터 운영체제인 TSS(시분할 시스템)에 대한 논문은 어떤 것이 있는가?) 각 정보 요구에 대해, 두 개의 불리안 질의와 연관 문헌 집합을 포함한다. 각 정보 요구에 대한 연관 문헌의 평균 개수는 15개 정도로 비교적 작다. 정확률과 재현율 성능은 비교적 낮은 경향이 있다.

ISI 컬렉션 ISI(CISI) 의 1460개 문헌 ISI(Institute of Science Information)의 Small[731]에 의해 수집 부가정보 저자 이름 제목과 요약에서 추출된 키워드 각 논문 쌍에 대한 상호 인용 빈도 정보요구 35개의 불리안 질의 41개의 자연어 질의 각 질의에 대한 평균 연관 문헌 수: 약 50개 정확률과 재현율 성능은 비교적 낮은 경향이 있다.

Cystic fibrosis 컬렉션 1239개의 문헌 부가 정보 MEDLINE 병명 번호 저자, 제목, 출처 주요 주제, 보조 주제 요약 참고문헌, 인용 졍보요구: 100 연관 문헌의 수 : 10 ~ 30 연관도 0 : 연관성 없다. 1 : 연관성 중간이다. 2 : 연관성 높다 전문가에 의해서 직접 연관문헌과 연관도을 지정하였다.

한글 정보검색 실험 컬렉션 컬렉션 주 제 문헌수 질의수 한글 정보검색 평가 사이트(http://blue.skhu.ac.kr/~skhuir) 참고 컬렉션 주 제 문헌수 질의수 KTSET93 전산학, 정보학 1,000 30 KTSET95 KTSET93 확장(신문기사) 4,414 50 EKSET 계몽사 백과사전 23,000 46 KRIST 과학기술 연구 보고서 13,515 30 HANTEC 일반,사회과학,과학기술 120,000 50