Download presentation
Presentation is loading. Please wait.
Published byLiana Susanto Modified 5년 전
1
정보검색 시스템의 성능 평가 정보 검색 시스템 색인어 추출 시스템 문서 범주화 시스템 문서 요약 시스템 질의응답 시스템
2
정보검색 평가척도 Precision Recall F-Measure E-Measure
3
색인어 추출 시스템 평가 재현율 정확률
4
문서 범주화 시스템(1/3) Category Ranking System Precision Recall
11-point average precision 전체 테스트 문서 집합에 대한 global 한 evaluation을 하기 위해 각 문서별로 재현율에 따른 정확률을 측정한 뒤 전체 문서 집합에 대해 평균을 내어 산출
5
문서 범주화 시스템(2/3) Binary Classifier Macro Averaging Precision/Recall
모든 범주들에 대해 동일한 weight 를 부여하는 결과 Micro Averaging Precision/Recall 모든 문서들에 대해 동일한 weight 를 부여하는 결과 범주들의 분포에 엄연히 차이가 존재하므로 Micro Averaging 기법이 Reasonable 하며 대부분 이를 사용
6
문서 범주화 시스템(3/3) F-measure and BEP Break Even Point
Precision과 recall이 같게 된다면 그때의 같은 값이 BEP 같게 할 수 없다면 Precision 과 recall이 가장 가까워 질 때, 두 값을 평균한 값이 BEP F-measure(by C.J. van Rijsbergen) Precision과 Recall의 조화평균(F1)
7
문서요약시스템(1/2) Adhoc Task Categorization Task
지시적(indicative), 사용자주도(user-driven) 요약에 초점 평가자에게 문서와 사용자질의를 주고, 주어진 문서가 질의에 적합한지의 여부를 결정하도록 한다. 문서는 full-text source일 수도 있고 요약일 수도 있다. 평가자에게는 둘중 어느것인지 알려주지 않는다. Categorization Task 포괄적 요약(generic summary)에 초점 평가자에게 문서를 주고 그 문서와 관련있는 하나의 범주를 선택하도록 한다. 범주와 범주에 대한 설명 제공. Full-text source를 보고 미리 구해둔 적합성에 대해, 요약을 보고 내린 적합성 판단의 정확도를 평가한다.
8
문서요약시스템(2/2) Question-answering Task Acceptability Task
정보적 요약(informative summary)에 초점 각 문서에 관련된 주제를 이해하고, 그 주제의 모든 필수적인 관점들을 가능한한 짧은 요약에 포함할 수 있어야 한다. 어떤 한 주제에 대해 리포트를 작성하려는 정보 분석가를 지원하기 위해 고안됨. Acceptability Task Full-text에 비해 요약이 얼마나 받아들일만한지에 대해 전반적으로 측정한다. 평가자는 full-text 문서와 요약을 모두 읽어보고, 요약이 만족할만한지 결정하도록 한다. 만족도의 기준?
9
질의응답시스템(1/3) TREC에서의 question 평가
fact_based question short-answer question 평가 : assessor들이 답으로 제출된 각각의 string을 읽고 binary decision을 한다. 매우 제약을 가한 question임에도 불구하고, answer은 context에 의존했으며, assessor들은 특정한 answer string이 옳은지에 대해 서로 다른 견해를 보였다.
10
질의응답시스템(2/3) Creating the question set Assessor training
Goal : to have the test set represent a wide spectrum of subjects and question types Assessor training The rational for using human assessors : to incorporate the perceptions of the end-users of the technology into the evaluation to the greatest extent possible. Judging the test set 하나의 답에 대해 서로 다른 세 명의 assessor가 judge를 하였다. Scoring the result
11
질의응답 시스템(3/3) Assessor들간의 견해 차이 정답에 대한 일관된 기준을 만드는 것은 의미가 없다.
예) When did NIXON die? -> April 22 Assessor둘은 정답으로 판단했지만, 한 사람은 연도가 명시되지 않아 틀린 것으로 판단하였다. 정답에 대한 일관된 기준을 만드는 것은 의미가 없다. 정답 기준은 question에 따라 다르다. 예) When으로 시작하는 의문문이라 하더라도, 연도를 명시 해야 하는 경우, 날짜만 명시해도 되는 경우, 세기만 명시해도 되는 경우 등 question마다 정답에 대한 기준이 다르다. 정답 기준은 answer을 받아들이는 사람에 따라 다르다.
Similar presentations