Download presentation
Presentation is loading. Please wait.
1
인터넷정보원 및 학술정보자원의 활용 담당교수 : 박 양 하 6주 : 인터넷 정보검색
2
정보의 정의 사전상의 정의 학문관점으로 본 정의 기타
특별한 사건이나 상황에 대한 지식, 혹은 다른 사람에 의해 전달된 지식이나 조사를 통해 얻어진 지식(Webster) 전달되었거나 얻은 지식 또는 커뮤니케이션을 통해 얻은 지식(Random House) 학문관점으로 본 정의 전통적 관점 : 어떤 주제나 사실에 관하여 전달되는 지식, 다른 사람에 의하여 전달되거나 개인의 연구와 발명에 의하여 얻어지는 지식 행동과학적 관점 : 인간이나 동물들이 생활환경 가운데서 받아들이는 여러 가지 자극 정보이론적 관점 : 인간과 인간 사이에서 전달되는 일제의 기호 계열 기타 불확실성을 감소 시키는 것, 판단이나 의사결정을 위하여 불명확한 것을 감소시키고 판단이나 의사결정에 유용한 것 데이터를 인간에게 보다 유용한 형태로 해석하거나 가공한 것으로 의사전달을 위한 유용한 수단 프린트물 참조 2
3
정보의 특성 시한성(時限性) 비이전성(非移轉性) 축적효과성 신용가치성 무한가치성 무형성 보편다재성 매체의존성 표현다양성 독점성
4
정보의 유형 정보의 특성에 따른 분류 이용주체에 따른 분류 정보원에 따른 분류 발생원 : 외부정보, 내부정보
발생빈도 : 항상정보, 수시정보 이용주체에 따른 분류 이용 목적성 : 형식정보, 의미정보 효용성 : 수단적 정보, 목적적 정보, 서비스재 정보 정보원에 따른 분류 1차 정보 : 원자작물, 원문의 내용을 전혀 가공하지 않은 것 2차 정보 : 1차 정보를 일정한 원칙에 의해 정리한 것 3차 정보 : 2차 정보를 탐색하기 위해 2차 자료를 재가공한 것
5
다양한 정보원 일차정보원 이차정보원 (참고정보원) 삼차정보원 단행본 연속간행물 연구보고서 학위논문 출판전 배포기사 레터,레터지
상품안내자료 규격자료 특허정보 회의자료 사실정보원 서지정보원 백과사전 텍스트북 리뷰논문 데이터집,통계표 편람 연감 명감 사전 목록 데이터베이스 색인지 초록집 DB는 2차정보원 or 3차정보원 구분이 명확하지 않음 3차정보원 – 서지의 서지,
6
정보검색(Information Retrieval)
1950년 무어즈(C. N. Mooers)에 의해 처음 용어가 사용됨 자료를 수집하고 분석하고 가공(색인)하여 축적하고, 축적된 자료에서 사용자가 원하는 데이터/정보/지식 등을 찾아주는 기능이나 프로세스 정보 선택의 개념이 함축되어 있음([ex] 도서관)
7
정보표현과 정보검색과정 인터페이스 데이터베이스 탐색 매커니즘 정보표현과 검색언어 정보표현 질의작성(요구표현)
8
정보검색의 개념 이해를 위한 용어들 색인(indexing or index) 질의(query) 질의어(query terms)
정보검색의 대상이 되는 정보자료의 특성을 표현하는 데이터 요소를 추출하여 각 정보자료를 표현하는 작업(indexing) 혹은 그 결과물(index) 추출된 데이터 요소를 색인어(index term) 혹은 메타데이터(metadata)라고 함 수작업 색인(도서관에서의 서지사항)과 자동 색인(일반적인 웹검색엔진)이 있음 질의(query) 정보검색을 위해 이용자의 정보요구를 표현하는 것 질의어(query terms) 질의를 구성하는 각 용어들 용어 가중치(term weighting) 각 색인어 질의어의 상대적인 중요도를 부여하는 것 예) 특정 문헌에 ‘도서관’이라는 단어가 다른 단어에 비해 특히 많이 출현했을 경우, 그 문헌에서 ‘도서관’이라는 단어가 다른 단어에 비해 더욱 중요하다고 판단 메타데이터(metadata) 데이터의 데이터 가중치 색인어에 가중치를 주거나 필드에 가중치를 줄 수 있음 – 제목/본문/…식으로
9
정보검색의 단계별 발전모델 1단계 키워드 검색 정보접근성 위주 Know- Where 키워드 매 칭함수 정확도보다 재현 중심
정보접근성 위주 Know- Where 키워드 매 칭함수 정확도보다 재현 중심 2단계 디렉토리 검색 정보분류 정보의 중 복성 해소 3단계 하이브리드 복합적인 정보검색 도 구 제공 자연어처리 (NLP) 대화기반지 능적 처리 정보의 정 확도 중심 4단계 지식 검색 정보의 유 용성 강조 Know-How 정보의 경 험과 유통을 결합한 형태 5단계 의미 검색 정보의 의 미해석 사용자의 의도와 정보 요구 분석 탐색과 검색의 차이 탐색 : 해당정보원에 찾고자 하는 정보가 포함된 것을 알고 찾는 행위 검색 : 해당정보원에 찾고자 하는 정보가 포함된 여부를 알지 못한 상태에서 찾는 행위 디렉토리검색 = 브라우징
10
정보검색 접근방법의 비유 Koll 의한 정보 검색 비유 건초더미(정보검색시스템), 바늘(정보)
알고 있는 건초더미에서 알고 있는 바늘 찾기(탐색) 알지 못하는 건초더미에서 알고 있는 바늘 찾기 알지 못하는 건초더미에서 알지 못하는 바늘 찾기 건초더미에서 어떠한 바늘이라도 찾기 건초더미에서 가장 날카로운 바늘 찾기(정확율) 건초더미에서 대부분의 날카로운 바늘 찾기 건초더미에 있는 모든 바늘 찾기(재현율) 건초더미에 바늘이 없음을 확인하기 건초더미에서 바늘과 유사한 것을 찾기 새로운 바늘이 나타날 때마다 알려주기 건초더미들이 있는 장소를 찾기 바늘이건 건초더미건 무엇이든지 찾기(브라우징)
11
정보검색 기법 불리언 검색 집합이론에 의한 검색 기법 온라인 검색시스템에서 가장 많이 사용하고 있는 검색 기법
AND, OR, NOT의 검색 기호 사용 예) 디지털, 도서관 이용자가 ‘디지털’과 ‘도서관’이 모두 포함된 문헌을 검색하고자 할 때 : 디지털 AND 도서관 이용자가 ‘디지털’ 또는 ‘도서관’이 포함된 문헌을 검색하고자 할 때 : 디지털 OR 도서관 이용자가 ‘디지털’은 포함하지 않는 ‘도서관’ 관련 문헌을 검색하고자 할 때 : 도서관 (AND) NOT 디지털 단점 검색된 문헌들을 정합성 정도에 따라 순위화 할 수 없다. 질의어의 상대적 중요도를 나타낼 수 없다.
12
정보검색 기법 가중치에 의한 검색 불리언 검색과 가중치를 결합한 검색
각 질의어에 가중치를 주어 검색식을 작성하여, 그 가중치들의 합이 검색 기준치보다 큰 문헌만 검색 가중치 부여 방법 탐색자가 임의로 부여하는 방법 검색식에 출현한 단어 빈도에 따라 자동으로 부여 예) 디지털 : 4, 도서관 : 3, 검색기준치 : 5일 때 두 용어를 색인어로 갖는 문헌만 가중치 합이 7로, 검색됨 불리언 검색과 가중치를 결합한 검색 각 문헌의 색인어나 질의어에 가중치를 부여한 후, 불리언 논리를 만족시키는 문헌 가운데 가중치 합이 검색 기준치를 넘는 것만 검색 D1 : 디지털(2), 도서관(3), D2 : 디지털(1), 도서관(2)이고 검색 기준치가 4일 때, ‘디지털 AND 도서관’이 질의인 경우 D1만 검색됨
13
정보검색 기법 매칭함수에 의한 검색 매칭함수(matching function) : 질의와 문헌의 유사도를 측정하는 함수
질의와 문헌을 벡터로 표현한 후 질의와 문헌간의 유사도를 산출하여 검색 기준치 이상의 문헌들을 검색 코사인 유사계수 유사도 값의 순위로 순위화 하여 검색 결과를 나타낼 수 있음 예) D1 = (2,5,0,0,0,2), Q1 = (1,1,1,0,0,0) Document
14
정보검색 기법 자연 언어 질의 방식 질의확장(Query Expansion)
이용자가 자연 언어 형태의 질의를 사용할 수 있도록 함 ‘도서관 자동화에 관한 자료를 원한다’와 같은 자연 언어로 검색하면 시스템은 이를 해석하여 적당한 검색어로 변형시켜 검색함 질의확장(Query Expansion) 시소러스를 이용한 질의 추가 시소러스 : 특정 용어와 의미상으로 관련된 용어들을 한꺼번에 모아 체계적으로 구성한 사전의 일종 적합성 피드백에 의한 질의 추가 처음 질의에 대해 이용자에게 최초 검색 결과를 보여줌 검색 결과로부터 검색된 문헌의 적합성을 판단 검색 결과 중 적합한 문헌으로 판단된 문헌에 출현한 용어들을 질의에 추가하여 2차 검색 최종 검색 결과를 이용자에게 보여줌 시소러스 =/= 동의어사전 같은 개념이 아니예요~ 시소러스, 주제명표목표 시소러스 : 재현율 상승(검색결과 확장) 적합성 피드백 : 정확율 상승(검색결과 제한둠??)
15
온라인 탐색수단 용어절단(word truncation) 인접검색
질의어로 사용되는 용어의 일부분을 생략하고 나머지 부분만을 질의어로 쓰는 것 LIBRAR*를 질의어로 사용할 경우 LIBRARY, LIBRARIAN, LIBRARIES, LIBRARIANSHIP 등이 모두 검색됨 종류 좌측절단 : 질의어의 앞쪽을 절단 우측절단 : 질의어의 뒤쪽을 절단 양측절단 : 질의어의 앞쪽과 뒤쪽을 동시에 절단 중간절단 : 용어의 중간에 있는 글자를 절단 인접검색 두 개의 질의어가 놓여 있는 위치가 서로 얼마나 떨어져 있는가를 측정하여 이를 검색에 이용 예) heart(w3)attack : heart와 attack 사이에 최대 3개의 단어가 포함된 문헌 검색 Within 순서 Near 순서무관
16
온라인 탐색수단 구검색(Phrase Searching) 제한검색 전방일치 혹은 후방일치 검색
연속해서 나오는 두 개 이상의 키워드를 하나로 간주하여 질의어를 구성함 “아름다운 청년 전태일” 제한검색 ‘저자’나 ‘제목’, ‘출판년’ 등의 특정 필드만을 탐색 대상으로 하여 해당되는 문헌만 검색함 전방일치 혹은 후방일치 검색 질의어가 해당 필드 예를 들어, ‘제목’에 맨 앞 혹은 맨 뒤에서부터 일치되는 문헌만을 검색함 ‘정보 검색’을 전방일치 검색으로 할 경우 ‘정보 검색 ...’으로 시작되는 문헌만을 검색해 줌
17
정보검색의 평가 검색의 효율성을 나타내는 주요 척도로 재현율과 정확률이 있음
재현율(Recall ratio) : 전체 적합문헌 중에 실제 검색된 적합 문헌의 비율. 검색의 완전성 정확률(Precision ratio) : 검색된 전체 문헌 중 검색된 적합 문헌의 비율. 검색의 정확성 재현율은 전체 적합문헌에서 “얼마나 많이~” 적합한 문헌이 결과로 나왔나 정확률은 검색결과 중에서 적합한 문헌이 얼마나 나왔나
18
정보검색의 평가 재현율 vs. 정확률 탐색 수단과 재현율/정확률 웹 환경에서의 재현율/정확률
특정 주제에 대한 망라적인 정보가 필요할 경우 : 높은 재현율 특정 주제에 대한 중요한 몇 건의 정보만 필요한 경우 : 높은 정확률 탐색 수단과 재현율/정확률 재현율을 높이는 탐색 수단 : 용어절단, 시소러스에서의 유사한 용어 혹은 관련된 용어 추가 정확률을 높이는 탐색 수단 : 인접검색, 구검색, 제한검색, 전방일치 혹은 후방일치 검색 웹 환경에서의 재현율/정확률 검색 결과의 웹 페이지가 매우 많기 때문에 재현율보다는 정확률이 더 중요해지며 특히, 상위 10~50위 이내의 페이지 중 정확한 웹 페이지를 얼마나 잘 찾아주는가가 중요해짐 따라서, 검색된 결과를 적절히 순위화해 주는 것이 매우 중요(랭킹 알고리즘 성능이 매우 중요) 재현율을 높이는 탐색 수단 : 블리언 검색에서의 OR검색 정확률을 높이는 탐색 수단 : 블리언 검색에서의 AND, NOT 검색 랭킹 알고리즘 성능 – 구글 페이지랭킹/첫눈 스노우랭킹
19
정보검색 시스템의 유형 참조정보검색시스템(Reference retrieval system)
1차 문헌에 대한 서지 정보 즉, 2차 정보를 검색하기 위한 시스템 도서관의 검색 시스템이 대표적인 예 전문검색시스템(Full-text retrieval system) 신문기사, 웹 페이지 등 문헌의 전문(全文)을 저장하고 이를 검색하는 시스템 웹 검색엔진이 대표적인 예 데이터검색시스템(data retrieval system) 인명과 같이 단어로 표현되거나 통계치와 같이 수치로 표현되는 데이터를 저장하고 이를 검색하는 시스템 질문응답시스템(Question-answering system) 소장된 데이터로부터 질문에 대한 해답을 직접 찾아내는 시스템 질문응답시스템 start.csail.nit.edu
Similar presentations