인터넷정보원 및 학술정보자원의 활용 담당교수 : 박 양 하 6주 : 인터넷 정보검색.

Slides:



Advertisements
Similar presentations
정보의 공유와 보호 정보의 공유와 관리 2. 정보 보호 기술과 지식 재산권.
Advertisements

문헌정보학과 김수 정 이가은 임현정 중앙도서관 서울대학교 VS 학술정보 관 학술정보 관 성균관대학교 이용자 중심의.
영화 예매 시스템 - 많이 봤다이가 ? CSE Corp. PM 송진희 김성욱 김보람 천창영.
KARGER 서울대학교의학도서관 ,
최신정보검색론 Chapter 장 웹 탐색 목차 13.1 소개 13.2 도전 13.3 웹의 특성화 13.4 탐색 엔진 13.5 브라우징 13.6 메타 탐색기 13.7 건초더미에서 바늘 찾기 13.8 하이퍼 링크를 이용하여 탐색하기 13.9 연구 동향 및 쟁점.
도서관에서 역사인물 정보자료 찾 기 다양한 검색방법으로 역사 속 인물의 자료를 검색 해보자.
Advancing the Chemical Sciences The Royal Society of Chemistry 이용자 매뉴얼 Advancing the Chemical Sciences Latest Update :
밥 팀 명 : TTL 조 팀 원 : 김정용 (PM) 서종규 노재현 엄성욱.
7 주 : 정보검색의 실제 - 건국대학교 중원도서관을 중심으로 - 인터넷정보원 및 학술정보자원의 활용 담당교수 : 박 양 하.
Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
해외전자정보서비스이용교육 EBSCO eBook (NetLibrary)
4 vs 2 KMU & YIC 강보람 김희선 이은지 최소영.
컴퓨터와 인터넷.
컴퓨터의 응용-검색엔진 <컴퓨터의 응용> 교수명: 용환승 공학부, 이한아
인터넷 서비스.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
Entity Relationship Diagram
Hybrid INDIGO project 중간보고
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
"e특허나라" 서비스 안내 1. 시스템 개요 2. 주요 서비스 기능.
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
1장 소개 목 차 1.1 동기 1.2 기본 개념 1.3 과거, 현재와 미래 1.4 검색 과정 1.5 교재의 구성
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
고급 웹 개발 응용 프로젝트 2010년 1학기.
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근
제 1장. 멀티미디어 시스템 개요.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
(인터페이스 상세 이용 방법 및 다운로드 (대출모드) 안내)
DDOD: Digital Dissertations on Demand
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
27장. 모듈화 프로그래밍.
1. 속성검색 화면소개 2. 속성검색 버튼 클릭 3. 상품 속성검색 활용 4. 다양한 속성값 선택 5. 소재지별/업체별 검색.
검색2주(텍스트표현기법).
제 10 장 의사결정이란 의사결정은 선택이다.
재무회계의 개념체계 재무회계의 목적 회계의 기본가정 회계정보의 질적 특성 재무제표의 구성요소 회계원칙(회계기준) 제약조건
퍼지이론(Fuzzy Theory) 지 은 희.
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
Connection the World Biomedical Science
Endnote 이용 안내 2010 중 앙 도 서 관.
USN(Ubiquitous Sensor Network)
㈜신원데이터넷 ㈜신원데이터넷
FileMaker를 이용한 데이터 관리 옥현진(KICE).
American Society for Microbiology
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
데이터 베이스 DB2 관계형 데이터 모델 권준영.
KARGER 서울대학교의학도서관 ,8054.
텍스트 분석 기초.
웹사이트 분석과 설계 (화면 설계) 학번: 성명: 박준석.
Connection the World Biomedical Science
ULRICHSWEB ㈜신원데이터넷.
알고리즘 알고리즘이란 무엇인가?.
수율관리를 위한 POP시스템 목적과 용도 시스템과 구성 POP의 효과
3장, 마케팅조사의 일번적 절차 마케팅 조사원론.
뇌를 자극하는 Solaris bible.
문서 클러스터링 일본언어문화학과 서동진.
메타검색 이용안내 전자자원 통합검색 2011 중 앙 도 서 관.
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
9 브라우저 객체 모델.
의학도서관 iThenticate Manual.
제 4 장 Record.
Harrison’s Online 이용 매뉴얼
KARGER 서울대학교의학도서관
 6장. SQL 쿼리.
                              데이터베이스 설계 및 실습 #6 - SQL 실습 한국외국어대학교 DaPS 연구실                              
American Society for Microbiology
이 은 Tyler 교육과정 개발 모형 이 은
졸업프로젝트.
Presentation transcript:

인터넷정보원 및 학술정보자원의 활용 담당교수 : 박 양 하 6주 : 인터넷 정보검색

정보의 정의 사전상의 정의 학문관점으로 본 정의 기타 특별한 사건이나 상황에 대한 지식, 혹은 다른 사람에 의해 전달된 지식이나 조사를 통해 얻어진 지식(Webster) 전달되었거나 얻은 지식 또는 커뮤니케이션을 통해 얻은 지식(Random House) 학문관점으로 본 정의 전통적 관점 : 어떤 주제나 사실에 관하여 전달되는 지식, 다른 사람에 의하여 전달되거나 개인의 연구와 발명에 의하여 얻어지는 지식 행동과학적 관점 : 인간이나 동물들이 생활환경 가운데서 받아들이는 여러 가지 자극 정보이론적 관점 : 인간과 인간 사이에서 전달되는 일제의 기호 계열 기타 불확실성을 감소 시키는 것, 판단이나 의사결정을 위하여 불명확한 것을 감소시키고 판단이나 의사결정에 유용한 것 데이터를 인간에게 보다 유용한 형태로 해석하거나 가공한 것으로 의사전달을 위한 유용한 수단 프린트물 참조 2

정보의 특성 시한성(時限性) 비이전성(非移轉性) 축적효과성 신용가치성 무한가치성 무형성 보편다재성 매체의존성 표현다양성 독점성

정보의 유형 정보의 특성에 따른 분류 이용주체에 따른 분류 정보원에 따른 분류 발생원 : 외부정보, 내부정보 발생빈도 : 항상정보, 수시정보 이용주체에 따른 분류 이용 목적성 : 형식정보, 의미정보 효용성 : 수단적 정보, 목적적 정보, 서비스재 정보 정보원에 따른 분류 1차 정보 : 원자작물, 원문의 내용을 전혀 가공하지 않은 것 2차 정보 : 1차 정보를 일정한 원칙에 의해 정리한 것 3차 정보 : 2차 정보를 탐색하기 위해 2차 자료를 재가공한 것

다양한 정보원 일차정보원 이차정보원 (참고정보원) 삼차정보원 단행본 연속간행물 연구보고서 학위논문 출판전 배포기사 레터,레터지 상품안내자료 규격자료 특허정보 회의자료 사실정보원 서지정보원 백과사전 텍스트북 리뷰논문 데이터집,통계표 편람 연감 명감 사전 목록 데이터베이스 색인지 초록집 DB는 2차정보원 or 3차정보원 구분이 명확하지 않음 3차정보원 – 서지의 서지,

정보검색(Information Retrieval) 1950년 무어즈(C. N. Mooers)에 의해 처음 용어가 사용됨 자료를 수집하고 분석하고 가공(색인)하여 축적하고, 축적된 자료에서 사용자가 원하는 데이터/정보/지식 등을 찾아주는 기능이나 프로세스 정보 선택의 개념이 함축되어 있음([ex] 도서관)

정보표현과 정보검색과정 인터페이스 데이터베이스 탐색 매커니즘 정보표현과 검색언어 정보표현 질의작성(요구표현)

정보검색의 개념 이해를 위한 용어들 색인(indexing or index) 질의(query) 질의어(query terms) 정보검색의 대상이 되는 정보자료의 특성을 표현하는 데이터 요소를 추출하여 각 정보자료를 표현하는 작업(indexing) 혹은 그 결과물(index) 추출된 데이터 요소를 색인어(index term) 혹은 메타데이터(metadata)라고 함 수작업 색인(도서관에서의 서지사항)과 자동 색인(일반적인 웹검색엔진)이 있음 질의(query) 정보검색을 위해 이용자의 정보요구를 표현하는 것 질의어(query terms) 질의를 구성하는 각 용어들 용어 가중치(term weighting) 각 색인어 질의어의 상대적인 중요도를 부여하는 것 예) 특정 문헌에 ‘도서관’이라는 단어가 다른 단어에 비해 특히 많이 출현했을 경우, 그 문헌에서 ‘도서관’이라는 단어가 다른 단어에 비해 더욱 중요하다고 판단 메타데이터(metadata) 데이터의 데이터 가중치 색인어에 가중치를 주거나 필드에 가중치를 줄 수 있음 – 제목/본문/…식으로

정보검색의 단계별 발전모델 1단계 키워드 검색 정보접근성 위주 Know- Where 키워드 매 칭함수 정확도보다 재현 중심 정보접근성 위주 Know- Where 키워드 매 칭함수 정확도보다 재현 중심 2단계 디렉토리 검색 정보분류 정보의 중 복성 해소 3단계 하이브리드 복합적인 정보검색 도 구 제공 자연어처리 (NLP) 대화기반지 능적 처리 정보의 정 확도 중심 4단계 지식 검색 정보의 유 용성 강조 Know-How 정보의 경 험과 유통을 결합한 형태 5단계 의미 검색 정보의 의 미해석 사용자의 의도와 정보 요구 분석 탐색과 검색의 차이 탐색 : 해당정보원에 찾고자 하는 정보가 포함된 것을 알고 찾는 행위 검색 : 해당정보원에 찾고자 하는 정보가 포함된 여부를 알지 못한 상태에서 찾는 행위 디렉토리검색 = 브라우징

정보검색 접근방법의 비유 Koll 의한 정보 검색 비유 건초더미(정보검색시스템), 바늘(정보) 알고 있는 건초더미에서 알고 있는 바늘 찾기(탐색) 알지 못하는 건초더미에서 알고 있는 바늘 찾기 알지 못하는 건초더미에서 알지 못하는 바늘 찾기 건초더미에서 어떠한 바늘이라도 찾기 건초더미에서 가장 날카로운 바늘 찾기(정확율) 건초더미에서 대부분의 날카로운 바늘 찾기 건초더미에 있는 모든 바늘 찾기(재현율) 건초더미에 바늘이 없음을 확인하기 건초더미에서 바늘과 유사한 것을 찾기 새로운 바늘이 나타날 때마다 알려주기 건초더미들이 있는 장소를 찾기 바늘이건 건초더미건 무엇이든지 찾기(브라우징)

정보검색 기법 불리언 검색 집합이론에 의한 검색 기법 온라인 검색시스템에서 가장 많이 사용하고 있는 검색 기법 AND, OR, NOT의 검색 기호 사용 예) 디지털, 도서관 이용자가 ‘디지털’과 ‘도서관’이 모두 포함된 문헌을 검색하고자 할 때 : 디지털 AND 도서관 이용자가 ‘디지털’ 또는 ‘도서관’이 포함된 문헌을 검색하고자 할 때 : 디지털 OR 도서관 이용자가 ‘디지털’은 포함하지 않는 ‘도서관’ 관련 문헌을 검색하고자 할 때 : 도서관 (AND) NOT 디지털 단점 검색된 문헌들을 정합성 정도에 따라 순위화 할 수 없다. 질의어의 상대적 중요도를 나타낼 수 없다.

정보검색 기법 가중치에 의한 검색 불리언 검색과 가중치를 결합한 검색 각 질의어에 가중치를 주어 검색식을 작성하여, 그 가중치들의 합이 검색 기준치보다 큰 문헌만 검색 가중치 부여 방법 탐색자가 임의로 부여하는 방법 검색식에 출현한 단어 빈도에 따라 자동으로 부여 예) 디지털 : 4, 도서관 : 3, 검색기준치 : 5일 때 두 용어를 색인어로 갖는 문헌만 가중치 합이 7로, 검색됨 불리언 검색과 가중치를 결합한 검색 각 문헌의 색인어나 질의어에 가중치를 부여한 후, 불리언 논리를 만족시키는 문헌 가운데 가중치 합이 검색 기준치를 넘는 것만 검색 D1 : 디지털(2), 도서관(3), D2 : 디지털(1), 도서관(2)이고 검색 기준치가 4일 때, ‘디지털 AND 도서관’이 질의인 경우 D1만 검색됨

정보검색 기법 매칭함수에 의한 검색 매칭함수(matching function) : 질의와 문헌의 유사도를 측정하는 함수 질의와 문헌을 벡터로 표현한 후 질의와 문헌간의 유사도를 산출하여 검색 기준치 이상의 문헌들을 검색 코사인 유사계수 유사도 값의 순위로 순위화 하여 검색 결과를 나타낼 수 있음 예) D1 = (2,5,0,0,0,2), Q1 = (1,1,1,0,0,0) Document

정보검색 기법 자연 언어 질의 방식 질의확장(Query Expansion) 이용자가 자연 언어 형태의 질의를 사용할 수 있도록 함 ‘도서관 자동화에 관한 자료를 원한다’와 같은 자연 언어로 검색하면 시스템은 이를 해석하여 적당한 검색어로 변형시켜 검색함 질의확장(Query Expansion) 시소러스를 이용한 질의 추가 시소러스 : 특정 용어와 의미상으로 관련된 용어들을 한꺼번에 모아 체계적으로 구성한 사전의 일종 적합성 피드백에 의한 질의 추가 처음 질의에 대해 이용자에게 최초 검색 결과를 보여줌 검색 결과로부터 검색된 문헌의 적합성을 판단 검색 결과 중 적합한 문헌으로 판단된 문헌에 출현한 용어들을 질의에 추가하여 2차 검색 최종 검색 결과를 이용자에게 보여줌 시소러스 =/= 동의어사전 같은 개념이 아니예요~ 시소러스, 주제명표목표 시소러스 : 재현율 상승(검색결과 확장) 적합성 피드백 : 정확율 상승(검색결과 제한둠??)

온라인 탐색수단 용어절단(word truncation) 인접검색 질의어로 사용되는 용어의 일부분을 생략하고 나머지 부분만을 질의어로 쓰는 것 LIBRAR*를 질의어로 사용할 경우 LIBRARY, LIBRARIAN, LIBRARIES, LIBRARIANSHIP 등이 모두 검색됨 종류 좌측절단 : 질의어의 앞쪽을 절단 우측절단 : 질의어의 뒤쪽을 절단 양측절단 : 질의어의 앞쪽과 뒤쪽을 동시에 절단 중간절단 : 용어의 중간에 있는 글자를 절단 인접검색 두 개의 질의어가 놓여 있는 위치가 서로 얼마나 떨어져 있는가를 측정하여 이를 검색에 이용 예) heart(w3)attack : heart와 attack 사이에 최대 3개의 단어가 포함된 문헌 검색 Within 순서 Near 순서무관

온라인 탐색수단 구검색(Phrase Searching) 제한검색 전방일치 혹은 후방일치 검색 연속해서 나오는 두 개 이상의 키워드를 하나로 간주하여 질의어를 구성함 “아름다운 청년 전태일” 제한검색 ‘저자’나 ‘제목’, ‘출판년’ 등의 특정 필드만을 탐색 대상으로 하여 해당되는 문헌만 검색함 전방일치 혹은 후방일치 검색 질의어가 해당 필드 예를 들어, ‘제목’에 맨 앞 혹은 맨 뒤에서부터 일치되는 문헌만을 검색함 ‘정보 검색’을 전방일치 검색으로 할 경우 ‘정보 검색 ...’으로 시작되는 문헌만을 검색해 줌

정보검색의 평가 검색의 효율성을 나타내는 주요 척도로 재현율과 정확률이 있음 재현율(Recall ratio) : 전체 적합문헌 중에 실제 검색된 적합 문헌의 비율. 검색의 완전성 정확률(Precision ratio) : 검색된 전체 문헌 중 검색된 적합 문헌의 비율. 검색의 정확성 재현율은 전체 적합문헌에서 “얼마나 많이~” 적합한 문헌이 결과로 나왔나 정확률은 검색결과 중에서 적합한 문헌이 얼마나 나왔나

정보검색의 평가 재현율 vs. 정확률 탐색 수단과 재현율/정확률 웹 환경에서의 재현율/정확률 특정 주제에 대한 망라적인 정보가 필요할 경우 : 높은 재현율 특정 주제에 대한 중요한 몇 건의 정보만 필요한 경우 : 높은 정확률 탐색 수단과 재현율/정확률 재현율을 높이는 탐색 수단 : 용어절단, 시소러스에서의 유사한 용어 혹은 관련된 용어 추가 정확률을 높이는 탐색 수단 : 인접검색, 구검색, 제한검색, 전방일치 혹은 후방일치 검색 웹 환경에서의 재현율/정확률 검색 결과의 웹 페이지가 매우 많기 때문에 재현율보다는 정확률이 더 중요해지며 특히, 상위 10~50위 이내의 페이지 중 정확한 웹 페이지를 얼마나 잘 찾아주는가가 중요해짐 따라서, 검색된 결과를 적절히 순위화해 주는 것이 매우 중요(랭킹 알고리즘 성능이 매우 중요) 재현율을 높이는 탐색 수단 : 블리언 검색에서의 OR검색 정확률을 높이는 탐색 수단 : 블리언 검색에서의 AND, NOT 검색 랭킹 알고리즘 성능 – 구글 페이지랭킹/첫눈 스노우랭킹

정보검색 시스템의 유형 참조정보검색시스템(Reference retrieval system) 1차 문헌에 대한 서지 정보 즉, 2차 정보를 검색하기 위한 시스템 도서관의 검색 시스템이 대표적인 예 전문검색시스템(Full-text retrieval system) 신문기사, 웹 페이지 등 문헌의 전문(全文)을 저장하고 이를 검색하는 시스템 웹 검색엔진이 대표적인 예 데이터검색시스템(data retrieval system) 인명과 같이 단어로 표현되거나 통계치와 같이 수치로 표현되는 데이터를 저장하고 이를 검색하는 시스템 질문응답시스템(Question-answering system) 소장된 데이터로부터 질문에 대한 해답을 직접 찾아내는 시스템 질문응답시스템 start.csail.nit.edu