Download presentation
Presentation is loading. Please wait.
1
Information Retrieval (Chapter 1: Introduction)
서정연교수 Office: 공학관 816 Tel:
2
Contents 1.1 Motivation 1.2 Basic Concepts
1.3 Past, Present, and Future 1.4 The Retrieval Process 1.5 Organization of the Book
3
정보란 ? 정확한 정의는 없다. 철학, 심리학, 신호처리, 물리학 등의 학문이 관련되어 있다. 사전 상의 정의
정보(information) 어떤 비밀의 사실이나 상황에 관한 자세한 지식이나 보고나 자료 (연세국어사전). informing, telling; thing told, knowledge, items of knowledge, news (Oxford 영어사전) 지식(knowledge) 연구하거나 교육받거나 체험해서 알게 된 내용 또는 그러한 정심 작용 (연세국어사전). knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known (Oxford 영어사전)
4
정보의 계층구조 지혜 지식 정보 데이타 데이터(Data) 정보의 가장 기본적인 재료 정보(Information)
어떤 사람이나 절차에 의해서 구성되고 가공 표현된 데이터 지식(Knowledge) 읽고, 듣고, 보고, 이해한 정보 지혜(Wisdom) 정제되고 통합된 지식과 이해 지혜 지식 정보 데이타
5
정보의 종류 문서 영화 사진 텔레비전, 라디오 전화, 대화 데이타베이스 …..
책, 신문, 정기간행물, 웹 문서, 메모, 광고 …. 출판물 혹은 참고자료 영화 사진 텔레비전, 라디오 전화, 대화 데이타베이스 …..
6
얼마나 많은 정보가 있는가? 의회도서관(미국): ~ 20 Terabytes 다이얼로그(서지목록): ~ 9.2 Terabytes
(All estimates courtesy Michael Lesk) 의회도서관(미국): ~ 20 Terabytes 다이얼로그(서지목록): ~ 9.2 Terabytes Web : ~ 2 Terabytes (1997) 웹페이지: 약 80억개의 페이지 (Faulker’s Cyberscape Digest 08/06/99) 인터넷 통화량: 매 100일마다 두 배로 증가 (US Commerce Dept 1998) 50,000,000 사용자 확보: 라디오: 38년, TV : 13년, 인터넷 : 4년
7
정보의 홍수 “The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all.” (W.H. Auden)
8
정보검색의 동기 정보검색 (Information Retrieval: IR) IR 시스템의 중요 목표
정보에 대한 표현, 저장, 구성, 접근 사용자가 관심 있는 정보에 대해 쉬고 편리한 접근을 제공 가상 사용자 정보 요구 예: “다음과 같은 대학 테니스 팀에 대한 정보를 지니고 있는 모든 페이지(문헌)를 찾아라” NCAA 테니스 토너먼트에 참가한 미국 대학에 관련된 문헌 중 그 팀의 지난 3년간의 미국 내 순위와 그 팀 코치의 전자메일 또는 전화번호 포함하고 있는 문헌 IR 시스템의 중요 목표 사용자 요구를 IR 시스템의 내부 질의 형식으로 변환한다. 사용자 요구를 빨리 찾도록 정보를 재구성해서 저장한다. 사용자에게 유용하거나 연관된 정보를 검색한다.
9
정보 검색와 데이터 검색 데이터 검색 (Data Retrieval: DR) 명확히 정의된 조건으로 모든 객체들을 검색한다.
대상: 잘 정의된 구조와 의미를 가진 데이터 관계형 데이터베이스 정보 검색 질의나 주제에 연관된 정보를 검색한다. 대상: 자연언어 텍스트 (주로) 구조화되지 않았으며, 의미적으로도 모호함 문헌 내용의 해석해야 한다. 문헌 텍스트로부터 구문/의미 정보를 추출하고, 이 정보를 이용해 사용자 정보 요구와 정합한다. 사용자 질의와의 연관도에 따라 순위를 부여한다.
10
시대 중심에 위치한 정보 검색 ’60-’70년대: 텍스트 색인과 유용한 문헌 탐색 도구 ‘80년대 : ‘90년대
IR 연구는 모델링, 문헌 분류 및 범주화, 시스템 구조, 사용자 인터페이스, 데이터 가시화, 여과, 언어 등의 분야를 포함 도서관 사서나 정보 전문가들만의 협소한 관심영역 ‘90년대 WWW의 등장 전례없는 규모로 생각과 정보의 공유를 가능 인류 지식과 문화의 보편적인 저장소 모든 사람이 접할 수 있는 새로운 출판 매체 주요 장애물 웹을 위해 잘 정의된 데이터 모델의 부재 정보의 정의와 구조가 저수준 유망한 해결책으로 웹 검색 부각
11
사용자의 역할 작업에 따른 사용자와 검색 시스템간의 상호작용 검색 브라우징 DB
12
사용자 작업 가져오기(pulling) 작업 정보와 데이터 검색 사용자 요구를 질의하여 그 결과를 받는다.
전통적인 정보 검색 시스템 브라우징 정보를 찾기 위해 시스템에서 제공하는 안내를 따라다닌다. 목적이 명확하지 않은 상태에서 시작한다. 목적이 있더라도 사용 중에 지속적으로 변할 수 있다. 하이퍼텍스트 시스템 정보와 데이터 검색에 브라우징의 통합 최근 전자도서관과 웹 인터페이스에서 시도-여러 한계 밀어넣기(push) 작업 사용자에게 유용한 정보를 주기적으로 자동으로 추출하여 보내준다. 사용자는 추출된 정보의 만족도를 표시하는 등의 작업 정보 여과(filtering)
13
논리적 관점에서의 문헌 (Logical view of the documents)
전문(full text) 문헌에 포함된 모든 단어의 집합 가장 완전한 형태의 논리적 문헌 높은 계산 비용을 수반 색인어(index term)나 키워드(keyword)의 집합 문헌 텍스트로부터 직접 추출 대규모의 문헌 집합에서 대표 키워드 집합으로 축소 텍스트 작업(또는 변형) 불용어(stopword ; 관사나 접속사와 같은) 제거 스테밍(stemming ; 문법적으로 공통인 어원으로 변환) 명사 그룹(형용사, 부사, 동사 제거) 확인 압축 주제 색인자(정보과학 영역 전문가)에 의해 명기 작은 규모의 카테고리: 가장 간결한 형태의 논리적 문헌 낮은 수준의 검색 결과
14
논리적 문헌 :전문에서 색인어 집합까지 인
15
과거, 현재와 미래 : 초기 연구 정보의 조직화 컴퓨터의 발달로 대규모 색인을 자동으로 구축하는 것이 가능
책의 목차 책의 색인 분류체계 : 도서관학(또는 문헌정보학) 분야의 전문가들에 의해 고안 컴퓨터의 발달로 대규모 색인을 자동으로 구축하는 것이 가능 정보 검색의 두 관점 컴퓨터 중심 효율적인 색인, 고성능의 사용자 질의 처리, 순위결정 알고리즘이 중요 인간 중심 사용자 행태 연구, 사용자의 주요 요구의 이해와 함께 어떻게 이런 것들이 검색 시스템의 조직과 동작에 영향을 미치는가가 중요
16
과거, 현재와 미래 : 서지 정보 검색 1세대 시스템 2세대 시스템 3세대 시스템
카드 목록과 같은 이전의 기술들을 자동화하는 차원 저자나 제목으로 검색 가능 2세대 시스템 주제어나 키워드, 좀 더 복잡한 질의 처리 등의 향상된 탐색 기능들이 추가 3세대 시스템 향상된 그래픽 인터페이스, 전자 서식, 하이퍼텍스트 기능 및 개방형 시스템 구조 등에 초점
17
과거, 현재와 미래 : 웹과 디지털 도서관 컴퓨터 기술 발전과 웹에 의한 변화 웹(디지털 도서관)
저비용: 매우 저렴하게 다양한 정보원의 접근이 가능 접근의 용이: 수많은 네트워크에로의 신속한 접근이 가능 출판의 자유: 대규모 출판 매체에 자유로운 접근이 가능 웹(디지털 도서관) 고수준의 상호작용(interactivity)이 가능한 매체 서비스 편의성 향상 해결해야 할 세 가지 중요 문제 동적 환경에서 양질의 검색을 제공 색인과 질의 응답 시간을 빠르게 제공 사용자 행태의 이해 새로운 정보 검색 전략의 설계와 전개에 영향
18
과거, 현재와 미래 : 실용적인 문제 보안과 사생활보호 전자상거래 보안상의 이유로 암호화나 자동 인증 형식을 제공
제3자에 의해 개인정보가 오용되는 것을 방어 저작권과 특허 웹상의 광범위한 데이터 유포와 저작권법이나 특허법과의 관계 대규모 디지털 도서관 설립과 전개 사업에 중요 기타 이슈 스캐닝, 광학문자인식(OCR), 교차 언어 검색(질의언어와 검색된 문헌의 언어가 상이한 경우)
19
검색 과정 사용자 인터페이스 DB 관리자 색인기 텍스트 연산 질의연산 검색기 순위부여 색인 텍스트 DB 순위가 부여된 문헌
역 파일 질의 검색된 문헌 사용자 요구 순위가 부여된 문헌 논리 관점 feedback
20
검색 과정(계속) 텍스트 데이터베이스 정의(데이터베이스 관리자) 텍스트 색인 생성 사용될 문헌 텍스트에 수행될 명령어
텍스트 모델(검색 대상 요소로서의 텍스트 구조) 텍스트 색인 생성 가장 중요한 자료구조 대량의 데이터를 빠르게 검색 역파일(inverted file) 구조
21
검색 과정(계속) 검색 사용자의 요구를 명기 텍스트 명령어와 동일하게 분석되고 변형
질의 연산 (query operation) 적용 색인구조에 의해 검색 연관 (relavance) 가능성 (likelihood)에 따라 순위화 사용자 피드백(user feedback) 사용자의 관심에 정확히 부합되는 문헌들을 선택 질의 표현 수정 Go to 3
22
강의 내용
23
강의 내용 : 세부 사항
24
참고 자료 정보 검색에 대한 주요 논문지 학술회의
Journal of the American Society of Information Sciences(JASIS) ACM Transactions on Information Systems Information Processing & Management(IP&M, Elsevier) Information Systems(Elsevier) Information Retrieval(Kluwer) Knowledge and Information Systems(Springer) 학술회의 ACM SIGIR International Conference on Information Retrieval ACM International Conference on Digital Libraries(ACM DL) ACM Conference on Information Knowledge and Management(CIKM) Text REtrieval Conference(TREC) IRAL (International Workshop on Information Retrieval with Asian Languages) 한글 및 한국어 정보처리 학술대회 강의 자료 –
Similar presentations