Information Retrieval (Chapter 1: Introduction)

Slides:



Advertisements
Similar presentations
정보의 공유와 보호 정보의 공유와 관리 2. 정보 보호 기술과 지식 재산권.
Advertisements

Popcon 이규태 김준수 강예진. 목차  Popcon 이란  개발동기 및 목적  필요성  차별성  설계  개발일정  기대효과 및 향후 계획.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
KARGER 서울대학교의학도서관 ,
Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
해외전자정보서비스이용교육 EBSCO eBook (NetLibrary)
컴퓨터와 인터넷.
4D기술로 인한 책의 인터페이스 변화 : 디지로그북
컴퓨터 운영체제의 역사 손용범.
일반 요구 사항 비즈니스 요구사항 고객/정보/위치/상태 탐색방법 제품/서비스 홍보 및 광고 방법
Data Interface, Data mart Technology
인터넷의활용.
네트워크 기술을 통한 현재와 미래 소개.
뇌를 자극하는 Windows Server 2012 R2
이산수학 (2012년 2학기) : 강의 소개 담당교수: 류승택 (60주년 기념관: 18407)
인터넷 서비스.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
Entity Relationship Diagram
ASCE (American Society of Civil Engineers)
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
Hybrid INDIGO project 중간보고
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
1장 소개 목 차 1.1 동기 1.2 기본 개념 1.3 과거, 현재와 미래 1.4 검색 과정 1.5 교재의 구성
컴퓨터과학 전공탐색 배상원.
CAS (Computer Algebra System) 소개
1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근
제 1장. 멀티미디어 시스템 개요.
1장. 데이터베이스 자료의 조직적 집합체_데이터베이스 시스템의 이해
(인터페이스 상세 이용 방법 및 다운로드 (대출모드) 안내)
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
제 10 장 의사결정이란 의사결정은 선택이다.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
RMI Messenger 지도 : 김정배 교수님 조봉진.
Endnote 이용 안내 2010 중 앙 도 서 관.
USN(Ubiquitous Sensor Network)
FileMaker를 이용한 데이터 관리 옥현진(KICE).
Chapter 03. 관계 데이터베이스 설계.
04. DBMS 개요 명지대학교 ICT 융합대학 김정호.
졸업 요건 충족을 위한 추가 이수 학점에 대해서는 ‘졸업요건‘ 규정 확인 바람
KERBEROS.
KARGER 서울대학교의학도서관 ,8054.
단계1 단계2 단계3 단계4 단계5 단계별 제목 상세내용1 상세내용
메카트로닉스공학과 메카트로닉스공학과란? 홈페이지 │
SSL, Secure Socket Layer
(주)신원데이터넷 ICE eBook (주)신원데이터넷
ULRICHSWEB ㈜신원데이터넷.
CAS (Computer Algebra System) 소개
2 컴퓨터와 통신 기술 3 정보의 보호와 공유 정보의 보호 정보의 공유 금성출판사.
XML (eXtensible Markup Language) 개요
알고리즘 알고리즘이란 무엇인가?.
모바일인터넷기초 전산정보학부 모바일인터넷과 권 춘 우
고급 정보 검색 1. 개 요.
Level 0 Level 1 Level 2 Level 3 공모전 후기 모음 웹 서비스 1. 웹 페이지 설계 2. 웹 서버 구현
다차원 색인을 사용하는 실질적인 응용예제 컴퓨터 과학과 이 대 기.
메타검색 이용안내 전자자원 통합검색 2011 중 앙 도 서 관.
Viewing Advanced Web Pages
지능 로봇 연구회 Korean Institute of intelligent systems.
(Wed) Hyun Woong Nam.
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
학습내용 프로토콜 계층화 OSI 모델의 용어 및 기능 개체 서비스 접근점 (N) 프로토콜과 (N) 서비스 서비스 프리미티브
발표자 : 이지연 Programming Systems Lab.
.Net FrameWork for Web2.0 한석수
의학도서관 iThenticate Manual.
학부 컴퓨터공학부 교육과정 (학부) 2학년 4학년 3학년 1학년 1학기 2학기 IPP 자격과정 전공트랙
KARGER 서울대학교의학도서관
 6장. SQL 쿼리.
                              데이터베이스 설계 및 실습 #6 - SQL 실습 한국외국어대학교 DaPS 연구실                              
실전 프로젝트: 홈페이지 구축 시트콤 프렌즈 팬 사이트 구축하기.
디지털광고 구동 원리 전중달 CTO.
Presentation transcript:

Information Retrieval (Chapter 1: Introduction) 서정연교수 Office: 공학관 816 Tel: 705-8488 Email: seojy@sogang.ac.kr

Contents 1.1 Motivation 1.2 Basic Concepts 1.3 Past, Present, and Future 1.4 The Retrieval Process 1.5 Organization of the Book

정보란 ? 정확한 정의는 없다. 철학, 심리학, 신호처리, 물리학 등의 학문이 관련되어 있다. 사전 상의 정의 정보(information) 어떤 비밀의 사실이나 상황에 관한 자세한 지식이나 보고나 자료 (연세국어사전). informing, telling; thing told, knowledge, items of knowledge, news (Oxford 영어사전) 지식(knowledge) 연구하거나 교육받거나 체험해서 알게 된 내용 또는 그러한 정심 작용 (연세국어사전). knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known (Oxford 영어사전)

정보의 계층구조 지혜 지식 정보 데이타 데이터(Data) 정보의 가장 기본적인 재료 정보(Information) 어떤 사람이나 절차에 의해서 구성되고 가공 표현된 데이터 지식(Knowledge) 읽고, 듣고, 보고, 이해한 정보 지혜(Wisdom) 정제되고 통합된 지식과 이해 지혜 지식 정보 데이타

정보의 종류 문서 영화 사진 텔레비전, 라디오 전화, 대화 데이타베이스 ….. 책, 신문, 정기간행물, 웹 문서, 메모, 광고 …. 출판물 혹은 참고자료 영화 사진 텔레비전, 라디오 전화, 대화 데이타베이스 …..

얼마나 많은 정보가 있는가? 의회도서관(미국): ~ 20 Terabytes 다이얼로그(서지목록): ~ 9.2 Terabytes (All estimates courtesy Michael Lesk) 의회도서관(미국): ~ 20 Terabytes 다이얼로그(서지목록): ~ 9.2 Terabytes Web : ~ 2 Terabytes (1997) 웹페이지: 약 80억개의 페이지 (Faulker’s Cyberscape Digest 08/06/99) 인터넷 통화량: 매 100일마다 두 배로 증가 (US Commerce Dept 1998) 50,000,000 사용자 확보: 라디오: 38년, TV : 13년, 인터넷 : 4년

정보의 홍수 “The greatest problem of today is how to teach people to ignore the irrelevant, how to refuse to know things, before they are suffocated. For too many facts are as bad as none at all.” (W.H. Auden)

정보검색의 동기 정보검색 (Information Retrieval: IR) IR 시스템의 중요 목표 정보에 대한 표현, 저장, 구성, 접근 사용자가 관심 있는 정보에 대해 쉬고 편리한 접근을 제공 가상 사용자 정보 요구 예: “다음과 같은 대학 테니스 팀에 대한 정보를 지니고 있는 모든 페이지(문헌)를 찾아라” NCAA 테니스 토너먼트에 참가한 미국 대학에 관련된 문헌 중 그 팀의 지난 3년간의 미국 내 순위와 그 팀 코치의 전자메일 또는 전화번호 포함하고 있는 문헌 IR 시스템의 중요 목표 사용자 요구를 IR 시스템의 내부 질의 형식으로 변환한다. 사용자 요구를 빨리 찾도록 정보를 재구성해서 저장한다. 사용자에게 유용하거나 연관된 정보를 검색한다.

정보 검색와 데이터 검색 데이터 검색 (Data Retrieval: DR) 명확히 정의된 조건으로 모든 객체들을 검색한다. 대상: 잘 정의된 구조와 의미를 가진 데이터 관계형 데이터베이스 정보 검색 질의나 주제에 연관된 정보를 검색한다. 대상: 자연언어 텍스트 (주로) 구조화되지 않았으며, 의미적으로도 모호함 문헌 내용의 해석해야 한다. 문헌 텍스트로부터 구문/의미 정보를 추출하고, 이 정보를 이용해 사용자 정보 요구와 정합한다. 사용자 질의와의 연관도에 따라 순위를 부여한다.

시대 중심에 위치한 정보 검색 ’60-’70년대: 텍스트 색인과 유용한 문헌 탐색 도구 ‘80년대 : ‘90년대 IR 연구는 모델링, 문헌 분류 및 범주화, 시스템 구조, 사용자 인터페이스, 데이터 가시화, 여과, 언어 등의 분야를 포함 도서관 사서나 정보 전문가들만의 협소한 관심영역 ‘90년대 WWW의 등장 전례없는 규모로 생각과 정보의 공유를 가능 인류 지식과 문화의 보편적인 저장소 모든 사람이 접할 수 있는 새로운 출판 매체 주요 장애물 웹을 위해 잘 정의된 데이터 모델의 부재 정보의 정의와 구조가 저수준 유망한 해결책으로 웹 검색 부각

사용자의 역할 작업에 따른 사용자와 검색 시스템간의 상호작용 검색 브라우징 DB

사용자 작업 가져오기(pulling) 작업 정보와 데이터 검색 사용자 요구를 질의하여 그 결과를 받는다. 전통적인 정보 검색 시스템 브라우징 정보를 찾기 위해 시스템에서 제공하는 안내를 따라다닌다. 목적이 명확하지 않은 상태에서 시작한다. 목적이 있더라도 사용 중에 지속적으로 변할 수 있다. 하이퍼텍스트 시스템 정보와 데이터 검색에 브라우징의 통합 최근 전자도서관과 웹 인터페이스에서 시도-여러 한계 밀어넣기(push) 작업 사용자에게 유용한 정보를 주기적으로 자동으로 추출하여 보내준다. 사용자는 추출된 정보의 만족도를 표시하는 등의 작업 정보 여과(filtering)

논리적 관점에서의 문헌 (Logical view of the documents) 전문(full text) 문헌에 포함된 모든 단어의 집합 가장 완전한 형태의 논리적 문헌 높은 계산 비용을 수반 색인어(index term)나 키워드(keyword)의 집합 문헌 텍스트로부터 직접 추출 대규모의 문헌 집합에서 대표 키워드 집합으로 축소 텍스트 작업(또는 변형) 불용어(stopword ; 관사나 접속사와 같은) 제거 스테밍(stemming ; 문법적으로 공통인 어원으로 변환) 명사 그룹(형용사, 부사, 동사 제거) 확인 압축 주제 색인자(정보과학 영역 전문가)에 의해 명기 작은 규모의 카테고리: 가장 간결한 형태의 논리적 문헌 낮은 수준의 검색 결과

논리적 문헌 :전문에서 색인어 집합까지 인

과거, 현재와 미래 : 초기 연구 정보의 조직화 컴퓨터의 발달로 대규모 색인을 자동으로 구축하는 것이 가능 책의 목차 책의 색인 분류체계 : 도서관학(또는 문헌정보학) 분야의 전문가들에 의해 고안 컴퓨터의 발달로 대규모 색인을 자동으로 구축하는 것이 가능 정보 검색의 두 관점 컴퓨터 중심 효율적인 색인, 고성능의 사용자 질의 처리, 순위결정 알고리즘이 중요 인간 중심 사용자 행태 연구, 사용자의 주요 요구의 이해와 함께 어떻게 이런 것들이 검색 시스템의 조직과 동작에 영향을 미치는가가 중요

과거, 현재와 미래 : 서지 정보 검색 1세대 시스템 2세대 시스템 3세대 시스템 카드 목록과 같은 이전의 기술들을 자동화하는 차원 저자나 제목으로 검색 가능 2세대 시스템 주제어나 키워드, 좀 더 복잡한 질의 처리 등의 향상된 탐색 기능들이 추가 3세대 시스템 향상된 그래픽 인터페이스, 전자 서식, 하이퍼텍스트 기능 및 개방형 시스템 구조 등에 초점

과거, 현재와 미래 : 웹과 디지털 도서관 컴퓨터 기술 발전과 웹에 의한 변화 웹(디지털 도서관) 저비용: 매우 저렴하게 다양한 정보원의 접근이 가능 접근의 용이: 수많은 네트워크에로의 신속한 접근이 가능 출판의 자유: 대규모 출판 매체에 자유로운 접근이 가능 웹(디지털 도서관) 고수준의 상호작용(interactivity)이 가능한 매체 서비스 편의성 향상 해결해야 할 세 가지 중요 문제 동적 환경에서 양질의 검색을 제공 색인과 질의 응답 시간을 빠르게 제공 사용자 행태의 이해 새로운 정보 검색 전략의 설계와 전개에 영향

과거, 현재와 미래 : 실용적인 문제 보안과 사생활보호 전자상거래 보안상의 이유로 암호화나 자동 인증 형식을 제공 제3자에 의해 개인정보가 오용되는 것을 방어 저작권과 특허 웹상의 광범위한 데이터 유포와 저작권법이나 특허법과의 관계 대규모 디지털 도서관 설립과 전개 사업에 중요 기타 이슈 스캐닝, 광학문자인식(OCR), 교차 언어 검색(질의언어와 검색된 문헌의 언어가 상이한 경우)

검색 과정 사용자 인터페이스 DB 관리자 색인기 텍스트 연산 질의연산 검색기 순위부여 색인 텍스트 DB 순위가 부여된 문헌 역 파일 질의 검색된 문헌 사용자 요구 순위가 부여된 문헌 논리 관점 feedback

검색 과정(계속) 텍스트 데이터베이스 정의(데이터베이스 관리자) 텍스트 색인 생성 사용될 문헌 텍스트에 수행될 명령어 텍스트 모델(검색 대상 요소로서의 텍스트 구조) 텍스트 색인 생성 가장 중요한 자료구조 대량의 데이터를 빠르게 검색 역파일(inverted file) 구조

검색 과정(계속) 검색 사용자의 요구를 명기 텍스트 명령어와 동일하게 분석되고 변형 질의 연산 (query operation) 적용 색인구조에 의해 검색 연관 (relavance) 가능성 (likelihood)에 따라 순위화 사용자 피드백(user feedback) 사용자의 관심에 정확히 부합되는 문헌들을 선택 질의 표현 수정 Go to 3

강의 내용

강의 내용 : 세부 사항

참고 자료 정보 검색에 대한 주요 논문지 학술회의 Journal of the American Society of Information Sciences(JASIS) ACM Transactions on Information Systems Information Processing & Management(IP&M, Elsevier) Information Systems(Elsevier) Information Retrieval(Kluwer) Knowledge and Information Systems(Springer) 학술회의 ACM SIGIR International Conference on Information Retrieval ACM International Conference on Digital Libraries(ACM DL) ACM Conference on Information Knowledge and Management(CIKM) Text REtrieval Conference(TREC) IRAL (International Workshop on Information Retrieval with Asian Languages) 한글 및 한국어 정보처리 학술대회 강의 자료 – http://nlp.sogang.ac.kr