Presentation is loading. Please wait.

Presentation is loading. Please wait.

고급 정보 검색 1. 개 요.

Similar presentations


Presentation on theme: "고급 정보 검색 1. 개 요."— Presentation transcript:

1 고급 정보 검색 1. 개 요

2 정보 정보의 개념의 혼란- 1)정보의 개념과 유사하게 사용되고 있는 데이터, 메시지, 지식 등과의 개념구분의 불분명
2)정보에 대한 관점, 견해 차이의 다양성 일반 사전적의미) 데이터: 이론을 세우는데 기초가 되는 사실(금성판 국어대사전 1991) 정 보: 사건, 상황에 대한 지식,혹은 타인에 의해 전달된 지식이나 조사를 통해 얻어진 지식 (webster 1969) 전달되었거나 얻은 지식혹은 커뮤니테이션을 통해 얻은 지식 (Random House) 사전적의미) 알리기 위해 어떤 주어진 사실이 전달되는 행위, 알려지는 사실로서 구성되어진 그 형태 지 식: 진실, 사실, 정보, 원칙, 기타 사람이 인식하는 대상물의 총체

3 정보 정보학적 정의 데이터: 컴퓨터와 사람에 의해 처리, 전달, 해석 될 수 있도록 표현된 사실, 사상 정 보: 데이터가 사용되는 어떤 상황에서 데이터에 부여된 의미 지 식: 지식의 의미나 목적을 고려하여 정보를 평가하는 능력을 포함. 사전적정의)정보 – 특정한 상황에서 의미가 부여된 데이터 지식- 평가된 정보 정보원이란 – 이용자가 원하는 정보를 담고 있는 자료 혹은 문헌 을 말함. 정보원은 이용자가 어떠한 정보를 원하느냐에 따라 달라 질 수 있으며, 이용자의 요구, 성격, 내용에 따라 정보원의 유형도 달라진다.

4 정보원의 종류와 특성 문자정보: 도서, 잡지, 회의록 신문기사, 특허 등 정보원의 종류 일차자료와 이차자료
영상정보: 영화, microform, TV, 비디오 등 음성정보: 레코드, 사운드, 테이프, 라디오 등 수치정보: 주식, 경제지수등 일차자료와 이차자료 일차자료: 원래의 영구성과를 기록한 자료 ex) 학술잡지, 기술보고서, 학위논문, 정부간행물, 특허 등

5 정보원의 종류와 특성- 일차자료 일차자료 1) 레터, 레터지 - 선취권의 확보, 연구성과의 신속한 공표를 목적으로 하는 미디어, 완성된 논문으로 잡지에 발표하기 이전 그 일부를 줄여서 잡지에 투고하는 것. 2) 출판전 배포기사(Prinprint) -학술잡지에 투고하기 위해 쓴 원고를 복사한 것으로 투고전 혹은 후에 연구기관, 연구자에게 비공식적으로 배포. 출판전 배포기사를 배포하는 목적으로 다른 연구자에게 피이드백 얻는 것과 선취권 확보, 신속한 전달 등을 들 수 있다. 3) 학술잡지- 특정 주제분야에서 학술적으로 상당한 수준의 논문들을 게재한 연속 간행물. 4) 기술보고서- 단체, 개인이 특정 기관으로부터 연구비를 받아 연구한 결과를 연구 의뢰에게 보고 하는 과정에서 생산된 자료.

6 정보원의 종류와 특성 - 일차자료 5)학위논문- 대학에서 해당 분야의 권위있는 교수의 지도하에 수행된 연구논문
6) 정부간행물- 정부기관 혹은 그 관련 기관에서 출판한 모든 자료와 일반 출판사의 간행물일 경우라도 정부 부처나 그 관련 기관에서 내용을 책임질 수 있는 자료들을 총칭한다. 여러 나라가 가입한 국제기구에서 발간한 출판물도 정부간행물에 포함시키는 것이 일반적이다.  7)특허- 공업소유권(특허권, 실용신안권, 의장권, 상표권)에 관련된 정보로서 특허, 실용신안, 의장(意匠), 상표, 심결공보(審決公報), 외에 출원서류, 판결 등도 포함한다.

7 정보원의 종류와 특성 - 이차자료 이차자료 - 저자, 제목, 문헌의 주제를 나타내는 키워드 등 원문 관련된 정보를 정리하여 이러한 접근점을 이용하여 일차 문헌인 원문을 찾아낼수 있도록 체계적으로 정리한 자료 이차자료의 유형 1차자료를 효과적으로 찾아보기 위한 자료: 색인지(indexs), 서지, 목록 등  1차자료에 포함되어 있는 자료를 압축 , 정리해서 읽기 쉬운 형태로 제공하고 있는 자료: 백과사전, 텍스트북, 핸드북, 데이터집 등 3차자료: 참고도서 안내나 서지의 서지와 같이 2차 자료를 탐색하기 위한 자료

8 정보원의 종류와 특성 - 이차자료 이차자료 1)서지 - 문헌의 저자, 서명, 출판사항 등의 서지정보를 체계적으로 정리하여 편찬해 놓은 목록이다. Ex) 대한민국출판물총목록, 한국 박사 및 석사학위 논문총목록, Books In Print, 장서목록,종합목록 장서목록 - 한 기관이나 도서관이 소장하고 있는 자료에 대한 목록. (카드, 책자 형태 - 온라인열람목록(OPAC)) 종합목록 - 여러 도서관이나 기관의 장서를 혼합하여 하나의 목록으로 편집한 것. Ex)한국과학기술정보연구원(KISTI)의 학술지 종합목록과 전문도서국가목록이 있다.

9 정보원의 종류와 특성 - 이차자료 2) 초록지 -   초록은 색인이 주는 서지정보와 위치정보뿐 아니라 원저의 내용을 객관적이며 간결하게 표현한 것으로 원문 내용을 신속 정확하게 파악할 수 있도록 작성한 것이다. ex) 「Dissertation Abstracts Internaional」「학술총람」  3) 메타데이타 - 데이터에 관한 데이터 혹은 전자 자원을 기술하는데 사용되는 데이터 요소이다. 메타데이터는 데이터에 관한 구조화된 데이터로서, 자원과는 독립적으로 존재하면서 다양한 접근점과 네트워크 주소를 포함한 레코드라 할 수 있다. 메타데이타를 표현하는 형식으로 널리 알려진 것으로 더불린코어가 있다.

10 정보검색의 정의 정보검색(Information Retrieval)이란 기하급수적으로 생성, 증가되는 정보를 정보전문가, 주제분석가, 색인작성가 등에 의해 분석, 가공, 축적되어 데이터베이스와 같은 축적 매체에서부터 이용자의 요구에 적합한 정보를 탐색하는 일련의 과정으로서 축적된 정보에서 이용자가 만족하는 특정 속성을 가진 정보를 선택하는 것을 의미한다. 광의의 정보검색 ‘정보의 축적과 검색’(Information Storage and Retrieval)의 축약개념이다. 즉, 수집된 정보나 내용을 분석, 가공하여 데이터베이스에 축적하고 이로부터 이용자의 요구에 적합한 지식을 찾아내고 정보화하여 제공하는 일련의 과정을 의미한다. 여기에는 색인 및 초록, 파일 조직과 탐색, 질의어 처리, 적합정보의 검색, 정보의 배포 등의 작업이 포함된다.

11 정보검색의 정의 정보검색의 일반적인 협의의 개념 정보검색은 정보의 축적 과정과 탐색과정으로 구분
    정보검색은 정보의 축적 과정과 탐색과정으로 구분 축적과정을 제외한 검색과정 부분만을 가리킨다.     탐색(Search)은 검색(Retrieval)과 유사한 의미로 사용되지만 엄격한 시각에서는 구분된다.

12 탐색과 검색의 구분 탐색 (Seaech) 검색(Retrieval) 검색을 위해서 하는 행위 → 찾는 행위를 나타낼 때 사용
일련의 탐색과정에서 적합한 정보를 찾아내는 과정을 의미 정보나 자료접근에 대한 목적성에 있어서 포괄적 개념 구체적 개념 정확한 목적, 검색대상유, 검색Tool등과 정보검색사나 사서의 정확한 지식과 경험을 중심으로 진행

13 동기 정보검색 (Information Retrieval: IR) IR 시스템의 중요 목표
정보 항목들에 대한 표현, 저장, 조직, 접근 사용자가 관심 있는 정보에 대해 쉬운 접근을 제공 가상 사용자 정보 요구 예 다음과 같은 대학 테니스 팀에 대한 정보를 지니고 있는 모든 페이지(문헌)를 찾아라 미국 내 대학에서 운영되고 NCAA 테니스 토너먼트에 참가 단, 지난 3년간의 미국 내 순위와 팀 코치의 전자메일 또는 전화번호 포함 IR 시스템의 중요 목표 해당 IR 시스템의 질의(query) 형태로 변환 사용자에게 유용하거나 연관될 지도 모르는 정보를 검색

14 정보와 데이터 검색 정보 검색 데이터 검색 (Data Retrieval: DR) 명확히 정의된 조건에서 모든 객체들을 검색
정규식이나 관계 대수 표현 잘 정의된 구조와 의미를 가진 데이터 관계형 데이터베이스 정보 검색 질의를 만족하는 데이터보다는 그 주제에 연관된 정보를 검색 자연언어 텍스트를 취급 잘 구조화되어 있지도 않으며, 의미적으로도 모호함 문헌 내용의 해석 문헌 텍스트로부터 구문/의미 정보를 추출하고, 이 정보를 이용해 사용자 정보 요구와 정합 사용자 질의와의 연관도에 따라 순위를 매김 연관성(relevance) 인식이 정보 검색의 핵심 IR 시스템의 주요 목표 사용자 질의와 연관된 모든 문헌을 검색 가능한 한 비연관 문헌을 줄임

15 문헌(Document)의 개요 문헌이란? 문헌의 의미 형태에 상관없이 축적된 데이터의 기록
인쇄된 종이나 책뿐 아니라 편지나 메시지 같은 비공식적인 글도 포함 최근 문헌의 개념이 확대되어, 컴퓨터 프로그램, 데이터 파일, 전자우편 메시지, 이미지, 모든 종류의 도해, 음성 녹음까지 포함

16 문헌(Document)의 개요 문헌의 전체적 구조 완전히 규격화된 문헌 전혀 규격화되지 않은 문헌 문헌의 내재적인 구조
예정된 수의 필드로 구성되며, 각 필드는 문헌 내에서 예정된 크기와 위치를 갖는다. 예) 관계형, 네트워크형, 계층형 데이터베이스에서 발견되는 데이터 장점 : 정확한 데이터 검색, 특히 일정 범위의 값에 해당하는 데이터 검색에 탁월한 성능을 보인다. 단점 : 애매한 데이터를 저장하거나 애매한 질의에 응답하기 어렵다. 전혀 규격화되지 않은 문헌 문헌들을 기록하는 과정에서 부과되는 순서만이 유일한 구조인 문헌들 예) 음성과 이미지 데이터, 일부 문자 데이터 문헌의 내재적인 구조 자동적으로 할당된 문헌 식별자와 같은 단순한 것에서 문헌의 다양한 부분들간의 논리적, 도식적, 혹은 개념적인 관계처럼 복잡한 것도 있다. 예) 음악에서 음악의 형식에 따른 고유한 구조(소나타, 푸가, 블루스, 록 등)

17 문헌(Document)의 개요 문헌 대리자(document surrogates) 문헌의 형태 전체 문헌을 대표하는 제한된 표현
어떤 문헌이든 문헌의 첫번째 대리자는 문헌 식별자(document identifier)이다. 문헌의 형태 텍스트 형태 이미지 소리

18 정보검색과 데이터베이스 검색 구 분 데이터베이스 검색 정보 검색 검색대상 잘 정의된 구조와 의미를 갖는 데이터
구 분 데이터베이스 검색 정보 검색 검색대상 잘 정의된 구조와 의미를 갖는 데이터 구조화되어 있지 않은 데이터 모호한 자연언어 텍스트 검색결과 사용자 질의 키워드를 포함하 는 문헌 집합 추출 주어진 질의에 만족하는 데이터 보다 는 그 주제에 연관된 정보를 검색 결과평가 검색된 수많은 객체 중 잘못된 객체가 하나라도 포함되면 전 체 결과는 실패 검색결과는 정확하지 않을 수 있으면, 작은 에러를 포함할 수 있다.

19 정보검색의 역사 Documentation  Information Storage and Retrieval 
Information Retrieval Documentation – 새로운 지식에 대한 정보를 이용자에게 제공하기 위하여 도큐멘트를 조직하는 활동으로 수집, 분류, 축적, 배포, 등이 포함됨. 도큐멘테이션은 그 방법이 기계화든,비기계화든간에 서지나 색인 및 초록과 같이 학구적인 도구의 개발에 관심을 가지는 활동임  ▸ 정보검색이란 용어는 1950년대 초 무어에 의해 처음 사용. 정보검색개념은 19세기 말 유럽에서 시작 1940년대 들어서 도큐멘테이션 개념을 대신함.  ▸ 도큐멘테이션이란 모든 형태의 정보자료에 수록된 정보를 수집․분류하여 이용시키는 전 과정을 의미함  ▸ 미국에서 정보검색: 초기- 기록된 정보에 접근하여 검색하는 기계적이고 물리적인 면을 다룸     후기- 정보의 내용에 관한 연구 포함. 유럽의 도큐멘 테이션 개념에 접근하게 됨. ▸ 정보검색이란 정보의 축적 및 검색을 의미  정보의 검색에 앞서 정보의 축적이 필수적인데  기인함

20 정보검색의 발전과정 (1) 1940-1950년대 - 도서관 자동화 구상에 기초를 두고 정보의 분류에 중점을 둔 시기
 - 도서관 자동화 구상에 기초를 두고 정보의 분류에 중점을 둔 시기  - H. P. Luhn의 자동초록법과 KWIC(Keyword-in-context) 색인법 발표(1957)  - 카드(종이테이프, 펀치카드, 자기테이프, 자기카드 등)나 마이크로필름을 사용 (2) 1960년대  - 컴퓨터 기술의 발전으로 정보검색의 비약적인 발전이 이루어진 시기  - MEDLARS(Medical Literature Analysis and Retrieval System) 테이프에 의한 배치탐색 실시  - 기계가독형의 효시인 POST(Polymer Science and Technology) 발행  - CONVERSE 시스템은 사내 도서관의 데이터베이스를 대상으로 한 온라인 시스템(1964)  - 정보검색이 학문으로서 제시된 시기. 여러 학자들의 저서가 간행됨

21 정보검색의 발전과정 (3) 1970년대 - 온라인 검색의 본격적인 확대, 데이터 통신의 발전, 전문검색시스템의 등장 등
 - 온라인 검색의 본격적인 확대, 데이터 통신의 발전, 전문검색시스템의 등장 등  - 1971년 DIALOG 시스템의 상용화  - 1971년 검색시스템을 이용하여 MEDLINE(MEDRAS Online) 실시  - 전문검색시스템 등장(서지사항을 먼저 확인한 후 다음 단계로 원문을 요구하는 번거로움) (4) 1980년대  - 우리나라의 온라인 검색이 개시된 시기  - DACOM에서 DIALOG를 비롯한 JOIS, QUESTEL 등의 시스템을 이용하도록 연결  - 산업연구원에서 KIETLINE(Korea Institute for Economics and Technology Line) (1983)  1) 도서관 이용의 보편화와 요구 패턴 변화  2) 학문의 세분화와 이에 따른 출판물의 대량 증가현상  3) 과학기술분야 연구자 대량 출현  4) 학술활동의 정착과 교육방법의 개선  5) 도서관 자체의 자각과 반성

22 정보검색의 발전과정 ‘80년대 모델링, 문헌 분류 및 범주화, 시스템 구조, 사용자 인터페이스, 데이터 가시화, 여과, 언어 등을 포함 도서관 사서나 정보 전문가들만의 협소한 관심영역

23 정보검색의 발전과정 (5) 1990년대 - 인터넷과 웹을 이용한 검색시스템의 활성화
- 인터넷과 웹을 이용한 검색시스템의 활성화 - 하이퍼 텍스트와 멀티미디어 데이타베이스를 이용한 검색방식, 검색환경의 발달이 두두러짐. ‘90년대 월드 와이드 웹의 등장 전례없는 규모로 생각과 정보의 공유를 가능 인류 지식과 문화의 보편적인 저장소 모든 사람이 접할 수 있는 새로운 출판 매체 주요 장애물 웹을 위해 잘 정의된 데이터 모델의 부재 정보의 정의와 구조가 저수준 유망한 해결책으로 웹 검색 부각

24 정보검색 작업 가져오기(pulling) 작업 밀어넣기(push) 작업 정보와 데이터 검색
해당 시스템이 제공하는 질의언어로 변환 IR : 정보 요구의 의미를 담고 있는 단어 집합 DR : 정규식 전통적인 정보 검색 시스템 브라우징 시작시 목적이 명확하게 정의되어 있지 않고 사용 중에 목적이 바뀜 하이퍼텍스트 시스템 정보와 데이터 검색에 브라우징을 통합 아직 일반적이지 못하고 미래에나 가능 밀어넣기(push) 작업 사용자에게 유용한 정보를 주기적으로 추출하여 보내줌 정보 여과(filtering)

25 논리적 문헌 전문(full text) 색인어나 키워드의 집합 문헌에 포함된 모든 단어의 집합 가장 완벽한 형태의 논리적 문헌
높은 계산 비용을 수반 색인어나 키워드의 집합 문헌 텍스트로부터 직접 추출 대규모의 문헌 집합에서 대표 키워드 집합으로 축소 텍스트 작업(또는 변형) 불용어(stopword ; 관사나 접속사와 같은) 제거 스테밍(stemming ; 문법적으로 공통인 어원으로 변환) 명사 그룹(형용사, 부사, 동사 제거) 확인 압축 주제 색인자(정보과학 영역 전문가)에 의해 명기 작은 규모의 카테고리: 가장 간결한 형태의 논리적 문헌 낮은 수준의 검색 결과

26 문헌의 논리적 상 전문에서 색인어 집합까지

27 초기 연구 검색하고 사용할 목적으로 정보를 조직화 정보 검색의 두 관점 책의 목차 색인
연관 정보에 대한 지시자 역할을 해주는 선택된 단어나 개념 목록 분류체계 도서관학(또는 문헌정보학) 분야의 전문가들에 의해 대부분이 고안 대규모 색인을 자동으로 구축하는 것이 가능해짐 정보 검색의 두 관점 컴퓨터 중심 효율적인 색인, 고성능의 사용자 질의 처리, 순위결정 알고리즘이 중요 인간 중심 사용자 행태 연구, 사용자 주요 요구의 이해와 함께 어떻게 이런 것들이 검색 시스템의 조직과 동작에 영향을 미치는가가 중요

28 도서관에서의 정보 검색 1세대 시스템 2세대 시스템 3세대 시스템 카드 목록과 같은 이전의 기술들을 자동화하는 차원
저자나 제목으로 검색 가능 2세대 시스템 주제어나 키워드, 좀 더 복잡한 질의 처리 등의 향상된 탐색 기능들이 추가 3세대 시스템 향상된 그래픽 인터페이스, 전자 형태, 하이퍼텍스트 기능 및 개방형 시스템 구조 등에 초점

29 웹과 디지털 도서관 컴퓨터 기술 발전과 웹에 의한 변화 웹(디지털 도서관) 해결해야 할 세 가지 중요 문제
저비용: 매우 저렴하게 다양한 정보원의 접근이 가능 접근의 용이: 수많은 네트워크에로의 신속한 접근이 가능 출판의 자유: 대규모 출판 매체에 자유로운 접근이 가능 웹(디지털 도서관) 고수준의 상호작용(interactivity)이 가능한 매체 서비스 편의성 향상 해결해야 할 세 가지 중요 문제 동적 환경에서 양질의 검색을 제공 색인과 질의 응답 시간을 빠르게 제공 사용자 행태의 이해 새로운 정보 검색 전략의 설계와 전개에 영향

30 검색 과정

31 질의(query)연산 질의(Query) 파싱(Parsing) 피드백(feedback)
사용자가 정보검색 시스템에 요청하는 필요정보의 형식문장 파싱(Parsing) 질의를 구성요소들로 분해 예) 불리언 질의는 질의를 구성용어와 구성연산자로 파싱 피드백(feedback) 이전의 탐색으로부터 나온 정보가 질의를 수정하는데 사용

32 용어(term)연산 스테밍(stemming) 절 단(truncation) 가중치(weighting)
절단된 용어가 여러 개의 단어와 부합되도록 하기위해, 단어에 있는 와일드카드(wildcard) 문자를 사용하여 용어들을 인위적으로 융합시키는 것 가중치(weighting) 불용어(functional Word) 목록 색인값을 갖지 않는 것으로 간주되는 단어의 목록 시소러스(thesaurus)

33 검색 과정 텍스트 데이터베이스 정의(데이터베이스 관리자) 텍스트 색인 생성 사용될 문헌 텍스트에 수행될 명령어
텍스트 모델(검색 대상 요소로서의 텍스트 구조) 텍스트 색인 생성 가장 결정적인 자료구조 대량의 데이터를 빠르게 검색 역파일(inverted file) 구조

34 검색 과정(계속) 검색 1. 사용자의 요구를 명기 2. 텍스트 명령어와 동일하게 분석되고 변형
3. 질의 연산(query operation) 적용 4. 색인구조에 의해 검색 5. 연관 가능성(likelyhood)에 따라 순위화 6. 사용자 피드백(user feedback) 사용자의 관심에 정확히 부합되는 문헌들을 선택 7. Go to 3

35 정보검색 기술

36 참고 정보 검색에 대한 주요 논문지 Journal of the American Society of Information Sciences(JASIS) ACM Transactions on Information Systems Information Processing & Management(IP&M, Elsevier) Information Systems(Elsevier) Information Retrieval(Kluwer) Knowledge and Information Systems(Springer) 학술회의 ACM SIGIR International Conference on Information Retrieval ACM International Conference on Digital Libraries(ACM DL) ACM Conference on Information Knowledge and Management(CIKM) Text REtrieval Conference(TREC) IRAL (International Workshop on Information Retrieval with Asian Languages) 한글 및 한국어 정보처리 학술대회 한국정보과학회, 한국정보처리학회, 한국정보관리학회


Download ppt "고급 정보 검색 1. 개 요."

Similar presentations


Ads by Google