Presentation is loading. Please wait.

Presentation is loading. Please wait.

Information Retrieval (Chapter 4: 질의언어)

Similar presentations


Presentation on theme: "Information Retrieval (Chapter 4: 질의언어)"— Presentation transcript:

1 Information Retrieval (Chapter 4: 질의언어)
서정연교수 Office: 공학관 816 Tel:

2 키워드 기반 질의 가장 간단하다. 널리 사용된다. (이유) 종류 키워드와 몇 가지 연산으로 구성된다.
키워드가 포함된 문서를 검색한다. 널리 사용된다. (이유) 직관적이다. 쉽게 표현할 수 있다. 순위화가 쉽다. 종류 단일 단어 질의(single-word queries) 문맥 질의(context queries) 불리안 질의(Boolean queries) 자연어 질의(natural language)

3 단일 단어 질의 가정: 단어 질의의 결과 사용자 인터페이스 텍스트는 단어의 나열이다.
단어는 분리자(separators)를 경계로 된 문자의 나열이다. 분리자: 공백(white space), 쉼표(comma) 하이픈(hyphen) : on-line (?), off-line (?) 단어 질의의 결과 질의에 있는 단어가 적어도 하나라도 포함된 문서의 집합 질의와 유사도에 따라서 검색된 문서를 순위화한다. 사용자 인터페이스 문서에서 질의에 포함된 단어의 정확한 위치를 표시한다.

4 문맥 질의 주어진 문맥(근접한 다른 단어) 내에서 단어를 검색한다. 문맥 질의의 종류 구(phrase) 문맥 질의
연속적인 단일단어의 나열로 질의를 표현한다. 문서에서 분리자가 질의에서 분리자와 정확히 같을 필요가 없다. 예) query : "enhance retrieval" text : "enhance the retrieval", "enhance retrieval" 근접(proximity) 문맥 질의 단어가 함께 사용될 수 있는 범위를 지정하는 질의 범위 : 절(paragraph) 단어와 단어 사이의 최대 거리 예) within 4 words : query : "enhance retrieval" text : "...enhance the power of retrieval …" 질의에서 표현된 순서와 같은 순서로 텍스트에 표현될 필요는 없다. 단일단어 질의와 비슷한 방법으로 순위화할 수 있다.

5 불리안 질의 간단한 문법으로 구성된다. 단어(atom) (i.e 기본 질의) 불리안 연산자 :
e1 OR e2, e1 AND e2 e1 BUT e2 : e1 AND NOT e2, 질의 구문 트리(query syntax tree) 리프노드: 단어 내부 노드: 불리안 연산자 질의의 결과 특별한 기준에 따라서 검색된 문서를 순위화한다. 문서에서 질의에 포함된 단어의 정확한 위치를 표시한다. 퍼지 불리안 질의 : some (between AND and OR) AND OR translation syntax syntactic

6 자연어 질의 문장으로 표현 자연어 질의는 검색 시스템에 의해서 불리안 질의와 같은 형식으로 표현하여 검색한다.

7

8 Good Retrieval (세계에서 제일 높은 산)
Untitled Document  (정확도 : 99 %) 세계에서 가장 높은 산은 어느 것일까요? 해 면 아래와 위를 합쳐서 가장 높은 산은 미국의 하와이 섬에 있는 '마우나케아'입니다. 이 산은 해발 4,205미터이고, 해면 아래는 4,877미터입니다. 마우나케아 산의 전체 높이는 9,000 미터를 넘기 때문에 세계에서 가장 높은 산이라 세 계 의 명 산   (정확도 : 97 %) 산 8000m급 14개 봉중의 (10위봉) 노아 방주가 내려앉은 산 8000m급 14개 봉중의 (12위봉) 사각형의 분화구를 이룬 사화산 칠레에서 가장 아름다운 산 8000m급 14개 봉중의 (8위봉) 돌로미테 지역의 산 러시아에서 가장 높은 산 뉴질랜드에서 가장 높은 산 세계에서 가장 높은

9 Bad Retrieval (세계에서 제일 높은 산)
WWW Home page of 이남희(Lee Nam Hee) (정확도 : 88 %) 세계에서 제일 높은 기차역 -융프라우 산 위에서 내려다 본 스위스 마을ttp://salmosa.kaist.ac.kr/~nhlee/Europe/europe20.html 그림대여시스템/판화세계  (정확도 : 77 %) 태생의 현존 작가. 현재 미국 산 앤토니오에서 작품활동하고 있다. 강렬한 화면 구성과 기법으로 화면 가득히 역동감이 넘친다. 뉴욕 프랫트 인스티튜트에서 공부하였으며 미국은 물론 유럽에서도 높은 평가를 받고 있다. 판화세계 전화 : (02) / H.P : PAXNet 뉴스센터 (정확도 : 77 %) 산 맥주잔과 향기초세트, 이집트산 향수병, 우루과이산 돌반지, 태국산 향초 등 각국의 유명 특산품들이 한자리에 모였다. 세계풍물기행 벼룩시장전은 시중가보다 평균 30% 정도 할인된 가격에서 입찰이 시작하는 특가경매 형태로 진행된다. 경매 종료시점까지 가장 높은 가격을 / _06.sht

10 Ask jeeves (www.ask.com)

11 Response with suggested questions

12 Who was the first man on the moon?

13 패턴 정합 패턴 : 텍스트에서 출현되는 구문적 특징들의 집합 패턴의 종류 단어 : "compute"
접두사 :"comput“ : "computer", "computation", ... 접미사 : "ters" : "computers", "testers", "painters" ... 부분문자열 : "tal" : "coastal", "talk", “metallic" … ; "any flowers" : "many flowers" 범위 : 사전 순서로 두 문자열 사이에 있는 어떤 문자열과도 정합 "held..hold" : "hoax" “hissing” 허용 오류 : 철자 오류도 검색된다. Levenshtein 거리(편집 거리) 이용: 두 문자열을 같게 만들기 위한 문자 삽입, 삭제, 치환의 최소 수 "flower" : "flo wer" 정규표현 : "word|phrase", "pro(blem|tein)(s|)(0|1|2)*" 확장된 패턴 : 간단한 문법을 가진 정규표현 내부적으로는 정규표현을 변환한다.

14 질의응답 시스템 Question Answering The main difference between IR and QA
Finding the exact answer to the user’s question in a large text collection The main difference between IR and QA IR system : QA system : User Query (specific) (general) collection Document List Answers

15 질의응답 시스템 질문에 대한 정답추천 관련 홈페이지 직접 연결

16 질의응답 시스템 질문에 대한 정답추천 관련 홈페이지 직접 연결

17 Search engine vs. Q/A engine
종합봉사실 전화번호는? IR system QA system

18 Search engine vs. Q/A engine
As – Is (기존의 검색 시스템) To – Be (질의 응답 시스템) 기능 측면에서의 질의 응답 결과 1. 해당되는 문서를 단순 나열함. 2. 문서 속에서 정답 검색이 여전히 필요. 3. 정보 검색 과정에 많은 시간 소요. 4. 사용자의 문서 활용도가 매우 낮음. 정확도 측면에서의 질의 응답 결과 1. 질문에서 키워드만을 추출. 2. 키워드에 대한 통계적 검색 결과만 제시. 3. 정확한 의도 분석이 불가능. 기능 측면에서의 질의 응답 결과 1. 문서에서 정답을 직접 찾아서 제시. 2. 정답 검색 과정 시간 단축. 3. 사용자 문서 활용도 증가  인지도 향상. 4. 웹 문서뿐 아니라 데이터베이스까지 검색 5. 특정 문서 직접 제시 가능 정확도 측면에서의 질의 응답 결과 1. 질문의 어휘 구조, 질문 의도까지 파악. 2. 정확한 질의 분석  의미있는 부분만 검색. 3. 검색 성능 최적화 가능. 질문 : “서정연 교수님의 전화번호는?” 1. 서정연+교수+전화+번호 문서 내에서 단순히 발현되는 정도 측정. “서정연”, “교수”, “전화”, “번호” , “전화번호” 라는 단어가 들어간 불필요한 모든 문서들을 제시 질문 : “서정연 교수님의 전화번호는?” 1. 전화번호에 관한 질문(서정연 교수) 우선 전화번호에 관한 질문이라는 것이 파악 되고, 그 대상이 서정연 교수라는 것을 인식 하여 정답 추출 웹사이트를 위한 지능형 정보 검색 에이전트. 사용자 질의 의도를 정확하게 파악하여 정확도를 최대로 높이는 진정한 의미의 Vertical 검색엔진.

19 START (MIT, AI Lab)

20 What is the population of the Korea?

21 구조 질의 텍스트 구조 양식 형태의 구조 하이퍼텍스트 구조 계층적 구조

22 고정 구조 문서는 양식과 같이 필드의 집합으로 구성된다. 필드는 텍스트이다.
중첩(nested)되거나 중복(overlap)되지 않는다. 예) 메일 : 보내는 사람, 받는 사람, 날짜, 주제, 본문 질의 :주제에 “football”이 들어 있고 "Cliton"에게 보낸 메일을 찾아라. HTML 문서와 같은 계층구조(hierarchical structure)로 된 문서의 검색표현으로는 부적합하다. 데이터베이스의 관계형 모델에 적용할 수 있다. 필드 : DB의 필드에 해당한다. 구조질의언어(SQL, structured query language)를 확장하여 전문검색이 가능하게 할 수 있다.  SFQL (structured full-text query language)

23 하이퍼텍스트 방향성 그래프로 간주된다. 검색 WebGlimpse: 웹에서 브라우징과 검색을 결합하기 위한 시도 노드 : 텍스트
링크 : 노드 사이를 연결 혹은 노드 내 어떤 위치 사이에 존재하는 연결 검색 하이퍼텍스트의 항해 원하는 문서를 찾기 위해서 링크를 따라 노드를 따라간다. WebGlimpse: 웹에서 브라우징과 검색을 결합하기 위한 시도 웹 네비게이션 + 현재 노드(text)와 연결된 노드들(texts)의 검색 기능 현재 하이퍼텍스트의 내용과 구조를 병합해서 검색하려는 시도가 이루어지고 있으나 많은 어려움이 있는 작업임.

24 계층 구조 하이퍼텍스트와 고정 구조가 중간 정도의 형태
장(chapter), 절(section)과 같이 나누어서 표현된 거의 모든 문서들 예) 서적, 논문, 법률 문서, 구조화 프로그램 계층적 구조는 하이퍼텍스트보다 간단하기 때문에 질의 처리가 빠르다. 서적의 페이지 parsed query to retrieve the figure Schematic view Chapter 4 4.1 Introduction We cover in this chapter the different kinds of … …. 4.4 Structural Query ... chapter section title Introduction We cover …. ….. Structural … in with "structural" figure title section

25 계층 구조(계속) 계층 모델 PAT 표현 겹침(overlapped) 리스트 참조 리스트 인접 노드 트리 정합

26 질의 프로트콜 텍스트 DB를 검색하기 위한 표준. 종류 Z39.50;
1995년 ANSI와 NISO에서 표준으로 인정 클라이언트와 호스트 데이터베이스 관리기 사이의 표준 인터페이스 서버와 클라이언트가 세션을 연결하는 방법, 초기에는 서지 정보에 위주였으나, 점차 다른 형태의 정보도 검색할 수 있도록 확장. WAIS: Wide Area Information Service(광역 정보 서비스) 1990년대 초반 웹이 유행하기 전에 많이 사용되던 프로토콜 WAIS의 목표는 네트워크 출판 프로토콜과 인터넷을 통하여 데이터베이스를 검색 CD-ROM 프로트콜 CCL (common command language) CD-RDx (compact disk read only data exchange) SFQL (structured full-text query language)


Download ppt "Information Retrieval (Chapter 4: 질의언어)"

Similar presentations


Ads by Google