Information Retrieval (Chapter 4: 질의언어)

Slides:



Advertisements
Similar presentations
Information Memorandum 고령화 시대 웰빙라이프 신봉그린힐 헬스케어 - 노인 주거 및 주간보호 한의원 ㅈ 재활 센터.
Advertisements

전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원 발표일 :
C 언어 Sun Moon University 1 of 25 C 언어 : 강의소개 강의실 : 산 211 담당교수 : 고경철 ( 정보통신공학과 ) 사무실 : 산학협력관 105B 면담시간 : 수업후 1 시간
New Platform Training CSA Illumina 이용 매뉴얼. Social sciences and Education Collection 사회학, 사회복지, 교육, 국제정치, 범죄 등 사회과학 전반에 관한 저널 및 정부문서, 논문, 단행본 등 다양한 연구자료에.
Ⓒ 1991, KHRS co.Ltd., THE ㆍ RIGHT ㆍ MAN ㆍ IN ㆍ THE ㆍ RIGHT ㆍ PLACE 주식회사 코리아인 서울 영등포구 양평동 3 가 46 Office Fax
목차 World Wide Web LOD 소개 LOD 활용.
2011년 신입사원 교육자료 Draft Text Here Documentation Skill
7장 텍스트의 처리 7.1. 자연어 처리의 개요 자연어 처리의 중요성 자연어 처리의 기반 기술
Predicting User Interests from Contextual Information
Introduction to Django
“자연어처리” 소개 (Natural Language Processing)
Text : Introduction to Computers 컴퓨터 개론<Revised 4th Edition>
문서 PARSONS/OJA 문서, 워크시트, 데이터베이스 Page 1 1.
해외전자정보서비스이용교육 PAO KERIS Collection.
한국통신 멀티미디어연구소 김 영 환 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 한국통신 멀티미디어연구소 김 영 환
BW & CDRS 활용 사례 BW & CDRS 활용 사례 강남 세브란스병원 의료정보팀 김홍재 파트장.
Last Update : Feb EBSCO KOREA
4장 질의 언어 목 차 4.1 소개 4.2 키워드 기반 질의 4.3 패턴 정합 4.4 구조 질의 4.5 질의 프로토콜
Knowledge Enterprise Portal Solution(iKEP)
Knowledge Enterprise Portal Solution(iKEP)
Business Strategy & KMS in Financial Industry
Overview : XML과 Database
Information Technology
ANNUAL REVIEWS 마지막 업데이트:
소프트웨어 공학 (Software Engineering)
소프트웨어 공학 (Software Engineering)
제 8장. 멀티미디어 데이터베이스 및 정보검색 시스템
유비 쿼터스 시대의 선두주자 UMS 서버 구축 최고의 서비스를 제공하겠습니다..
Copyrightⓒ 1999 서울산업대학교 전자계산학과 석상기 교수
Linked Data 4 Principles
This is our standard presentation Cover slide; the images used here are meant to provide a quick, pleasing representation of ProQuest content areas. The.
해외전자정보서비스이용교육 PAO KERIS Collection.
6장. 물리적 데이터베이스 설계 물리적 데이터베이스 설계
(주)신원데이터넷 JSTOR (주)신원데이터넷
소프트웨어시스템 실험 Software Systems Lab. 데이터베이스 기초
영어 7-a 단계 Our Neighbors (2/8) 2. Our Neighbors Read and Make Friends.
양견모 The 4th International Conference on Mobile Services, Resources, and Users: Mobility 2014 양견모
운영체제 (Operating Systems)
TREC (Text Retrieval Conference) 소개
Problem Solving Skills
안전한 생활 교과용도서의 이해 2015 개정 교육과정 초등학교 1~2학년군 (화)
1. Log in WCMS에서 사용하는 ID와 PW를 동일하게 사용.
컴퓨터 시스템 개관 시스템 프로그래밍 - Lecture #1 신라대학교 컴퓨터공학과 시스템 프로그래밍.
1장 멀티미디어와 정보화사회.
제4장 유닉스 쉘 숙명여대 창병모 2011 가을.
- 사이트 이용법 안내 (Flash 화면), 한글어 자막 제공
운영체제(Operating System)
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
Nature EBSCO Korea.
Introduction to Programming Language
Last Update : Feb EBSCO KOREA
1장 WEB 프로그래밍 기초 이 서식 파일은 그룹 환경에서 교육 자료를 프레젠테이션할 때 시작 파일로 사용할 수 있습니다.
McGraw-Hill Technology Education
Cyber Shopping Mall 구축 - CD New - 안소연,박지윤,박종봉,정영은.
McGraw-Hill Technology Education
목적을 갖고 살아요!.
XML-II (eXtensible Markup Language) DTD/DOM
DAILYPHARM.COM E-Marketing Guide
Brill Academic Publishers
고급 정보 검색 1. 개 요.
나비는 두 꽃 중에서 어느 꽃으로 날아 갈까요? 한 장미꽃은 향기가 나고 한 장미꽃은 악취가 납니다 두 개의 장미꽃이 있습니다
Feb. EBSCO KOREA IOS Press Feb. EBSCO KOREA.
1장 심리평가의 이해 심리검사.
데이터 베이스의 내부 구조.
Last Update : Feb EBSCO KOREA
ANNUAL REVIEWS 마지막 업데이트:
㈜홍길동 웹사이트 구축 진행 계획서 견적서 포함 일레븐 제공.
흐름도FLOWCHART 프로그래밍 과정 전단부 처리 단계 문제 분석 논리 설계
기록관리시스템(RMS) 2.0 사용자 매뉴얼.
Presentation transcript:

Information Retrieval (Chapter 4: 질의언어) 서정연교수 Office: 공학관 816 Tel: 705-8488 Email: seojy@sogang.ac.kr

키워드 기반 질의 가장 간단하다. 널리 사용된다. (이유) 종류 키워드와 몇 가지 연산으로 구성된다. 키워드가 포함된 문서를 검색한다. 널리 사용된다. (이유) 직관적이다. 쉽게 표현할 수 있다. 순위화가 쉽다. 종류 단일 단어 질의(single-word queries) 문맥 질의(context queries) 불리안 질의(Boolean queries) 자연어 질의(natural language)

단일 단어 질의 가정: 단어 질의의 결과 사용자 인터페이스 텍스트는 단어의 나열이다. 단어는 분리자(separators)를 경계로 된 문자의 나열이다. 분리자: 공백(white space), 쉼표(comma) 하이픈(hyphen) : on-line (?), off-line (?) 단어 질의의 결과 질의에 있는 단어가 적어도 하나라도 포함된 문서의 집합 질의와 유사도에 따라서 검색된 문서를 순위화한다. 사용자 인터페이스 문서에서 질의에 포함된 단어의 정확한 위치를 표시한다.

문맥 질의 주어진 문맥(근접한 다른 단어) 내에서 단어를 검색한다. 문맥 질의의 종류 구(phrase) 문맥 질의 연속적인 단일단어의 나열로 질의를 표현한다. 문서에서 분리자가 질의에서 분리자와 정확히 같을 필요가 없다. 예) query : "enhance retrieval" text : "enhance the retrieval", "enhance retrieval" 근접(proximity) 문맥 질의 단어가 함께 사용될 수 있는 범위를 지정하는 질의 범위 : 절(paragraph) 단어와 단어 사이의 최대 거리 예) within 4 words : query : "enhance retrieval" text : "...enhance the power of retrieval …" 질의에서 표현된 순서와 같은 순서로 텍스트에 표현될 필요는 없다. 단일단어 질의와 비슷한 방법으로 순위화할 수 있다.

불리안 질의 간단한 문법으로 구성된다. 단어(atom) (i.e 기본 질의) 불리안 연산자 : e1 OR e2, e1 AND e2 e1 BUT e2 : e1 AND NOT e2, 질의 구문 트리(query syntax tree) 리프노드: 단어 내부 노드: 불리안 연산자 질의의 결과 특별한 기준에 따라서 검색된 문서를 순위화한다. 문서에서 질의에 포함된 단어의 정확한 위치를 표시한다. 퍼지 불리안 질의 : some (between AND and OR) AND OR translation syntax syntactic

자연어 질의 문장으로 표현 자연어 질의는 검색 시스템에 의해서 불리안 질의와 같은 형식으로 표현하여 검색한다.

Good Retrieval (세계에서 제일 높은 산) Untitled Document  (정확도 : 99 %) 세계에서 가장 높은 산은 어느 것일까요? 해 면 아래와 위를 합쳐서 가장 높은 산은 미국의 하와이 섬에 있는 '마우나케아'입니다. 이 산은 해발 4,205미터이고, 해면 아래는 4,877미터입니다. 마우나케아 산의 전체 높이는 9,000 미터를 넘기 때문에 세계에서 가장 높은 산이라 http://www.tgedu.net/student/cho_ja/html/5000/5111-10.html 세 계 의 명 산   (정확도 : 97 %) 산 8000m급 14개 봉중의 (10위봉) 노아 방주가 내려앉은 산 8000m급 14개 봉중의 (12위봉) 사각형의 분화구를 이룬 사화산 칠레에서 가장 아름다운 산 8000m급 14개 봉중의 (8위봉) 돌로미테 지역의 산 러시아에서 가장 높은 산 뉴질랜드에서 가장 높은 산 세계에서 가장 높은 http://www.kuac.net/txt/d_02.htm

Bad Retrieval (세계에서 제일 높은 산) WWW Home page of 이남희(Lee Nam Hee) (정확도 : 88 %) 세계에서 제일 높은 기차역 -융프라우 산 위에서 내려다 본 스위스 마을ttp://salmosa.kaist.ac.kr/~nhlee/Europe/europe20.html 그림대여시스템/판화세계  (정확도 : 77 %) 태생의 현존 작가. 현재 미국 산 앤토니오에서 작품활동하고 있다. 강렬한 화면 구성과 기법으로 화면 가득히 역동감이 넘친다. 뉴욕 프랫트 인스티튜트에서 공부하였으며 미국은 물론 유럽에서도 높은 평가를 받고 있다. 판화세계 전화 : (02)6060-919 / H.P : 011-9778-0919 http://www.artrental.co.kr/alireza.htm PAXNet 뉴스센터 (정확도 : 77 %) 산 맥주잔과 향기초세트, 이집트산 향수병, 우루과이산 돌반지, 태국산 향초 등 각국의 유명 특산품들이 한자리에 모였다. 세계풍물기행 벼룩시장전은 시중가보다 평균 30% 정도 할인된 가격에서 입찰이 시작하는 특가경매 형태로 진행된다. 경매 종료시점까지 가장 높은 가격을 http://www.paxnet.co.kr/news/datacenter/200011/29 /20001129100828_06.sht

Ask jeeves (www.ask.com)

Response with suggested questions

Who was the first man on the moon?

패턴 정합 패턴 : 텍스트에서 출현되는 구문적 특징들의 집합 패턴의 종류 단어 : "compute" 접두사 :"comput“ : "computer", "computation", ... 접미사 : "ters" : "computers", "testers", "painters" ... 부분문자열 : "tal" : "coastal", "talk", “metallic" … ; "any flowers" : "many flowers" 범위 : 사전 순서로 두 문자열 사이에 있는 어떤 문자열과도 정합 "held..hold" : "hoax" “hissing” 허용 오류 : 철자 오류도 검색된다. Levenshtein 거리(편집 거리) 이용: 두 문자열을 같게 만들기 위한 문자 삽입, 삭제, 치환의 최소 수 "flower" : "flo wer" 정규표현 : "word|phrase", "pro(blem|tein)(s|)(0|1|2)*" 확장된 패턴 : 간단한 문법을 가진 정규표현 내부적으로는 정규표현을 변환한다.

질의응답 시스템 Question Answering The main difference between IR and QA Finding the exact answer to the user’s question in a large text collection The main difference between IR and QA IR system : QA system : User Query (specific) (general) collection - - - - - - - - - - - - - - - - - - Document List Answers

질의응답 시스템 질문에 대한 정답추천 관련 홈페이지 직접 연결

질의응답 시스템 질문에 대한 정답추천 관련 홈페이지 직접 연결

Search engine vs. Q/A engine 종합봉사실 전화번호는? IR system QA system

Search engine vs. Q/A engine As – Is (기존의 검색 시스템) To – Be (질의 응답 시스템) 기능 측면에서의 질의 응답 결과 1. 해당되는 문서를 단순 나열함. 2. 문서 속에서 정답 검색이 여전히 필요. 3. 정보 검색 과정에 많은 시간 소요. 4. 사용자의 문서 활용도가 매우 낮음. 정확도 측면에서의 질의 응답 결과 1. 질문에서 키워드만을 추출. 2. 키워드에 대한 통계적 검색 결과만 제시. 3. 정확한 의도 분석이 불가능. 기능 측면에서의 질의 응답 결과 1. 문서에서 정답을 직접 찾아서 제시. 2. 정답 검색 과정 시간 단축. 3. 사용자 문서 활용도 증가  인지도 향상. 4. 웹 문서뿐 아니라 데이터베이스까지 검색 5. 특정 문서 직접 제시 가능 정확도 측면에서의 질의 응답 결과 1. 질문의 어휘 구조, 질문 의도까지 파악. 2. 정확한 질의 분석  의미있는 부분만 검색. 3. 검색 성능 최적화 가능. 질문 : “서정연 교수님의 전화번호는?” 1. 서정연+교수+전화+번호 문서 내에서 단순히 발현되는 정도 측정. “서정연”, “교수”, “전화”, “번호” , “전화번호” 라는 단어가 들어간 불필요한 모든 문서들을 제시 질문 : “서정연 교수님의 전화번호는?” 1. 전화번호에 관한 질문(서정연 교수) 우선 전화번호에 관한 질문이라는 것이 파악 되고, 그 대상이 서정연 교수라는 것을 인식 하여 정답 추출 웹사이트를 위한 지능형 정보 검색 에이전트. 사용자 질의 의도를 정확하게 파악하여 정확도를 최대로 높이는 진정한 의미의 Vertical 검색엔진.

START (MIT, AI Lab)

What is the population of the Korea?

구조 질의 텍스트 구조 양식 형태의 구조 하이퍼텍스트 구조 계층적 구조

고정 구조 문서는 양식과 같이 필드의 집합으로 구성된다. 필드는 텍스트이다. 중첩(nested)되거나 중복(overlap)되지 않는다. 예) 메일 : 보내는 사람, 받는 사람, 날짜, 주제, 본문 질의 :주제에 “football”이 들어 있고 "Cliton"에게 보낸 메일을 찾아라. HTML 문서와 같은 계층구조(hierarchical structure)로 된 문서의 검색표현으로는 부적합하다. 데이터베이스의 관계형 모델에 적용할 수 있다. 필드 : DB의 필드에 해당한다. 구조질의언어(SQL, structured query language)를 확장하여 전문검색이 가능하게 할 수 있다.  SFQL (structured full-text query language)

하이퍼텍스트 방향성 그래프로 간주된다. 검색 WebGlimpse: 웹에서 브라우징과 검색을 결합하기 위한 시도 노드 : 텍스트 링크 : 노드 사이를 연결 혹은 노드 내 어떤 위치 사이에 존재하는 연결 검색 하이퍼텍스트의 항해 원하는 문서를 찾기 위해서 링크를 따라 노드를 따라간다. WebGlimpse: 웹에서 브라우징과 검색을 결합하기 위한 시도 웹 네비게이션 + 현재 노드(text)와 연결된 노드들(texts)의 검색 기능 현재 하이퍼텍스트의 내용과 구조를 병합해서 검색하려는 시도가 이루어지고 있으나 많은 어려움이 있는 작업임.

계층 구조 하이퍼텍스트와 고정 구조가 중간 정도의 형태 장(chapter), 절(section)과 같이 나누어서 표현된 거의 모든 문서들 예) 서적, 논문, 법률 문서, 구조화 프로그램 계층적 구조는 하이퍼텍스트보다 간단하기 때문에 질의 처리가 빠르다. 서적의 페이지 parsed query to retrieve the figure Schematic view Chapter 4 4.1 Introduction We cover in this chapter the different kinds of … …. 4.4 Structural Query ... chapter section title Introduction We cover …. ….. Structural … in with "structural" figure title section

계층 구조(계속) 계층 모델 PAT 표현 겹침(overlapped) 리스트 참조 리스트 인접 노드 트리 정합

질의 프로트콜 텍스트 DB를 검색하기 위한 표준. 종류 Z39.50; 1995년 ANSI와 NISO에서 표준으로 인정 클라이언트와 호스트 데이터베이스 관리기 사이의 표준 인터페이스 서버와 클라이언트가 세션을 연결하는 방법, 초기에는 서지 정보에 위주였으나, 점차 다른 형태의 정보도 검색할 수 있도록 확장. WAIS: Wide Area Information Service(광역 정보 서비스) 1990년대 초반 웹이 유행하기 전에 많이 사용되던 프로토콜 WAIS의 목표는 네트워크 출판 프로토콜과 인터넷을 통하여 데이터베이스를 검색 CD-ROM 프로트콜 CCL (common command language) CD-RDx (compact disk read only data exchange) SFQL (structured full-text query language)