4장 질의 언어 목 차 4.1 소개 4.2 키워드 기반 질의 4.3 패턴 정합 4.4 구조 질의 4.5 질의 프로토콜

Slides:



Advertisements
Similar presentations
1/37 한글에는 전문적인 문서 편집을 위한 고급 기능이 있다. 문서를 편리하게 수 정할 수 있도록 도와주는 찾기 / 찾아 바꾸기, 다른 위치로 이동할 수 있는 책 갈피와 하이퍼링크에 대해 알아보자. 그리고 자주 사용하는 서식을 미리 정 해 놓고 쓰는 스타일 활용법과 스타일이.
Advertisements

최신정보검색론 Chapter 장 웹 탐색 목차 13.1 소개 13.2 도전 13.3 웹의 특성화 13.4 탐색 엔진 13.5 브라우징 13.6 메타 탐색기 13.7 건초더미에서 바늘 찾기 13.8 하이퍼 링크를 이용하여 탐색하기 13.9 연구 동향 및 쟁점.
밥 팀 명 : TTL 조 팀 원 : 김정용 (PM) 서종규 노재현 엄성욱.
8장 색인과 검색 목차 8.1 소개 8.2 역파일 8.3 다른 색인 기법 8.4 불리안 질의 8.5 순차 탐색
컴퓨터와 인터넷.
목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.
정보 보안 개론과 실습 네트워크 해킹과 보안 3부 해킹 전 정보 획득 Chapter 10. 목록화.
김태원 심재일 김상래 강신택. 김태원 심재일 김상래 강신택 인터넷 통신망의 정보를 제공하는 서비스 인터넷의 자원 및 정보는 NIC가 관리 IP주소 또는 도메인으로 정보 검색 이용자 및 통신망 관한 정보를 제공.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
최윤정 Java 프로그래밍 클래스 상속 최윤정
Entity Relationship Diagram
Ch.07-5 xml-rpc 사용하기 김상엽.
Network Lab. Young-Chul Hwang
연결리스트(linked list).
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
Information Retrieval (Chapter 4: 질의언어)
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
테이블 : 데이터베이스를 구성하는 요소로 같은 성격에 정보의 집합체. 레코드 : 하나의 정보를 가지고 있는 컬럼의 집합체
11 장 LAN 기본 개념과 Ethernet LAN
1장 소개 목 차 1.1 동기 1.2 기본 개념 1.3 과거, 현재와 미래 1.4 검색 과정 1.5 교재의 구성
3.2 SQL Server 설치 및 수행(계속) 시스템 데이터베이스 master
FTP 프로그램 채계화 박재은 박수민.
Error Detection and Correction
13 인덱스 인덱스의 개념 인덱스의 구조 인덱스의 효율적인 사용 방법 인덱스의 종류 및 생성 방법 인덱스 실행 경로 확인
NJM Messenger 박상원 박연호.
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
모바일 자바 프로그래밍 JDBC / WAP Ps lab 오민경.
17강. 데이터 베이스 - I 데이터 베이스의 개요 Oracle 설치 기본적인 SQL문 익히기
제 1장. 멀티미디어 시스템 개요.
13 인덱스 인덱스의 개념 인덱스의 구조 인덱스의 효율적인 사용 방법 인덱스의 종류 및 생성 방법 인덱스 실행 경로 확인
환경 설정 예제 데이터베이스 생성 - 그림 3.34의 SQL Server 관리 스튜디오 창의 왼쪽 영역의 데이터베
자바 5.0 프로그래밍.
Web Basic 김영성 인천대 OneScore
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
27장. 모듈화 프로그래밍.
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
Endnote 이용 안내 2010 중 앙 도 서 관.
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
15장 컬렉션 프레임워크 Section 1 컬렉션 프레임워크의 개요 Section 2 리스트 Section 3 셋
USN(Ubiquitous Sensor Network)
American Society for Microbiology
Regular Expression 1 Powerful pattern matching with regular expression to a string while () { if ( /ab*c/ ) { print $_; } } substitute operator s/abc*c/def/;
04. DBMS 개요 명지대학교 ICT 융합대학 김정호.
16 장 네트워크 보안 : 방화벽과 VPN 16.1 개요 16.2 기밀성 16.3 전자 서명 16.4 인터넷 보안
20 장 네트워킹과 인터네트워킹 장치 20.1 리피터(Repeaters) 20.2 브리지(Bridges)
LabVIEW WiznTec 주임 박명대 1.
Database Management System
자바로 만든 채팅 프로그램 임경진 조주경 지도교수님 : 이광세 교수님.
문성우 SQL 실습 Part Ⅰ 문성우.
Regular Expression 1 Powerful pattern matching with regular expression to a string while () { if ( /ab*c/ ) { print $_; } } substitute operator s/abc*c/def/;
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
문서 클러스터링 일본언어문화학과 서동진.
Introduction to JSP & Servlet
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
Chapter 10 데이터 검색1.
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
학습내용 프로토콜 계층화 OSI 모델의 용어 및 기능 개체 서비스 접근점 (N) 프로토콜과 (N) 서비스 서비스 프리미티브
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
발표자 : 이지연 Programming Systems Lab.
다자간 채팅프로그램 김형도 허영민
슬라이드 쇼의 설정 슬라이드 쇼의 실행 파일과 폴더의 관리 글꼴을 포함해서 저장 웹 페이지로 게시 압축 파일
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
제 4 장 Record.
Network Lab. Young-Chul Hwang
 6장. SQL 쿼리.
프로젝트 결과 발표 네트워크정보통신과 강동성 이현미.
C++ Espresso 제15장 STL 알고리즘.
6 객체.
American Society for Microbiology
Presentation transcript:

4장 질의 언어 목 차 4.1 소개 4.2 키워드 기반 질의 4.3 패턴 정합 4.4 구조 질의 4.5 질의 프로토콜 4.6 연구 동향 및 쟁점 4.7 참고 문헌 고찰 최신정보검색론 Chapter 4

4.1 소개 질의 언어 : 검색 모델에 의존 - 연관 문서를 찾기 위해 문서의 내용(의미)과 문서의 구조(텍스트의 구문)를 이용 관련 기술 - 동의어 확장, 시소러스와 스테밍을 이용, 불용어 제거 종류 - 키워드 기반 질의 언어 : 단순 단어와 구, 불리안 연산자 - 패턴 정합: 복잡한 질의 - 텍스트 구조에 대한 질의: 특정 텍스트 모델에 매우 의존적 - 인터넷과 CD-ROM 출판사에서 사용되는 표준 프로토콜 최신정보검색론 Chapter 4

4.2 키워드 기반 질의 직관적, 작성 용이, 빠른 순위화 -> 널리 사용 종류 단일 단어 질의 문맥 질의 불리안 질의 자연언어 최신정보검색론 Chapter 4

4.2.1 단일 단어 질의 정의 알파벳은 문자와 분리자로 나누어지며, 단어는 분리자로 둘러싸인 문자열 4.2.1 단일 단어 질의 정의 알파벳은 문자와 분리자로 나누어지며, 단어는 분리자로 둘러싸인 문자열 - 질의 단어들 중 어느 하나라도 포함하고 있는 문서들이 검색 - 검색된 문서는 질의와의 연관도에 따라서 정렬 - 문헌에서의 단어 출현 빈도에 대한 두 가지 통계 값 단어 빈도(tf) : 어떤 단어가 한 문헌 내에서 몇 번 나타났는가 역문헌 빈도(idf) : 단어가 출현한 문헌 수의 역수 - 텍스트에서 나타난 정확한 위치에 대한 정보 최신정보검색론 Chapter 4

4.2.2 문맥 질의 문맥(근접한 다른 언어)에 나타난 단어 검색 구(Phrase) 근접도(proximity) 단일 단어 질의의 열 예) enhance retrieval -> ‘enhance the retrieval’ 근접도(proximity) 단어 혹은 구 사이에 허용되는 최대 거리 값과 함께 제공 예) enhance retrieval within 4 ‘enhance the power of retrieval…’ 최신정보검색론 Chapter 4

4.2.3 불리안 질의 질의 구문 트리 단말 노드는 기본 질의, 내부 노드는 연산자 최신정보검색론 Chapter 4 4.2.3 불리안 질의 질의 구문 트리 단말 노드는 기본 질의, 내부 노드는 연산자 [그림 4. 1] 질의 구문 트리의 예. 이 트리는 ‘translation’을 포함하며, ‘syntax’나 ‘syntactic’ 중 어느 하나라도 포함하는 모든 문서를 검색한다. 그림 4. 1 질의 구문 트리의 예. 이 트리는 ‘translation’을 포함하며, ‘syntax’나 ‘syntactic’ 중 어느 하나라도 포함하는 모든 문서를 검색한다. 최신정보검색론 Chapter 4

4.2.3 불리안 질의(계속) - 고전적인 불리안 시스템 e1 연산자 e2 OR AND BUT 4.2.3 불리안 질의(계속) e1 연산자 e2 OR e1 혹은 e2를 만족시키는 모든 문서, 중복 제거 AND e1 과 e2 둘 다 만족시키는 모든 문서 BUT e1을 만족시키지만 e2를 만족시키지 않는 모든 문서 - 고전적인 불리안 시스템 검색된 문서에 대한 순위가 제공되지 않음 > 퍼지 불리안, 확장 불리안 : 순위제공 최신정보검색론 Chapter 4

4.2.4 자연언어 불리안 질의 벡터모델 자연언어 질의의 단순한 추상화 문헌과 질의 모두 ‘용어-가중치’ 벡터로 간주 4.2.4 자연언어 불리안 질의 자연언어 질의의 단순한 추상화 벡터모델 문헌과 질의 모두 ‘용어-가중치’ 벡터로 간주 질의 벡터와 유사한 문헌 벡터 검색 최신정보검색론 Chapter 4

4.3 패턴 정합 패턴의 정의 종류 - 단어: 문자열, 기본 패턴 어떤 텍스트 조각에서 출현해야 하는 구문적 자질 - 단어: 문자열, 기본 패턴 - 접두사: 단어의 앞에 나타나는 문자열 예) comput* : ‘computer’,‘computation’,‘computing’ - 접미사: 단어의 마지막인 문자열 예) *ters : ‘computers’, ‘testers’, ‘painters’ - 부분 문자열: 단어의 내부에 나타내는 문자열 예) *tal* : ‘coastal’, ‘talk’, ‘metallic’ 최신정보검색론 Chapter 4

4.3 패턴 정합 (계속) 범위 오류허용 사전 순서상에서 두 문자열 사이에 있는 어떤 문자열과도 정합 예) ‘head’와 ‘hold’의 범위 : ‘hoax’, ‘hissing’ 오류허용 단어와 오류 임계값. ( 철자 오류 검색 ) 단어간의 유사도 모델 : Levenshtein 거리 (편집거리) 두 문자열을 같게 만들기 위한 문자 삽입, 삭제, 치환의 최소 수 예) ‘flower’ 와 ‘flo wer’ 의 편집거리는 1 최신정보검색론 Chapter 4

4.3 패턴 정합 (계속) 정규 표현식 문자열과 연산자들을 이용한 보다 일반적인 패턴 합집합 : e1 과 e2가 정규 표현식이라면 (e1 | e2)는 e1 혹은 e2와 정합 연쇄 : (e1, e2)는 e1 바로 다음에 e2가 인접 반복 : 만약 e가 정규 표현식이라면 (e*)는 e가 0번 혹은 그 이상 연속 예) ‘pro(blem | tein) (s | ε) (0 | 1 | 2)*’ (ε는 빈 문자열) -> ‘problem02’ ,’proteins’ . 최신정보검색론 Chapter 4

4.3 패턴 정합 (계속) 확장 패턴 정규 표현식의 부분 집합 문자 클래스 미리 정의된 문자 집합 내의 임의 문자와 정합 대소문자간의 정합, 글자 범위의 사용, 여집합, 열거, 대표문자 조건 표현: 패턴의 일부로 나타나거나 나타나지 않아도 좋은 부분 텍스트 내 임의 문자열과 정합되는 대표 문자 예) ‘flo’로 시작하여 ‘ers’로 끝나는 패턴: ‘flowers’,’flounders’ 패턴의 일부는 정확하게 정합, 다른 부분은 오류 포함도 가능 최신정보검색론 Chapter 4

4.4 구조 질의 a) 양식 형태의 고정 구조 b) 하이퍼텍스트 구조 c) 계층적 구조 최신정보검색론 Chapter 4

4.4.1 고정 구조 예) 전자우편 - 필드 - 질의 발신자, 날짜, 제목, 내용 필드 데이터베이스 테이블의 열에 대응 관계 모델(relational model)과 연결 - 질의 SQL(Structured Query Language) 확장 Oracle, Sybase, SFQL (4.5절 참고) 최신정보검색론 Chapter 4

4.4.2 하이퍼텍스트 방향성 그래프 (Directed Graph) 브라우징과 웹 탐색 결합 노드는 텍스트 링크는 노드 사이 혹은 노드 내 어떤 위치 사이에 존재하는 연결 브라우징과 웹 탐색 결합 WebGlimpse 전통적인 항해와 현재 노드의 인접 노드 내용에 의한 검색 기능 제공 최신정보검색론 Chapter 4

4.4.3 계층적 구조 [그림 4.3] 예 : 책의 한 페이지, 도식적인 모형, 그림을 검색하기 위한 파싱된 질의 최신정보검색론 Chapter 4

4.4.3 계층적 구조 (계속) 고정 텍스트 구조와 하이퍼텍스트 구조의 중간 예) 서적, 논문, 법률 문서, 구조화 프로그램 계층적 구조는 하이퍼텍스트보다 간단하기 때문에 빠른 질의 처리 알고리즘을 적용 종류 PAT 표현 겹침(overlapped) 리스트 참조 리스트 인접 노드 트리 정합 최신정보검색론 Chapter 4

4.4.3 계층적 구조 (계속) 계층적 모델의 예 겹침(overlapped) 리스트 참조 리스트 인접 노드 트리 정합 PAT 표현 텍스트 구조에 대한 새로운 색인 없이 텍스트 인덱스를 이용 겹침(overlapped) 리스트 PAT 수식을 발전 한 영역 내 지역이 서로 겹치는 것은 허용 중첩(nest) 되는 것은 불허 참조 리스트 구조화 텍스트의 정의와 탐색을 공통의 언어를 사용하여 통합 인접 노드 구조는 정적이고 계층적이어서 여러 개의 독립적인 구조가 같은 텍스트에 정의 트리 정합 트리 포함(tree inclusion) 연산에 의존 최신정보검색론 Chapter 4

4.5 질의 프로토콜 텍스트 데이터베이스 검색 Z39.50 1995년 ANSI와 NISO에서 표준으로 인정 클라이언트와 호스트 데이터베이스 관리기 사이에 표준 인터페이스를 이용하여 서지 정보 검색 서버와 클라이언트가 세션을 연결하는 방법, 정보를 통신하고 교환하는 방법 정의 초기에는 서지 정보(기계 가독형 목록 레코드:MARC) 위주였으나 점차 다른 형태의 정보도 검색할 수 있도록 확장 최신정보검색론 Chapter 4

4.5 질의 프로토콜 (계속) WAIS Wide Area Information Service (광역 정보 서비스) 1990년대 초반 웹이 유행하기 전에 많이 사용되던 프로토콜 WAIS의 목표는 네트워크 출판 프로토콜과 인터넷을 통하여 데이터베이스를 검색 최신정보검색론 Chapter 4

4.5 질의 프로토콜 (계속) CD-ROM 출판 분야에서의 질의 프로토콜 CCL: Common Command Language(공통 명령 언어) Z39.50에 기반한 NISO의 제안(Z39.58 혹은 ISO8777) 19개의 대화 명령어 정의, 고전적 불리안 모델에 기반 CD-RDx(Compact Disk Read only Data exchange) 클라이언트-서버 구조를 사용하며 대부분의 플랫폼에 구현 고정길이 필드 영상 및 음성을 허용 CIA, NASA, GSA와 같은 미국 국가 기관이 지원 최신정보검색론 Chapter 4

4.5 질의 프로토콜 (계속) SFQL Structured Full-text Query Language (구조화 전문 질의 언어) SQL에 기반, 클라이언트-서버 구조 사용 항공우주 분야에서 표준으로 채택 문서는 관계 테이블에서 하나의 행으로 표시, SGML을 이용해 태깅 예) Select abstract from journal.papers where title contains "text search“ 불리안 및 논리 연산, 시소러스, 근접 연산, 대표 문자, 반복 등을 표시하기 위한 특수 문자 지원 최신정보검색론 Chapter 4

4.6 연구 동향 및 쟁점 Model Queries allowed 시각적 질의 언어 Boolean word, set operation Vector Words Probabilistic words BBN(신념망) 표 4.1 질의 유형과 모델간의 관계 시각적 질의 언어 시각 메타포(metaphore): 초보자의 복잡한 불리안 질의 작성에 도움 사용자 인터페이스의 시각화 (10장 참조) 최신정보검색론 Chapter 4

4.6 연구 동향 및 쟁점 (계속) 최신정보검색론 Chapter 4 [그림 4, 4] 질의 유형과 구조화 방법

4.7 참고 문헌 고찰 고전적 질의 언어(단순 패턴, 불리안 모델, 고정 구조) 퍼지 불리안 모델: [703] Fulcrum, Verity 등 현재 상용 시스템 및 Glimpse[540], Igrep[26]과 같은 비상용 시스템에 기초 퍼지 불리안 모델: [703] Levenshtein 거리: [504]와 [25] Soundex : [445], 서로 다른 유사 모델의 성능 비교는 [595] 정규식에 대한 설명은 [373], 확장 패턴의 여러 언어는 [837] 하이퍼텍스트에 대한 고전적 소개 [181] WebGlimpse 시스템 [539] 계층적 텍스트 [41] 최신정보검색론 Chapter 4