Presentation is loading. Please wait.

Presentation is loading. Please wait.

정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼

Similar presentations


Presentation on theme: "정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼"— Presentation transcript:

1 정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼

2 Copyright  Sung Hyon Myaeng 2000
Outline 텍스트 검색 overview 기술 별 현황 및 개발 방향 사용자/시스템 상호작용 기술 텍스트 가공 기술 Matching/ranking 기술 총체적 발전 방향 분산화 및 대용량화 기능 다양화 개인화 다매체화 결론 Copyright  Sung Hyon Myaeng 2000

3 Copyright  Sung Hyon Myaeng 2000
텍스트 검색 텍스트 가공 사용자/시스템 상호작용 raw text Knowledge Resources & Tools 정보요구 정보요구 분석 text 분석 검색엔진 text 색인 질의 matching 검색결과 Copyright  Sung Hyon Myaeng 2000

4 사용자/시스템 상호작용 기술 (1) - 질의 모델 -
사용자/시스템 상호작용 기술 (1) - 질의 모델 - Boolean AND, OR, NOT 근접, phrase (예: “그리고 아무 말도 하지 않았다”) 단어 list 벡터 공간 모델 Boolean 질의로 변환 “자연어” 질의 예: “강원도나 충청 지역의 스키장에 관한 문서를 찾아라” 내부 검색 엔진 및 언어처리 기술의 한계 => 각종 trick 질의 확장 유사어, 외래어 표기, 한영 변환 <= resources Copyright  Sung Hyon Myaeng 2000

5 사용자/시스템 상호작용 기술 (2) - Interaction Model -
적합성 feedback “유사 문서 검색” 사용자 정보요구를 간접적으로 파악하는 방법 상세 질의 유도 “canned queries” (예: “Ask Jeeves”) query templates 사용자 profile 사용자 성향, 관심 분야 등을 질의 처리에 반영 session log수집 및 분석 등 기계학습 기술 활용 Copyright  Sung Hyon Myaeng 2000

6 Copyright  Sung Hyon Myaeng 2000
Ask Jeeves화면 Copyright  Sung Hyon Myaeng 2000

7 사용자/시스템 상호작용 기술 (3) - 결과 제시 기법 -
Information overload 문제 단순 ranked list - 제목, 저자, URL, 날짜, … 검색결과 조직화 클러스터링 Zoom-in 효과 (예: Scatter & Gather) 검색결과 시각화 많은 정보의 overview 문서 속성의 시각적 표현 예: tilebar, DART, 3DBOT Copyright  Sung Hyon Myaeng 2000

8 Copyright  Sung Hyon Myaeng 2000
Scatter/Gather Copyright  Sung Hyon Myaeng 2000

9 Copyright  Sung Hyon Myaeng 2000
Tile Bar Copyright  Sung Hyon Myaeng 2000

10 Copyright  Sung Hyon Myaeng 2000
DART Display Copyright  Sung Hyon Myaeng 2000

11 텍스트 가공 기술 (1) - 색인 (indexing) -
텍스트 내용을 반영하는 용어 추출 형태소 분석 (stemming), stop words Phrase recognition, 복합명사분석 n-gram 용어 별 중요도 계산 통계적 분석- 예: TF*IDF 언어적 분석- POS tagging, 구문적 역할, context 정보 대용량 DB => 속도 향상 각종 언어자원 활용 사전 (명사, 조사, 어미, 대역, 인명, 외래어, 전문용어, …) 시소러스 (e.g. WordNet) Copyright  Sung Hyon Myaeng 2000

12 텍스트 가공 기술 (2) - text segmentation -
문장 절단을 통한 색인어 추출 복합 명사 구분 중국어 문서 색인 사전 혹은 통계치 이용 Passage 경계 구분 문장간의 응집도 계산 passage retrieval, 자동 요약, 자동 하이퍼텍스트 생성 등에 사용 문서 구조 파악 구조화 문서 (SGML, XML), plain text 상세 검색에 활용 Copyright  Sung Hyon Myaeng 2000

13 Copyright  Sung Hyon Myaeng 2000
Matching & Ranking (1) Matching Inverted File, Signature File, ... Ranking 검색 모델 Boolean (exact) => Fuzzy Set (inexact) Vector Space Probabilistic Inference Net ... Weighting Schemes index terms, query terms parameters in formulas 문서 특성 Copyright  Sung Hyon Myaeng 2000

14 Copyright  Sung Hyon Myaeng 2000
Matching & Ranking (2) 검색 속도 향상을 위한 기술 새로운 저장 구조 accumulator사용 방법 색인 압축/복원 웹 검색엔진을 위한 기술 하이퍼링크 사용 Directory Service와의 연결 Softbot - 저장장소 및 수집시간 최소화 ... Copyright  Sung Hyon Myaeng 2000

15 Copyright  Sung Hyon Myaeng 2000
총체적 발전 방향 검색 신뢰도 향상 모델, 텍스트 분석 및 표현, 사용자 interaction, … “Not in my time!” 분산화 및 대용량화 통합검색, 분산검색 (DB 분할 검색) 기능의 다양화 Filtering, 분류, 자동요약, 구조화문서 검색, 사건탐지, QA, ... 개인화 - profile, session logs, etc. 다매체화 멀티미디어 자료, 입력방법 Copyright  Sung Hyon Myaeng 2000

16 Copyright  Sung Hyon Myaeng 2000
분산화 - 통합 검색 분산 architecture 예: HARVEST 통합검색 기술 정보원(DB) 선택 - 학습 및 메타 정보에 의한 판단 이질 검색기로의 질의 변환 기술 - query semantics 검색 결과의 융합 분산 검색 프로토콜 동일 검색기간 - custom search protocol Z client/server환경에서의 질의 및 검색session 상호운용성 STARTS - 검색기 간 교환되어야 할 정보 규정 Copyright  Sung Hyon Myaeng 2000

17 Copyright  Sung Hyon Myaeng 2000
질의 분배 및 결과 융합 질의 질의 변환 / 분배 Q1 Q2 Q3 Qn …. 검색기1 검색기2 검색기3 검색기n 검색결과 융합 Copyright  Sung Hyon Myaeng 2000

18 Copyright  Sung Hyon Myaeng 2000
기능 다양화 - 구조화문서 검색 검색 대상 문서의 다양화 a mixed query with structure- and content-based parts FIND a document that INCLUDES a chapter whose title CONTAINS the term “hypertext” AND whose section CONTAINS the term “browsing”. a mixed query with content- and link-based conditions FIND all documents about “information retrieval” that is referred to by a paper written by “Myaeng”. Solution 예 Inference net을 이용한 임의의 텍스트 단위 유사도 계산 (SIGIR ‘98) Copyright  Sung Hyon Myaeng 2000

19 Inference net기반 SGML문서검색
<path element> c1 c2 D1 <retrieval element> <leaf element> s11 s12 s13 t20 “hypertext” AND Q s21 s22 “browsing” <context element> = {t10, s12, t20, s21, s22} t10 Copyright  Sung Hyon Myaeng 2000

20 Copyright  Sung Hyon Myaeng 2000
기능 다양화 - 사건 탐지 (1) Event Detection or Topic Detection & Tracking something happening in a certain place at a certain time “TWA-800 airplane crash” vs. “airplane accidents” Two problems Temporal evolution of past events of interest A listing of automatically detected new events Detection of new events retrospective: grouping stories from an accumulated collection online: labeling each story with NEW or OLD from live news feeds in real-time Copyright  Sung Hyon Myaeng 2000

21 Copyright  Sung Hyon Myaeng 2000
기능 다양화 - 사건 탐지 (2) Event의 특성 활용 뉴스에서 같은 사건 보도는 대개 시간적으로 근접해 있음 lexical and temporal similarities 시간을 두고 나타나는 유사 내용 보도 뭉치=> 다른 사건 사건 범위 결정을 위해 time window사용 사용어휘 및 빈도수의 변화 => 새로운 사건 새로운 문서 유입 시 어휘 및 통계치를 동적으로 변화 시켜야 함 클러스터링을 이용하는 방법 retrospective: time window를 사용한 bottom-up clustering online single-pass, incremental clustering incremental IDF, 유사도 계산시 오래된 문서 decaying function 사용 Copyright  Sung Hyon Myaeng 2000

22 Copyright  Sung Hyon Myaeng 2000
결론 검색 신뢰도 향상은 영원한 숙제 통계적, 언어학적 접근 방법의 접목 웹 환경에 적합한 새로운 기술의 발전 대용량, 분산성, 일반사용자 중심 단순 검색 기능을 초월하는 새로운 기능 및 응용 사용자 업무에 대한 이해 필요 고부가가치 기능 개발 연구 활성화를 위한 환경 조성 기술 평가 체제 자원 공유 Copyright  Sung Hyon Myaeng 2000


Download ppt "정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼"

Similar presentations


Ads by Google