정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼

Slides:



Advertisements
Similar presentations
Information Retrieval. 2 Introduction Information Retrieval –automatic indexing + document retrieval Web Information Retrieval – 전통적인 IR 과 유사한 방법 / 방식.
Advertisements

1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.
데이터마이닝 & 정보검색 연구실 신 현 일.  검색 시스템에 필요한 요소  인터넷 검색의 유형 / 태그란 ?  Blog 검색 시스템 설계  Target : Blog ? / 국내 Blog 사이트 분류  Collection : 어디서 무엇을 추출할 것인가 ? 
Strictly Confidential * This document contains confidential information for IndustryMedia Inc. All data and information in this document should be kept.
Wiley Online Library EBSCO KOREA Last Update : Jan.
EBSCO Korea Last updated: Jan Last updated: Jan. 2013
New Platform Training CSA Illumina 이용 매뉴얼. Social sciences and Education Collection 사회학, 사회복지, 교육, 국제정치, 범죄 등 사회과학 전반에 관한 저널 및 정부문서, 논문, 단행본 등 다양한 연구자료에.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
2007학년도 2학기 HCI 프로그래밍 II (분반 2) 2007년 가을학기 9/3/2007 박경신.
Predicting User Interests from Contextual Information
- 예∙결산 및 기본재산 운영 신뢰도 제고를 위한 실태점검, 결산지원사업 -
※ 안내 사항 - 본 자료는, ’14년 인재개발원이 개발한 조직 개발 솔루션 프로파일입니다.
2011년 봄학기 정보컴퓨터공학부 컴퓨터 소프트웨어 설계 및 실험
The Most Advanced ASP-EC Solution
KMS/Portal 에서의 효율적인 정보검색
Verity Portal One “Powering Business Portals”
한국통신 멀티미디어연구소 김 영 환 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 한국통신 멀티미디어연구소 김 영 환
Discover Something Great
EndNote 이용법 - 레퍼런스 관리 프로그램 -.
Knowledge Enterprise Portal Solution(iKEP)
Google Analytics Seminar
해외전자정보서비스이용안내 PAO KERIS Collection.
Business Strategy & KMS in Financial Industry
Overview : XML과 Database
부산대학교 인공지능연구실 김민호 Text Categorization 부산대학교 인공지능연구실 김민호
Introduction to Web Service Computing
Information Retrieval (Chapter 4: 질의언어)
Enterprise Data Warehouse
제 8장. 멀티미디어 데이터베이스 및 정보검색 시스템
JSTOR -The Scholarly Journal Archive-
6장. 물리적 데이터베이스 설계 물리적 데이터베이스 설계
JSTOR -The Scholarly Journal Archive-
(주)신원데이터넷 JSTOR (주)신원데이터넷
Sung-Hae Jun 자연어 처리의 이해 Sung-Hae Jun
CH 851 지식기반 시스템 응용 (모바일 시스템) 2006년도 제 2학기.
정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)
Information Retrieval (Chapter 5: 질의연산)
운영체제 (Operating Systems)
Chapter 10. 파일 시스템 인터페이스(File System Interface)
파일 시스템 인터페이스(File System Interface)
1. 병원 직원들을 위한 서비스기본 과정 ■ 교육 목적 ■ 교육 내용 ▪ 의료 환경 변화의 이해와 고객만족 서비스 마인드 함양
TF-IDF Porter stemmer, AP-88데이터셋
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
2014 JSTOR MANUAL (주)신원데이터넷
제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야
American Medical Association JAMA & Archives Journals
전자계약 시스템 사용자 매뉴얼 구매팀.
EndNote 정기교육 - STEP 1(2차)-
London Online Presentation Dec 1
Visual C# VS2010 IDE Tips & Tricks
Cyber Shopping Mall 구축 - CD New - 안소연,박지윤,박종봉,정영은.
7주차 소비자 반응 모형5 : 기억.
Discover Something Great
XML-II (eXtensible Markup Language) DTD/DOM
- 과거 500년의 조선과 동아시아 정세를 중심으로 -
고급 정보 검색 1. 개 요.
정보 디자인.
▶ 일 시 : (화) / 09:30 ~ 17:00 ▶ 장 소 : 백범기념관 컨벤션홀(용산구 효창동 소재)
Bug Localization Based on Code Change Histories and Bug Reports
데이터 베이스의 내부 구조.
1. 데이터베이스 환경.
SQL Server Reporting Services Feature
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
Jan. EBSCO KOREA.
COS Scholar Universe “Find Scholarly Experts on any Topic”
3. 웹사이트의 목적에 따른 분류 - 비상업적 사이트
CAJ – KNS55 (China Academic Journals)
Presentation transcript:

정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼 shmyaeng@cs.cnu.ac.kr http://enya.chungnam.ac.kr/

Copyright  Sung Hyon Myaeng 2000 Outline 텍스트 검색 overview 기술 별 현황 및 개발 방향 사용자/시스템 상호작용 기술 텍스트 가공 기술 Matching/ranking 기술 총체적 발전 방향 분산화 및 대용량화 기능 다양화 개인화 다매체화 결론 Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 텍스트 검색 텍스트 가공 사용자/시스템 상호작용 raw text Knowledge Resources & Tools 정보요구 정보요구 분석 text 분석 검색엔진 text 색인 질의 matching 검색결과 Copyright  Sung Hyon Myaeng 2000

사용자/시스템 상호작용 기술 (1) - 질의 모델 - 사용자/시스템 상호작용 기술 (1) - 질의 모델 - Boolean AND, OR, NOT 근접, phrase (예: “그리고 아무 말도 하지 않았다”) 단어 list 벡터 공간 모델 Boolean 질의로 변환 “자연어” 질의 예: “강원도나 충청 지역의 스키장에 관한 문서를 찾아라” 내부 검색 엔진 및 언어처리 기술의 한계 => 각종 trick 질의 확장 유사어, 외래어 표기, 한영 변환 <= resources Copyright  Sung Hyon Myaeng 2000

사용자/시스템 상호작용 기술 (2) - Interaction Model - 적합성 feedback “유사 문서 검색” 사용자 정보요구를 간접적으로 파악하는 방법 상세 질의 유도 “canned queries” (예: “Ask Jeeves”) query templates 사용자 profile 사용자 성향, 관심 분야 등을 질의 처리에 반영 session log수집 및 분석 등 기계학습 기술 활용 Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 Ask Jeeves화면 Copyright  Sung Hyon Myaeng 2000

사용자/시스템 상호작용 기술 (3) - 결과 제시 기법 - Information overload 문제 단순 ranked list - 제목, 저자, URL, 날짜, … 검색결과 조직화 클러스터링 Zoom-in 효과 (예: Scatter & Gather) 검색결과 시각화 많은 정보의 overview 문서 속성의 시각적 표현 예: tilebar, DART, 3DBOT Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 Scatter/Gather Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 Tile Bar Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 DART Display Copyright  Sung Hyon Myaeng 2000

텍스트 가공 기술 (1) - 색인 (indexing) - 텍스트 내용을 반영하는 용어 추출 형태소 분석 (stemming), stop words Phrase recognition, 복합명사분석 n-gram 용어 별 중요도 계산 통계적 분석- 예: TF*IDF 언어적 분석- POS tagging, 구문적 역할, context 정보 대용량 DB => 속도 향상 각종 언어자원 활용 사전 (명사, 조사, 어미, 대역, 인명, 외래어, 전문용어, …) 시소러스 (e.g. WordNet) Copyright  Sung Hyon Myaeng 2000

텍스트 가공 기술 (2) - text segmentation - 문장 절단을 통한 색인어 추출 복합 명사 구분 중국어 문서 색인 사전 혹은 통계치 이용 Passage 경계 구분 문장간의 응집도 계산 passage retrieval, 자동 요약, 자동 하이퍼텍스트 생성 등에 사용 문서 구조 파악 구조화 문서 (SGML, XML), plain text 상세 검색에 활용 Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 Matching & Ranking (1) Matching Inverted File, Signature File, ... Ranking 검색 모델 Boolean (exact) => Fuzzy Set (inexact) Vector Space Probabilistic Inference Net ... Weighting Schemes index terms, query terms parameters in formulas 문서 특성 Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 Matching & Ranking (2) 검색 속도 향상을 위한 기술 새로운 저장 구조 accumulator사용 방법 색인 압축/복원 웹 검색엔진을 위한 기술 하이퍼링크 사용 Directory Service와의 연결 Softbot - 저장장소 및 수집시간 최소화 ... Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 총체적 발전 방향 검색 신뢰도 향상 모델, 텍스트 분석 및 표현, 사용자 interaction, … “Not in my time!” 분산화 및 대용량화 통합검색, 분산검색 (DB 분할 검색) 기능의 다양화 Filtering, 분류, 자동요약, 구조화문서 검색, 사건탐지, QA, ... 개인화 - profile, session logs, etc. 다매체화 멀티미디어 자료, 입력방법 Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 분산화 - 통합 검색 분산 architecture 예: HARVEST 통합검색 기술 정보원(DB) 선택 - 학습 및 메타 정보에 의한 판단 이질 검색기로의 질의 변환 기술 - query semantics 검색 결과의 융합 분산 검색 프로토콜 동일 검색기간 - custom search protocol Z39.50 - client/server환경에서의 질의 및 검색session 상호운용성 STARTS - 검색기 간 교환되어야 할 정보 규정 Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 질의 분배 및 결과 융합 질의 질의 변환 / 분배 Q1 Q2 Q3 Qn …. 검색기1 검색기2 검색기3 검색기n 검색결과 융합  Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 기능 다양화 - 구조화문서 검색 검색 대상 문서의 다양화 a mixed query with structure- and content-based parts FIND a document that INCLUDES a chapter whose title CONTAINS the term “hypertext” AND whose section CONTAINS the term “browsing”. a mixed query with content- and link-based conditions FIND all documents about “information retrieval” that is referred to by a paper written by “Myaeng”. Solution 예 Inference net을 이용한 임의의 텍스트 단위 유사도 계산 (SIGIR ‘98) Copyright  Sung Hyon Myaeng 2000

Inference net기반 SGML문서검색 <path element> c1 c2 D1 <retrieval element> <leaf element> s11 s12 s13 t20 “hypertext” AND Q s21 s22 “browsing” … <context element> = {t10, s12, t20, s21, s22} t10  Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 기능 다양화 - 사건 탐지 (1) Event Detection or Topic Detection & Tracking something happening in a certain place at a certain time “TWA-800 airplane crash” vs. “airplane accidents” Two problems Temporal evolution of past events of interest A listing of automatically detected new events Detection of new events retrospective: grouping stories from an accumulated collection online: labeling each story with NEW or OLD from live news feeds in real-time Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 기능 다양화 - 사건 탐지 (2) Event의 특성 활용 뉴스에서 같은 사건 보도는 대개 시간적으로 근접해 있음 lexical and temporal similarities 시간을 두고 나타나는 유사 내용 보도 뭉치=> 다른 사건 사건 범위 결정을 위해 time window사용 사용어휘 및 빈도수의 변화 => 새로운 사건 새로운 문서 유입 시 어휘 및 통계치를 동적으로 변화 시켜야 함 클러스터링을 이용하는 방법 retrospective: time window를 사용한 bottom-up clustering online single-pass, incremental clustering incremental IDF, 유사도 계산시 오래된 문서 decaying function 사용  Copyright  Sung Hyon Myaeng 2000

Copyright  Sung Hyon Myaeng 2000 결론 검색 신뢰도 향상은 영원한 숙제 통계적, 언어학적 접근 방법의 접목 웹 환경에 적합한 새로운 기술의 발전 대용량, 분산성, 일반사용자 중심 단순 검색 기능을 초월하는 새로운 기능 및 응용 사용자 업무에 대한 이해 필요 고부가가치 기능 개발 연구 활성화를 위한 환경 조성 기술 평가 체제 자원 공유 Copyright  Sung Hyon Myaeng 2000