2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성

Slides:



Advertisements
Similar presentations
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
Advertisements

최신정보검색론 Chapter 장 웹 탐색 목차 13.1 소개 13.2 도전 13.3 웹의 특성화 13.4 탐색 엔진 13.5 브라우징 13.6 메타 탐색기 13.7 건초더미에서 바늘 찾기 13.8 하이퍼 링크를 이용하여 탐색하기 13.9 연구 동향 및 쟁점.
Journal Citation Report Thomson Reuters 한국 지사. 해외전자정보 서비스 이용교육 Page Journal Citation Report 접속 RISS- 해외전자정보서비스이용교육 2 Journal Citation Reports 전 세계의 주요.
재료수치해석 HW # 박재혁.
인터넷정보원 및 학술정보자원의 활용 담당교수 : 박 양 하 6주 : 인터넷 정보검색.
URLink 팀명: S.B.S. 팀원: 김보성, 박지수.
인터넷의활용.
의사 결정 트리(decision tree)
뇌를 자극하는 Windows Server 2012 R2
제2장 주파수 영역에서의 모델링.
3장 검색 평가 3.1 소개 3.2 검색 성능 평가 3.3 참조 컬렉션 3.4 연구 동향 및 쟁점 3.5 참고 문헌 고찰
(Classification – Advanced Techniques)
Entity Relationship Diagram
Homework #1 연관규칙, 분류, 클러시트링의 세 가지 마이닝 방법에 대해, 교재 및 강의노트에 나오지 않는 사례를 각각 1개씩 드시오. 교재 p. 86의 2번 문제 교재 p. 91의 19번 문제 문서는 각 단어의 빈도를 조사하여 문서 벡터로 나타낼 수 있다. 문서.
4장 질의 언어 목 차 4.1 소개 4.2 키워드 기반 질의 4.3 패턴 정합 4.4 구조 질의 4.5 질의 프로토콜
Windows Server 장. Windows Server 2008 개요.
Hybrid INDIGO project 중간보고
실험 8. 연산증폭기 특성 목적 연산증폭기의 개관, 특성 및 사용법 이해 입력저항, 개루프 이득, 출력저항, 슬루레이트 등
PTZ카메라를 이용한 Target Tracking
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
Vector Bubble 충돌 검출 게임 설계 3조 강준순, 김훈석, 복현태.
Information Retrieval (Chapter 3: 검색 평가)
1장 소개 목 차 1.1 동기 1.2 기본 개념 1.3 과거, 현재와 미래 1.4 검색 과정 1.5 교재의 구성
컴퓨터과학 전공탐색 배상원.
MicroStrategy6 컴퓨터학과 석사 2학기 진수경.
23장. 구조체와 사용자 정의 자료형 2.
CAS (Computer Algebra System) 소개
뇌를 자극하는 Windows Server 장. Windows Server 2008 개요.
텍스트 분석 색인 작성 행렬 모델 용어 추출 및 분석 어휘 척도 문헌 유사도 어휘 통제 분석.
뇌를 자극하는 Windows Server 장. 장애 조치 클러스터.
제 1장. 멀티미디어 시스템 개요.
9장. 특징 선택 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
프로그래밍 개요
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
퍼지이론(Fuzzy Theory) 지 은 희.
(Application of the Internet)
‘Chess’를 읽고 컴퓨터공학부 배상수.
12장 멀티미디어 정보 검색 : 색인과 탐색 목차 12.1 소개 12.2 배경 – 공간 접근 방법 12.3 일반적인 멀티미디어 색인 방법 차원 시계열 차원 컬러 이미지 12.6 자동 특징 추출 12.7 연구 동향 및 쟁점 12.8 참고 문헌 고찰.
원격탐사의 활용 - Mapping -.
7. 텍스트 연산 7.1 소개 7.2 문헌 전처리 7.3 문헌 클러스터링 7.4 텍스트 압축 7.5 텍스트 압축 기법의 비교
15장 컬렉션 프레임워크 Section 1 컬렉션 프레임워크의 개요 Section 2 리스트 Section 3 셋
Week 5:확률(Probability)
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
텍스트 분석 기초.
웹사이트 분석과 설계 (화면 설계) 학번: 성명: 박준석.
미 술 6 학년 3. 다양한 표현 (1~2/6) 초기화면 다양한 표현 방법 알아보기.
CAS (Computer Algebra System) 소개
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
문서 클러스터링 일본언어문화학과 서동진.
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
Word2Vec.
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
학습내용 프로토콜 계층화 OSI 모델의 용어 및 기능 개체 서비스 접근점 (N) 프로토콜과 (N) 서비스 서비스 프리미티브
Map Designer Solution 소개자료
상관계수.
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
텍스트 분석 ㈜ 퀀트랩.
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
.Net FrameWork for Web2.0 한석수
3장 (2) 구문과 의미론 순천향대학교 컴퓨터공학과 하상호.
제 4 장 Record.
소리가 작으면 이어폰 사용 권장!.
컴퓨터는 어떻게 덧셈, 뺄셈을 할까? 2011년 10월 5일 정동욱.
C++ Espresso 제15장 STL 알고리즘.
6 객체.
Text Clustering G 조한얼.
Presentation transcript:

2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성 2.5 전형적인 정보 검색 2.6 다른 집합 이론 모델 2.7 다른 대수 모델 2.8 다른 확률 모델 2.9 구조적 텍스트 검색 모델 2.10 브라우징 모델 2.11 연구 동향 및 쟁점 2.12 참고 문헌 고찰 Chapter 2

2.1 소 개 전형적인 IR 시스템 색인어 (Indexing Term) 순위 결정 (Ranking) 알고리즘 2.1 소 개 전형적인 IR 시스템 문헌 색인과 검색에 색인어 적용 색인어 (Indexing Term) 키워드(Keyword) : 의미를 갖는 용어 (명사) 문헌 텍스트에 나오는 모든 단어 순위 결정 (Ranking) 알고리즘 검색된 문헌을 연관성에 기반하여 순위화 문헌 연관성: 여러 정보 검색 모델을 구분 Chapter 2

2.2 IR 모델의 분류체계 Chapter 2

검색 모델 분류 문헌의 논리상 색인어 전문 전문 + 구조 검색 전 통 집합론 대수론 확률론 구조 브라우징 평 면 하이퍼텍스트 전 통 집합론 대수론 확률론 구조 브라우징 평 면 하이퍼텍스트 구조 기반 사 용 자 과 제 Chapter 2

2.3 검색 축적 (Ad hoc) 검색 여과 (Filtering) 문헌 컬렉션은 정적 질의는 정적, 문헌은 동적 2.3 검색 축적 (Ad hoc) 검색 문헌 컬렉션은 정적 질의는 동적 (Ad hoc: 임시) 사용자 과제의 일반적인 형태 여과 (Filtering) 질의는 정적, 문헌은 동적 사용자 프로파일 (profile) - 사용자의 기호(preference)를 서술 라우팅 (Routing,3장 참조) - 여과된 문헌의 순위까지 제공 Chapter 2

2.4 IR 모델의 형식 특성 IR 모델 Chapter 2

2.5 전형적인 정보검색 불리안 (Boolean) 모델 벡터 (Vector) 모델 확률 (Probabilistic) 모델 2.5 전형적인 정보검색 불리안 (Boolean) 모델 - 집합 (Set) 모델 문헌과 질의가 색인어의 집합으로 표현 집합과 표준적인 집합 연산자로 구성 벡터 (Vector) 모델 - 대수 (Algebra) 모델 문헌과 질의가 t 차원 공간의 벡터로 표시 벡터 계산을 위한 표준 선형 대수 연산자로 구성 확률 (Probabilistic) 모델 문헌과 질의 표현이 확률론에 근거 집합, 확률 연산과 베이즈 정리 (Bayes’ theorem)로 구성 Chapter 2

2.5.1 기본 개념 (1) 색인어 문헌의 주제를 나타내는 의미를 지닌 단어 명사가 주 명사는 자신만의 의미를 지님 2.5.1 기본 개념 (1) 색인어 문헌의 주제를 나타내는 의미를 지닌 단어 명사가 주 명사는 자신만의 의미를 지님 가중치 (Weights) 문헌 대표성의 차이 정의 Chapter 2

기본 개념 (2) 색인어 상호 독립성 가정 색인어 상호 연관성 색인어 가중치는 상호 독립이라고 가정 (ki, dj) 의 가중치 wij 는 (ki+1, dj) 의 가중치 w(i+1)j 와 무관 색인어 가중치 계산을 단순화 빠른 순위 계산 가능 색인어 상호 연관성 실제 문헌 내에서의 색인어 출현은 서로 연관 예 컴퓨터 네트워크 분야: ‘컴퓨터’와 ‘네트워크’ 두 단어는 상호 연관되어 가중치에 영향 실제 상황에서 색인어 연관성은 순위화에 악영향 Chapter 2

2.5.2 불리안 모델 (1) 근거 장점 단점 집합 이론, 불 대수 연산 : and, or, not 2.5.2 불리안 모델 (1) 근거 집합 이론, 불 대수 연산 : and, or, not 장점 직관적이고 이해하기 쉬운 형식 명확한 의미를 지닌 질의 단점 이진 결정 부분 정합 불가 너무 작거나 많은 검색 결과 사용자 요구의 불리안 표현 작성이 어려움 Chapter 2

불리안 모델 (2) 정의 Chapter 2

불리안 모델 (3) 예 Chapter 2

2.5.3 벡터모델 (1) 동기 이진 가중치의 제한 색인어에 비이진 가중치 할당 부분 정합이 가능한 틀 제공 2.5.3 벡터모델 (1) 동기 이진 가중치의 제한 색인어에 비이진 가중치 할당 부분 정합이 가능한 틀 제공 문헌과 질의의 유사도(similarity)에 따라 순위화 가능 Cosine 유사도 예 Chapter 2

벡터모델 (2) 정의 Chapter 2

벡터모델 (3) 클러스터링 (Clustering) 문제 IR 문제 클러스터내(Intra-cluster) 유사도 객체를 가장 잘 표현한 속성 클러스터간 (Inter-cluster) 유사도 객체를 가장 잘 구분한 속성 IR 문제 클러스터내 유사도 tf : term frequency 문헌 dj 에서 용어 ki 의 순수 빈도수 클러스터간 유사도 idf : inverse document frequency 용어 ki 의 문헌 빈도수의 역수 (역문헌 빈도수) Chapter 2

벡터모델 (4) 가중치 기법 용어 빈도수 (tf) 문헌내 용어 빈도수가 높을 수록 연관이 큼 역문헌 빈도수 (idf) 많은 문헌에 출현한 용어는 연관/비연관 문헌을 구분하기 어려움 Chapter 2

벡터모델 (5) 잘 알려진 색인어 가중치 기법 tf 와 idf 의 균형 (tf-idf 기법) 질의 용어 가중치 기법 Chapter 2

벡터모델 (6) 장점 단점 용어 가중치 기법이 검색 성능을 향상 질의에 근접한 부분 정합 문헌 검색 가능 질의와의 유사도에 따라 문헌 순위화 가능 질의 확장이나 연관 피드백을 사용하여 성능 향상 단순하고 빠르기 때문에, 현재 가장 대중적인 검색 모델 단점 색인어간 상호 독립성 가정 tf-idf 기법은 색인어 독립을 가정 실제적으로 용어 종속은 성능에 악영향 Chapter 2

2.5.4 확률 모델 (1) 동기 가정 (확률 원칙) IR 문제를 확률 틀로 해석 2.5.4 확률 모델 (1) 동기 IR 문제를 확률 틀로 해석 1976년에 Robertson과 Sparck Jones[677]가 제안 가정 (확률 원칙) 연관 확률은 문헌과 질의 표현에만 종속 질의 q 의 이상적인 정답 집합 (R) 가정 R 집합의 문헌은 질의에 연관 (relevant)되고 다른 문헌은 비연관 (non-relevant) Chapter 2

확률 모델 (2) 정의 Bayes’ rule 색인어 독립성 가정 Log를 취하고, 상수 무시 Chapter 2

확률 모델 (3) Initial Probability Improving Probability 너무 작은 V 와 Vi 의 경우, 조정 요소를 더함 Chapter 2

확률 모델 (4) 장점 단점 연관 확률에 따라 문헌 순위화 초기 문헌을 연관/비연관으로 분리 가정 이진 가중치 색인어의 문헌내 빈도수 비고려 색인어 독립성 가정 Chapter 2

2.5.5 전통 모델의 비교 불리안 모델 벡터 모델 벡터 모델과 확률 모델 가장 약한 모델 2.5.5 전통 모델의 비교 불리안 모델 가장 약한 모델 부분 정합 인식 불가 -> 낮은 성능 벡터 모델 널리 사용되는 검색 모델 벡터 모델과 확률 모델 Croft 확률 모델이 더 좋은 검색 성능을 제공 Salton, Buckley 일반 컬렉션에서 벡터 모델이 더 좋은 성능을 보임 Chapter 2