Signal-to-Noise Ratio

Slides:



Advertisements
Similar presentations
인공지능 소개 부산대학교 인공지능연구실. 인공 + 지능 인공지능이란 ? 2.
Advertisements

- 을까요 ? ① Sogang Korean 1B UNIT 5 “– 을까요① ?” 같이 춤 출까요 ? 네, 좋아요.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
Theory of Financial Structure
Ⅰ 원가회계의 개념.
번역관련 자격증 소개 및 시험 대비 안내 정 윤 희.
SAR 영상자료를 이용한 해양 파라미터 추출 기법 연구
국제 저명인사 초청 멀티스케일 에너지 강좌 미래창조과학부 글로벌 프론티어 멀티스케일 에너지 시스템 연구단/서울대학교
Multiple features Linear Regression with multiple variables (다변량 선형회귀)
Introduction to Django
Journals & Conferences
Chapter 3 데이터와 신호 (Data and Signals).
한국통신 멀티미디어연구소 김 영 환 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 한국통신 멀티미디어연구소 김 영 환
어휘력과 어휘 교육.
부산대학교 인공지능연구실 김민호 Text Categorization 부산대학교 인공지능연구실 김민호
Delivery and Routing of IP Packets
Information Retrieval (Chapter 4: 질의언어)
7장 : 캐시와 메모리.
JNEA T 주니어니트 제안서 국가영어능력평가시험(NEAT)대비 Junior National English Ability
발표제목 발표제목 둘째 줄 2000년 11월 송 홍 엽 연세대학교 전기전자공학과 송 홍 엽
제4장 측정과 척도 (Measurement and scale)
제 8장. 멀티미디어 데이터베이스 및 정보검색 시스템
EPS Based Motion Recognition algorithm Comparison
Multimedia Programming 06: Point Processing3
Numerical Analysis - preliminaries -
포항공과대학교 COMPUTER VISION LAB. 석박통합과정 여동훈
CHAPTER 21 UNIVARIATE STATISTICS
Ch. 5 : Analog Transmission
Computational Finance
Dynamic Programming.
제 14 장 거시경제학의 개관 PowerPoint® Slides by Can Erbil
1 도시차원의 쇠퇴실태와 경향 Trends and Features of Urban Decline in Korea
Information Retrieval (Chapter 5: 질의연산)
Cluster Analysis (군집 분석)
강문경 · 박용욱 · 이훈열 (강원대학교 지구물리학과) 이문진 (한국해양연구원 해양시스템안전연구소)
계수와 응용 (Counting and Its Applications)
Medical Instrumentation
PCA Lecture 9 주성분 분석 (PCA)
Multimedia Programming 10: Unsharp Masking/ Histogram Equalization
제 15 장 거시경제의 측정 PowerPoint® Slides by Can Erbil
Mathematical Description of Continuous-Time Signals
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
Inferences concerning two populations and paired comparisons
Course Guide - Algorithms and Practice -
알고리즘(Algorithm)  알고리즘 개요 (효율, 분석, 차수) Part 년 봄학기
Dynamic Programming.
한국상장 외국기업 Market 확대를 위한 논의
: 부정(negative)의 의미를 나타내는 접두사
McGraw-Hill Technology Education
Hijacking Bitcoin : Routing Attacks on Cryptocurrencies Maria Apostolaki Aviv Zohar Laurent Vanbever Presentor Geun Woo Lim Many parts of.
-느라고 어제 왜 학교에 안 왔어요? 아파서 병원에 가느라고 못 왔어요 Sogang Korean 3B UNIT 6 “-느라고”
XML-II (eXtensible Markup Language) DTD/DOM
Operating System Multiple Access Chatting Program using Multithread
정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
이산수학(Discrete Mathematics)
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
점화와 응용 (Recurrence and Its Applications)
창 병 모 숙명여대 전산학과 자바 언어를 위한 CFA 창 병 모 숙명여대 전산학과
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
Definitions (정의) Statistics란?
이산수학(Discrete Mathematics)
알고리즘의 분석(analysis) 공간적 효율성(Space Efficiency)과 시간적 효율성(Time Efficiency)
Bug Localization Based on Code Change Histories and Bug Reports
Hongik Univ. Software Engineering Laboratory Jin Hyub Lee
Elementary Korean 2 :Chapter 7 review
품사 분류의 기준과 실제.
Chapter 4. Energy and Potential
알고리즘의 분석(analysis) 공간적 효율성(Space Efficiency)과 시간적 효율성(Time Efficiency)
Chapter 7: Deadlocks.
Presentation transcript:

Signal-to-Noise Ratio Information theory에 기반 1948, Claude Shannon information (Shannon의 정의) unexpectedness of a message (의미와는 무관) information content of a choice H(p1,p2,…,pn) n개의 message(event), message i의 발생확률 pi p1+p2+…+pn=1(pi:nonnegative) goal to measure the information content of the choice of a message from this set of messages

Signal-to-Noise Ratio H를 정의하기 위한 3가지 가정 H is a continuous function of the pi 확률이 조금 변하면 H도 조금 변한다 각 확률 pi가 같다면(pi = 1/n), H는 n의 단조 증가 함수이다 후보 메시지의 수가 많으면 H가 크다 하나의 선택을 2개의 연속적인 선택으로 분할할 수 있으면, 분할 후의 H의 합은 원래의 H와 같아야 한다

Signal-to-Noise Ratio 세번째 가정을 설명하는 예 p1=1/2, p2=1/3, p3=1/6 3가지 메시지 중 1개를 직접 선택하는 경우 H(1/2, 1/3, 1/6) 첫번째와 나머지 중 하나를 먼저 선택하는 경우 H(1/2, 1/3 , 1/6 ) = H(1/2, 1/2) + 1/2 H(2/3, 1/3) 두번째와 나머지 중 하나를 먼저 선택하는 경우 H(1/2, 1/3 , 1/6 ) = H(2/3, 1/3) + 2/3 H(3/4, 1/4)

Signal-to-Noise Ratio H의 3가지 가정을 모두 만족하는유일한 함수는 물리학의 entropy 함수이다 H = -K pilog2pi K=1일 때, H =  pilog2(1/pi) average information content

[정리] 2가지 information content 1. 사건(event)의 information content 사건 발생의 unexpectedness log2(1/pi) 2. 사건 선택(choice)의 information content 각 후보 사건의 확률합 = 1 각 후보 사건의 information content들의 평균적인 information content H = pilog2(1/pi) 각 사건의 확률이 비슷할수록 높은 값 선택의 information content가 낮더라도, 확률이 낮은(information content가 큰) 사건의 발생은 높은 unexpectedness

Signal-to-Noise Ratio(continued) Signal-to-noise ratio: sk 정보 이론의 관점에서 index term의 가치를 측정 weight wik=fiksk noise of term k nk=  (fik/tk)log2(tk/fik)= log2[(tk/fik)(fik/tk)] t : the total frequency in the collection f : the frequency of the document signal of term k sk=log2tk - nk (>0, why?)

Term Discrimination Value How well a term distinguish one document from another need to measure the similarity of two documents 같은 key term을 가지고 있는가? Document similarity :  (D1,D2) : 매우 비슷하면 1, 전혀 다르면 0 Average similarity of a document collection 1/(N(N-1))  (D1,D2) (O(N2)의 복잡도) a simpler computation centroid document, D* (O(N)의 복잡도) f*k= fik/N = tk/N, * = c(D*, Di)

Term Discrimination Value discrimination value of term k k= *k- * *k : deleted average similarity for term k * : average similarity containing term k k>0 : term k increases the dissimilarity k<0 : term k decreases the dissimilarity 좋은 식별자일수록 더 큰 양의 k값을 가진다 weight wik=fikk

Other methods of analysis document는 단순한 통계 정보 이상의 것을 담고 있다 e.g. natural language processing Pragmatic factors trigger phrases 특정 유형의 정보가 있음을 알림 figure, table, for example, conclusion, ... source of document 유명한 저자, 저명 학술지, ... 사용자에 대한 정보 high school student or Ph.D.?, well versed or not?

Document Similarity Similarity Lexically based measures are dominant. key concept behind information storage and retrieval. 목적 query에 의해 표현된 정보와 유사한 내용을 가지고 있는 document를 검색하는 것. Lexically based measures are dominant. 문서 길이 등에 의한 편차를 줄이기 위해 정규화된(normalized) similarity measure를 사용

Lexically based measure Basic representation vector form D = <t1, t2, …, tN> ti : ith term in the vocabulary t1, t2, …, tN term frequencies, or indicator of term occurrence

Occurrence-oriented(0-1 vector) Basic comparison unit (D1, D2) = w - (n1n2/N) 0보다 클수도 있고 작을수도 있다 (클수록 비슷) 0인 경우: independence value of w (w = n1n2/N) n1 = w+x n2 = w+y N = w+x+y+z w = the number of terms for which t1i = t2i = 1 x = the number of terms for which t1i = 1, t2i = 0 y = the number of terms for which t1i = 0, t2i = 1 z = the number of terms for which t1i = 0, t2i = 0

Occurrence-oriented(0-1 vector)

Occurrence-oriented(0-1 vector) Coefficient of association 상관 계수 C(D1,D2) =  (D1, D2) /  만 단독으로 사용하면 너무 큰 값이 될 수 있으므로 계수 로 나눈 값을 최종 상관(유사) 계수로 사용 N=10,000, w=1000, n1=1000, n2=1000이면, 는 900 Separation Coefficient 두 문서가 분리된 정도(유사도의 반대 개념) (>0, <1) 유사도 = 평균적 분리도 – 두 문서 간 분리도 (S)=N/2

Occurrence-oriented(0-1 vector)

Occurrence-oriented(0-1 vector) Other coefficients

Occurrence-oriented(0-1 vector) 를 사용하지 않는 coefficient(상관계수) Dice’s Coefficient independant value를 사용하지 않음 w항만을 사용 (산술 평균으로 나눈값) Cosine Coefficient

frequency-oriented 빈도수 기반 유사도 based on metric or distance measure 3가지 가정 nonnegative, 동일 문서간 거리=0 symmetric triangle inequality: d(A, B)+d(B, C) > d(A, C) similarity는 distance에 반비례 pseudo-metric 실제로는 다른 문서간 거리가 0이 되는 것을 허용 list of key terms를 사용하는 경우: full text 검색에 적합

frequency-oriented 유사도(similarity)는 distance의 반비례 함수 Lp metrics ex) if d is distance, e-d can be the similarity function Lp metrics 일반적으로 p는, 1:city block(or Manhatan) distance 2:Euclidean distance :maximal direction distance

frequency-oriented 예제: D1=<2, 0, 3, 5>, D2=<0, 4, 0, 1>,

7. Problems of using a uncontrolled vocabulary The impact of very common terms stop list variants of a given term stemming the use of different terms with similar meanings thesaurus

Stop list (Negative dictionary) most common words(the,of,and,…) in English account for 50% or more of any given text. maintaining stop list can increase performance But, the use of stop words should be carefully considered. ex) “To be, or not to be” Adding subject dependent stop list to general one can solve this problem more or less.

Stemming a given word may occur in many different forms. for example, computer, computers, computing, compute, computes, computation, computational, computationally stemming algorithm can increase performance 주로 접미사(suffix)를 반복적으로 제거 맨끝으로부터 가장 긴 접미사를 찾는 것이 목적

Stemming 접두사(prefix)를 활용하지 않는 이유 problems 접두사인지 단어의 일부인지를 구별하기 힘들다 inner, interior, into 접두사의 제거가 단어의 뜻을 크게 변화시킬 수도 있다 negative prefixes (unfortunate vs. fortunate) problems Result of stemming can make the meaning of words change. ex) breed = bre + ed Stem changes in plural of noun in English. ex) knives = knive + s full text의 stemming에는 매우 큰 비용 대안: query에 대해서만 stemming하고 *를 사용한다 computers -> comput*

Thesaurus different terms can assume similar meanings. ex) post a letter = mail a letter Thesaurus contains synonyms and antonyms broader and narrower terms closely related terms during stroage process, control the vocabulary replace each term variant with a standard term chosen on the basis of the thesaurus

Thesaurus During query process, problems broaden a query and ensures that relevant documents are not missed. problems Homographs two words with distinct meanings but identical spellings 구분을 위해서는 syntactic, semantic, pragmatic analysis가 모두 필요하다 ex) I can can a can. Homonyms (multimedia document의 경우) words that sound alike but have distinct meanings ex) bore vs boar