웹 검색의 구조.

Slides:



Advertisements
Similar presentations
전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원 발표일 :
Advertisements

개인의견 차가있을수있음 훈훈한남자 배우 TOP 5. 5 위는 박보검 웃을때보이는 치명적인 미소 꺄 ~~~ 5위5위.
내 마음의 버 스 이천신하교회 청년부. 이름 : 한상훈 나이 : 30 살 종교 : 기독교 ( 모태신앙 ) 생활신조 : 인생은 한방 ! 로또나 사자 이상형 : 청순 가련한 모태미녀 특이사항 : 걸그룹 노래에 환장함 식스팩을 갖기엔 슬픈 몸을 타고 남.
KB 스타 경제 · 금융교실 나는 용돈관리왕. KB 스타 경제 · 금융교실 나는 용돈관리왕 선생님은 ? KB 2  이름 : 김국민  별명 : 스타 왕자  소속 : KB 국민은행 소비자 보호담 당 ( 간단한 자기 소개 : 교육 대상이 흥미 를 가질 수 있는 이미지와.
독서골든벨 2009 학년도 6 학년 1 학기 6-10 반. 1. 이야기 삼국유사 정대한 원효대사는 수행을 위해 떠나던 중 피곤하여 숲 속에서 잠이 들었다. 잠결에 너무 목이 마른 나머지 어디에 담겨있는 물을 맛있게 마셨나요 ?
두 손 들고 두 손 들고 찬양합니다 두 손 들고 찬양합니다 다시 오실 왕 여호와께 다시 오실 왕 여호와께 두 손 들고 찬양합니다 두 손 들고 찬양합니다 다시 오실 왕 여호와께 다시 오실 왕 여호와께 오직 주만이 나를 다스리네 오직 주만이 나를 다스리네 나 주님만을.
11 ) 위험예지 훈련 ( 행동요령 ). 22 재난현구분합계 총 계 1, 순 직 공 사 상공 사 상 1, 화재진압 25%
LOGO 중소기업체 대상 무료 정보보안컨설팅 제안서. LOGOClick To Edit Title Style 목 차 한국 IT 전문학교 해킹 피해 사례 제안의 개요 및 목적 보안컨설팅 수행 절차 기대효과 조직도 및 연락처.
목차 World Wide Web LOD 소개 LOD 활용.
지금은 기도 하는 시간입니다 1. 송구영신예배를 위해서 2. ‘크리스마스 이브’ 행사를 준비하는 교육 기관을 위하여
소규모 합병 공고 주식회사 포스코는 주식회사 포스하이메탈과 2015년 12월23일 합병계약을
컴퓨터 일반 모의고사1.
Predicting User Interests from Contextual Information
조준희 (Cho, Junhee) TCP/IP 조준희 (Cho, Junhee)
PC와 인터넷 정강수 컴퓨터 구조와 웹의 이해 PC와 인터넷 정강수
300% + 고급 엘르이불(퍼팩트골드,운전자보험 추가시상)
현대사회의 여성문제와 여성복지 3조 권경욱 강향원 황대인 변갑수 박창욱 김지현.
3장 인터넷과 멀티미디어.
통합연구사업지원 정산 사용자 설명서 (기관사용자).
검색엔진 프로모션 ㈜오소 대표 권정민 중소기업진흥공단 전자상거래지원센터.
7. 인터넷 환경과 멀티미디어 멀티미디어의 이해 임순범.
240%~250% + 메리스가든 그릇set (5만↑ 건당)
홈페이지 자동 구축 솔루션 K2 Web WIZARD 2.6 관리자 메뉴얼
고교평준화의 득과 실 김영주 이지영 최윤영.
소규모 합병 공고 주식회사 포스코는 포스코그린가스텍 주식회사와 2016년 2월26일 합병계약을
공공정보와 Linked Data 공공데이터의 LOD 활용
1. JSP(Java Server Pages) 소개
서버의 종류와 기능 환경공학과 권진희.
Chapter 04. 웹 보안 : 웹, 그 무한한 가능성과 함께 성장한 해킹
이 름: 정홍도 (과장) 팀 명: 개발사업팀 일 자:
CHAP 10:그래프 순천향대학교 하상호.
제5장 트리.
사용자의, 사용자에 의한, 사용자를 위한 APT.상가 분양임대관리 System 제안서
개인정보 보호를 위한 한국형 P3P 스펙과 S/W
인터넷 보안 정보 보안 개론 5장.
LSM-trie: An LSM-tree-based Ultra-Large Key-Value Store for Small Data
04장 웹 보안: 웹, 그 무한한 가능성과 함께 성장한 해킹
본교에 오심을 환영합니다 나주공산중학교 교 직 원 일 동.
그래프(graph) 연결되어 있는 객체 간의 관계를 표현하는 자료구조 가장 일반적인 자료구조 형태
2010년 직원연수 자료 제1차 : 4월 16일 ~ 17일 제2차 : 4월 23일 ~ 24일
ProQuest Dissertations Unlimited
낮과 밤 알아보기 슬기로운 생활 2학년 1학기 4. 빛과 그림자>낮과 밤( 4/8 )
CHAPTER 6 그래프.
사업 계획서 위기의 남자.
McGraw-Hill Technology Education
IOS Press
Course Guide - Algorithms and Practice -
Introduction 2007 컴퓨터공학실험(Ⅰ)
통합연구사업지원 정산 사용자 설명서 (연구책임자).
Ⅳ. 컴퓨터와 생활.
그래프의 용어 알고리즘 수업자료 김정현.
Introduction 학기, 컴퓨터공학실험(Ⅰ)
KB스타 경제·금융교실 은행에 가요.
Ⅳ. 생식과 발생 4. 자손에게 줄 세포 만들기.
“병원 폐기물 소각장” 및 “가축 폐수 처리장” 건축 허가 반대 (2011년 “음식물처리장” 미해결 민원 연관)
이산수학(Discrete Mathematics)
CHAP 10 : 그래프.
eBooks on EBSCOhost 이용매뉴얼
Feb. EBSCO KOREA IOS Press Feb. EBSCO KOREA.
주요공지로 정할 글을 올립니다. 제목과 주소를 복사해둡니다
Chapter 07 트리.
리더 코딩 스토리 디자인 박찬준 이근영 박동현 박나영
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
시민이 체감하는 편리한 건축인허가 절차 개선 추진.
eBooks on EBSCOhost 이용매뉴얼
나-는 믿음으로 주 얼굴 보리니- 아침에 깰 때에 주형상에 만족하리 나주님 닮기 원하네 믿음으로 주얼굴 보리라 -
코 칭 결 과 센 터 구성센터 (모바일) 코칭대상 프로 (엔지니어) 코칭일시
1. 칭찬 및 고발제도 운영(안) 1. 목적 : 칭찬문화의 전사적 확산,전파를 통한 칭찬문화 조성 및 건전한 회사문화 형성
KB스타 경제·금융교실 화폐가 태어났어요.
페이지랭킹 by google 김진태 국민대학교.
Presentation transcript:

웹 검색의 구조

웹 검색의 이용률

웹 데이터의 구조

휘발성, 그리고 변경률

웹의 탄생 최초의 HTML은 Ted Nelson이 1965년에 개발 Tim Berners-Lee 가 1990년에 CERN인터넷상의 문서 교류를 연구 및 활동 시작. FTP로부터 자료공유에 대한 아이디어. 그후 HTTP프로토콜을 개발하고 URL과 HTML개념 그리고 웹서버 개념 확립 최초의 HTML은 Ted Nelson이 1965년에 개발

웹 IR에서의 도전과제 Distributed Data: 문서들이 알 수 없는 많은 곳에 분포 Volatile Data: 앞선 표(표보다 현재는 더)와 같이, 하루에도 수백만개 이상의 문서가 사라지고, 생겨남 Large Volume: 양 자체가 너무 많다. Unstructured and Redundant Data: 모든 학문과, 모든 데이터를 표현하다 보니 체계가 없음. Quality of Data: 데이터의 신뢰도가 낮음 Heterogeneous Data: 데이터 포멧 자체도 지원하기 힘듬..

웹의 성장 한 페이지당 순수내용 20KB바이트로 계산시 10억만 페이지는 20테라 바이트가된다. Google Inktomi AllTheWeb Teoma Altavista Billions of Pages 웹 검색엔진의 평가 Link to Note from Jan 2004 한 페이지당 순수내용 20KB바이트로 계산시 10억만 페이지는 20테라 바이트가된다.

웹 검색 체계

Zipf의 법칙 인, 아웃링크로부터의 페이지수는 zipfian 분포를 가진다.

Zipf의 법칙

Zipf의 법칙 Y=c*X^(-a) 모든 단어중 실제 사용되는 단어는 별로 안됨 빈도수를 Y, 순위를 X라고 할 때 이 때 c와 a는 상수이며 a는 1에 근접한 값을을 갖는다. 여기서 드물게 사용되는 많은 단어들이 long tail을 이루는 것이다.

Pareto의 법칙 승자독식(Winner-take-all)적인 특징이 웹에서도 나타남..

Long Tail Long tail(롱 테일, 긴 꼬리)은 통계 분포의 특징을 표현하는 용어 그 꼬리가 길게 이어지는 모양 Long tail이란 개념은 통계 분포의 특징을 나타내는 의미로 오래전부터 사용되어 왔다. Zipf 분포, Power law 분포, Pareto 분표 등이 롱 테일을 보여주는 분포의 대표적인 예

중복 문제 최근 웹 IR분에서 가장 큰쟁점. 40%이상이 중복된 데이터. 아래 스탠포드 IRBOOK의 shingling 중복탐색기법 http://nlp.stanford.edu/IR-ook/html/htmledition/near-duplicates-and-shingling-1.html

순위화 HITS 링크가 많이 되어 있는 페이지가 있다면 그 페이지는 살펴볼 가치가 있는 페이지일 가능성이 높다 authority '권위 있다'는 것은 검색어로 "harvard"를 입력하면 수만, 수십만 페이지가 결과로 '권위 있는' 페이지는 당연히 www.harvard.edu. 그런데 이런 '권위 있는' 페이지를 찾아낼 문서 자체의 내부적 특성이 부재 단어 빈도수를 따져보았을때 www.harvard.edu는 "harvard"라는 단어가 가장 많이 등장하는 페이지가 아님. 단어 빈도수만을 기준으로 '권위'를 추정하는 경우 전혀 엉뚱한 페이지가 가장 관련성이 높은 페이지가 될수있음 중요한 수단이 하이퍼링크를 활용하는 것 하이퍼링크는 사람의 판단이 포함되어 있기 때문 링크가 많이 되어 있는 페이지가 있다면 그 페이지는 살펴볼 가치가 있는 페이지일 가능성이 높다

HITS 알고리즘(1) 1. 질의어와 관계있는 페이지들의 부분집합(서브 그래프(subgraph)를 구하자 어떤 노드 p의 out-degree: 밖으로 나가는 링크의 갯수 어떤 노드 p의 in-degree : 노드 p를 가리키는 링크의 갯수 G[W] : V에 속하는 부분집합 W로부터 만든 그래프 질의어 : σ 하이퍼링크로 연결된 페이지들의 컬렉션 V를 G = (V,E)라는 directed graph로 표현 우리가 원하는 집합을 Sσ라 하면, Sσ는 이런 특성을 가지면 좋다. 상대적으로 작아야 한다. 관계되는 페이지가 많아야 한다. 대부분의 오쏘리티들을 담고 있으면 좋겠다. 1. 질의어와 관계있는 페이지들의 부분집합(서브 그래프(subgraph)를 구하자

HITS 알고리즘(1) 상위 t개의 페이지를 루트셋(root set) Rσ->1,2번조건 만족 하지만 3번은 X Rσ를 이용해서 강한 오쏘리티(strong authorities)를 찾아낼 수 있다면 우리가 원하는 Sσ에 가까운 서브 그래프 제작 Subgraph(σ, ε, t, d) σ : a query string ε : a text-based search engin t,d : natural numbers Let Rσ denote the top t results of ε and σ Set Sσ := Rσ For each page p ∈ Rσ Let T+(p) denote the set of all pages p points to Let T-(p) denote the set of all pages pointing to p Add all pages T+(p) to Sσ If |T-(p)| ≤ d then (개수가 너무 많아서 표본) Add all pages in T-(p) to Sσ Else Add an arbituray set of d pages from T-(p) to Sσ End Return Sσ

HITS 알고리즘(2) Gσ(서브그래프)속에 존재하는 헙과 오쏘리티를 찾아내는데, 제일 쉽게 생각해 볼 수 있는 것이 Gσ내의 페이지들을 in-degree 순으로 순위를 매기는 것 Gσ라는 특정 검색어와 관계성이 높은 페이지들 집합 속에서 다른 페이지로부터의 링크가 많다는 것은 그 만큼 '좋은' 페이지일 가능성이 높아지기 때문 실제로 그렇게 해보면 강력한 오쏘리티와 보편적으로 인기가 높은 페이지(universally popular pages) 사이의 긴장이라는 문제 발생(주제없이 무조건적 링크)

HITS 알고리즘(3) authority weight", 즉 오쏘리티 가중치를(높을수록 좋은 오쏘리티) x(p)라 하고, "hub weight", 헙 가중치를(높을수록 좋은 헙) y(p)라 하면 다음과 같은 두 가지의 연산이 가능 http://www.emh.co.kr/xhtml/hubs_and_authorities.html

PageRank