Download presentation
Presentation is loading. Please wait.
Published by경식 평 Modified 8년 전
1
최신정보검색론 Chapter 131 13 장 웹 탐색 목차 13.1 소개 13.2 도전 13.3 웹의 특성화 13.4 탐색 엔진 13.5 브라우징 13.6 메타 탐색기 13.7 건초더미에서 바늘 찾기 13.8 하이퍼 링크를 이용하여 탐색하기 13.9 연구 동향 및 쟁점 13.10 참고 문헌 고찰
2
최신정보검색론 Chapter 132 13. 1 소개 웹 탐색의 기본 형태 - 웹 문서 한 부분에 색인을 단 검색엔진 사용 - 웹 디렉토리를 사용 - 하이터 링크 구조를 이용 웹 통계와 모델 웹 탐색에 사용되는 도구 웹 그래프 구조 이용한 새로운 질의어 현재의 연구 동향과 쟁점
3
최신정보검색론 Chapter 133 13.2 도전 데이터와 관련된 문제점 - 분산 데이터 - 고율의 휘발성 데이터 - 대용량 - 비체계적이고 과다한 데이터 - 데이터의 질 - 이질적인 데이터 사용자와 관련된 문제점 - 어떻게 질의를 기술 - 시스템에 의해 제공되는 응답을 어떻게 해석
4
최신정보검색론 Chapter 134 13.3 웹의 특성화 13.3.1 웹의 평가 그림 13.1 웹의 성장
5
최신정보검색론 Chapter 135 13.3.2 웹 모델링 표 13.1 웹의 언어들 (p 418) 그림 13.2 파일 크기의 분포
6
최신정보검색론 Chapter 136 13.3.2 웹 모델링 ( 계속 ) X 바이트인 문서 찾을 확률 평균 =u 표준편차 = Pareto 분포 K,a= 분포의 매개변수
7
최신정보검색론 Chapter 137 13.4.1 중앙집중 구조 그림 13.3 전형적인 문서수집기 – 색인기 구조 13.4 탐색엔진
8
최신정보검색론 Chapter 138 13.4.2 분산구조 Harvest 의 분산 접근 방식의 문제점 - 웹 서버 부하가중 - 웹 트래픽이 증가 - 검색엔진 협동없이 정보가 독립적으로 모임
9
최신정보검색론 Chapter 139 13.4.3 사용자 인터페이스 인터페이스의 중요한 관점 - 질의 인터페이스 - 응답 인터페이스
10
최신정보검색론 Chapter 1310
11
최신정보검색론 Chapter 1311 질의에 대한 결과 위에서 아래로 알타비스타, 핫봇, 노던라이트, 익사이트
12
최신정보검색론 Chapter 1312 13.4.4 순위화 탐색엔진들은 순위화를 위해 불리안과 벡터 모델의 변형 이용 순위화 알고리즘 - Boolean spread, vector spread, most-cited 활용화 순위화 기법 - WebQuery 웹페이지에 시각적 표시를 허용
13
최신정보검색론 Chapter 1313 13.4.4 순위화 ( 계속 ) Kleinberg 제안, HITS 이용 –Hub –Authority PageRank : Google 순위화의 일부 PR(a) = pagerank, C(a)=a 의 나가는 링크들의 수 PR = pagerank
14
최신정보검색론 Chapter 1314 13.4.5 웹 수집 웹 수집 기법 - URL 집합 - 넓이우선, 깊이우선 방식의 재귀적으로 이어지는 다른 URL 을 추가하는 것 너비우선 정책 - 현재 페이지가 링크한 모든 페이지 검사 - 관련 주제들에 의해 구조화된 사이트에 잘 맞음 - 웹 서버가 많은 긴급 요청들에 공격 받을 수 있다. 깊이우선정책 - 동일 페이지에서 같은 일을 재귀적으로 수행
15
최신정보검색론 Chapter 1315 13.5.1 웹 디렉토리 장점 - 사용자가 찾는 것을 알면 응답은 유용 단점 - 분류가 충분히 분화가 안됨 - 모든 웹페이지가 분류되지는 않음 13.5 브라우징
16
최신정보검색론 Chapter 1316 13.5.1 웹 디렉토리 ( 계속 ) 웹 디렉토리 URL 웹 사이트 수 범주 수 eBLAST www.eblast.com 125 - LookSmart www.looksmart.co.kr 300 24www.looksmart.co.kr Lycos Subjects a2z.lycos.com 50 - Magellan www.mckinley.com 60 -www.mckinley.com NewHoo www.newhoo.com 100 23www.newhoo.com Netscape www.netscape.com- - Search.com www.search.com - - Snap www.snap.com - - Yahoo! www.yahoo.com 750 - - 표 13.4 웹 디렉토리 내의 최상위 범주들 (p 434)
17
최신정보검색론 Chapter 1317 13.5.2 탐색과 브라우징의 결합 WebGlimpse - 브라우징과 탐색을 결합한 도구 - 브라우징 중단 안하고도 사이트 탐색이 가능 - 개인 웹 페이지와 자주 찾는 URL 목록 색인 구축에 유용
18
최신정보검색론 Chapter 1318 13.5.3 도움이 되는 도구 Alexa - 해당 사이트의 인기, 접근 속도, 참신성, 전반적인 품질 제공 - 사용자의 항해를 돕는 관련 사이트들을 제시
19
최신정보검색론 Chapter 1319 13.6 메타 탐색기 메타 탐색기란 ? - 주어진 질의를 여러 탐색 엔진, 웹 디렉토리와 데이터베이스에 보내 거기에서 오는 응답들을 모아 통합하는 웹 서버 메타 탐색기의 장점 - 탐색 결과가 호스트, 키워드, 날짜 등과 같은 다른 속성에 의해 정렬 가능 - 단일 탐색 엔진 출력보다 더 많은 정보 출력 표 13.5 메타 탐색기 예 (p437)
20
최신정보검색론 Chapter 1320 13.7.1 사용자 문제 질의 인터페이스와 사용자간의 문제 - 탐색하는 것의 의미를 정확히 이해 못함 - 논리적 상을 알지 못함 - 불리안 논리로 어려움을 겪음 표 13.6 웹에서의 질의 : 평균값 측 정 평균 값 범위 단어의 수 2.35 0 to 393 연산자의 수 0.41 0 to 958 각 질의의 반복 수 3.97 1 ∼ 1.5 백만 사용자 세션 당 질의 수 2.02 1 ∼ 173,325 질의 당 화면 수 1.39 1 ∼ 78,496
21
최신정보검색론 Chapter 1321 13.7.2 몇몇 예들 장기 (shogi) 와 바둑 (go) 장기와 달리 바둑은 고유단어가 아니므로 색인시 올바른 의미를 담지 못할 수 있다. 재규어의 속도 고양이과에 재규어의 속도를 알고 싶지만 자동차 재규어의 속도를 나타냄
22
최신정보검색론 Chapter 1322 13.7.3 사용자를 가르치는 일 경험적 규칙 아래와 같은 경험을 이용하여 검색엔진의 도움을 받을 수 있는 방법을 가르칠 수 있다. - 한정된 질의 - 광대한 질의 - 모호한 질의
23
최신정보검색론 Chapter 1323 13.8.1 웹질의어 웹 질의 - 웹 페이지로부터 정보 추출 - 웹 사이트를 구축하고 재구조화로 확장 13.8 하이퍼링크를 이용하여 탐색
24
최신정보검색론 Chapter 1324 13.8.2 동적 탐색과 소프트웨어 에이전트 동적탐색의 장점 - 웹의 현 구조에서만 탐색 - 탐색엔진의 색인에 저장된 것은 탐색 안함 - 전체 웹은 느림, 작고 동적인 웹에서 유용 소프트웨어 에이전트 - 중요논쟁 : 관련 정보원을 어떻게 결정, 검색 결과 어떻게 합치나
25
최신정보검색론 Chapter 1325 13.9 연구 동향 및 쟁점 동향 - 모델링 - 질의 - 분산 구조 - 순위화 - 색인 - 동적 페이지 - 중복 데이터 - 멀티 미디어 - 사용자 인터페이스 - 브라우징
26
최신정보검색론 Chapter 1326 13.9 연구 동향 및 쟁점 ( 계속 ) 중요한 쟁점 - 질의 탐색 엔진들 사이의 표준 프로토콜 - 인트라넷의 응용
Similar presentations