최신정보검색론 Chapter 장 웹 탐색 목차 13.1 소개 13.2 도전 13.3 웹의 특성화 13.4 탐색 엔진 13.5 브라우징 13.6 메타 탐색기 13.7 건초더미에서 바늘 찾기 13.8 하이퍼 링크를 이용하여 탐색하기 13.9 연구 동향 및 쟁점 참고 문헌 고찰
최신정보검색론 Chapter 소개 웹 탐색의 기본 형태 - 웹 문서 한 부분에 색인을 단 검색엔진 사용 - 웹 디렉토리를 사용 - 하이터 링크 구조를 이용 웹 통계와 모델 웹 탐색에 사용되는 도구 웹 그래프 구조 이용한 새로운 질의어 현재의 연구 동향과 쟁점
최신정보검색론 Chapter 도전 데이터와 관련된 문제점 - 분산 데이터 - 고율의 휘발성 데이터 - 대용량 - 비체계적이고 과다한 데이터 - 데이터의 질 - 이질적인 데이터 사용자와 관련된 문제점 - 어떻게 질의를 기술 - 시스템에 의해 제공되는 응답을 어떻게 해석
최신정보검색론 Chapter 웹의 특성화 웹의 평가 그림 13.1 웹의 성장
최신정보검색론 Chapter 웹 모델링 표 13.1 웹의 언어들 (p 418) 그림 13.2 파일 크기의 분포
최신정보검색론 Chapter 웹 모델링 ( 계속 ) X 바이트인 문서 찾을 확률 평균 =u 표준편차 = Pareto 분포 K,a= 분포의 매개변수
최신정보검색론 Chapter 중앙집중 구조 그림 13.3 전형적인 문서수집기 – 색인기 구조 13.4 탐색엔진
최신정보검색론 Chapter 분산구조 Harvest 의 분산 접근 방식의 문제점 - 웹 서버 부하가중 - 웹 트래픽이 증가 - 검색엔진 협동없이 정보가 독립적으로 모임
최신정보검색론 Chapter 사용자 인터페이스 인터페이스의 중요한 관점 - 질의 인터페이스 - 응답 인터페이스
최신정보검색론 Chapter 1310
최신정보검색론 Chapter 1311 질의에 대한 결과 위에서 아래로 알타비스타, 핫봇, 노던라이트, 익사이트
최신정보검색론 Chapter 순위화 탐색엔진들은 순위화를 위해 불리안과 벡터 모델의 변형 이용 순위화 알고리즘 - Boolean spread, vector spread, most-cited 활용화 순위화 기법 - WebQuery 웹페이지에 시각적 표시를 허용
최신정보검색론 Chapter 순위화 ( 계속 ) Kleinberg 제안, HITS 이용 –Hub –Authority PageRank : Google 순위화의 일부 PR(a) = pagerank, C(a)=a 의 나가는 링크들의 수 PR = pagerank
최신정보검색론 Chapter 웹 수집 웹 수집 기법 - URL 집합 - 넓이우선, 깊이우선 방식의 재귀적으로 이어지는 다른 URL 을 추가하는 것 너비우선 정책 - 현재 페이지가 링크한 모든 페이지 검사 - 관련 주제들에 의해 구조화된 사이트에 잘 맞음 - 웹 서버가 많은 긴급 요청들에 공격 받을 수 있다. 깊이우선정책 - 동일 페이지에서 같은 일을 재귀적으로 수행
최신정보검색론 Chapter 웹 디렉토리 장점 - 사용자가 찾는 것을 알면 응답은 유용 단점 - 분류가 충분히 분화가 안됨 - 모든 웹페이지가 분류되지는 않음 13.5 브라우징
최신정보검색론 Chapter 웹 디렉토리 ( 계속 ) 웹 디렉토리 URL 웹 사이트 수 범주 수 eBLAST LookSmart www.looksmart.co.kr Lycos Subjects a2z.lycos.com 50 - Magellan NewHoo www.newhoo.com Netscape - Search.com Snap Yahoo! 표 13.4 웹 디렉토리 내의 최상위 범주들 (p 434)
최신정보검색론 Chapter 탐색과 브라우징의 결합 WebGlimpse - 브라우징과 탐색을 결합한 도구 - 브라우징 중단 안하고도 사이트 탐색이 가능 - 개인 웹 페이지와 자주 찾는 URL 목록 색인 구축에 유용
최신정보검색론 Chapter 도움이 되는 도구 Alexa - 해당 사이트의 인기, 접근 속도, 참신성, 전반적인 품질 제공 - 사용자의 항해를 돕는 관련 사이트들을 제시
최신정보검색론 Chapter 메타 탐색기 메타 탐색기란 ? - 주어진 질의를 여러 탐색 엔진, 웹 디렉토리와 데이터베이스에 보내 거기에서 오는 응답들을 모아 통합하는 웹 서버 메타 탐색기의 장점 - 탐색 결과가 호스트, 키워드, 날짜 등과 같은 다른 속성에 의해 정렬 가능 - 단일 탐색 엔진 출력보다 더 많은 정보 출력 표 13.5 메타 탐색기 예 (p437)
최신정보검색론 Chapter 사용자 문제 질의 인터페이스와 사용자간의 문제 - 탐색하는 것의 의미를 정확히 이해 못함 - 논리적 상을 알지 못함 - 불리안 논리로 어려움을 겪음 표 13.6 웹에서의 질의 : 평균값 측 정 평균 값 범위 단어의 수 to 393 연산자의 수 to 958 각 질의의 반복 수 ∼ 1.5 백만 사용자 세션 당 질의 수 ∼ 173,325 질의 당 화면 수 ∼ 78,496
최신정보검색론 Chapter 몇몇 예들 장기 (shogi) 와 바둑 (go) 장기와 달리 바둑은 고유단어가 아니므로 색인시 올바른 의미를 담지 못할 수 있다. 재규어의 속도 고양이과에 재규어의 속도를 알고 싶지만 자동차 재규어의 속도를 나타냄
최신정보검색론 Chapter 사용자를 가르치는 일 경험적 규칙 아래와 같은 경험을 이용하여 검색엔진의 도움을 받을 수 있는 방법을 가르칠 수 있다. - 한정된 질의 - 광대한 질의 - 모호한 질의
최신정보검색론 Chapter 웹질의어 웹 질의 - 웹 페이지로부터 정보 추출 - 웹 사이트를 구축하고 재구조화로 확장 13.8 하이퍼링크를 이용하여 탐색
최신정보검색론 Chapter 동적 탐색과 소프트웨어 에이전트 동적탐색의 장점 - 웹의 현 구조에서만 탐색 - 탐색엔진의 색인에 저장된 것은 탐색 안함 - 전체 웹은 느림, 작고 동적인 웹에서 유용 소프트웨어 에이전트 - 중요논쟁 : 관련 정보원을 어떻게 결정, 검색 결과 어떻게 합치나
최신정보검색론 Chapter 연구 동향 및 쟁점 동향 - 모델링 - 질의 - 분산 구조 - 순위화 - 색인 - 동적 페이지 - 중복 데이터 - 멀티 미디어 - 사용자 인터페이스 - 브라우징
최신정보검색론 Chapter 연구 동향 및 쟁점 ( 계속 ) 중요한 쟁점 - 질의 탐색 엔진들 사이의 표준 프로토콜 - 인트라넷의 응용