전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원
개 요 시스템 구상도 구현 방법 Crawler Process Engine Web Site 관련 자료 구현 수준 개발 환경
현재 (2008) 국내 차종과 해외 수입차종의 증가로 차량에 대한 많은 정보를 원한다. 하지만 통합적인 ( 국가 별, 차종 별 ) 정보를 제공하는 곳이 적다. 차종, 국가, 브랜드 등 정보를 가진 사이트 를 검색하는 엔진을 만든다.
Crawler Process Engine Car Information Database Car Information Database Search Web Site Search Web Site
getWebSite parseHtml sendParsed Data (contents) URL Stack collectURL ☞ Thread 20 개
특정 단어 추출 방법은 초기에 Crawler 가 web site 를 순회하면서 문서 내 예비 dictionary word 를 추출한다. 특징 추출 시 추출된 단어를 카운트하여 이 를 dictionary 로 사용한다.
Crawler 가 가지고오는 Contents 에서 dictionary 내 단어들의 출현 빈도를 측정하 여 indexing 한다. 2000 개 dictionary word( 추후 변경 가능 ) 에 3bit 씩 할당 하여 indexing 한다.
Indexing Record 의 대략 적인 구조 하나의 Record 당 1.3kb 의 용량을 가진다 x 3bit = 750bytes URL(255bytes) Pre-contents(295bytes)
간단하게 php 를 이용하여 Database 를 검색 하는 첫 페이지 ( 구글 첫 페이지 형태 ). 출력은 검색 결과 우선순위로 하며, URL 과 Contents 의 간단한 요약을 보여 준다.
다음과 같은 질의 방식으로 확장 불리언의 우선 순위를 표기한다. ( 정보검색엔진 ( 정보검색 ( 정보 )( 검색 ))( 검색엔진 ( 검색 )( 엔진 ))) 정보검색엔진 정보검색 검색엔진 정보 검색 엔진 출처 :
검색 범위는 10~15 개 정도의 Web Site 로 제 한을 둔다. 정보 갱신은 프로젝트 기간에 필요에 따라 1~2 회 정도 이루어 진다. 사용자의 편의를 도모하기 위해 간결한 UI 를 사용한다.
O/S : Ubuntu 7.10 (Linux) DBMS : MySQL 5.0 Web Server : Apache 2.0 개발 언어 : Python 2.5