전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : 2002036274, 2003053429 이름 : 조 항 두, 오 철 원.

전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : 2002036274, 2003053429 이름 : 조 항 두, 오 철 원

 개 요  시스템 구상도  구현 방법  Crawler  Process Engine  Web Site  관련 자료  구현 수준  개발 환경

 현재 (2008) 국내 차종과 해외 수입차종의 증가로 차량에 대한 많은 정보를 원한다. 하지만 통합적인 ( 국가 별, 차종 별 ) 정보를 제공하는 곳이 적다.  차종, 국가, 브랜드 등 정보를 가진 사이트 를 검색하는 엔진을 만든다.

Crawler Process Engine Car Information Database Car Information Database Search Web Site Search Web Site

getWebSite parseHtml sendParsed Data (contents) URL Stack collectURL ☞ Thread 20 개

 특정 단어 추출 방법은 초기에 Crawler 가 web site 를 순회하면서 문서 내 예비 dictionary word 를 추출한다.  특징 추출 시 추출된 단어를 카운트하여 이 를 dictionary 로 사용한다.

 Crawler 가 가지고오는 Contents 에서 dictionary 내 단어들의 출현 빈도를 측정하 여 indexing 한다.  2000 개 dictionary word( 추후 변경 가능 ) 에 3bit 씩 할당 하여 indexing 한다.

 Indexing Record 의 대략 적인 구조  하나의 Record 당 1.3kb 의 용량을 가진다. 2000 x 3bit = 750bytes URL(255bytes) Pre-contents(295bytes)

 간단하게 php 를 이용하여 Database 를 검색 하는 첫 페이지 ( 구글 첫 페이지 형태 ).  출력은 검색 결과 우선순위로 하며, URL 과 Contents 의 간단한 요약을 보여 준다.

 다음과 같은 질의 방식으로 확장 불리언의 우선 순위를 표기한다. ( 정보검색엔진 ( 정보검색 ( 정보 )( 검색 ))( 검색엔진 ( 검색 )( 엔진 ))) 정보검색엔진 정보검색 검색엔진 정보 검색 엔진 출처 : http://teamblog.joinc.co.kr/

 검색 범위는 10~15 개 정도의 Web Site 로 제 한을 둔다.  정보 갱신은 프로젝트 기간에 필요에 따라 1~2 회 정도 이루어 진다.  사용자의 편의를 도모하기 위해 간결한 UI 를 사용한다.

 O/S : Ubuntu 7.10 (Linux)  DBMS : MySQL 5.0  Web Server : Apache 2.0  개발 언어 : Python 2.5

Presentation on theme: "전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : 2002036274, 2003053429 이름 : 조 항 두, 오 철 원."— Presentation transcript: