Presentation is loading. Please wait.

Presentation is loading. Please wait.

전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : 2002036274, 2003053429 이름 : 조 항 두, 오 철 원 발표일 : 08.05.29.

Similar presentations


Presentation on theme: "전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : 2002036274, 2003053429 이름 : 조 항 두, 오 철 원 발표일 : 08.05.29."— Presentation transcript:

1 전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : 2002036274, 2003053429 이름 : 조 항 두, 오 철 원 발표일 : 08.05.29

2 1. 개요 2. 변경사항 3. 시스템 구상도 4. 진행사항 5. 기타 6. 결과물

3  인터넷 정보검색 수업의 프로젝트로 검색 엔진 제작  초기 차량 정보 검색을 위한 제한적인 검색 엔진을 구현  현재 진행사항과 결과물

4 Crawler Process Engine Car Information Database Car Information Database Search Web Site Search Web Site Word ID Table

5  crawler 구현  Crawler 는 python 으로 제작  한글 형태소를 분석하기 위해 KLT: Korean Language Technology 사용 ▪ 출처 http://nlp.kookmin.ac.kr/HAM/kor/http://nlp.kookmin.ac.kr/HAM/kor/

6  Process engine 구현  Process engine 은 python 으로 제작  Word id 부여 및 url, pre context 추출  Word id 와 data record 를 Database 에 기록

7  Database  MySQL 을 사용하여 구축  Word-ids, url, precontext 를 구성으로 함  Fulltext search 를 이용함

8  Web site 구축  Pyframe 으로 구축  구글 검색 형태와 유사한 디자인  Page 이동 기능

9  Web site 구축  FullText Search 로 keyword 를 검색 ▪ Word 를 id 화 하여 한글 아닌 숫자로 fulltext 검색 가능  Cosine 비교 방법을 사용하여 질의와 문헌 비교

10  애로사항 ▪ Cosine 처리 방법은 질의와 문헌과의 관계를 표 시하지만 1 개의 질의 시 비교는 등장이 100% 로 일치한다. ▪ 질의 내 단어의 비중은 1, 문헌 내 해당 단어에 대한 비 중은 상대적으로 등장만 하면 100% 이다 ▪ 데이터를 가져오는 웹사이트 내 java script 의 과 다 등장으로 인한 불필요한 text 등장 ▪ 순수 html 로 작성된 페이지는 형태소분석이 효과적임

11  애로사항 ▪ 불필요한 데이터로 인한 pre context 추출 및 검 색 title 추출이 모호함 ▪ Title 을 추출하는 방법도 동일사이트의 경우 분별력을 가지지 못함 ▪ 자바스크립트가 많은 경우 text 의 앞 대부분은 html 과 주소들이 노출되어 사용이 불가. ▪ 포털사이트 기사링크 제목에 의해 불필요한 페 이지와 질의가 일치

12

13 http://210.125.144.229/search

14 감사합니다.


Download ppt "전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : 2002036274, 2003053429 이름 : 조 항 두, 오 철 원 발표일 : 08.05.29."

Similar presentations


Ads by Google