전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원 발표일 :
1. 개요 2. 변경사항 3. 시스템 구상도 4. 진행사항 5. 기타 6. 결과물
인터넷 정보검색 수업의 프로젝트로 검색 엔진 제작 초기 차량 정보 검색을 위한 제한적인 검색 엔진을 구현 현재 진행사항과 결과물
Crawler Process Engine Car Information Database Car Information Database Search Web Site Search Web Site Word ID Table
crawler 구현 Crawler 는 python 으로 제작 한글 형태소를 분석하기 위해 KLT: Korean Language Technology 사용 ▪ 출처
Process engine 구현 Process engine 은 python 으로 제작 Word id 부여 및 url, pre context 추출 Word id 와 data record 를 Database 에 기록
Database MySQL 을 사용하여 구축 Word-ids, url, precontext 를 구성으로 함 Fulltext search 를 이용함
Web site 구축 Pyframe 으로 구축 구글 검색 형태와 유사한 디자인 Page 이동 기능
Web site 구축 FullText Search 로 keyword 를 검색 ▪ Word 를 id 화 하여 한글 아닌 숫자로 fulltext 검색 가능 Cosine 비교 방법을 사용하여 질의와 문헌 비교
애로사항 ▪ Cosine 처리 방법은 질의와 문헌과의 관계를 표 시하지만 1 개의 질의 시 비교는 등장이 100% 로 일치한다. ▪ 질의 내 단어의 비중은 1, 문헌 내 해당 단어에 대한 비 중은 상대적으로 등장만 하면 100% 이다 ▪ 데이터를 가져오는 웹사이트 내 java script 의 과 다 등장으로 인한 불필요한 text 등장 ▪ 순수 html 로 작성된 페이지는 형태소분석이 효과적임
애로사항 ▪ 불필요한 데이터로 인한 pre context 추출 및 검 색 title 추출이 모호함 ▪ Title 을 추출하는 방법도 동일사이트의 경우 분별력을 가지지 못함 ▪ 자바스크립트가 많은 경우 text 의 앞 대부분은 html 과 주소들이 노출되어 사용이 불가. ▪ 포털사이트 기사링크 제목에 의해 불필요한 페 이지와 질의가 일치
감사합니다.