데이터마이닝 & 정보검색 연구실 신 현 일.  검색 시스템에 필요한 요소  인터넷 검색의 유형 / 태그란 ?  Blog 검색 시스템 설계  Target : Blog ? / 국내 Blog 사이트 분류  Collection : 어디서 무엇을 추출할 것인가 ? 

Slides:



Advertisements
Similar presentations
전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원 발표일 :
Advertisements

전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원.
팀 명 : 커 피 팀 원 : 정수현 외 4 명 ( 다른 학교분들 ). 목차목차 결과물 시현 및 설명 DB 설계 서비스 흐름도 개발 환경 개발 개요 개발 과정의 기술 개발 동기.
Google dork 중부대학교 정보보호학과 김인호, 오수빈. 목차 0. 구글해킹에 앞서 1. 구글해킹 이란 2. 구글해킹 검색어 3. 구글해킹 응용 4. 구글해킹 심화 응용 5. 구글해킹 침해사고 대응과 예방 대책 6.QnA.
이혁재 /KASA NoSQL. 요약 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머.
WEB 진화론. Web 진화론 웹진화의 기본환경 웹진화의 전개 웹진화 이론 웹진화의 핵심 기본구조 웹 진화와 세대 교체 계속되는 진화.
게임 엔진 Term Project 한국산업기술대학교 검술의 달인 학번 : 이름 : 문정훈 학번 : 이름 : 문정훈.
스토리 보드 EBS 인터넷 수능 강의시스템 운영 Ver 1.0 Copyright ⓒ LG CNS LG CNS 의 사전 승인 없이 본 내용의 전부 또는 일부에 대한 복사, 배포, 사용을 금합니다. EBSi-AP-APZ-AN-004 [APZIPSI] 중간고사 대비특강.
Web 2.0 & Car Infotainment CL사업부 차량정보기획팀.
1. 엔컴퍼니의 시대적 배경 전자세금계산서 발송 솔루션을 기본적으로 탑재한 그룹웨어의 부재
Chapter 02. 웹에 대한 이해. Chapter 02. 웹에 대한 이해 웹의 역사 HTTP 웹 애플리케이션 기술.
개인정보보호 공공기관에서의 개인정보보호 본 자료는 개인정보보호를 위한 교육용 자료로 활용 가능 합니다
학교안전7대 표준안 편성 운영 광주수창초등학교 교사 김용현.
任員 在·不在 案內 시스템.
Web 2.0.
서버 보안의 기술적 보호조치 엘림넷 정보보안사업팀 곽제균.
김 형 진 전북대학교 IT응용시스템공학과 웹 서비스 개념과 기술 Chapter 김 형 진 전북대학교 IT응용시스템공학과.
교육실무직 인사노무관리 경상북도교육청.
웹 2.0 개요.
통합연구사업지원 정산 사용자 설명서 (기관사용자).
웹 해킹 기초와 실습.
프로젝트2 Web Programming 강의노트: vrlab.suwon.ac.kr/mwlee
한국통신 멀티미디어연구소 김 영 환 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 한국통신 멀티미디어연구소 김 영 환
Web Programming 강의 소개
웹 2.0 개요.
서버의 종류와 기능 환경공학과 권진희.
ASP를 이용한 SHOPPING MALL 만들기
동호회 구축 제안서 인터넷전문가그룹 4biz.
1장. JSP 및 Servlet을 활용한 동적 웹 프로그래밍 소개 제1장.
ASP 정 보 보 호 학 과 양 계 탁.
2007. Database Term Project Team 2 윤형석, 김희용, 최현대 우경남, 이상제
김은지 강남대학교.
구글해킹과 SQL인젝션 지창훈, 최연우.
(PROJECT명: Web Server관리)
SEO 마케팅 서비스 제안서.
자격증 모의 테스트 시스템 담당 교수 : 이 상 문 교수님 팀명 : CSCLAB
웹서버와 설치에 필요한 것 WWW ( world wide web ) TCP/IP 프로토콜을 이용하는 클라이언트/서버 환경
평판재하시험 데이터 정보관리 프로그램 개발.
JSP를 이용한 프로젝트관리 홈페이지 양진현 지 도 : 이형원 교수님.
BIZSIREN 실명확인서비스 개발 가이드 서울신용평가정보㈜ 신용조회부 (TEL , FAX )
고속철도 노반 침하관리용 DB 프로그램 개발.
Open API - Naver (Application Programming Interface )
소리가 작으면 이어폰 사용 권장!.
자바의 신 Volume 1 1부(1~3장) 자바의 신 메인 홈 : 자바의 신 페이스북: 자바의 신 문제 풀이 :
웹 다이어리 완료보고서 이상제 정영석.
CGI (Common Gateway Interface)
1. 하나투어 프로모션 페이지 수정사항 정리 – 리오타노 이태리 세미극세사 차렵이불_그레이
maria db JDBC PROGRAMMING3
Web RSS 서비스 구축 조이름 : A 도상훈 김진범 정도영 공정호.
교육지원 시스템 개발 ProjectTeam (매경 2조).
지식재산 이러닝 기업 단체교육 사용자 이용 안내서
Cyber Shopping Mall 구축 - CD New - 안소연,박지윤,박종봉,정영은.
한국산업기술평가원 사업비카드제안내 (산업기술기반조성사업)
Introduction 2007 컴퓨터공학실험(Ⅰ)
myfood.com 상명대 맛집 홈페이지 구축 제안서
Ⅰ. 서비스 개관 2. 기업생산성혁신서비스 (ePRINS) 구조 국내 DB 해외 DB 생산성 진단 생산성경영 시뮬레이션
CH2. ASP.NET 페이지 분석 HTML ASP ASP.NET 의 차이점.
통합연구사업지원 정산 사용자 설명서 (연구책임자).
실전 프로젝트: 홈페이지 구축 시트콤 프렌즈 팬 사이트 구축하기.
검색모델의 종류 불리안 모델 벡터 공간 모델 퍼지 집합 모델 확률 모델.
Search Engine 4조 해외 여행 준비 4조와 함께 ! 하나투어와 모두투어 비교를 중심으로.
YES24 이벤트 진행 가이드 작성일 :
코로케이션 서비스 안내 정보화본부 정보화지원과.
웹 프로그래밍 기술 요약 Yang-Sae Moon Department of Computer Science
Web Server Install.
영상으로 읽는 한국사 02 삼국은 서로를 한 ‘민족’으로 생각했나? - 삼국통일의 의미-.
1. 하나투어 프로모션 페이지 수정사항 정리 – 인따르시아 여행용 파우치 5p (핑크)
1. 하나투어 프로모션 페이지 수정사항 정리 – [트래블이지] 비비드접이식가방 NO.1278
중국 어선들의 불법 조업을 단속하려 하는 한국 경찰
두손Order 푸드팩토리 두손Order Ver 1.0 ㈜시소이드.
Presentation transcript:

데이터마이닝 & 정보검색 연구실 신 현 일

 검색 시스템에 필요한 요소  인터넷 검색의 유형 / 태그란 ?  Blog 검색 시스템 설계  Target : Blog ? / 국내 Blog 사이트 분류  Collection : 어디서 무엇을 추출할 것인가 ?  Search Result : 무엇을 어떤 순서로 보여줄 것인가 ?  개발 환경  프로젝트 일정  Blog 검색 시스템 구현  Blog 검색 시스템 구조  웹로봇 + 인덱싱  색인어 ( 키워드 ) 추출  Ranking  사용자 질의 서버  검색결과를 가져오는 과정  성능 평가  Q&A

검색 시스템에 필요한 요소 무엇을 수집 ? - 구조해석 후 필요한 부분만 필터링 어디서 (Collection) 수집 ? Crawling 데이터를 저장하고 찾을 때의 효율성 고려 랭킹 정보의 인덱싱 자료구조, 알고리즘 Indexing 웹페이지의 보편적 가치 + 검색된 단어의 관련성 ( 복합적 평가 ) 중요한 페이지일수록 여러 곳에서 인용이 됨 : PageRank 단어 : 빈도수, 단어거리, 앵커 텍스트 Ranking Google 의 PageRank * 참고 : 구글을 지탱하는 기술 (2008, 니시다 케이스케 지음 )

인터넷 검색의 유형 홈페이지 찾기 디렉토리 검색 정보 찾기 키워드 검색 편집 검색 통합 검색 Tag 기반검색 주제어 검색 * 출처 : ‘09 Trend – 새로운 검색을 위한 시도들 ( 발표자료, 모란소프트 조영환 ) 주제어의 예 : 북한 위성 발사, 맛집 추천, 빅뱅 좋아 ( 특정 소재에 관한 이슈나 감성적 표현 )

네이버 시퀀스 : 영화, 자동차 등 특정 정보 에 관하여 세부적인 검색 옵션 ( 쇼핑 검색 과 유사 ) 을 주어 검색 할 수 있게 함 키워드 검색 + 세부 옵션 ( 제한된 주제 ) 네이트 시맨틱 VS 네이버 시퀀스 네이트 시맨틱 : 검색 결과를 검색어 와 관련된 주제어들로 다시 분류 키워드 검색 + 주제어 분류

태그 (Tag) 란 ?  메타데이터  글의 핵심어, 소재, 분류  주요 사례 : 블로그 태그, del.icio.us 북마킹  태깅 방법 : Social tagging, Auto tagging  트랜디한 정보에 대한 탐색이 쉬움  연관 태그를 통해 자유로운 이동 가능  주제어 검색의 기반이 될 수 있음 문서 전체집합에 대한 객관적 정보량 측정이 불가능 할 때, 주제어 단위의 정보량 측정은 효과적인 검색을 가능하게 함

Target : Blog ?  1 인 미디어  개인의 의견이나 경험을 최근 순서로 기록  개인적인 생각과 관심사 를 웹에 발행 하는 곳  댓글, 트랙백, 링크, 태그, RSS 등 다양한 기능  보통의 웹사이트에 비해 업데이트 주기가 빠른 편

Target : 국내 Blog 사이트 분류  포털형 블로그  네이버 블로그  이글루스 블로그  티스토리 블로그  다음 블로그  텍스트큐브  Etc..  설치형 블로그  텍스트큐브 ( 태터툴즈 )  워드프레스 (from 외국 )  Etc..

Blog VS Micro Blog ( 트위 터..)

Collection : 어디서 무엇을 추출할 것 인가 ?  웹 페이지 선정 - 블로그 페이지만 선별  1 차 판별 및 필터링 : URL 주소  2 차 판별 및 필터링 : 페이지 메타데이터  블로그 페이지 내용과 주소와의 특성 고려  첫 페이지  ( 날짜, 태그, 카테고리 별 ) 글 목록 페이지  무엇을 추출 하여 인덱싱 ?  페이지 정보  URL ( 절대적 주소 ), 글 제목, 날짜  랭킹 정보  글 내용에서 키워드 별 빈도수  글 제목, 앵커텍스트, 카테고리, 블로그 태그, 강조 구문 ( h1, h2, h3, b, strong 태그 등 )

Collection : 블로그 페이지 선별  URL 주소를 통해..  블로그 포털 사이트가 도메인인 경우      주소에서 알 수 없는 경우 – 메타데이터 이용  메타데이터 – 웹 페이지 소스   태그 안의 링크 경로 중에 /blog/ 가 존재

Collection : 추출할 데이터  검색 결과에 보여줄 페이지 정보  페이지 제목, 날짜, 내용 미리 보기  검색 결과 랭킹 계산에 사용할 정보 ( 종류별로 다르게 가중치를 주어서 계산 )  키워드 별 랭킹  필수 : 제목에 언급된 키워드  필수 : 본문에 나온 키워드 별 빈도수  옵션 : 본문에 나온 키워드 중 강조된 부분들  옵션 : 앵커텍스트, 블로그 태그, 카테고리  페이지 별 랭킹 (PageRank 의 제한적 적용 )  본문에서의 링크와 해당 글의 트랙백 링크

Collection : Blog Page Patterns  글의 본문 시작 부분  |   |  글 생성 날짜 ( 글 본문 태그 중에..)  class="updated“ | class=“date“ | class="infoDate"  글이 속한 카테고리 ( 글 본문 태그 중에..)  rel="category“ | rel=“ctg” | rel="category tag“  글의 블로그 태그  글 본문의 a 태그 중에 rel=“tag”

개발 환경 Python MySQL Apache 2.0 Python (CGI) + HTML AMD 3700+, RAM 2G, Windows 7 Beta 32bit 공개 소스 (JAVA) Programming Language Indexing & DBMS Web Server Web Site PC Environment 한글 형태소 분석

프로젝트 일정표 3/314/64/104/124/145/126/2 로봇 구현 랭킹 TEST 질의서버 DB 축적 총 TEST 데모 시연 개선 / 확장 최종 발표

Blog 검색 시스템 구조 웹로봇 블로그 페이지 판단 페이지 분석 필요한 데이터 추출 웹 탐색용 URL 수집 페이지 중복 여부 확인 인덱스 페이지 정보 저장 키워드 태깅 키워드 별 랭킹 스코어 저장 질의 서버 사용자의 검색 명령 수행 검색어로 사용된 키워드 를 분석 필요한 정보를 인덱스에 서 중요도 순으로 가져옴 결과를 보기 쉽게 편집

Start URL 데이터베이스 HTML 분석 URL 목록 input output 인덱스 되 어 있는지, 블로그 페 이지 판단 find 속성별 ( 제목, 날짜, 태그, 카테고리, 본 문 강조, 앵커 텍스 트 ) 데이터 수집 각각 형태소 분석 no 키워드, 키워드 수 HTML 분석 + URL, 제목, 날짜, 본문 일 부 저장 URL ID, 키워 드, Score 저장 yes 키워드 별 Score = Sum( 속성별 키워 드 빈도수 X 속성별 계수 ) Ranking Crawling Inverted Indexing Indexing

색인어 ( 키워드 ) 추출  검색어에 쓰일만한 키워드들을 문자열에서 추출해야 함  자동 색인어 추출 방법 = 형태소 분석기 + 색인어 조합  색인어 조합 : 형태소 단어 좌우에 조합을 더하여 형태소의 여러 쓰임에 대비한 키워드 생성 ( 예 : 확장 -> 확장, 확장성 )  방법  1. 색인어 사전 구축 :  검색어로 사용될 단어들을 미리 정해 놓는 방법  직접 만들기엔 너무 광범위  주기적으로 새로운 단어를 추가해야  2. Bi-gram : 2 글자씩 겹쳐서 키워드를 추출  예 : 정보검색이란 : 정보, 보검, 검색, 색이, 이란  구현이 쉽지만 검색 품질이 심각하게 저하됨  3. 형태소 분석기를 통해 명사만 추출하여 색인어 조합  3 번 방법으로 구현 결정 ( 블로그 태그도 주로 명사 위주이므로 ) = 락끄님의 한글 형태소 분석기 실행 결과 = Input : 나는 무엇을 먹고 사는 사람이더냐 나는 { 나 /VV/S+ 는 /EM/S/FM/DT}; { 날 /VV/S+ 는 /EM/S/FM/DT}; { 나 /NP/S+ 는 /JO/S/CL/SB}; 무엇을 { 무엇 /NN/S+ 을 /JO/S/CL/OB}; { 무엇 /NP/S+ 을 /JO/S/CL/OB}; 먹고 { 먹 /VV/S+ 고 /EM/S/CN/EQ}; { 먹 /VV/S+ 고 /EM/S/CN/SU}; 사는 { 사 /VV/S+ 는 /EM/S/FM/DT}; { 살 /VV/S+ 는 /EM/S/FM/DT}; { 사 /VV/S+ 아 /EM/S/CN/SU+ 는 /JO/S/SU}; { 사 /VV/S+ 아 /EM/S/ED/NM+ 는 /JO/S/SU}; 사람이더냐 { 사람 /NN/S+ 이 /CP/S+ 더 /EP/S/TM+ 냐 /EM/S/ED/QT};

Ranking  페이지 ( 블로그 글 ) 의 키워드 별 중요도를 미리 계산하여 인덱싱  본문 전체의 단어 별 빈도수 계산과 자동 태깅 ( 중요한 단어들만 추출 ) 병행  중요 단어들을 추출할 위치  제목, 카테고리, 본문 강조  특정 접속부사 ( 따라서 / 결국 / 끝으로 / 결론은 / 마침내 등등 )  특정 단어 및 기호 뒤에 위치한 구절  블로그 태그  다른 페이지의 앵커 텍스트  본문 전체에 나온 키워드들에 대한 빈도수 계산  최종 목적 : 주제어와 가장 관련이 높은 블로그 글을 계산 -> 하루의 Hot Page 가 아니고 주제어 마다의 Hot POST 를 랭킹에 반영

사용자 질의 서버  검색 결과에 페이지 제목, 날짜, 본문 일부 ( 미리보기 ), 연관 태그, 카테고리 출력  결과 리스트의 순서 = 키워드 별 랭킹 + 페이지 랭킹 스코어  Boolean 검색 지원  기본은 And 검색, 최대 3 단어  단어는 space 로 구분  검색어와 유사한 키워드에 대한 검색

검색결과를 가져오는 과정 wordlist Table 키워드 : 키워드 ID 검색어 입력 키워드로 변환 wordlocation order by score 키워드 ID : urlID, score …. urllist Table urlID : 제목, 날짜, 카테고리, 글일부, PageRank score + PageRank 내림차순 으로 결과 표시

성능 평가  검색 속도 측정  코드에 추가, 타 시스템과의 속도 비교  1 초대의 속도를 기대할 수 있어야 함  검색 정확도 (relevance) 측정 - 타 시스템과 비교  정확률 (precision) = 검색결과 중 적합한 결과 수 검색 결과 수  재현율 (recall) = 검색결과 중 적합한 결과 수 적합한 결과 수 검색결과에 포함된 것 중에 제대로 나온 것의 비율 모두 나와야 하는 것 중에 검색 결과에 포함된 것의 비율 정확률은 찾는 페이지가 명확할 때, 정확한 해답을 찾고자 할 때 중요 하며 재현율은 거의 모든 데이터에서 찾아봐야 하는 철저한 검색에서 중요함

참고 문헌 / 서적 / 사이트  논문 : 조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법 ( 한국정보과학회 지 논문, 강승식 외 )  책 : 집단 지성 프로그래밍 ( 토비 세가란 저 )  책 : 열혈강의 파이썬 Ver.2 ( 이강성 저 )  책 : 구글을 지탱하는 기술 ( 니시다 케이스케 저 )  태깅 (Tagging) 의 존재 이유 (ibm.com 기고문, 김홍기 )  검색엔진과 통합검색 그리고 블로그 검색 ( 블로그 글, 모란소프트 조영환 )  ‘09 Trend – 새로운 검색을 위한 시도들 ( 발표자료, 모란소프트 조영환 )  검색엔진 개발자 그룹 :  강승식 교수님의 한글 형태소 분석기 공개 소스 (C, ASP):  락끄님의 한글 형태소 분석기 공개 소스 (JAVA):