1998. 10. 9 한국통신 멀티미디어연구소 김 영 환 (ywkim@kt.co.kr) 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 1998. 10. 9 한국통신 멀티미디어연구소 김 영 환 (ywkim@kt.co.kr)
차 례 인터넷 정보검색 개론 인터넷 정보검색 : 정보탐정 InfoCop 발전 방향 결론 로봇 검색엔진 광고/통계 시스템 차 례 인터넷 정보검색 개론 인터넷 정보검색 : 정보탐정 InfoCop 로봇 검색엔진 광고/통계 시스템 분류 서비스 부가서비스 발전 방향 결론
정보의 순환주기
인터넷 정보검색의 특징 엄청난 양의 정보 정확한 검색의 어려움 Efficiency is not a bottleneck 약 1억 5천만 페이지(’97. 10 현재) 매 4개월마다 2배 증가 정확한 검색의 어려움 Efficiency is not a bottleneck - 고성능 W/S - 병렬처리기 Effectiveness is bottleneck - 낮은 정확률(Precision) - 낮은 순서화(ranking)의 성능
인터넷 문서 수집 Web Robot : wanderer, worm, walker, spider, knowbot : graph-traversal 알고리즘 사용 Traversal Methods Seed URL : Recursion A set of URLs Partitioning the Web space 성능 Currency completeness
Web 문서의 색인 색인어의 2가지 타입 색인 성능의 요서 Objective Terms : 저자명, URL, 출판일등 Nonobjective Terms : content terms 색인 성능의 요서 Indexing exhaustivity : 재현률(Recall) Term specificity : 정확률 Compromising의 필요성
정보검색의 모델 분류 분류기준 4가지 분류 문서와 질의의 표현방법 문서와 질의의 적합도 계산을 위한 매칭전략 순서화 방법 사용자이 Relevance feedback을 얻는 방법 4가지 분류 집합이론 모델 : Boolean Mode 대수 모델 : Vector- space Model 확률 모델 : Probabilistic Model 하이브리드 모텔 : Extended Boolean Model
자 동 검 색 Single-term Indexing .VS. Multi-term or Phrase Indexing Indexing Process Identify individual words Remove function words with a stop list Generate word stems by removing suffixes Assing term weights (optionsal) -Use thesaurus to broaden index terms(recall) -Phrase generation(Precision)
한국어 자동색인 어절 단위 색인법 - 복합 명사 처리 문제 → 검색 효율 저화 형태소분석 색인법 - 형태소 분석기 성능에 좌우 - 사전 등의 언어 정보 개발 및 유지 보수 부담 N-gram 색인법 - 인접한 3개 음절 - 복합 명사 문제 극복 - 외래어 처리 장범 - 철자 오류 극복
Relevance Feedback Two-lever or Multi-level Relevance Relations Positive Feedback .VS. Negative Feedback 2 Approaches Modifying the Query Representation - modification of term weights - query expansion -query splitting : split and adjust terms weight in the subquery Modifying the Document Representation - user-oriented clustering
문서 수집 로봇 개요 1.초기 URL입력 2.문서 끌어오기 3.문서가공(HTML해석) 4.새로운 URL추출 나오지 않을 때까지 2-4반복
요 소 기 술 HTML 및 XML 해석/변환/처리 기술 고속 다중 프로세스 제어 기술 효율적인 URL 단일화 기술(중복 URL 제거기술 ) 1천만 문서 → 1억 URL 처리 필요 한 개의 문서가 서로 다른 여러 형태의 URL로 표현 가능 HTTP 및 TCP/IP 네트웍 연동 기술 제한된 대역폭을 최대한 활용 효율적인 저장구조 설계기술 천만건 이상의 문서 저장 매우 가변적인 크기 로봇의 운용스케쥴링 기술 최소 비용으로 갱신된 문서만을 재수집하는 기술
로봇의 응용 문서 수집의 정책, 대상, 방법에 따라서 웹 문서 수집 로봇 코드변환 로봇 (일본어한자 → 한국어한자) 특정 분야별 주요 사이트 문서수집, 분류로봇 신문기사 수집 로봇 잡지기사 수집 로봇 메타 검색
메타 검색 기존의 검색 엔진을 이용 → 결과 통합 구조
개요(1) 특징 개발 원칙 - 일본어, 중국어, 문서 등 아시아권 문서도 검색 - 고어체 문서도 검색 범용성 : 어떤 분야, 어떤 나라의 문자에도 종속되지 않고 사용 - 일본어, 중국어, 문서 등 아시아권 문서도 검색 - 고어체 문서도 검색 - 인명, 지명, 회사명 등의 고유명사도 검색 대용량 : 전세계 문서 수용을 목표로 제작 개발 원칙 국가나 언어, 분야에 따른 장벽이 없도록 개발(형태소분석 X) 대용량 문서 처리가 가능하게 개발 대중 서비스에 대응할 수 있도록 개발 다양한 문서형식에 대응할 수 있도록 개발
개요(2) 주요기능 불리언 연산 : ‘*’(AND), ‘+’(OR), ‘-’(AND NOT), ‘(‘,’)’ 허용 인접어 찾기 - 어구잧기 : 주어진 단어들이 연속으로 존재하는 문서 검색 - 인접어 검색 : 주어진 단어들이 일정거리 이내에 존재하는 문서 검색 절단 검색 : 전, 후, 양방향 절단 검색 질의어 확장 : 동의어 및 시소러스 확장 기능 제고 대소문자 구분, 필드 구분 검색, 검색결과 2차 검색 문서처리 능력 1996. 3. : 정보탐정 엔진 V1.0 개발(50만 문서 처리 수준) 1997. 6. : 정보탐정 엔진 V2.0 개발(200만 문서 처리 수준) 1998. 10. : 정보탐정 엔진 V3.0 개발(1,000만 문서 처리 수준)
특징적 접근방법 형태소 분석 없이 한글 2자를 색인어로 처리 한글 띄어 쓰기 특성 활용 일괄 갱신 방법 사용 2자 단어가 많은 한자문화권 언어의 특성 활용 세계 각국의 언어를 처리해야 하는 인터넷 정보검색 특성에 적합 한글 띄어 쓰기 특성 활용 띄어 쓰기를 하는 한글의 특성 반영을 위해 2자 색인어의 어절 내 위치 정보를 색인어 가중치 계산에 사용 일괄 갱신 방법 사용 색인 대상 문서 내용의 수시 갱신 특성 대량의 문서 대규모 사용자에 대응할 수 있는 효율적 구조 구현
색 인 문서필터 웹문서, 유즈넷뉴스,신문기사 등 서로다른 형식의 문서를 분석하여 색인에 필요한 정보 추출 색인어 추출 형태소 분석 않고 한글2자 단위로 색인어 추출 색인어 가중치 계산 문장 내에서의 빈도수 반영 어절내에서의 위치 반영 문장 내에서의 위치 반영 필드간 중요도 차이 반영 문서간 중요도 차이 반영
하부저장 구조(1) 검색 효율성을 강조한 구조로 설계 Index File Posting File Document File 고속처리를 위해 수시 갱신 기능 배제한 구조 사용 Index File 키워드 고속 검색 가능 형식으로 정렬 저장 Posting File Index File의 키워드와 Document File의 문서정보간 연결 정보저장 Document File 각 키워드와 관련된 문서정보(문서번호+가중치)를 순서대로 저장
검 색 사용자
인터넷 광고 시스템 정보탐정 광고 시스템 배너 위치별 광고 등록 위치별 노출 비용 조정, 단독 광고 위치별 노출 비용 조정, 단독 광고 노출 회수, 클럭 횟수 집계 시간대별, 일별, 월별 통계
통계시스템 사이트의 접속 통계 분석의 필요성 - 광고주 유인 → 광고 수입 - 사용자 증가로 인한 자원 고갈 대비 신뢰성 있는 접속 통계 분석 - 광고주 유인 → 광고 수입 시스템 자원의 사용 상황 분석 및 예측 - 사용자 증가로 인한 자원 고갈 대비 → 시스템 자원 , 네트웍 대역폭 확중 → 사용자수 증가 → 광고수입 증가
통계 방식 이미지 삽입 방식 - CGI 프로그램 - 이미지 태그를 HTML 페이지 안에 삽입. - HTML 페이지 브라우저에서 이미지 요구시 카운트 증가 - CGI 프로그램 C : printf(“<IMG SRC=….>”) ; - HTML 페이지 <P> <IMG SRC=…..><BR> - 사용자가 브라우저로 접근할 때만 카운트 증가 로봇으로 인한 카운트 증가 방지 -이미지 전송을 위한 여분의 트래픽 발생
자료 추출 방법 멀티미디어 자료 추출 향후계획 - 멀티미디어자료 주소 추출 인터넷 웹 페이지에 존재하는 멀티미디어자료 링크에서 추출 멀티 미디어 링크 주위에서 관련 정보 추출 - 멀티미디어자료 주소 추출 - 멀티미디어자료 제목 추출 : <img alt=“….”나 <a href=..>…</a> 에서 - 기타 검색의 재현율을 높이기 위해 주위의 문장, 문서 제목 등에서 관련 정보 추출 향후계획 멀티미디어 자료 관련 정보 추출 기숙 보완 유즈넷 뉴스 등 다른 영역으로 추출 대상 확대
쟁 점 들 인터넷메일주소 DB 구축 인터넷메일주소, 검색 서비스 개인 정보 유출의 사회 문제로 인하여 정보제공업자(ISP)등으로부터 개인정보 수집이 곤란 인터넷메일주소, 검색 서비스 사용자의 다양한 검색 요구에 충실하도록 사용자 중심의 편리한 검색 서비스 개발이 곤란(질의확장, 개인정보 가공 등)
주요 기능 다양한 정보원 (웹패이지, 유즈넷뉴스 등)으로부터 공개된 개인 정보(open profile)의 자동 수집 사용자 중심의 서비스가 되도록 개인정보의 유기적 가공 다양한 한글 인명의 로마자 표기 ex) 김영환 – Kim Young Whan, Kim, Yeong-Hwan, Young-Hwan Kim, Gim, YoungWhan, etc
서버형 일본어 번역엔지 목표 사용자의 소프트웨어 설치를 전혀 요구하지 않음 - 한글 환경을 가정 - 일본어 폰트도 필요 없도록 함 모든 웹 페이지를 번역 서버에서 처리 프록시와는 다른 구조 - 프록시서버는 클라이언트에서 선택할 때만 가능 - 프록시서버는 전환이 자연스럽지 못함 한글 웹페이지를 보는 것이 전혀 다르지 않게 함 → “투명서” 서버 중심형에 의한 네트웍 트래픽 감소 → “효율성” 일본에 관심있는 사용자들의 집중을 통한 부가서비스 개발
분류서비스 분류서비스란 관련기술 주제지향의 구조적인 가이드 (Yahoo의 정의) 주제어(Keyword)를 기반으로 사람에 의하여 웹페이지들을 체계화한 서비스 - 사용자들이 원하는 결과까지의 접근이 용이하게 함 - 일반적인 검색서비스가 모든 페이지에 대하여 검색하는 반면, 분류서비스는 결과로서 대표페이지를 제공 관련기술 시소러스 구축 분류체계 표준화
자동문서분류와 분류체계 자동문서분류 분류체계의 설정 정의 관련기술 - 학습알고리즘, 동적분류체계 향후 발전 방향 - 학습을 통하여 문서의 특성에 맞는 주제어/분류체계를 선정 관련기술 - 학습알고리즘, 동적분류체계 향후 발전 방향 -사용자정보를 이용한 자동문서분류 분류체계의 설정 웹페이지/사이트의 주제어 할당이 용이한 체계 개발 계층적인 분류체계 동적환경에 적응
자동분류서비스 구성도
주요기능 주요기능 A/V자료 검색 : 방송/음악/비디오/강연. RAM, MP3, MOV… 이미지자료 검색 : 그림/사진, GIF, JPG… 기타 자료 검색 : 워드화일/실행화일/압축화일 등 방송/문화/예술/연예 등 멀티미디어 관련 사이트 분류 서비스 제공 멀티미디어 관련 웹페이지 검색 멀티미디어 관련 사이트 내부 검색기능 무료 제공 홈페이지 무료 광고 서비스
서비스 구현을 위한 기술 투명성의 보장 효율성의 보장 힝크의 투명성 : 링크를 통한 자유로운 페이지 이동 화면배치의 투명성 : 원본 페이지와 같은 모양을 유지 CGI 투명성 : 입출력시에도 일/한 간의 매끄러운 변황 HTTP투명성 : HTTP프로토콜이 사용자에게 드러나지 않도록 효율성의 보장 다단계 캐쉬사용 : HTTP/변환/번역 각 단계별로 캐쉬 불필요한 HTTP 트랜잭션의 최소화
Personalization(개인화) :사용자 개개인의 상황과 관심에 적합한 서비스 제공 정보 출력화면 편집 - 정보 출력방식을 사용자가 편집하고 선택 검색 정보 관리 - 찾은 정보를 저장 삭제 등 사용자가 관리 Personalization의 특성 사용자의 권한 강화 개별적 욕구충족 지속적 서비스
마이 뉴스 구성도 사용자등록 사용자 개인정보DB 사용자인증 마이뉴스 서비스정보 DB 화면편집 정보관리
발전 방향 ? “내가 원하는 정보만을 빠뜨리지 않고 빨리” 드러나는 문제점 사용자요구 AltaVIsta Yahoo! 수동 자동 정보는 너무나 많고, 모든 사람을 만족시키기 어렵다 사용자요구 “내가 원하는 정보만을 빠뜨리지 않고 빨리” precision recall speed personalization <Super Engine> Al issue(학습,이해) ↘ ↙ Ovum reports This turorial AltaVIsta Yahoo! ? 수동 자동 고속,효율 품질,효과
발전 방향 $ \ 개인화 기술 정보가공 기술 고속엔진 기술
개인화 “It keeps attracting new users by staying friendly to the AOL problem Personalization-에이전트(user/information agent) 개인화가 가능한 컴퓨팅 파라다임 사용자 모델(profile)과 학습(relevance feedback) Service customization – 주문, 맞춤형, PUSH Localization 지구 반대편 어느 조그만 마을에서 일어나는 사소한 이야기에 누가 관심을 갖겠는가. “It keeps attracting new users by staying friendly to the novice, but loses some subscribers as they become more sophisticated.” – PC Line
개인화 - 에이전트 정보 에이전트(Information agent) 다중에이전트(Multiagent) 사용자 모델링, 검색/여과 학습/적응 기능 - +/- relevance feedback, 신경망, 퍼지 이론 다중에이전트(Multiagent) DECENTRALIZED CONTROL, DISTRIBUTED TASK 각 에이전트는 DOMAIN EXPERT 사용자 에이전트는 interface “Agent-based personalized ingormation filtering and retrieval is a promising research direction to improve the retrieval effectiveness of search tools.” – IEEE Internet Computing ‘97
정보 가공 자동 분류 요약 전역/외국어 처리 멀티미디어 정보 처리 구조 문서, 정보처리 Text categorization – a grand challenge 요약 Keyword/phrase extraction Text summarization 전역/외국어 처리 99% 외국어 문서 → 다국어 검색, 자동번역 멀티미디어 정보 처리 구조 문서, 정보처리 SGML/XML (combined with) Internet Word Processing
고성능 기반 엔진 고속 대용량 색인, 검색 의미기반 검색 Ranking 자연어 처리, Lexicon/Thesauri 10 web pages world-wide(2000년) Periodic collection and indexing 10 ~10 indexes, 1 second search 의미기반 검색 자연어 처리, Lexicon/Thesauri 자연어, 개념 질의 처리 – 대화 Ranking 9~ 7 9
포털 Portal 정의 구성요소 : 4Cs [D. Hunt, Yahoo] 인터넷 서핑 관문, 처음부터 끝, … “A site that aggregates an array of content and offers a range of services to be the home page for a mary user as possible …” 구성요소 : 4Cs [D. Hunt, Yahoo] Contents – Information, multimedia, etc Communication – Free Email, Connection Community – SIG, CUG, Chatting Commerce – Yahoo Store + personalization, localization
인터넷 정보검색 기술은 앞으로도… Continue to power … 튼튼한 정보대국의 핵심요소 기술 The Internet, intranets, PCs, Portals, KMS or Enterprise computing Electronic commerce 튼튼한 정보대국의 핵심요소 기술 정보화 시대의 환경 문제 대비 필요 정보 공해