1998. 10. 9 한국통신 멀티미디어연구소 김 영 환 (ywkim@kt.co.kr) 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 1998. 10. 9 한국통신 멀티미디어연구소 김 영 환 (ywkim@kt.co.kr)

Slides:



Advertisements
Similar presentations
Information Retrieval. 2 Introduction Information Retrieval –automatic indexing + document retrieval Web Information Retrieval – 전통적인 IR 과 유사한 방법 / 방식.
Advertisements

전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원 발표일 :
데이터마이닝 & 정보검색 연구실 신 현 일.  검색 시스템에 필요한 요소  인터넷 검색의 유형 / 태그란 ?  Blog 검색 시스템 설계  Target : Blog ? / 국내 Blog 사이트 분류  Collection : 어디서 무엇을 추출할 것인가 ? 
Internet Multimedia solutions Internet Multimedia Solutions (Video Chatting) KLC21 ㈜ 본 제안서의 내용은 ㈜ KLC 에 저작권이 있습니다. 본 제안서는 내용이 구성이 잘된 제안서로서 제안서를.
AAAS Main Homepage 소개 I. Science Magazine 1. Issue Homepage 2. Search 3. Advanced Search 4. Search Result 5. HighWire Journals Search.
컴퓨터 통신과 인터넷 2. 컴퓨터 통신 2.1 컴퓨터 통신 장비 ~ 고성능 컴퓨터. 전화선이나 전용선, 모뎀이나 통신카드, 통신용 프로그램 컴퓨터 IBM AT (286) 호환 기종 – 문자 서비스만 IBM AT (486-RAM 16MB) 급 호환 기종이상.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
제9장 e-마케팅관리와 전략 [학 습 목 표] 마케팅 패러다임의 변화에 따른 e-마케팅의 필요성을 제기함
(Information & Innovation)
정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술
지능형 에이전트 (Intelligent Agents) (Lecture Note #29)
TOURISM & BUSINESS INFORMATION SYSTEM. TOURISM & BUSINESS INFORMATION SYSTEM.
Signal-to-Noise Ratio
인포메일 온라인 광고 가이드 인포메일 온라인 광고 가이드 Infomail Ad team
교육매체 컴퓨터 멀티미디어 인터넷활용교육 물리교육전공 홍승찬.
KMS/Portal 에서의 효율적인 정보검색
InterMedia Hub SINCE 서울 서초구 서초3동 대아벤처 B.D 2F / (02)
㈜ 코디라인 사업설명서 2000년 2월 ㈜ 코 디 라 인
Ⅰ웹로그분석을 통한 쇼핑몰 운영전략 코리아 인터넷 마케팅센터 대표 김형택
Verity Portal One “Powering Business Portals”
검색엔진 프로모션 ㈜오소 대표 권정민 중소기업진흥공단 전자상거래지원센터.
World Wide Web 웹(World Wide Web, WWW, Web) 웹 브라우저
정보활용 능력과정 경일대학교 컴퓨터공학과 김 현성
7. 인터넷 환경과 멀티미디어 멀티미디어의 이해 임순범.
전자정부 서비스 운영을 위한 SLA 적용 방안 남기찬 교수 서강대학교 아웃소싱연구센터 (
개발자에게 SharePoint Services 란 무엇인가?
본 사업계획서의 내용에 대한 저작권은 사업계획서 제작사에
Knowledge Enterprise Portal Solution(iKEP)
Knowledge Enterprise Portal Solution(iKEP)
Switching 기술 II(L4, L5, L7).
Information Retrieval (Chapter 4: 질의언어)
1장. JSP 및 Servlet을 활용한 동적 웹 프로그래밍 소개 제1장.
지식저장 및 활용사례 삼성SDS 아리샘 KMS 오승연 책임
제 8장. 멀티미디어 데이터베이스 및 정보검색 시스템
인터넷의 작동 원리 PARSONS/OJA 인터넷.
1. 시멘틱웹(Semantic Web) Preview 항목 상세내역 개요 기출여부 관련KeyWord 추천사이트
사업계획서.
Internet Multimedia Solutions (Video Chatting)
인간의 신경인지기전의 모델에 기반한 추론/학습기술 개발
Web상에서의 Network Management
SEO 마케팅 서비스 제안서.
CH 851 지식기반 시스템 응용 (모바일 시스템) 2006년도 제 2학기.
이번 시간에는... 지난 시간에는 모바일Game 산업 분석과 개발 흐름, 성공 모바일 Game 서비스 분석 및 다양한 모바일 네트워크 Game에 대해 알아보았습니다. 이번 시간에는 2회차에 걸쳐 모바일 광고 , 모바일 쿠폰 등, 모바일 Advertising 서비스에 대해서.
정보기술을 이용한 단백질 서열 분석 (IT-based Protein Sequence Analysis)
21C Medical Information Business Plan
적극적 지식경영 솔루션 - SINGLE 양 재 삼 삼성 SDS.
디지털미디어론 김 화 동 교 수.
1. e-마케팅의 기본 개념 2. e-마케팅 믹스(4Ps) 3. e-마케팅 전략 4. e-마케팅 관리와 효과측정
Web site 제작 제안서 대리점 홍보 및 쇼핑몰 사이트 ㈜ 모비즌닷컴.
제 8 장 객체지향 데이타베이스와 데이타베이스의 새로운 응용 분야
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
Internet Multimedia Solutions (Video Web Call Center)
마이마켓 EC호스팅 서비스( 활용한 인터넷 쇼핑몰 구축,운영 제안 ㈜ 메타랜드.
본 사업계획서는 코스모정보통신에서 운영하는 씨타운 지역사업자
포털서비스 산업과 NHN NHN 주요서비스 포털서비스 산업과 NHN의 발전방향 Vision 및 주요역량 경영전략 Financial Highlights Investment Summary.
Cyber Shopping Mall 구축 - CD New - 안소연,박지윤,박종봉,정영은.
myfood.com 상명대 맛집 홈페이지 구축 제안서
AAAS Last Update : Dec, 2010.
공공기관에서의 UTM과 혼합공격 차단기법 May.2004 Fortinet Korea Inc.
Ⅳ. 컴퓨터와 생활.
12장 하이퍼텍스트와 하이퍼미디어 12.1 간략한 역사 12.2 하이퍼텍스트의 특징 12.3 브라우징과 탐색
김 영실 벤 치 마 킹 김 영실
고급 정보 검색 1. 개 요.
05 ASP.NET 2.0 페이지 및 응용 프로그램 구조 웹 폼(Web Form) 웹 폼 이벤트
Internet 인공지능연구실
주요공지로 정할 글을 올립니다. 제목과 주소를 복사해둡니다
Subscription and Channels
Portal 사용을 위한 Internet 옵션 설정
Bug Localization Based on Code Change Histories and Bug Reports
검색엔진의 이해 정보사회와 컴퓨터- 팀프로젝트 황연옥 최은숙 이한아
Presentation transcript:

1998. 10. 9 한국통신 멀티미디어연구소 김 영 환 (ywkim@kt.co.kr) 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 1998. 10. 9 한국통신 멀티미디어연구소 김 영 환 (ywkim@kt.co.kr)

차 례 인터넷 정보검색 개론 인터넷 정보검색 : 정보탐정 InfoCop 발전 방향 결론 로봇 검색엔진 광고/통계 시스템 차 례 인터넷 정보검색 개론 인터넷 정보검색 : 정보탐정 InfoCop 로봇 검색엔진 광고/통계 시스템 분류 서비스 부가서비스 발전 방향 결론

정보의 순환주기

인터넷 정보검색의 특징 엄청난 양의 정보 정확한 검색의 어려움 Efficiency is not a bottleneck 약 1억 5천만 페이지(’97. 10 현재) 매 4개월마다 2배 증가 정확한 검색의 어려움 Efficiency is not a bottleneck - 고성능 W/S - 병렬처리기 Effectiveness is bottleneck - 낮은 정확률(Precision) - 낮은 순서화(ranking)의 성능

인터넷 문서 수집 Web Robot : wanderer, worm, walker, spider, knowbot : graph-traversal 알고리즘 사용 Traversal Methods Seed URL : Recursion A set of URLs Partitioning the Web space 성능 Currency completeness

Web 문서의 색인 색인어의 2가지 타입 색인 성능의 요서 Objective Terms : 저자명, URL, 출판일등 Nonobjective Terms : content terms 색인 성능의 요서 Indexing exhaustivity : 재현률(Recall) Term specificity : 정확률 Compromising의 필요성

정보검색의 모델 분류 분류기준 4가지 분류 문서와 질의의 표현방법 문서와 질의의 적합도 계산을 위한 매칭전략 순서화 방법 사용자이 Relevance feedback을 얻는 방법 4가지 분류 집합이론 모델 : Boolean Mode 대수 모델 : Vector- space Model 확률 모델 : Probabilistic Model 하이브리드 모텔 : Extended Boolean Model

자 동 검 색 Single-term Indexing .VS. Multi-term or Phrase Indexing Indexing Process Identify individual words Remove function words with a stop list Generate word stems by removing suffixes Assing term weights (optionsal) -Use thesaurus to broaden index terms(recall) -Phrase generation(Precision)

한국어 자동색인 어절 단위 색인법 - 복합 명사 처리 문제 → 검색 효율 저화 형태소분석 색인법 - 형태소 분석기 성능에 좌우 - 사전 등의 언어 정보 개발 및 유지 보수 부담 N-gram 색인법 - 인접한 3개 음절 - 복합 명사 문제 극복 - 외래어 처리 장범 - 철자 오류 극복

Relevance Feedback Two-lever or Multi-level Relevance Relations Positive Feedback .VS. Negative Feedback 2 Approaches Modifying the Query Representation - modification of term weights - query expansion -query splitting : split and adjust terms weight in the subquery Modifying the Document Representation - user-oriented clustering

문서 수집 로봇 개요 1.초기 URL입력 2.문서 끌어오기 3.문서가공(HTML해석) 4.새로운 URL추출 나오지 않을 때까지 2-4반복

요 소 기 술 HTML 및 XML 해석/변환/처리 기술 고속 다중 프로세스 제어 기술 효율적인 URL 단일화 기술(중복 URL 제거기술 ) 1천만 문서 → 1억 URL 처리 필요 한 개의 문서가 서로 다른 여러 형태의 URL로 표현 가능 HTTP 및 TCP/IP 네트웍 연동 기술 제한된 대역폭을 최대한 활용 효율적인 저장구조 설계기술 천만건 이상의 문서 저장 매우 가변적인 크기 로봇의 운용스케쥴링 기술 최소 비용으로 갱신된 문서만을 재수집하는 기술

로봇의 응용 문서 수집의 정책, 대상, 방법에 따라서 웹 문서 수집 로봇 코드변환 로봇 (일본어한자 → 한국어한자) 특정 분야별 주요 사이트 문서수집, 분류로봇 신문기사 수집 로봇 잡지기사 수집 로봇 메타 검색

메타 검색 기존의 검색 엔진을 이용 → 결과 통합 구조

개요(1) 특징 개발 원칙 - 일본어, 중국어, 문서 등 아시아권 문서도 검색 - 고어체 문서도 검색 범용성 : 어떤 분야, 어떤 나라의 문자에도 종속되지 않고 사용 - 일본어, 중국어, 문서 등 아시아권 문서도 검색 - 고어체 문서도 검색 - 인명, 지명, 회사명 등의 고유명사도 검색 대용량 : 전세계 문서 수용을 목표로 제작 개발 원칙 국가나 언어, 분야에 따른 장벽이 없도록 개발(형태소분석 X) 대용량 문서 처리가 가능하게 개발 대중 서비스에 대응할 수 있도록 개발 다양한 문서형식에 대응할 수 있도록 개발

개요(2) 주요기능 불리언 연산 : ‘*’(AND), ‘+’(OR), ‘-’(AND NOT), ‘(‘,’)’ 허용 인접어 찾기 - 어구잧기 : 주어진 단어들이 연속으로 존재하는 문서 검색 - 인접어 검색 : 주어진 단어들이 일정거리 이내에 존재하는 문서 검색 절단 검색 : 전, 후, 양방향 절단 검색 질의어 확장 : 동의어 및 시소러스 확장 기능 제고 대소문자 구분, 필드 구분 검색, 검색결과 2차 검색 문서처리 능력 1996. 3. : 정보탐정 엔진 V1.0 개발(50만 문서 처리 수준) 1997. 6. : 정보탐정 엔진 V2.0 개발(200만 문서 처리 수준) 1998. 10. : 정보탐정 엔진 V3.0 개발(1,000만 문서 처리 수준)

특징적 접근방법 형태소 분석 없이 한글 2자를 색인어로 처리 한글 띄어 쓰기 특성 활용 일괄 갱신 방법 사용 2자 단어가 많은 한자문화권 언어의 특성 활용 세계 각국의 언어를 처리해야 하는 인터넷 정보검색 특성에 적합 한글 띄어 쓰기 특성 활용 띄어 쓰기를 하는 한글의 특성 반영을 위해 2자 색인어의 어절 내 위치 정보를 색인어 가중치 계산에 사용 일괄 갱신 방법 사용 색인 대상 문서 내용의 수시 갱신 특성 대량의 문서 대규모 사용자에 대응할 수 있는 효율적 구조 구현

색 인 문서필터 웹문서, 유즈넷뉴스,신문기사 등 서로다른 형식의 문서를 분석하여 색인에 필요한 정보 추출 색인어 추출 형태소 분석 않고 한글2자 단위로 색인어 추출 색인어 가중치 계산 문장 내에서의 빈도수 반영 어절내에서의 위치 반영 문장 내에서의 위치 반영 필드간 중요도 차이 반영 문서간 중요도 차이 반영

하부저장 구조(1) 검색 효율성을 강조한 구조로 설계 Index File Posting File Document File 고속처리를 위해 수시 갱신 기능 배제한 구조 사용 Index File 키워드 고속 검색 가능 형식으로 정렬 저장 Posting File Index File의 키워드와 Document File의 문서정보간 연결 정보저장 Document File 각 키워드와 관련된 문서정보(문서번호+가중치)를 순서대로 저장

검 색 사용자

인터넷 광고 시스템 정보탐정 광고 시스템 배너 위치별 광고 등록 위치별 노출 비용 조정, 단독 광고 위치별 노출 비용 조정, 단독 광고 노출 회수, 클럭 횟수 집계 시간대별, 일별, 월별 통계

통계시스템 사이트의 접속 통계 분석의 필요성 - 광고주 유인 → 광고 수입 - 사용자 증가로 인한 자원 고갈 대비 신뢰성 있는 접속 통계 분석 - 광고주 유인 → 광고 수입 시스템 자원의 사용 상황 분석 및 예측 - 사용자 증가로 인한 자원 고갈 대비 → 시스템 자원 , 네트웍 대역폭 확중 → 사용자수 증가 → 광고수입 증가

통계 방식 이미지 삽입 방식 - CGI 프로그램 - 이미지 태그를 HTML 페이지 안에 삽입. - HTML 페이지 브라우저에서 이미지 요구시 카운트 증가 - CGI 프로그램 C : printf(“<IMG SRC=….>”) ; - HTML 페이지 <P> <IMG SRC=…..><BR> - 사용자가 브라우저로 접근할 때만 카운트 증가 로봇으로 인한 카운트 증가 방지 -이미지 전송을 위한 여분의 트래픽 발생

자료 추출 방법 멀티미디어 자료 추출 향후계획 - 멀티미디어자료 주소 추출 인터넷 웹 페이지에 존재하는 멀티미디어자료 링크에서 추출 멀티 미디어 링크 주위에서 관련 정보 추출 - 멀티미디어자료 주소 추출 - 멀티미디어자료 제목 추출 : <img alt=“….”나 <a href=..>…</a> 에서 - 기타 검색의 재현율을 높이기 위해 주위의 문장, 문서 제목 등에서 관련 정보 추출 향후계획 멀티미디어 자료 관련 정보 추출 기숙 보완 유즈넷 뉴스 등 다른 영역으로 추출 대상 확대

쟁 점 들 인터넷메일주소 DB 구축 인터넷메일주소, 검색 서비스 개인 정보 유출의 사회 문제로 인하여 정보제공업자(ISP)등으로부터 개인정보 수집이 곤란 인터넷메일주소, 검색 서비스 사용자의 다양한 검색 요구에 충실하도록 사용자 중심의 편리한 검색 서비스 개발이 곤란(질의확장, 개인정보 가공 등)

주요 기능 다양한 정보원 (웹패이지, 유즈넷뉴스 등)으로부터 공개된 개인 정보(open profile)의 자동 수집 사용자 중심의 서비스가 되도록 개인정보의 유기적 가공 다양한 한글 인명의 로마자 표기 ex) 김영환 – Kim Young Whan, Kim, Yeong-Hwan, Young-Hwan Kim, Gim, YoungWhan, etc

서버형 일본어 번역엔지 목표 사용자의 소프트웨어 설치를 전혀 요구하지 않음 - 한글 환경을 가정 - 일본어 폰트도 필요 없도록 함 모든 웹 페이지를 번역 서버에서 처리 프록시와는 다른 구조 - 프록시서버는 클라이언트에서 선택할 때만 가능 - 프록시서버는 전환이 자연스럽지 못함 한글 웹페이지를 보는 것이 전혀 다르지 않게 함 → “투명서” 서버 중심형에 의한 네트웍 트래픽 감소 → “효율성” 일본에 관심있는 사용자들의 집중을 통한 부가서비스 개발

분류서비스 분류서비스란 관련기술 주제지향의 구조적인 가이드 (Yahoo의 정의) 주제어(Keyword)를 기반으로 사람에 의하여 웹페이지들을 체계화한 서비스 - 사용자들이 원하는 결과까지의 접근이 용이하게 함 - 일반적인 검색서비스가 모든 페이지에 대하여 검색하는 반면, 분류서비스는 결과로서 대표페이지를 제공 관련기술 시소러스 구축 분류체계 표준화

자동문서분류와 분류체계 자동문서분류 분류체계의 설정 정의 관련기술 - 학습알고리즘, 동적분류체계 향후 발전 방향 - 학습을 통하여 문서의 특성에 맞는 주제어/분류체계를 선정 관련기술 - 학습알고리즘, 동적분류체계 향후 발전 방향 -사용자정보를 이용한 자동문서분류 분류체계의 설정 웹페이지/사이트의 주제어 할당이 용이한 체계 개발 계층적인 분류체계 동적환경에 적응

자동분류서비스 구성도

주요기능 주요기능 A/V자료 검색 : 방송/음악/비디오/강연. RAM, MP3, MOV… 이미지자료 검색 : 그림/사진, GIF, JPG… 기타 자료 검색 : 워드화일/실행화일/압축화일 등 방송/문화/예술/연예 등 멀티미디어 관련 사이트 분류 서비스 제공 멀티미디어 관련 웹페이지 검색 멀티미디어 관련 사이트 내부 검색기능 무료 제공 홈페이지 무료 광고 서비스

서비스 구현을 위한 기술 투명성의 보장 효율성의 보장 힝크의 투명성 : 링크를 통한 자유로운 페이지 이동 화면배치의 투명성 : 원본 페이지와 같은 모양을 유지 CGI 투명성 : 입출력시에도 일/한 간의 매끄러운 변황 HTTP투명성 : HTTP프로토콜이 사용자에게 드러나지 않도록 효율성의 보장 다단계 캐쉬사용 : HTTP/변환/번역 각 단계별로 캐쉬 불필요한 HTTP 트랜잭션의 최소화

Personalization(개인화) :사용자 개개인의 상황과 관심에 적합한 서비스 제공 정보 출력화면 편집 - 정보 출력방식을 사용자가 편집하고 선택 검색 정보 관리 - 찾은 정보를 저장 삭제 등 사용자가 관리 Personalization의 특성 사용자의 권한 강화 개별적 욕구충족 지속적 서비스

마이 뉴스 구성도 사용자등록 사용자 개인정보DB 사용자인증 마이뉴스 서비스정보 DB 화면편집 정보관리

발전 방향 ? “내가 원하는 정보만을 빠뜨리지 않고 빨리” 드러나는 문제점 사용자요구 AltaVIsta Yahoo! 수동 자동 정보는 너무나 많고, 모든 사람을 만족시키기 어렵다 사용자요구 “내가 원하는 정보만을 빠뜨리지 않고 빨리” precision recall speed personalization <Super Engine> Al issue(학습,이해) ↘ ↙ Ovum reports This turorial AltaVIsta Yahoo! ? 수동 자동 고속,효율 품질,효과

발전 방향 $ \ 개인화 기술 정보가공 기술 고속엔진 기술

개인화 “It keeps attracting new users by staying friendly to the AOL problem Personalization-에이전트(user/information agent) 개인화가 가능한 컴퓨팅 파라다임 사용자 모델(profile)과 학습(relevance feedback) Service customization – 주문, 맞춤형, PUSH Localization 지구 반대편 어느 조그만 마을에서 일어나는 사소한 이야기에 누가 관심을 갖겠는가. “It keeps attracting new users by staying friendly to the novice, but loses some subscribers as they become more sophisticated.” – PC Line

개인화 - 에이전트 정보 에이전트(Information agent) 다중에이전트(Multiagent) 사용자 모델링, 검색/여과 학습/적응 기능 - +/- relevance feedback, 신경망, 퍼지 이론 다중에이전트(Multiagent) DECENTRALIZED CONTROL, DISTRIBUTED TASK 각 에이전트는 DOMAIN EXPERT 사용자 에이전트는 interface “Agent-based personalized ingormation filtering and retrieval is a promising research direction to improve the retrieval effectiveness of search tools.” – IEEE Internet Computing ‘97

정보 가공 자동 분류 요약 전역/외국어 처리 멀티미디어 정보 처리 구조 문서, 정보처리 Text categorization – a grand challenge 요약 Keyword/phrase extraction Text summarization 전역/외국어 처리 99% 외국어 문서 → 다국어 검색, 자동번역 멀티미디어 정보 처리 구조 문서, 정보처리 SGML/XML (combined with) Internet Word Processing

고성능 기반 엔진 고속 대용량 색인, 검색 의미기반 검색 Ranking 자연어 처리, Lexicon/Thesauri 10 web pages world-wide(2000년) Periodic collection and indexing 10 ~10 indexes, 1 second search 의미기반 검색 자연어 처리, Lexicon/Thesauri 자연어, 개념 질의 처리 – 대화 Ranking 9~ 7 9

포털 Portal 정의 구성요소 : 4Cs [D. Hunt, Yahoo] 인터넷 서핑 관문, 처음부터 끝, … “A site that aggregates an array of content and offers a range of services to be the home page for a mary user as possible …” 구성요소 : 4Cs [D. Hunt, Yahoo] Contents – Information, multimedia, etc Communication – Free Email, Connection Community – SIG, CUG, Chatting Commerce – Yahoo Store + personalization, localization

인터넷 정보검색 기술은 앞으로도… Continue to power … 튼튼한 정보대국의 핵심요소 기술 The Internet, intranets, PCs, Portals, KMS or Enterprise computing Electronic commerce 튼튼한 정보대국의 핵심요소 기술 정보화 시대의 환경 문제 대비 필요 정보 공해