정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발

정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발
중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발 정보탐색팀 장병탁 (서울대학교 컴퓨터공학부) 김청택 (서울대학교 심리학과) 오경환 (서강대학교 컴퓨터학과) 변영태 (홍익대학교 정보/컴퓨터공학부) 2002년 11월 15일 (金)

… 정보탐색기술 연구 체계도 . . 고성능 정보검색 시스템 제품 정보 DB 구축 개인차 이용 시스템 Web 대용량 DB
웹 마이닝 문서 인덱싱 컨텐츠 정보분석 정보 추출 정보 여과 정보 분류  신경망 기반 정보 추출 및 분류 시스템 대규모 텍스트 분석 주제어 추출 모델의 자동 학습 … . . 은닉변수 기반 텍스트 마이닝 시스템 PLSA NMF ICA Multiple-cause model 인간의 정보 분류/범주화 체계 텍스트 처리 인지 기제 정보분류체계의 행동,수리적 모형 LSA, PCA, MDS Factor Analysis 인지심리분석시스템

2차년도 연구목표 은닉변수 신경망 학습 기반의 정보 검색 기술 개발
정보검색 신경망 모델의 자동학습 기법 연구 텍스트 문서의 자동 분석, 분류, 여과를 위한 기술 연구 개발 인간에게 적합한 시스템의 구축 방식과 구축시 제한점 해결 방안 연구 개인차를 이용하는 시스템의 구현 방법에 대한 연구 제안된 모형의 구현 가능성과 구현 방법에 관한 기법 연구 신경망 모델 기반의 웹 정보 마이닝 기술 개발 특정 영역의 웹 정보의 분석, 분류, 여과 방법 연구 사용자의 요구 혹은 성향에 맞게 분석된 웹 정보를 추출할 수 있는 기술에 관한 연구

시스템 구성 특정 영역 서비스 시스템의 성능 향상 양질의 많은 웹 문서의 보유 지식베이스(KB)의 확장
특정영역 정보의 웹 문서 분류 및 정보 추출 시스템 구성 특정 영역 서비스 시스템의 성능 향상 양질의 많은 웹 문서의 보유 term(텀) 위주 → 문서형태(HTML tag) 및 WordNet 계층정보 이용 지식베이스(KB)의 확장 한글 영역 데이터 패턴(tag + symbol)을 통한 정보추출 영역 전문 사이트 효율적 처리

웹 문서 분류 (1/2) SVD(Singular Value Decomposition)를 통해 문서 간의 상관관계를 구함
HTML tag, term, WordNet data의 문서 정보 matrix를 이용 K-means 알고리즘을 수정한 Clustering 방법으로 문서를 분류

웹 문서 분류 (2/2) 실험 성능 평가 “Animal Info” site Site 구성
Site 구성 : 86개 : 210개 ← 전문문서 : 174개 성능 평가

웹 문서로부터의 정보 추출 Preprocessing PatternSelect InfoExtract
“ … </td> </tr> <tr> <td> 수 명 </td> <td> 5 ~ 10년 </td> </tr> <tr> <td> 먹이 섭취량 </td> <td> … ” <1> 토끼 <2> +--A:토끼의 먹이 <3> 양질의 펠렛, 건초(알팔파, 큰조아재비, 귀리), 물, 신선한 야채로 먹이를 구성해야 한다. 그밖에는 간식으로 주고 그 양을 제한해서 줘야 한다. 토끼의 평균 먹이섭취량은 체중의 약 4%이다. 성숙한 뉴질랜드화이트는…. <2> +--P:잎이 많이 붙어 있다 <3> 잡초, 풀뿌리, 나무토막 같은 이물이 적다. <2> +--A:수 명 <3> 5 ~ 10년 … “ … </td> </tr> <tr> <td> # </td> <td> 5 ~ 10# </td> </tr> <tr> <td> # </td> <td> … ” Preprocessing Ptn1: “<tr> <td> # </td>” Ptn2: “<tr> <td> # </td>” PatternSelect InfoExtract

토픽기반 정보 분류 토픽기반 문서검색/분류 은닉변수모델에 기반한 텍스트 문서 분석  추출된 주제어 집합에 기반한 문서 검색/분류 문서 검색/분류에서 Basic VSM의 문제점 IR에서 기본적인 BOW 접근법은 단어들간의 의미관계를 파악하지 못함.  유사어를 포함한 단어들간의 유사도 측정에서 문제점 발생. 극단적인 경우, 문서간 공통 단어가 존재하지 않더라도 두 문서가 유사한 토픽일 수 있음. 가능한 해결책 문서내 단어들의 유사어들을 포함하도록 문서 표현의 확장 Thesaurus나 코퍼스에 기반한 단어간 유사도를 계산하거나, 토픽공간 상으로 문서 매핑 z1 z2 z3 zm … w1 w2 w3 w4 w5 w6 wn document latent semantic features bike ride motorcycle helmet bmw bikes road ama team hockey season nhl game pittsburgh puck play car engine cars drive speed ford make mph … Peter Gammons is more knowledgable about baseball … actually had the gall to say that one out of every six pitchers in the NL … The Braves have two catchers who have demonstrated solid abilities to call games, to work with the pitchers, to throw out runners... baseball pitcher games league catcher z: latent variable w: word

다중요인 모델 학습에 기반한 문서 유사도 측정 벡터공간상에서의 문서간 유사도 측정
다중 요인 모델 학습에 의한 문서 유사도 측정 SIM(d1, d2) = K1(d1, d2) + (1-)K2(t1, t2) d1 d2 BVSM … LVM + VSM GVSM LSI WordNet-based

문서검색에의 적용 및 성능 평가 (1/2) 4 standard dataset
MEDLINE: 1033 documents, 30 query CACM: 3204 documents, 51 query CISI: 1460 documents, 76 query CRANFIELD: 1398 documents, 225 query

11-point average precision
문서검색에의 적용 및 성능 평가 (2/2) 11-point average precision MEDLINE CACM CISI CRAN Word-space 52.7 % 16.9 % 17.5 % 33.9 % Doc-index 59.8 % 15.2 % 15.8 % 36.6 % K-Means 60.9 ± 1.11 % 13.3 ± 0.54 % 16.5 ± 0.45 % 36.9 ± 0.25 % LSI 61.5 % 17.4 % 17.8 % 36.7 % HM 65.3 ± 0.77 % 21.2 ± 0.64 % 18.8 ± 0.32 % 38.9 ± 0.50 % Statistical significance (p-value) : paired-t test Word-space Doc-index K-Means LSI MEDLINE (30) 2.4E-07 0.0012 0.0091 0.0101 CACM (51) 0.0003 6.7E-05 0.0008 CISI (76) 0.0058 0.0001 0.1269 CRANFIELD (225) 1.1E-15 6.4E-07 1.6E-0.5 1.3E-05

LSA와 축회전에 기반한 문서 분류 (1/2) 텍스트 문서에서의 LSA 활용 Idea from Psychometrics
단어들로 구성된 축 상에 텍스트 문서 표현. 데이터 차원 감소. Idea from Psychometrics 요인분석(factor analysis)에서 데이터의 분석을 보다 더 용이하게 하기 위해서는 축의 회전이 필요. 수학적 재해석 LSA: Projection-Based Ours: Feature – Attribute

LSA와 축회전에 기반한 문서 분류 (2/2) Hierarchical Cluster Analysis 기본 LSA
Obesity surgery surging in popularity Asia falls foul to fat Obesity almost as bad as smoking Misconceptions about weight problems Obesity drugs alone won't do it Ancient Apocalypse: The fall of the Egyptian Old Kingdom From warrior women to female pharaohs: A royal feud? Mummy Akhenaten and the Amarna period First gene therapy experiment for Alzheimer's The fall and rise of gene therapy Gene therapy hope for cancer patients Gene therapy shows promise against cancer LSA 후 축 회전

LSA와 축회전에 기반한 키워드 추출 (1/2) 파스칼 전자 백과사전에서 심리학, 경제학, 물리학, 언어학,진화론,컴퓨터,고고학,종교,해부학,바이러스의 Keywords로 검색하여 300개의 문서를 무선적으로 선택 SVD 실행 후 oblique rotation을 사용함 A gradient projection algorithm (Jennrich, 2001, 2002) (a)Compute G=df/dT (b)Replace T by þ(T-aG) and go to (a) or stop ( þ(X) =Xdg(X’X) )

LSA와 축회전에 기반한 키워드 추출 (2/2) 연합심리학 컴퓨터 물리학 홍역 종교의자유 유전학 언어학 불교고고학
피코르나바이러스 생산 연합 하드웨어 수두 종교인류학 유전자 국어학 비교해부학 폭스바이러스 국민소득 행동주의 퍼스널컴퓨터 원자물리학 코감기 종교민속학 진화론 고고학 개별과학 엔테로바이러스 경제학 실험심리학 외부기억장치 물성물리학 뇌염 종교학 진화 구조언어학 실험고고학 오르토믹소바이러스 가격 작용심리학 주기억장치 고전물리학 폐렴 종교철학 분자생물학 성 역사고고학 에코바이러스 분배 하틀리 마이크로프로세서 상대성이론 폴리오 생물학 의미론 화학물리학 바이러스 생산양식 의식 제어장치 우주물리학 인플루엔자 종교 신석기시대 상사 아데노바이러스 재 심리학 소프트웨어 감염증 종교교육 생명 사회언어학 명문 핵단백질 사회과학 헐 자기드럼 광자 광견병 종교사회학 핵산 선사시대 결정학 인터페론 통계 수리심리학 인터페이스 과학 수막염 종교정당 변이 구석기시대 지구과학 체제 종교심리학 연산장치 천체물리학 백신 문헌학 염색체 문화인류학 상 컴파일러 교환 환경심리학 입출력장치 장 풍진 유전 형태론 고인류학 어원 구조 관념연합 코볼 전자기학 인두염 종교도시 상동 음성학 고체물리학 민족심리학 프로그램 에너지 항바이러스제 종교합일사상 생물물리학 음운론 적자생존 항체 공간 인지심리학 미니컴퓨터 힘 약 종교미술 획득형질 동물철학 마르크스 심리언어학 에드박 열 항생물질 종교문학 분류학 응용과학 알골 도덕 베르트하이머 마이크로컴퓨터 질량 종교사학파 생물 오퍼레이터 밀 교육심리학 램 열학 비염 종교개혁 변형생성문법 형태심리학 어셈블러 빛 구내염 종교전쟁 자연선택 성서고고학 구조주의 보링 자연언어처리 소립자론 리케차 동물학 청동기 산업고고학 게슈탈트 물질

사용자 모델링 Usage Mining User Modeling - 웹 추천 시스템 Dynamic Web Contents
인터넷 정보 검색시 불필요한 작업을 최소화 하고 사용자에게 가장 필요한 정보 제공. 사용자의 프로파일과 행동을 분석 Dynamic Web Contents Recommendation System 동적으로 사용자의 행위를 예측하여 최적의 웹 정보를 제공하는 웹 추천 시스템 적용되는 제안 알고리즘 Support Vector Regression(SVR), Multiple Missing Value Imputation based on MCMC, SOM KDD Cup 데이터를 통한 성능 평가 예측의 정확성 향상 예측을 위한 학습 시간의 단축 - 동적인 웹 정보의 추천을 가능케 함

SVR을 통한 웹 페이지 접속 시간 추정 SVR 모델은 각 페이지에 대하여 구축되며, 해당 페이지를 제외한 나머지 페이지들에 대한 선호도를 축으로 하는 예측 모형으로 작성됨 그림에서 각 점은 사용자 한 명을 나타내며, 초평면에 있는 축들은 이미 사용자가 지나온 페이지 브라우징 시간, 세로축은 해당 페이지에 대한 브라우징 시간이다. 따라서 그림은 해당 페이지를 제외한 다른 페이지의 시간에 따라 해당 사용자의 해당 페이지에 관한 브라우징 시간을 예측 Example 앞의 Web page data 구조에서 Id1의 page2에 대한 선호도 예측 모형은 다음과 같다. 선호도page2 = f(page1, page3,…,pageM) 이 모형을 통해 page2에 대한 선호도를 예측할 수 있다. Id1 사용자에 대해서 나머지가 선호도 가 없는 페이지(cell이 missing인 페이지)에 대한 선호도를 계산하여 가장 큰 값을 갖는 페이지를 Id1 사용자에게 추천하게 됨

Bayesian Learning for SOM
본 연구에서 적용되는 변형된 Self Organizing feature Maps Self Organizing feature Maps의 비 수렴성 문제를 확률적 분포를 이용하여 해결함 Hybrid SOM: 신경망의 가중치 갱신이 Gaussian 확률 분포를 통하여 이루어짐  SOM의 입력 벡터가 정규화 되어 있고, 승자 노드의 결정에 유클리디안 거리를 사용하기 때문에 Gaussian 확률 분포 이론을 적용하였음

KDD Cup 2000 data에 대한 실험 웹 로그 데이터 예측 성능
인터넷 쇼핑몰 Gazelle.com 의 2개월 간의 클릭 스트림만을 모아 놓은1.2GB의 텍스트 데이터. 예측 성능 앙상블 Support Vector Regression을 이용한 웹 페이지 추천 결과가 기존에 사용되는 알고리즘에 비해 성능 향상을 보임 MSE(mean squared error)는 실제값과 예측값의 차이를 평가하는 측도로서 작을수록 모형에 대한 예측의 정확성이 높아짐 Pearson SVR ESVM MSE(전체) 1.37 1.29 0.89 MSE (상위 50%) 1.01 0.97 0.64

연구 지속 방향 효과적 데이터 수집을 위한 Web Crawling 알고리즘 개발
텍스트 분석을 위한 은닉변수 모델의 핵심 엔진 통합 및 대용량 문서 데이터에 대한 검증 TREC 데이터, 한글 백과 사전 효율적인 정보서비스 시스템을 위한 각 모듈의 적용 및 통합 사용자에 대한 효과적 정보 제공을 위한 usage mining 기술 연구 웹 검색을 위한 인지모델 개발 웹에서 사용자들의 검색 특성을 파악하고 어떤 종류의 모델이 검색의 효율성을 향상시킬 수 있는지 연구. 은닉변수모델 및 잠재의미 분석에 기반한 웹 문서의 분석 및 분류

정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발

Similar presentations

Presentation on theme: "정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발"— Presentation transcript:

Similar presentations

About project

지원

로그인

Auth with social network:

정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발

Similar presentations

Presentation on theme: "정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발"— Presentation transcript:

Similar presentations

About project

지원