정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발

Slides:



Advertisements
Similar presentations
전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원 발표일 :
Advertisements

텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 연세대학교 문헌정보학과 송민
인공지능 소개 부산대학교 인공지능연구실. 인공 + 지능 인공지능이란 ? 2.
PROQUEST MEDICAL LIBRARY 이용 매뉴얼 ProQuest 한국지사 Tel:
제 11 장 여성복지. Contents 1. 여성복지의 이해 2. 우리나라 여성 복지의 발달 3. 여성복지의 접근방법 4. 여성복지의 과제 2.
Ch.4 수요관리와 수요예측 Ch.2 수요예측생산 ∙ 운영관리 1. 제 1 절 수요관리의 개념과 중요성 1. 수요관리의 필요성 정확한 수요예측은 사업의 성과를 좌우하는 매우 중요한 과제이다. – 수요는 판매량과 다르다. – 하지만 온갖 불확실성 요소가 난무하는 사업환경에서.
Stanford-Berkeley 친선 체육대회안 Aug 20 th, 2005 Stanford Campus.
정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
Web Project 작업3: Design기획 Article 토론 Group Project 토론
영상 광고사업 추진계획 2010 ㈜ 지오피스
[새문안교회 정보화 사역 계획(안)] 2007년도 영상선교부
Multiple features Linear Regression with multiple variables (다변량 선형회귀)
Dialogue System Seminar
아하! 청소년의 성교육은 이렇게!.
원가와 구매관리 원가의 이해 식자재 구매과정 검수절차 식음자재 확인 반품 보고서 작성 검수관리 입고관리 출고관리 재고관리
Notice Quick Link 1 공지사항을 출력한다. 게시판이 아닌 페이지의 모음으로 관리한다. 2
한국통신 멀티미디어연구소 김 영 환 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 한국통신 멀티미디어연구소 김 영 환
개발자에게 SharePoint Services 란 무엇인가?
분류 (Classification) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
웹사이트 구축 제안서 (결혼정보 사이트구축) First Web Agency.
제주지역대학 제주 새별오름 들불축제 지역 식생(植生) 변화 조사 연구
제4장 자연언어처리, 인공지능, 기계학습.
(Statistical Modeling)
데이터마이닝의 소개 Data Mining Introduction
제 8장. 멀티미디어 데이터베이스 및 정보검색 시스템
데이터 웨어 하우스 이병규 김기훈.
EPS Based Motion Recognition algorithm Comparison
연구소의 R&D 관리 - 과제 선정/개발/상품화 -
포항공과대학교 COMPUTER VISION LAB. 석박통합과정 여동훈
6장. 물리적 데이터베이스 설계 물리적 데이터베이스 설계
One more step 영어 8-b Lesson11 Loving is Doing >ONE MORE STEP>8/8
인간의 신경인지기전의 모델에 기반한 추론/학습기술 개발
Technological Forecasting & social change(2014)
I. Find out information about hydraulic management facilities (monitoring and control devices)    in Internet such as Dam, weir, gate, pump, turbine(6장),
개요 신경회로망(Neural Networks)
제 3 장 신경회로망 (Neural Networks)
Cluster Analysis (군집 분석)
4-1 Gaussian Distribution
Buyerstart ㈜바이어스타트.
Parallel software Lab. 박 창 규
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
Data Mining Final Project
Help! Help! Finish Line 영어 7-a단계
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
정보 추출기술 (Data Mining Techniques ) : An Overview
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
통계DB관리 시스템 소개 통계포털운영과 1.
뇌신경정보학연구사업 인지/추론 : 추론 기술 2002년 11월 15일 숭실대학교 컴퓨터학과 김명원.
I S WORD 이재근, 김 진수.
Progress Seminar 신희안.
학교 밖의 여럿이 쓰는 물건 알기 바른 생활 1학년 2학기
Insight Deep MininG 건강을 위한 마이너스, 무첨가 식품 인사이트코리아/식품음료신문 공동 기획 기사
정보처리학회논문지 B 제10-B권 제1호(2003.2) 김만선, 이상용
사회복지사무소 시범사업 안내 보 건 복 지 부
0801 Workshop.
Welcome to Virus World 바이러스의 세계로 초대합니다.
Search Engine 4조 해외 여행 준비 4조와 함께 ! 하나투어와 모두투어 비교를 중심으로.
전자정보 통합검색(Meta Search ) 이용 안내
빅데이터 딥러닝 기술활용 스마트 T-커머스 서비스
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
진행상황 박노열.
우리 같이 야구 봐요!!! 언제? 어디에서? 2011년 08월 09일 잠실야구장.
Advanced Data Analytics 데이터분석 전문가
Bug Localization Based on Code Change Histories and Bug Reports
SQL Server Reporting Services Feature
강의자료 학교변화와 혁신: 학습조직을 중심으로.
Chapter 4. Energy and Potential
Model representation Linear regression with one variable
Presentation transcript:

정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발 정보탐색팀 장병탁 (서울대학교 컴퓨터공학부) 김청택 (서울대학교 심리학과) 오경환 (서강대학교 컴퓨터학과) 변영태 (홍익대학교 정보/컴퓨터공학부) 2002년 11월 15일 (金)

… 정보탐색기술 연구 체계도 . . 고성능 정보검색 시스템 제품 정보 DB 구축 개인차 이용 시스템 Web 대용량 DB 웹 마이닝 문서 인덱싱 컨텐츠 정보분석 정보 추출 정보 여과 정보 분류  신경망 기반 정보 추출 및 분류 시스템 대규모 텍스트 분석 주제어 추출 모델의 자동 학습 … . . 은닉변수 기반 텍스트 마이닝 시스템 PLSA NMF ICA Multiple-cause model 인간의 정보 분류/범주화 체계 텍스트 처리 인지 기제 정보분류체계의 행동,수리적 모형 LSA, PCA, MDS Factor Analysis 인지심리분석시스템

2차년도 연구목표 은닉변수 신경망 학습 기반의 정보 검색 기술 개발 정보검색 신경망 모델의 자동학습 기법 연구 텍스트 문서의 자동 분석, 분류, 여과를 위한 기술 연구 개발 인간에게 적합한 시스템의 구축 방식과 구축시 제한점 해결 방안 연구 개인차를 이용하는 시스템의 구현 방법에 대한 연구 제안된 모형의 구현 가능성과 구현 방법에 관한 기법 연구 신경망 모델 기반의 웹 정보 마이닝 기술 개발 특정 영역의 웹 정보의 분석, 분류, 여과 방법 연구 사용자의 요구 혹은 성향에 맞게 분석된 웹 정보를 추출할 수 있는 기술에 관한 연구

시스템 구성 특정 영역 서비스 시스템의 성능 향상 양질의 많은 웹 문서의 보유 지식베이스(KB)의 확장 특정영역 정보의 웹 문서 분류 및 정보 추출 시스템 구성 특정 영역 서비스 시스템의 성능 향상 양질의 많은 웹 문서의 보유 term(텀) 위주 → 문서형태(HTML tag) 및 WordNet 계층정보 이용 지식베이스(KB)의 확장 한글 영역 데이터 패턴(tag + symbol)을 통한 정보추출 영역 전문 사이트 효율적 처리 http://www.animalinfo.org http://animaldiversity.ummz.umich.edu http://www.nature21.com

웹 문서 분류 (1/2) SVD(Singular Value Decomposition)를 통해 문서 간의 상관관계를 구함 HTML tag, term, WordNet data의 문서 정보 matrix를 이용 K-means 알고리즘을 수정한 Clustering 방법으로 문서를 분류

웹 문서 분류 (2/2) 실험 성능 평가 “Animal Info” site Site 구성 http://www.animalinfo.org Site 구성 www.animalinfo.org/ : 86개 www.animalinfo.org/species/ : 210개 ← 전문문서 www.animalinfo.org/country/ : 174개 성능 평가

웹 문서로부터의 정보 추출 Preprocessing PatternSelect InfoExtract “ … </font> </td> </tr> <tr> <td> <font> 수 명 </font> </td> <td> <font> 5 ~ 10년 </font> </td> </tr> <tr> <td> <font> 먹이 섭취량 </font> </td> <td> … ” <1> 토끼 <2> +--A:토끼의 먹이 <3> 양질의 펠렛, 건초(알팔파, 큰조아재비, 귀리), 물, 신선한 야채로 먹이를 구성해야 한다. 그밖에는 간식으로 주고 그 양을 제한해서 줘야 한다. 토끼의 평균 먹이섭취량은 체중의 약 4%이다. 성숙한 뉴질랜드화이트는…. <2> +--P:잎이 많이 붙어 있다 <3> 잡초, 풀뿌리, 나무토막 같은 이물이 적다.   <2> +--A:수 명 <3> 5 ~ 10년 … “ … </font> </td> </tr> <tr> <td> <font> # </font> </td> <td> <font> 5 ~ 10# </font> </td> </tr> <tr> <td> <font> # </font> </td> <td> … ” Preprocessing Ptn1: “<tr> <td> <font> # </font> </td>” Ptn2: “<tr> <td> <font> # </font> </td>” PatternSelect InfoExtract

토픽기반 정보 분류 토픽기반 문서검색/분류 은닉변수모델에 기반한 텍스트 문서 분석  추출된 주제어 집합에 기반한 문서 검색/분류 문서 검색/분류에서 Basic VSM의 문제점 IR에서 기본적인 BOW 접근법은 단어들간의 의미관계를 파악하지 못함.  유사어를 포함한 단어들간의 유사도 측정에서 문제점 발생. 극단적인 경우, 문서간 공통 단어가 존재하지 않더라도 두 문서가 유사한 토픽일 수 있음. 가능한 해결책 문서내 단어들의 유사어들을 포함하도록 문서 표현의 확장 Thesaurus나 코퍼스에 기반한 단어간 유사도를 계산하거나, 토픽공간 상으로 문서 매핑 z1 z2 z3 zm … w1 w2 w3 w4 w5 w6 . . . . . wn document latent semantic features bike ride motorcycle helmet bmw bikes road ama team hockey season nhl game pittsburgh puck play car engine cars drive speed ford make mph … Peter Gammons is more knowledgable about baseball … actually had the gall to say that one out of every six pitchers in the NL … The Braves have two catchers who have demonstrated solid abilities to call games, to work with the pitchers, to throw out runners... baseball pitcher games league catcher z: latent variable w: word

다중요인 모델 학습에 기반한 문서 유사도 측정 벡터공간상에서의 문서간 유사도 측정 다중 요인 모델 학습에 의한 문서 유사도 측정 SIM(d1, d2) = K1(d1, d2) + (1-)K2(t1, t2) d1 d2 BVSM … LVM + VSM GVSM LSI WordNet-based

문서검색에의 적용 및 성능 평가 (1/2) 4 standard dataset MEDLINE: 1033 documents, 30 query CACM: 3204 documents, 51 query CISI: 1460 documents, 76 query CRANFIELD: 1398 documents, 225 query

11-point average precision 문서검색에의 적용 및 성능 평가 (2/2) 11-point average precision MEDLINE CACM CISI CRAN Word-space 52.7 % 16.9 % 17.5 % 33.9 % Doc-index 59.8 % 15.2 % 15.8 % 36.6 % K-Means 60.9 ± 1.11 % 13.3 ± 0.54 % 16.5 ± 0.45 % 36.9 ± 0.25 % LSI 61.5 % 17.4 % 17.8 % 36.7 % HM 65.3 ± 0.77 % 21.2 ± 0.64 % 18.8 ± 0.32 % 38.9 ± 0.50 % Statistical significance (p-value) : paired-t test Word-space Doc-index K-Means LSI MEDLINE (30) 2.4E-07 0.0012 0.0091 0.0101 CACM (51) 0.0003 6.7E-05 0.0008 CISI (76) 0.0058 0.0001 0.1269 CRANFIELD (225) 1.1E-15 6.4E-07 1.6E-0.5 1.3E-05

LSA와 축회전에 기반한 문서 분류 (1/2) 텍스트 문서에서의 LSA 활용 Idea from Psychometrics 단어들로 구성된 축 상에 텍스트 문서 표현. 데이터 차원 감소. Idea from Psychometrics 요인분석(factor analysis)에서 데이터의 분석을 보다 더 용이하게 하기 위해서는 축의 회전이 필요. 수학적 재해석 LSA: Projection-Based Ours: Feature – Attribute

LSA와 축회전에 기반한 문서 분류 (2/2) Hierarchical Cluster Analysis 기본 LSA Obesity surgery surging in popularity Asia falls foul to fat Obesity almost as bad as smoking Misconceptions about weight problems Obesity drugs alone won't do it Ancient Apocalypse: The fall of the Egyptian Old Kingdom From warrior women to female pharaohs: A royal feud? Mummy Akhenaten and the Amarna period First gene therapy experiment for Alzheimer's The fall and rise of gene therapy Gene therapy hope for cancer patients Gene therapy shows promise against cancer LSA 후 축 회전

LSA와 축회전에 기반한 키워드 추출 (1/2) 파스칼 전자 백과사전에서 심리학, 경제학, 물리학, 언어학,진화론,컴퓨터,고고학,종교,해부학,바이러스의 Keywords로 검색하여 300개의 문서를 무선적으로 선택 SVD 실행 후 oblique rotation을 사용함 A gradient projection algorithm (Jennrich, 2001, 2002) (a)Compute G=df/dT (b)Replace T by þ(T-aG) and go to (a) or stop ( þ(X) =Xdg(X’X) )

LSA와 축회전에 기반한 키워드 추출 (2/2) 연합심리학 컴퓨터 물리학 홍역 종교의자유 유전학 언어학 불교고고학 피코르나바이러스 생산 연합 하드웨어 수두 종교인류학 유전자 국어학 비교해부학 폭스바이러스 국민소득 행동주의 퍼스널컴퓨터 원자물리학 코감기 종교민속학 진화론 고고학 개별과학 엔테로바이러스 경제학 실험심리학 외부기억장치 물성물리학 뇌염 종교학 진화 구조언어학 실험고고학 오르토믹소바이러스 가격 작용심리학 주기억장치 고전물리학 폐렴 종교철학 분자생물학 성 역사고고학 에코바이러스 분배 하틀리 마이크로프로세서 상대성이론 폴리오 생물학 의미론 화학물리학 바이러스 생산양식 의식 제어장치 우주물리학 인플루엔자 종교 신석기시대 상사 아데노바이러스 재 심리학 소프트웨어 감염증 종교교육 생명 사회언어학 명문 핵단백질 사회과학 헐 자기드럼 광자 광견병 종교사회학 핵산 선사시대 결정학 인터페론 통계 수리심리학 인터페이스 과학 수막염 종교정당 변이 구석기시대 지구과학 체제 종교심리학 연산장치 천체물리학 백신 문헌학 염색체 문화인류학 상 컴파일러 교환 환경심리학 입출력장치 장 풍진 유전 형태론 고인류학 어원 구조 관념연합 코볼 전자기학 인두염 종교도시 상동 음성학 고체물리학 민족심리학 프로그램 에너지 항바이러스제 종교합일사상 생물물리학 음운론 적자생존 항체 공간 인지심리학 미니컴퓨터 힘 약 종교미술 획득형질 동물철학 마르크스 심리언어학 에드박 열 항생물질 종교문학 분류학 응용과학 알골 도덕 베르트하이머 마이크로컴퓨터 질량 종교사학파 생물 오퍼레이터 밀 교육심리학 램 열학 비염 종교개혁 변형생성문법 형태심리학 어셈블러 빛 구내염 종교전쟁 자연선택 성서고고학 구조주의 보링 자연언어처리 소립자론 리케차 동물학 청동기 산업고고학 게슈탈트 물질

사용자 모델링 Usage Mining User Modeling - 웹 추천 시스템 Dynamic Web Contents 인터넷 정보 검색시 불필요한 작업을 최소화 하고 사용자에게 가장 필요한 정보 제공. 사용자의 프로파일과 행동을 분석 Dynamic Web Contents Recommendation System 동적으로 사용자의 행위를 예측하여 최적의 웹 정보를 제공하는 웹 추천 시스템 적용되는 제안 알고리즘 Support Vector Regression(SVR), Multiple Missing Value Imputation based on MCMC, SOM KDD Cup 데이터를 통한 성능 평가 예측의 정확성 향상 예측을 위한 학습 시간의 단축 - 동적인 웹 정보의 추천을 가능케 함

SVR을 통한 웹 페이지 접속 시간 추정 SVR 모델은 각 페이지에 대하여 구축되며, 해당 페이지를 제외한 나머지 페이지들에 대한 선호도를 축으로 하는 예측 모형으로 작성됨 그림에서 각 점은 사용자 한 명을 나타내며, 초평면에 있는 축들은 이미 사용자가 지나온 페이지 브라우징 시간, 세로축은 해당 페이지에 대한 브라우징 시간이다. 따라서 그림은 해당 페이지를 제외한 다른 페이지의 시간에 따라 해당 사용자의 해당 페이지에 관한 브라우징 시간을 예측 Example 앞의 Web page data 구조에서 Id1의 page2에 대한 선호도 예측 모형은 다음과 같다. 선호도page2 = f(page1, page3,…,pageM) 이 모형을 통해 page2에 대한 선호도를 예측할 수 있다. Id1 사용자에 대해서 나머지가 선호도 가 없는 페이지(cell이 missing인 페이지)에 대한 선호도를 계산하여 가장 큰 값을 갖는 페이지를 Id1 사용자에게 추천하게 됨

Bayesian Learning for SOM 본 연구에서 적용되는 변형된 Self Organizing feature Maps Self Organizing feature Maps의 비 수렴성 문제를 확률적 분포를 이용하여 해결함 Hybrid SOM: 신경망의 가중치 갱신이 Gaussian 확률 분포를 통하여 이루어짐  SOM의 입력 벡터가 정규화 되어 있고, 승자 노드의 결정에 유클리디안 거리를 사용하기 때문에 Gaussian 확률 분포 이론을 적용하였음

KDD Cup 2000 data에 대한 실험 웹 로그 데이터 예측 성능 인터넷 쇼핑몰 Gazelle.com 의 2개월 간의 클릭 스트림만을 모아 놓은1.2GB의 텍스트 데이터. 예측 성능 앙상블 Support Vector Regression을 이용한 웹 페이지 추천 결과가 기존에 사용되는 알고리즘에 비해 성능 향상을 보임 MSE(mean squared error)는 실제값과 예측값의 차이를 평가하는 측도로서 작을수록 모형에 대한 예측의 정확성이 높아짐 Pearson SVR ESVM MSE(전체) 1.37 1.29 0.89 MSE (상위 50%) 1.01 0.97 0.64

연구 지속 방향 효과적 데이터 수집을 위한 Web Crawling 알고리즘 개발 텍스트 분석을 위한 은닉변수 모델의 핵심 엔진 통합 및 대용량 문서 데이터에 대한 검증 TREC 데이터, 한글 백과 사전 효율적인 정보서비스 시스템을 위한 각 모듈의 적용 및 통합 사용자에 대한 효과적 정보 제공을 위한 usage mining 기술 연구 웹 검색을 위한 인지모델 개발 웹에서 사용자들의 검색 특성을 파악하고 어떤 종류의 모델이 검색의 효율성을 향상시킬 수 있는지 연구. 은닉변수모델 및 잠재의미 분석에 기반한 웹 문서의 분석 및 분류