정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술 뇌신경정보학연구사업 인간의 신경인지기전 모델에 기반한 추론 및 학습기술 개발 정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술 서울대학교 컴퓨터공학부 장병탁
… 정보탐색기술 연구 체계도 . . 고성능 정보검색 시스템 제품 정보 DB 구축 개인차 이용 시스템 정보 추출 정보 여과 정보 분류 신경망 기반 정보 추출 및 분류 시스템 웹 마이닝 문서 인덱싱 컨텐츠 정보분석 Web 고성능 정보검색 시스템 대용량 DB … . . 제품 정보 DB 구축 대규모 텍스트 분석 주제어 추출 인간의 정보 분류/범주화 체계 텍스트 처리 인지 기제 정보분류체계의 행동,수리적 모형 LSA, PCA, MDS Factor Analysis 모델의 자동 학습 PLSA NMF ICA 개인차 이용 시스템 Multiple-cause model 은닉변수 기반 텍스트 마이닝 시스템 인지심리분석시스템
정보탐색기술 연구 계획 1차년도 2차년도 3차년도 은닉변수 신경망 모델 연구 PLSA, NMF, ICA Multiple cause model 은닉변수 신경망 모델 기반의 정보검색 기술 개발 모델의 자동학습 기본성능 테스트 고성능 정보검색 시스템 개발 / 평가 Neuro-IR 대규모 문서데이터에 적용 웹 컨텐츠 정보의 분석, 분류, 여과 기술 개발 신경망 기반의 정보 추출 사용자의 요구에 맞는 정보추출 DB구축 및 타 과제와의 시스템 통합 제품 정보 DB 구축 DB의 효용성 확인 정보 분류의 인지심리학 수리심리학적 모형 텍스트 처리 고유의 인지기제 정보분류와 범주화에 대한 개인화 인간에 적합한 시스템 구축방식과 제한적 해결방안 연구 개인차 이용 시스템의 구현 및 평가 시스템의 수행능력 비교 연구
1차년도 연구목표 및 내용 텍스트 문서의 분석, 분류를 위한 은닉변수 신경망 모델 연구 Multiple-cause models, PLSA, NMF, ICA, HMM 등. 은닉변수 신경망 모델 기반 문서 인덱싱 기법 및 주제어 추출 연구 다양한 웹컨텐츠 정보의 분석, 분류, 여과 방법 연구 다양한 웹사이트의 컨텐츠 정보에 대한 분석 방법 연구 신경망 기반 웹컨텐츠 정보 분석, 분류, 여과 방법 연구 정보 분류에 대한 인지심리학, 수리심리학적 모형 개발 인간의 정보 분류체계에 대한 행동적/수리적 모형 개발 LSA 모형, 신경망 모형, PCA, 요인 분석, MDS 모형 등 텍스트 처리에 고유한 인지 기제 연구
토픽 기반 문서 인덱싱 및 여과 토픽추출을 위한 모델 연구 토픽 추출에서의 모델의 특징 및 성능 비교 텍스트 마이닝을 위한 신경망 기술 토픽 기반 문서 인덱싱 및 여과 토픽추출을 위한 모델 연구 PLSA, NMF, Multiple Cause Model, PCA, ICA 토픽 추출에서의 모델의 특징 및 성능 비교 PCA (Principal Component Analysis) ICA (Independent Component Analysis)
주제어 기반 문서 인덱싱 Word-based Representation Topic-based representation … … Document vector Topic vector … 3 1 … bio bible … 1 … … 0.5 0.2 0.3 0.1 … bike … 1 1 … … 0.3 0.4 0.4 0.0 … fever … 3 3 … … 0.3 1.3 0.5 0.9 … focus … 1 2 … 은닉변수모델에 의한 토픽 추출 및 차원 감소 life … 1 2 …
주제어 기반 문서여과 문서의 표현 문서간 유사도 … … 모델에 의한 표현 di1 di2 di3 dik wi1 wi2 wi3 wik 모델에 의한 표현 토픽들의 가중치(Global Weight)를 고려한 표현
문서여과 실험 데이터 집합 실험 설정 성능 척도 질의문의 종류 TREC-7 Filtering 데이터 집합 1998년 AP 기사 집합 총 79,919 문서 집합 실험 설정 어휘 크기: 20,000 토픽의 개수: 64 성능 척도 질의문의 종류 Topic No. Category 1-5,8 International Economics 6 International Finance 7 U. S. Economics 9 U. S. Politics 10-11 Science & Technology 12 Environment
주제어 추출 결과 PCA ICA
문서여과 성능 비교 Query 1 2 3 4 5 6 7 8 9 10 11 12 ICA ICA with GW PCA PCA with GW Query 1 2 3 4 5 6 7 8 9 10 11 12
User Modeling System 구조 웹정보의 분석, 분류, 여과 User Modeling System 구조 … User action like Bookmarking and Saving pages User behavior like Frequently visited pages Usage mining system Personalized service system User profile database Other collections like Click-streams User (update) 1. Adaptive information filtering agent based User Modeling 2. Predictive agent for next user requests
Adaptive Information Filtering Agent 사용자에게 유익한 관련 정보만을 선별적으로 골라내어 전달, 제공 사용자의 관심도, 선호도, 흥미 등의 파악과 시간적으로 변하는 사용자의 동적인 관심 영역의 변화에 적응적으로 대처 사용자의 무의식적인 잠재적 관심 영역까지 도출해 낼 수 있는 능력 이런 특성을 지니기 위해서는 무엇보다도 사용자에 대한 프로파일의 정확한 구축이 필 수 조건이며, 사용자 프로파일 바탕에는 사용 자의 적합성 반응이 필요
특정 영역의 웹정보 추출 WordNet 기반 비관련 영역 단어로서 특정영역 관련문서에 다수 출현 단어집합(positive term set) 특정영역 단어가 나오는 특정영역 비관련 문서에 다수 출현하는 비관련 영역 단어집합(negative term set)
WordNet과 BPN을 이용한 문서 적합성 판단 Education Movie Pet WordNet Model Animal 1 관련문서 0 비관련문서 Back-Propagation Network Model 4개,6개,8개,10개 44개 단어 비관련
링크와 클러스터링을 이용한 적극적 문서 수집 전제 단계 동물에 관하여 전문적으로 정보를 제공하는 사이트. 비교적 정해진 형식에 맞추어 다수개의 동물 정보를 제공. 단계 1. 동물 관련문서들을 수집해 올 사이트를 선택 2. 선택된 사이트의 모든 웹 문서들을 수집 3. 웹 문서의 작성 형태에 따라 클러스터링 4. 결과 그룹 중에 좋은 웹 문서를 포함한 그룹 선택 5. 선택된 그룹의 웹 문서들을 동물 관련문서로 수집 6. 1로.
실험 및 결과 가 : www.animalinfo.org 나 : www.parks.tas.gov.au 다 : animaldiversity.ummz.umich.edu 사이트 가 나 다 전체 문서 수 471 1243 3571 전문 문서 수 210 58 995 선택된 문서 수 209 47 962 기존 문서수 37 13 65 선택된 문서 – 기존 172 34 897
< > < Simpson’s Paradox 텍스트 분류에 있어서의 집합의 오류 두 개나 그 이상의 contingency table이 하나로 통합되면 원래의 표 각각에서 나타난 변인 관계가 사라지거나 역전되는 현상 부서 L Male Female Hired 550 1250 Denied 1450 2750 H/Rate 27.5% 31.25% 전회사 Male Female Hired 3500 2050 Denied 2500 2950 H/Rate 51.3% 41% < > 부서 H Male Female Hired 2950 800 Denied 1050 200 H/Rate 73.75% 80% <
Spurious Correlation x1과 x2의 관계성(상관계수 r12) 전체집단: r = - .44 x1 x2 Group A Group B x1 x2 18 19 32 37 24 34 28 31 25 30 11 14 15 22 12 13 8 10 16 21 20 23 27 29 집단 A: r12= +.62 집단 B: r12= +.38 전체집단: r = - .44
Aggregation Error의 원인 부서 H 집단 B 집단간 변인 평균의 차이 때문에 발생 x2 x1 0(male) 1(female) Sex Hiring Rate 부서 H 부서 L x2 집단 B 집단 A Aggregation error(집합 오류)의 원인은 집단마다 변인의 평균값이 다르기 때문이다. x1 부서 L/ H와 전체회사의 고용률 집단 A / B의 x1, x2 분포
Sockloff(1975) 두 변인의 평균이 모두 subgroup 1 > subgroup 2 total group correlation이 exaggerated 변인 1의 평균: subgroup 1 > subgroup 2, 변인 2의 평균: subgroup 1 = subgroup 2 total group correlation이 asymptotically zero 변인 2의 평균: subgroup 1 < subgroup 2 total group correlation이 diminished
교정방법 1: Meta-analysis Technique 상위 계층 단위별로 자료를 따로 분석한 뒤 통합 상관의 산술평균 상관의 표본크기 가중평균 (Hunter & Schmidt, 1990) cosine(arccosine의 산술평균) 단, arccosine=cosine-1 cosine(arccosine의 표본크기 가중평균)
교정방법 2: Hierarchical Linear Model 확률효과 모형 사용-HLM , 측정오차 eij~ N(0,V1) 확률적 parameter bj~N (0,V2) 첨자 i: individual(micro unit)에 대한 것 첨자 j: group(macro unit)에 대한 것