정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술

Slides:



Advertisements
Similar presentations
Copyright © 2000 UNIUS. All rights reserved UNIUS COCOSA SERVICE
Advertisements

1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.
회사소개서 ㈜비스데이타시스템
텍스트 마이닝을 활용한 신문사에 따른 내용 및 논조 차이점 분석 연세대학교 문헌정보학과 송민
의료자원 규제현황과 개선방향 자원평가실. 의료자원 관리 개요 규제개혁 토론과제.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
소규모 합병 공고 주식회사 포스코는 주식회사 포스하이메탈과 2015년 12월23일 합병계약을
Experience (경력사항 – 배역까지 자세히 쓰세요. 연주회, 학교, 교회, 동아리 등)
주제 : 독거여성노인의 현황과 대책 학 과 학 번 성 명 사회복지학과 김 진 석
MrDataBld 2.x 제품 소개 2007.
CRM 추진 제안서 OVERVIEW CRM PROCESS 고객 DB 구축 프로세스 고객 DB 분석 프로세스
CRM : 고객 관계 관리 Process Customer Relationship Management
MO/MT를 활용한 Call Center 제안
Predicting User Interests from Contextual Information
연 합 남 전 도 회 월 례 회 1부 예배- 찬 송 장 다같이 2011년 1월 2일 1부 예배- 찬 송 장 다같이 기 도
BSC 통합 성과관리 시스템 구성도 목표 시스템 구성도
Percom 2009 Slides by: BongWhan Choe at April 29,2010 (Yeonsei Univ.)
사 업 계 획 2011년 제1호 - 2월 1일 2011 주 안에서 소통하며 화합하고 참여하며 헌신하는 남신도회
사 업 계획 서 ㈜이야기 ( Iyagi co., ltd New Education Leader
Social Network Service!
Dialogue System Seminar
소리가 작으면 이어폰 사용 권장!.
MIS Report 2 제출일: 2008년 11월 04일 과목명: 경영정보시스템 교수명: 이 건창 교수님 성 명:조재선.
한국통신 멀티미디어연구소 김 영 환 인터넷 정보검색 제 10회 한글 및 한국어 정보처리 학술대회 인간과 기계와 언어 한국통신 멀티미디어연구소 김 영 환
소규모 합병 공고 주식회사 포스코는 포스코그린가스텍 주식회사와 2016년 2월26일 합병계약을
정보탐색팀 뇌신경정보학 연구사업 중과제: 인간의 신경인지기전 모델에 기반한 추론 및 학습 기술 개발
INI STEEL 성과관리시스템 구축을 위한 SAP 제안설명회
BW & CDRS 활용 사례 BW & CDRS 활용 사례 강남 세브란스병원 의료정보팀 김홍재 파트장.
CRM의 개념과 국내 도입 현황.
Knowledge Enterprise Portal Solution(iKEP)
Information Technology
Toad for SQL Server 제품 소개서 – 프로넷소프트㈜.
데이터마이닝의 소개 Data Mining Introduction
12. 데이터베이스 설계.
최 연식 ( ) EDMS를 활용한 EKP 구축 전략 2002년 09월 04일 성우시스템 주식회사 김 정훈 ( ) 최 연식 ( )
지식저장 및 활용사례 삼성SDS 아리샘 KMS 오승연 책임
XXXX SSO 구축 SSO (Single Sign-On) -사용자 인증 및 권한부여 통합 관리 시스템
설계를 위한 분석단계 사용자, 과업, 맥락.
데이터웨어하우스(DW)
데이터 웨어 하우스 이병규 김기훈.
사업계획서.
Data Modeling Database 활용을 위한 기초 이론 Database의 개요 Data Modeling
CRM에서의 Data Quality Management
인간의 신경인지기전의 모델에 기반한 추론/학습기술 개발
Web상에서의 Network Management
PCA (Principal Component Analysis)
사 업 계획 서 ㈜이야기 ( Iyagi co., ltd New Education Leader
2009, 46th KLA General Conference
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
정보 추출기술 (Data Mining Techniques ) : An Overview
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
평가제도 개선案 목 차 Ⅰ. 인사관리의 기본원칙과 방침 Ⅱ. 성과지향 평가관리시스템 Ⅲ. 성과주의 보상관리시스템
(제8강) 기술로드맵 발표 및 신기술/신제품 기획
사 업 계획 서 ㈜이야기 ( Iyagi co., ltd New Education Leader
SK Telecom 2002 온라인광고 운영사례
행 복 한 사 람 들 COOPERATION PROPOSAL 주식회사 해피플 더블적립카드소개
제안 목적 고객성향 분석으로 매출 증대 유사업체 분석으로 신상품 홍보 원가요소 분석 및 피드백으로 원가율 관리
청각기관의 구조와 기능2 옥정달.
Data Analytics for Healthcare
오줌 속에는 무엇이 들어 있을까? 주제 : 노폐물의 배설 과학 1 학년
고급 정보 검색 1. 개 요.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
뇌를 자극하는 Windows Server 장. 데이터베이스 서버.
기록관리혁신 종합실천계획
Life Cycle Cost Analysis Process 충북대학교 구조시스템공학과 시스템공학연구실
3. 도시의 내부 구조 ① 도시 내부 지역 분화의 과정과 원인.
차세대 뱅킹시스템 프로젝트의 DBMS 튜닝 이슈 극복 사례
CCNA 3 CHAPTER .1 LAN DESIGN 박명진, 문창호, 최성호.
Progress Seminar 권순빈.
그 새로움과 효과적인 비용감소및 판매 마케팅 전략
Presentation transcript:

정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술 뇌신경정보학연구사업 인간의 신경인지기전 모델에 기반한 추론 및 학습기술 개발 정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술 서울대학교 컴퓨터공학부 장병탁

… 정보탐색기술 연구 체계도 . . 고성능 정보검색 시스템 제품 정보 DB 구축 개인차 이용 시스템 정보 추출 정보 여과 정보 분류  신경망 기반 정보 추출 및 분류 시스템 웹 마이닝 문서 인덱싱 컨텐츠 정보분석 Web 고성능 정보검색 시스템 대용량 DB … . . 제품 정보 DB 구축 대규모 텍스트 분석 주제어 추출 인간의 정보 분류/범주화 체계 텍스트 처리 인지 기제 정보분류체계의 행동,수리적 모형 LSA, PCA, MDS Factor Analysis 모델의 자동 학습 PLSA NMF ICA 개인차 이용 시스템 Multiple-cause model 은닉변수 기반 텍스트 마이닝 시스템 인지심리분석시스템

정보탐색기술 연구 계획 1차년도 2차년도 3차년도 은닉변수 신경망 모델 연구 PLSA, NMF, ICA Multiple cause model 은닉변수 신경망 모델 기반의 정보검색 기술 개발 모델의 자동학습 기본성능 테스트 고성능 정보검색 시스템 개발 / 평가 Neuro-IR 대규모 문서데이터에 적용 웹 컨텐츠 정보의 분석, 분류, 여과 기술 개발 신경망 기반의 정보 추출 사용자의 요구에 맞는 정보추출 DB구축 및 타 과제와의 시스템 통합 제품 정보 DB 구축 DB의 효용성 확인 정보 분류의 인지심리학 수리심리학적 모형 텍스트 처리 고유의 인지기제 정보분류와 범주화에 대한 개인화 인간에 적합한 시스템 구축방식과 제한적 해결방안 연구 개인차 이용 시스템의 구현 및 평가 시스템의 수행능력 비교 연구

1차년도 연구목표 및 내용 텍스트 문서의 분석, 분류를 위한 은닉변수 신경망 모델 연구 Multiple-cause models, PLSA, NMF, ICA, HMM 등. 은닉변수 신경망 모델 기반 문서 인덱싱 기법 및 주제어 추출 연구 다양한 웹컨텐츠 정보의 분석, 분류, 여과 방법 연구 다양한 웹사이트의 컨텐츠 정보에 대한 분석 방법 연구 신경망 기반 웹컨텐츠 정보 분석, 분류, 여과 방법 연구 정보 분류에 대한 인지심리학, 수리심리학적 모형 개발 인간의 정보 분류체계에 대한 행동적/수리적 모형 개발 LSA 모형, 신경망 모형, PCA, 요인 분석, MDS 모형 등 텍스트 처리에 고유한 인지 기제 연구

토픽 기반 문서 인덱싱 및 여과 토픽추출을 위한 모델 연구 토픽 추출에서의 모델의 특징 및 성능 비교 텍스트 마이닝을 위한 신경망 기술 토픽 기반 문서 인덱싱 및 여과 토픽추출을 위한 모델 연구 PLSA, NMF, Multiple Cause Model, PCA, ICA 토픽 추출에서의 모델의 특징 및 성능 비교 PCA (Principal Component Analysis) ICA (Independent Component Analysis)

주제어 기반 문서 인덱싱 Word-based Representation Topic-based representation … … Document vector Topic vector … 3 1 … bio bible … 1 … … 0.5 0.2 0.3 0.1 … bike … 1 1 … … 0.3 0.4 0.4 0.0 … fever … 3 3 … … 0.3 1.3 0.5 0.9 … focus … 1 2 … 은닉변수모델에 의한 토픽 추출 및 차원 감소 life … 1 2 …

주제어 기반 문서여과 문서의 표현 문서간 유사도 … … 모델에 의한 표현 di1 di2 di3 dik wi1 wi2 wi3 wik 모델에 의한 표현 토픽들의 가중치(Global Weight)를 고려한 표현

문서여과 실험 데이터 집합 실험 설정 성능 척도 질의문의 종류 TREC-7 Filtering 데이터 집합 1998년 AP 기사 집합 총 79,919 문서 집합 실험 설정 어휘 크기: 20,000 토픽의 개수: 64 성능 척도 질의문의 종류 Topic No. Category 1-5,8 International Economics 6 International Finance 7 U. S. Economics 9 U. S. Politics 10-11 Science & Technology 12 Environment

주제어 추출 결과 PCA ICA

문서여과 성능 비교 Query 1 2 3 4 5 6 7 8 9 10 11 12 ICA ICA with GW PCA PCA with GW Query 1 2 3 4 5 6 7 8 9 10 11 12

User Modeling System 구조 웹정보의 분석, 분류, 여과 User Modeling System 구조 … User action like Bookmarking and Saving pages User behavior like Frequently visited pages Usage mining system Personalized service system User profile database Other collections like Click-streams User (update) 1. Adaptive information filtering agent based User Modeling 2. Predictive agent for next user requests

Adaptive Information Filtering Agent 사용자에게 유익한 관련 정보만을 선별적으로 골라내어 전달, 제공 사용자의 관심도, 선호도, 흥미 등의 파악과 시간적으로 변하는 사용자의 동적인 관심 영역의 변화에 적응적으로 대처 사용자의 무의식적인 잠재적 관심 영역까지 도출해 낼 수 있는 능력 이런 특성을 지니기 위해서는 무엇보다도 사용자에 대한 프로파일의 정확한 구축이 필 수 조건이며, 사용자 프로파일 바탕에는 사용 자의 적합성 반응이 필요

특정 영역의 웹정보 추출 WordNet 기반 비관련 영역 단어로서 특정영역 관련문서에 다수 출현 단어집합(positive term set) 특정영역 단어가 나오는 특정영역 비관련 문서에 다수 출현하는 비관련 영역 단어집합(negative term set)

WordNet과 BPN을 이용한 문서 적합성 판단 Education Movie Pet WordNet Model Animal 1 관련문서 0 비관련문서 Back-Propagation Network Model 4개,6개,8개,10개 44개 단어 비관련

링크와 클러스터링을 이용한 적극적 문서 수집 전제 단계 동물에 관하여 전문적으로 정보를 제공하는 사이트. 비교적 정해진 형식에 맞추어 다수개의 동물 정보를 제공. 단계 1. 동물 관련문서들을 수집해 올 사이트를 선택 2. 선택된 사이트의 모든 웹 문서들을 수집 3. 웹 문서의 작성 형태에 따라 클러스터링 4. 결과 그룹 중에 좋은 웹 문서를 포함한 그룹 선택 5. 선택된 그룹의 웹 문서들을 동물 관련문서로 수집 6. 1로.

실험 및 결과 가 : www.animalinfo.org 나 : www.parks.tas.gov.au 다 : animaldiversity.ummz.umich.edu 사이트 가 나 다 전체 문서 수 471 1243 3571 전문 문서 수 210 58 995 선택된 문서 수 209 47 962 기존 문서수 37 13 65 선택된 문서 – 기존 172 34 897

< > < Simpson’s Paradox 텍스트 분류에 있어서의 집합의 오류   두 개나 그 이상의 contingency table이 하나로 통합되면 원래의 표 각각에서 나타난 변인 관계가 사라지거나 역전되는 현상    부서 L Male Female Hired 550 1250 Denied 1450 2750 H/Rate 27.5% 31.25%  전회사 Male Female Hired 3500 2050 Denied 2500 2950 H/Rate 51.3% 41% < > 부서 H Male Female Hired 2950 800 Denied 1050 200 H/Rate 73.75% 80% <

Spurious Correlation x1과 x2의 관계성(상관계수 r12) 전체집단: r = - .44 x1 x2 Group A Group B x1 x2 18 19 32 37 24 34 28 31 25 30 11 14 15 22 12 13 8 10 16 21 20 23 27 29 집단 A: r12= +.62 집단 B: r12= +.38 전체집단: r = - .44

Aggregation Error의 원인 부서 H 집단 B 집단간 변인 평균의 차이 때문에 발생 x2 x1 0(male) 1(female) Sex Hiring Rate 부서 H 부서 L x2 집단 B 집단 A Aggregation error(집합 오류)의 원인은 집단마다 변인의 평균값이 다르기 때문이다. x1 부서 L/ H와 전체회사의 고용률 집단 A / B의 x1, x2 분포

Sockloff(1975) 두 변인의 평균이 모두 subgroup 1 > subgroup 2  total group correlation이 exaggerated 변인 1의 평균: subgroup 1 > subgroup 2, 변인 2의 평균: subgroup 1 = subgroup 2  total group correlation이 asymptotically zero 변인 2의 평균: subgroup 1 < subgroup 2  total group correlation이 diminished

교정방법 1: Meta-analysis Technique 상위 계층 단위별로 자료를 따로 분석한 뒤 통합 상관의 산술평균 상관의 표본크기 가중평균 (Hunter & Schmidt, 1990) cosine(arccosine의 산술평균) 단, arccosine=cosine-1 cosine(arccosine의 표본크기 가중평균)

교정방법 2: Hierarchical Linear Model 확률효과 모형 사용-HLM , 측정오차 eij~ N(0,V1) 확률적 parameter bj~N (0,V2) 첨자 i: individual(micro unit)에 대한 것 첨자 j: group(macro unit)에 대한 것