Predicting User Interests from Contextual Information

Slides:



Advertisements
Similar presentations
1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.
Advertisements

1 ‘ 우리나라의 주요공업 ’ - 정도웅, 주민혁, 안수진, 백경민, 엄다운, 박경찬 -.
수유부의 약물복용 시 주의점 발표자 조기성. 모유 수유의 장점 모유 수유의 장점은 ? 위장관 질환 발생감소 영아 돌연사 발생감소 아토피 질환 발생감소 정서적 안정.
게임 엔진 Term Project 한국산업기술대학교 검술의 달인 학번 : 이름 : 문정훈 학번 : 이름 : 문정훈.
Contents 사 업 개 요 S T P 전략 마케팅 전략 I II III 사업추진 계획 IV.
- 을까요 ? ① Sogang Korean 1B UNIT 5 “– 을까요① ?” 같이 춤 출까요 ? 네, 좋아요.
What Opinion mining? Abstract 이 논문에서는... 1.Different granularity levels (word, sentence, document) 2. Discussion about terms of challenges 3. Discussion.
■ 지도교사 : 박정희 광덕고등학교 동아리 –어벤져스-
정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술
Web 2.0.
빅 데이터 전략 연구실 소개 허순영 교수 KAIST 정보미디어 경영대학원 (서울시 동대문구 홍릉 소재) May 10, 2013
인사전략과 인적자원개발 Wisdom21 Management Consulting
Dialogue System Seminar
공부할 내용 조상들이 살던 곳 자연과 잘 어울리는 한옥 지방에 따라 서로 다른 집의 모양 섬 지방의 집
사랑, 데이트와 성적 자율성 :데이트 성폭력!!! 성폭력예방교육 전문강사 / 여성학 전공 신 순 옥.
핵심인재와 한국형(韓國型) 성과주의 인사 전략
방사성폐기물 처분의 안전성평가 - 수학적 모델의 사용 -
Kim Yang Ki 돈,뜨겁게 사랑하고 차갑게 다루어라 Kim Yang Ki
퇴계와 율곡의 사회사상 비교 남 일 재 동서대학교 교수/ 정치학 박사 1. 퇴계 이황과 율곡 이이의 약전(略傳)
통합연구사업지원 정산 사용자 설명서 (기관사용자).
501. 군인들의 세상 502. 민정 이양과 한일회담 이선용.
2015년 하반기 소방교육 자 유 전 공 학 부 (금) 안녕하십니까 자유전공학부 행정실 입니다.
Google Analytics Seminar
Information Retrieval (Chapter 4: 질의언어)
7장 : 캐시와 메모리.
1 PROJECT TITLE 기획 PAGE NO. 웹 페이지 구성 화 면 번호 화 면 설 명 연 결 화 면 L1 L4 L7
12. 데이터베이스 설계.
설계를 위한 분석단계 사용자, 과업, 맥락.
Linked Data 4 Principles
LOTOTO “디지털 음원 유통 플랫폼” ( Oct, 2004 LOTOTO Co., Ltd.
CAVE : Channel-Aware Buffer Management Scheme for Solid State Disk
Technological Forecasting & social change(2014)
CH 851 지식기반 시스템 응용 (모바일 시스템) 2006년도 제 2학기.
I. Find out information about hydraulic management facilities (monitoring and control devices)    in Internet such as Dam, weir, gate, pump, turbine(6장),
㈜ 인터넷 메트릭스 이상경 인터넷 광고의 실제와 효과 ㈜ 인터넷 메트릭스 이상경 - 효율적 인터넷 광고를 위한 미디어 믹스.
클라우드 컴퓨팅 환경에서의 RBAC 기반 적응적 보안 관리 모델
TREC (Text Retrieval Conference) 소개
계약의 성립 청약 승낙 계약의 성립요건인 의사의 합치여부에 대한 판단 계약의 효력발생 시기
정보 검색 연구 내용 및 연구 방향 충남대학교 정보통신공학부 맹 성 현 데이타베이스연구회 2000년도 춘계 튜토리얼
과거사 청산, 밝은 미래를 위하여 역사 청산 비교 분석-독일과 우리나라.
Course Guide - Algorithms and Practice -
Copyright ⓒ iParadigms LLC 2014
SK Telecom 2002 온라인광고 운영사례
7주차 소비자 반응 모형5 : 기억.
Problem-Based Learning
Statistical inference I (통계적 추론)
정치개혁의 가능성 논의 권력구조 개편을 통하여 본 -개헌을 통한 정부형태의 변화를 중심으로 [한국정치론] 윤성이 교수님
시스템 분석 및 설계 글로컬 IT 학과 김정기.
통합연구사업지원 정산 사용자 설명서 (연구책임자).
Search Engine: Course Overview
노년기 발달 장안대 행정법률과 세류반 정 오 손
병원인적자원관리 3강. 교육훈련 경희대학교 의료경영센터 백 미 라.
웹 검색의 구조.
Professor: Dongman Lee
태국 문학 욜라다 왓짜니 싸란차나 팟차라와라이 끼따야펀 르앙다우 타니다.
그 미소가 아이가 사랑을 배우는 힘이 되게 하소서!
과목명: IT 표준 (표준화강좌) 교재: 미래사회와 표준, KSA 한국표준협회, 2007
정보 디자인.
Bug Localization Based on Code Change Histories and Bug Reports
워밍업 실뭉치 전달게임.
내 마음 다해 내마음다해 주이름찬양해- 주사랑 깊어 말로다못하 네 주앞서 1-4.
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
1. 전문대학기초학습지원센터 접속하기 전문대학 기초학습지원센터 접속 접속URL : LOG-IN 클릭.
음파성명학 최종욱.
코 칭 결 과 센 터 구성센터 (모바일) 코칭대상 프로 (엔지니어) 코칭일시
조직의 구조화 정부조직론 page 119~167 제 3절~4절 ㅁㅁ Team member 1 윤남현 Team member 2
차세대 응급의료정보망 구축 4차 사업 통합로그인 이용메뉴얼 v1.1.
가상 기억장치 (Virtual Memory)
페이지랭킹 by google 김진태 국민대학교.
Presentation transcript:

Predicting User Interests from Contextual Information 서울시립대학교 인공지능연구실 박희훈

Motivation Information behavior은 외부적인 상황에 포함되어 짐 상황은 문제를 동기 부여 하고, 상호작용에 영향을 줌 IR(Information Retrieval) community는 상황(context)에 대해 이론화 시킴 상황의 민감한 검색과, 상황 검색의 유저 연구 User interest models 은 질문 후의 행동과 상황적인 정보에 영향을 받는 일반적인 브라우징을 강화시킴 e.g., 개인화, 정보 필터링, etc. User interest modeling에 대한 서로 다른 상황적인 소스의 가치가 아주 적게 알려져 있음 IR(정보검색)

Overview 다섯 가지의 상황적 소스와 유저관심모델링이 웹 상호작용하는 동안 하나의 체계적이고 로그가 기초된 연구 유저를 추측하는 것은 URL을 통해 봄 다섯 가지의 상황적 URL에 대한 예측 값 평가 : Interaction : URL이전에 최근 상호작용 Collection : URL에 link된 page Task : URL의 검색엔진 질의와 공유된 페이지 Historic : 최근 유저들의 지속적이고 오랜 기간 동안 보인 관심 Social : 오랜 기간 동안 URL을 방문한 사람들의 관심을 조합하는것

Data Sources 널리 분포된 브라우저 툴바에 방문한 유저들의 이름모를 URL 4개월 동안의 logs(8월8일~11월8일까지): Past : 8월부터 9월은 유저의 기록을 만드는데 쓰임 Present : 10월에서 11월은 최근 행동과 향우 관심을 위해 쓰임 250K의 유저들은 랜덤으로 선택 활동적인(상위1%) 유저 제거 Past에 최소 100페이지 이상 방문했던 유저 선택

Trails and Terminal URLs Logs에서 백만의 브라우저 Trail을 추출 유저가 방문한 모든 페이지를 웹브라우저 하는 동안 일시적으로 명시된 시퀀스 URL은 포함함 끝나기 30분의 비활동적인 것은 타임아웃 판정 일련의 5M의 Ut(terminal URL)은 랜덤으로 모든 URL을 Trail에 있는 걸 얻음 최종적인 URL은 과거와 미래 사건을 구별함 Task = 유저 관심 모델을 상황으로부터 Ut를 위해 배우고, 이런 모델은 향후 유저 관심을 예측하기 위해 사용

Bulding User Interest Model Open Directory Project 에서 상황 URL을 분류함 사람이 편집한 웹 디렉토리 (ODP, dmoz.org) 카테고리 라벨이 URL 비교를 통해 자동적으로 활당됨 정확한 매치가 없다면 URL은 옛날것을 사용 라벨은 빈도에 의해 내림차순으로 랭크 됨 예를 들어, 골프 매니아들은 서로 관심 프로필을 닮아있음 Frequency = 빈도 ODP Category Labels Frequency Sports/Golf/Courses/Europe/United Kingdom 102 Sports/Golf/Driving Ranges 86 Sports/Golf/Instruction/Golf Schools 63

Selecting Contexts Ingwersen 와 Järvelin(2005)은 집단적인 상황 모델 계층화 메인 상황적인 영향을 나타내는 사람들에게 관계된 정보 행동에서 발달 Dimension used 로그를 통해 모델에 대한 다른 도전 e.g., 인식적이고 영향력있는 상태 인프라등등

Defining Contexts None(Ut only) : 최종적인 URL을 위한 관심 모델 Interaction(Ut-5…Ut-1) : Ut를 바로 앞의 다섯개의 웹페이지 인 관심모델 Task : 관심모델과 똑같거나 비슷한 task동안에 검색 엔진 클릭 그래프를 Ut에서 Queries로 부터 걸어 본 후 다시 페이지로 돌아 옴

Defining Contexts Collection : Interest model 페이지를 Ut 에 링크 일련의 in-links된 각각의 Ut를 위한 검색엔진인덱스로부터 얻고, 모델 Ut에 링크된 페이지로 부터 모델을 만듬 Historic : 오랜 기간 동안의 웹페이지 방문기록은 각각 유저 관심모델의 기초가 됨 Social : Ut를 방문한 유저의 역사적이고 기록적인 상황의 조합으로부터의 관심모델

Methodology 현재 세트에서 Ut의 예를 찾음(10월~11월log) 모든 행동을 향우 행동의 소스처럼 Ut 이후에 사용 각각의 상황에 예측되는 가치의 값을 측정함 창조된 세가지 관심 모델은 미래 관심을 나타냄 (순위가 매겨진 ODP의 라벨리스트 와 빈번도): Short : Ut의 한시간 이내 Medium : Ut의 하루이내 Long : Ut의 일주일 이내 {Ut}은 실험적인 보전을 확인 하도록 필터 됨 e.g., 유저 중 10Ut 이상은 없음

Methodology 필터 된 {Ut} 10으로 공평하게 나눔 실험적인 절차 : 각각의 run은 유저들로 부터 최대한 하나의 Ut를 억제 실험적인 절차 : Run안에 있는 각각의 Ut들은 : short, medium, long 기간에 대한 미래 관심 모델의 정확한 그라운드를 세움 서로 다른 상황과 조합을 위해 관심 모델을 세움 각각의 모델의 예측적인 정확도를 결정 예측의 정확성을 정하기 위해 다섯 개의 측정방법이 사용됨 p@1,p@3,Mean Reciprocal Rank, nDCG, and F1 F1은 다른것과 잘 track됨 (여기에 포커스)

Findings–Context comparison Predictive performance of contextual sources for different futures Interaction context & Task context most predictive of short-term interests Task context most predictive of medium-term interests Historic context most predictive of long-term interests

Findings–Handling near misses Near miss between prediction and ground truth regarded as total miss Use one/two/three-level back-off on both ground truth and prediction No back-off Back-off to top two ODP levels

Findings–Improved confidence Basing predictions & ground truth on small # page visits may skew results Repeat experiment & ignore labels based on < 5 page visits No back-off Predicted and ground truth labels based on ≥ 5 pages

Findings–Combining contexts Rank Short Medium Long Sources F1 score 1 n, i, t, h, s, c 0.72** 0.53** n, i, t, s, h, c 0.45** 2 n, i, s, h, c 0.71** n, i, t, h, c 0.52** 0.43** 3 n, i, t 0.49** 0.43* 4 n, i, h, c 0.48* s, h 5 n, i, s, t, c 0.69** n, i, h, t n, i, s, h, t 0.42* Overlap beats single contextual sources Key contexts still important Short = Interaction (i) and Task (t) Medium = Task (t) Long = Historic (h) Supports polyrepresentation theory (Ingwersen, 1994) Overlap between sources boosts predictive accuracy

Summary of Findings 상황의 퍼포먼스는 Ut와 예측 윈도우의 끝과의 거리에 의존 Short : task와 상호작용하는 상화응로 예측된 관심 질문과 정보수요는 다이나믹하지만 주요 관심은 매우 다이나믹 하지 않음 Medium : task 상황에서 가장 예측이 된 관심 다음날 나타날 task의 변형을 더 근접적으로 포함하고 있었음 Long : Historic하고 Social상황에서 예측된 관심 유저는 똑같은 페이지를 비슷한 관심에 의해 들렸으므로 관심은 그다지 다양하지 않음 Overlap 효과 – 많은 상황은 key interest를 강화함

Conclusions and Take-away 유저 관심 모델링을 위한 상황의 체계적인 연구 다섯가지 상황 소스의 예측적인 가치를 연구 가치는 예측 기간 동안 다양화 됨 short: interaction/task, Medium: task, Long: historic/social 오버랩은 다른 어떠한 소스보다 매우 효과적 소스는 모델링 task에다가 맞춰야 함 검색/추천 시스템은 모든 상황적 소스로 다룰 필요는 없음 중요성은 각각의 소스(예측업무의 특성에 기초 되어진)에 활당되어짐

Thank You! 서울시립대학교 인공지능연구실 박희훈