Download presentation
Presentation is loading. Please wait.
1
Predicting User Interests from Contextual Information
서울시립대학교 인공지능연구실 박희훈
2
Motivation Information behavior은 외부적인 상황에 포함되어 짐
상황은 문제를 동기 부여 하고, 상호작용에 영향을 줌 IR(Information Retrieval) community는 상황(context)에 대해 이론화 시킴 상황의 민감한 검색과, 상황 검색의 유저 연구 User interest models 은 질문 후의 행동과 상황적인 정보에 영향을 받는 일반적인 브라우징을 강화시킴 e.g., 개인화, 정보 필터링, etc. User interest modeling에 대한 서로 다른 상황적인 소스의 가치가 아주 적게 알려져 있음 IR(정보검색)
3
Overview 다섯 가지의 상황적 소스와 유저관심모델링이 웹 상호작용하는 동안 하나의 체계적이고 로그가 기초된 연구
유저를 추측하는 것은 URL을 통해 봄 다섯 가지의 상황적 URL에 대한 예측 값 평가 : Interaction : URL이전에 최근 상호작용 Collection : URL에 link된 page Task : URL의 검색엔진 질의와 공유된 페이지 Historic : 최근 유저들의 지속적이고 오랜 기간 동안 보인 관심 Social : 오랜 기간 동안 URL을 방문한 사람들의 관심을 조합하는것
4
Data Sources 널리 분포된 브라우저 툴바에 방문한 유저들의 이름모를 URL
4개월 동안의 logs(8월8일~11월8일까지): Past : 8월부터 9월은 유저의 기록을 만드는데 쓰임 Present : 10월에서 11월은 최근 행동과 향우 관심을 위해 쓰임 250K의 유저들은 랜덤으로 선택 활동적인(상위1%) 유저 제거 Past에 최소 100페이지 이상 방문했던 유저 선택
5
Trails and Terminal URLs
Logs에서 백만의 브라우저 Trail을 추출 유저가 방문한 모든 페이지를 웹브라우저 하는 동안 일시적으로 명시된 시퀀스 URL은 포함함 끝나기 30분의 비활동적인 것은 타임아웃 판정 일련의 5M의 Ut(terminal URL)은 랜덤으로 모든 URL을 Trail에 있는 걸 얻음 최종적인 URL은 과거와 미래 사건을 구별함 Task = 유저 관심 모델을 상황으로부터 Ut를 위해 배우고, 이런 모델은 향후 유저 관심을 예측하기 위해 사용
6
Bulding User Interest Model
Open Directory Project 에서 상황 URL을 분류함 사람이 편집한 웹 디렉토리 (ODP, dmoz.org) 카테고리 라벨이 URL 비교를 통해 자동적으로 활당됨 정확한 매치가 없다면 URL은 옛날것을 사용 라벨은 빈도에 의해 내림차순으로 랭크 됨 예를 들어, 골프 매니아들은 서로 관심 프로필을 닮아있음 Frequency = 빈도 ODP Category Labels Frequency Sports/Golf/Courses/Europe/United Kingdom 102 Sports/Golf/Driving Ranges 86 Sports/Golf/Instruction/Golf Schools 63
7
Selecting Contexts Ingwersen 와 Järvelin(2005)은 집단적인 상황 모델 계층화 메인 상황적인 영향을 나타내는 사람들에게 관계된 정보 행동에서 발달 Dimension used 로그를 통해 모델에 대한 다른 도전 e.g., 인식적이고 영향력있는 상태 인프라등등
8
Defining Contexts None(Ut only) : 최종적인 URL을 위한 관심 모델
Interaction(Ut-5…Ut-1) : Ut를 바로 앞의 다섯개의 웹페이지 인 관심모델 Task : 관심모델과 똑같거나 비슷한 task동안에 검색 엔진 클릭 그래프를 Ut에서 Queries로 부터 걸어 본 후 다시 페이지로 돌아 옴
9
Defining Contexts Collection : Interest model 페이지를 Ut 에 링크
일련의 in-links된 각각의 Ut를 위한 검색엔진인덱스로부터 얻고, 모델 Ut에 링크된 페이지로 부터 모델을 만듬 Historic : 오랜 기간 동안의 웹페이지 방문기록은 각각 유저 관심모델의 기초가 됨 Social : Ut를 방문한 유저의 역사적이고 기록적인 상황의 조합으로부터의 관심모델
10
Methodology 현재 세트에서 Ut의 예를 찾음(10월~11월log) 모든 행동을 향우 행동의 소스처럼 Ut 이후에 사용
각각의 상황에 예측되는 가치의 값을 측정함 창조된 세가지 관심 모델은 미래 관심을 나타냄 (순위가 매겨진 ODP의 라벨리스트 와 빈번도): Short : Ut의 한시간 이내 Medium : Ut의 하루이내 Long : Ut의 일주일 이내 {Ut}은 실험적인 보전을 확인 하도록 필터 됨 e.g., 유저 중 10Ut 이상은 없음
11
Methodology 필터 된 {Ut} 10으로 공평하게 나눔 실험적인 절차 :
각각의 run은 유저들로 부터 최대한 하나의 Ut를 억제 실험적인 절차 : Run안에 있는 각각의 Ut들은 : short, medium, long 기간에 대한 미래 관심 모델의 정확한 그라운드를 세움 서로 다른 상황과 조합을 위해 관심 모델을 세움 각각의 모델의 예측적인 정확도를 결정 예측의 정확성을 정하기 위해 다섯 개의 측정방법이 사용됨 Reciprocal Rank, nDCG, and F1 F1은 다른것과 잘 track됨 (여기에 포커스)
12
Findings–Context comparison
Predictive performance of contextual sources for different futures Interaction context & Task context most predictive of short-term interests Task context most predictive of medium-term interests Historic context most predictive of long-term interests
13
Findings–Handling near misses
Near miss between prediction and ground truth regarded as total miss Use one/two/three-level back-off on both ground truth and prediction No back-off Back-off to top two ODP levels
14
Findings–Improved confidence
Basing predictions & ground truth on small # page visits may skew results Repeat experiment & ignore labels based on < 5 page visits No back-off Predicted and ground truth labels based on ≥ 5 pages
15
Findings–Combining contexts
Rank Short Medium Long Sources F1 score 1 n, i, t, h, s, c 0.72** 0.53** n, i, t, s, h, c 0.45** 2 n, i, s, h, c 0.71** n, i, t, h, c 0.52** 0.43** 3 n, i, t 0.49** 0.43* 4 n, i, h, c 0.48* s, h 5 n, i, s, t, c 0.69** n, i, h, t n, i, s, h, t 0.42* Overlap beats single contextual sources Key contexts still important Short = Interaction (i) and Task (t) Medium = Task (t) Long = Historic (h) Supports polyrepresentation theory (Ingwersen, 1994) Overlap between sources boosts predictive accuracy
16
Summary of Findings 상황의 퍼포먼스는 Ut와 예측 윈도우의 끝과의 거리에 의존
Short : task와 상호작용하는 상화응로 예측된 관심 질문과 정보수요는 다이나믹하지만 주요 관심은 매우 다이나믹 하지 않음 Medium : task 상황에서 가장 예측이 된 관심 다음날 나타날 task의 변형을 더 근접적으로 포함하고 있었음 Long : Historic하고 Social상황에서 예측된 관심 유저는 똑같은 페이지를 비슷한 관심에 의해 들렸으므로 관심은 그다지 다양하지 않음 Overlap 효과 – 많은 상황은 key interest를 강화함
17
Conclusions and Take-away
유저 관심 모델링을 위한 상황의 체계적인 연구 다섯가지 상황 소스의 예측적인 가치를 연구 가치는 예측 기간 동안 다양화 됨 short: interaction/task, Medium: task, Long: historic/social 오버랩은 다른 어떠한 소스보다 매우 효과적 소스는 모델링 task에다가 맞춰야 함 검색/추천 시스템은 모든 상황적 소스로 다룰 필요는 없음 중요성은 각각의 소스(예측업무의 특성에 기초 되어진)에 활당되어짐
18
Thank You! 서울시립대학교 인공지능연구실 박희훈
Similar presentations