태그를 이용한 웹 페이지간의 유사도 측정 방법 (Measuring Web Page Similarity using Tags)

Slides:



Advertisements
Similar presentations
Chapter 2. Text Patterns 2.1 ~ 2.3 서울시립대 전자전기컴퓨터공학과 데이터마이닝 연구실 G 노준호.
Advertisements

SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
1 텍스트 마이닝 기법을 이용한 소셜 미디어 데이터 분석 송민 연세대학교 문헌정보학과 Text and Social Media Mining (TSMM) Lab.
Mining the by Graph API. 1. 페이스북 소셜 그래프와 Graph API, OGP 2. 페이스북 페이지와 친구들에서 좋아요 분석하기 3. 소셜 그래프 분석을 위한 결속집단 분석 4. 소셜 그래프 시각화.
가. 3 일 취업완성 ! 성취반 _ 성공 취업 반 1 일차 시간 프로그램 내용비고 17:00 ~ 17:10 출석 및 일정 안내 17:10 ~ 18:10 취업 전략 및 채용 프로세스 이해 18:10 ~ 19:30 입사지원서 작성법 및 주요 기업 에세이 작성법 19:30 ~
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
교수님 영상 제 2 장 관세법 일반 제 1 절 통칙 제 2 절 법 해석의 원칙 등 제 3 절 기한과 기간 제 4 절 서류의 송달 등 제 5 절 관세의 부과 및 징수 제 6 절 납세의무의 소멸 등.
정보탐색팀: 정보탐색을 위한 확률신경망 학습 기술
Deep Learning.
Web Project 작업3: Design기획 Article 토론 Group Project 토론
전자파 연구실 Fast Beamforming of Electronically Steerable Parasitic Array Radiator Antennas: Theory and Experiment 세미나 자료 발표자 : 이동현 1.
Chapter 33. Building Traffic to your Web Site
제5장 산업재해 보상보험 ☞ 목적 : 근로자의 업무와 관련하여 발생한 재해근로자의 재활 및 사회복귀를 촉진시키기 위하여 이에 필요한 보험시설을 설치 운영하며, 피해를 예방하고 근로자의 복지증진을 위한 사업을 행함으로써 근로자의 보호에 이바지함을 목적으로 함. 산재보험은.
Report #5 - due: 4/13 다음 10*5의 희소 행렬 A, B를 고려하라.
.Net Web Application 2010 컴퓨터공학실험(Ⅰ)
Web Programming 강의 소개
Report #2 - Solution 문제 #1: 다음과 같이 프로그램을 작성하라.
JSP Programming with a Workbook
타이포그래피 Typography.
NLP Lab. 세미나 발표자:이주호 2007년 7월 18일 수요일
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
Information Retrieval (Chapter 5: 질의연산)
버스카드 시스템 1조 하경록 : 작품 제작, 파워포인트 김태승 : 작품 제작, 파워포인트 최성호 : 작품 제작, 프로그래밍
학습목표 학습목차 다른 홈페이지의 HTML 파일 코드를 보는 방법에 대해 알아봅니다.
2007 1학기 11 프로젝트 기초 실습.
홈페이지 구축 제안 안내서 서울특별시 노원구 상계동 1267 토마토파르코빌딩 1308호
컴퓨터 프로그래밍 : 실습3 2장 데이터와 식.
9장. 특징 선택 오일석, 패턴인식, 교보문고, © 오일석, 전북대학교 컴퓨터공학.
13. 연산자 오버로딩.
10강. JSP 본격적으로 살펴보기-II 스크립트릿, 선언, 표현식 지시자 주석 Lecturer Kim Myoung-Ho
프로그래밍 개요
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
27장. 모듈화 프로그래밍.
Web & Internet [03] HTML5 다양한 태그
HTML5 Canvas 태그 92팸 유승연 안동찬 엄태인 김영재.
Go Lang 리뷰 이동은.
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
27강 JAVA Collections - II - Map계열 컬렉션 클래스 살펴보기 - Set계열 컬렉션 클래스 살펴보기
USN(Ubiquitous Sensor Network)
■ 화성공장 산학인턴 버스 노선 확인 안내 문의 전화 : 안내페이지 접속 1
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
텍스트 분석 기초.
(Web Programming & Practice)
문서의 제목 나눔고딕 45pt 작성자 | 소속팀 / 상위부서 | 이 문서는 나눔글꼴로 작성되었습니다. 설치하기.
(주)신원데이터넷 ICE eBook (주)신원데이터넷
18강. 인터페이스 – II - 인터페이스와 다중상속 - 인터페이스를 통한 로봇 장남감 만들기 프로그래밍
문서 클러스터링 일본언어문화학과 서동진.
Excel 일차 강사 : 박영민.
Chapter 1 단위, 물리량, 벡터.
Word2Vec.
Word Embedding.
.Net Web Application 2007 컴퓨터공학실험(Ⅰ)
문서의 제목 문서의 개요 작성자 이름 소속팀 소속팀 작성년월일
발표자 : 이지연 Programming Systems Lab.
타이포그래피 Typography.
웹과 모바일 홈페이지의 이해와 제작 HTML태그와 CSS로 꾸미기
9 브라우저 객체 모델.
상관계수.
컴퓨터공학과 손민정 Computer Graphics Lab 이승용 교수님
Bug Localization Based on Code Change Histories and Bug Reports
.Net FrameWork for Web2.0 한석수
웹 프로그래밍 기술 요약 Yang-Sae Moon Department of Computer Science
Automatic Music Transcription
적용 가능 시간표 무한 생성 기계 2007/06/18 최석훈.
 6장. SQL 쿼리.
프로젝트 개요 OPENSTACK을 이용한 교육용 CLOUD 환경 구축! 교수님(관리자)와 학생(이용자)으로 구분.
교착 상태 해결 : 교착 상태 탐지 교착 상태 탐지(Deadlock Detection)
문제의 답안 잘 생각해 보시기 바랍니다..
Text Clustering G 조한얼.
Latent Semantic Analysis
Presentation transcript:

태그를 이용한 웹 페이지간의 유사도 측정 방법 (Measuring Web Page Similarity using Tags)

목적 소셜 북마킹(social bookmarking) 웹 페이지에 주제, 내용을 나타내는 태그 부착 태그를 이용한 두 웹페이지 간의 의미적 유사 도 측정하는 방식 WSET(Web Page Similariy Based on Entire Tags)을 제안 의미적 유사도(semantic similarity) : 웹 페이지들이 얼마나 비슷한 주제 또는 내용을 다루고 있는지를 측정하는 척도

목적 태그를 이용한 두 웹페이지 간의 의미적 유사 도 측정하는 방식 WSET(Web Page Similariy Based on Entire Tags)을 제안 의미적 유사도(semantic similarity) : 웹 페이지들이 얼마나 비슷한 주제 또는 내용을 다루고 있는지를 측정하는 척도

이전의 유사도 측정 방법들 텍스트 데이터를 통한 측정 유사 페이지 검색 방법(HITS 알고리즘) 단어 출현 빈도 벡터(term frequency) 생성 후, 벡터간의 코사인 유사도(cosine similarity) 계산 단점 : 텍스트 외 형식의 데이터 측정 불가 유사 페이지 검색 방법(HITS 알고리즘) 주어진 페이지와 하이퍼링크로 연결된 페이지들 을 하나의 그룹으로 만들고 그룹 중 가장 권위있 다고 판단되는 페이지를 주어진 페이지와 유사한 페이지라고 판단 단점 : 하이퍼링크 연결이 적으면 유사한 페이지 를 못 찾음 http://en.wikipedia.org/wiki/Vector_space_model#Example:_tf-idf_weights http://www.miislita.com/term-vector/term-vector-1.html

Term frequency vector In the classic vector space model proposed by Salton, Wong and Yang [1] the term specific weights in the document vectors are products of local and global parameters. The model is known as term frequency- inverse document frequency model. The weight vector for document d is  , where and tft,d is term frequency of term t in document d (a local parameter)  is inverse document frequency (a global parameter). | D | is the total number of documents in the document set;   is the number of documents containing the term t. Using the cosine the similarity between document dj and query q can be calculated as: In a simpler Term Count Model the term specific weights do not include the global parameter. Instead the weights are just the counts of term occurrences: wt,d = tft,d.

이전의 유사도 측정 방법들 HITS알고리즘 (Hiperlink-Induced Topic Search) 텍스트 데이터를 통한 측정

Social-SimRank(SSR)을 이용한 방식 NA : 태그의 개수 2차원 행렬 SA=NAⅹNA 두 웹페이지 P, Q의 각각 태그 [t1,t2,…,tn], [u1,u2,…,um] P와 Q의 유사도 Sp(P,Q)=SA(t1,u1)+SA(t1,u2)+…+SA(tn,um) Sp(P,Q)= n m Sp(P,Q)=∑ ∑ SA(ti,uj) Sp(P,Q)=i=1 j=1

Social-SimRank(SSR)을 이용한 방식 단점 : 여러 의미로 쓰이는 단어에 대해 문제가 생김 덧셈을 통하여 관계가 없어도 높게 나옴 예 : java – 프로그래밍 언어, 인도네시아의 섬

SMM(Separable Mixture Model) 동시 발생 데이터(co-occurrence data)를 위한 통계적 모델 동시 발생 데이터 : 동시에 발생하는 두 가지 다른 종류의 데이터 ex) 웹 페이지, 태그 각각 추상 클래스가 발생할 확률과 데이터 각 각이 K개의 추상 클래스 각각에 대해 나타날 조건부 확률을 알려줌

SMM을 웹 페이지와 태그에 적용 Class 1 Class 2 p(Cα) 0.75 0.25 p(‘programming’| Cα) 0.5 p(‘java’| Cα) p(‘tour’| Cα) p(A|Cα) 0.33 p(B|Cα) p(C|Cα) p(D|Cα) 1.0

WSET Web page Similarity based on Entire Tags p(t_{ 1 }\wedge u_{ 1 })=p(t_{ 1 }|u_{ 1 })\cdot p(u_{ 1 })\\ =\sum _{ \alpha =1 }^{ C }{ p(t_{ 1 }|C_{ \alpha }) } p(C_{ \alpha }|u_{ 1 })\cdot p(u_1)\\ =\sum _{ \alpha =1 }^{ C }{ p(t_{ 1 }|C_{ \alpha }) } \frac { p(u_{ 1 }|C_{ \alpha })p(C_{ \alpha }) }{ p(u_{ 1 }) } \cdot p(u_{ 1 })\\ =\sum _{ \alpha =1 }^{ C }{ p(t_{ 1 }|C_{ \alpha }) } p(u_{ 1 }|C_{ \alpha })\cdot p(C_{ \alpha })

WSET p(t_1 \wedge u_1)=p(u_1 \wedge t_1)= \sum^C_\alpha p(C_\alpha) p(t_1|C_\alpha )p(u_1 |C_\alpha) p(t_{ 1 }\wedge t_{ 2 }\wedge u_{ 1 })=p(t_{ 1 }\wedge t_{ 2 })\cdot p(u_{ 1 }|t_{ 1 }\wedge t_{ 2 })\\ =p(t_{ 1 })\cdot p(t_{ 2 }|t_{ 1 })\cdot p(u_{ 1 }|t_{ 1 }\wedge t_{ 2 })\\ =p(t_{ 1 })\cdot p(t_{ 2 }|t_{ 1 })\cdot \frac { p(t_{ 1 }\wedge t_{ 2 })p(u_{ 1 }) }{ p(t_{ 1 }\wedge t_{ 2 }) } \\ =\sum _{ \alpha =1 }^{ C } p(t_{ 1 }|C_{ \alpha })p(t_{ 2 }|C_{ \alpha })p(C_{ \alpha })\cdot \frac { p(t_{ 1 }\wedge t_{ 2 }|C_{ \alpha })p(C_{ \alpha }|u_{ 1 })p(u_{ 1 }) }{ p(t_{ 1 }\wedge t_{ 2 }|C_{ \alpha })p(C_{ \alpha }) } \\ =\sum _{ \alpha =1 }^{ C } p(t_{ 1 }|C_{ \alpha })p(t_{ 2 }|C_{ \alpha })p(C_{ \alpha })\cdot \frac{p(C_\alpha|u_1) p(u_1)}{p(C_\alpha)} \\=\sum _{ \alpha =1 }^{ C } p(t_{ 1 }|C_{ \alpha })p(t_{ 2 }|C_{ \alpha })p(C_{ \alpha })\cdot \frac{p(u_1|C_\alpha) p(C_\alpha)}{p(u_1)}\cdot \frac{p(u_1)}{p(C_\alpha)} \\=\sum^C_{\alpha=1} p(t_1 |C_\alpha)p(t_2|C_\alpha)p(u_1|C_\alpha)p(C_\alpha)

WSET p(t_{ 1 }\wedge t_{ 2 }\wedge ...\wedge t_{ n }\wedge u_{ 1 }\wedge u_{ 2 }\wedge ...\wedge u_{ m })\\ =\sum _{ \alpha =1 }^{ C }{ \prod _{ i=1 }^{ n }{ p(t_{ i }|C_{ \alpha }) } \cdot \prod _{ j=1}^{m }{ p(u_j | C_\alpha ) \cdot p(C_\alpha) } } S_{ \sigma }(P,Q)=\sqrt [ n+m ]{ p(t_{ 1 }\wedge t_{ 2 }\wedge ...\wedge t_{ n }\wedge u_{ 1 }\wedge u_{ 2 }\wedge ...\wedge u_{ m }) }

WSET Web page Similarity based on Entire Tags SMM을 이용해 클래스들로 분류, 각 태그들이 각 클래스에서 나타날 확률을 이용해 유사도 측정 p(t_{ 1 }\wedge u_{ 1 })=p(t_{ 1 }|u_{ 1 })\cdot p(u_{ 1 })\\ =\sum _{ \alpha =1 }^{ C }{ p(t_{ 1 }|C_{ \alpha }) } p(C_{ \alpha }|u_{ 1 })\cdot p(u_1)\\ =\sum _{ \alpha =1 }^{ C }{ p(t_{ 1 }|C_{ \alpha }) } \frac { p(u_{ 1 }|C_{ \alpha })p(C_{ \alpha }) }{ p(u_{ 1 }) } \cdot p(u_{ 1 })\\ =\sum _{ \alpha =1 }^{ C }{ p(t_{ 1 }|C_{ \alpha }) } p(u_{ 1 }|C_{ \alpha })\cdot p(C_{ \alpha })

WSET 실험결과-샘플 SSR WSET [Java, Programming, Software] [Java, Travel, Island] 0.0521 [Eclipse, Java, Programming] [Java, Island, Tour] 0.0942 1.1E-26

WSET 실험결과-실제 delicious.com 10,000개의 웹 페이지 총 6천 여 태그 50개 클래스 최소 200번 이상 태그 붙여진 웹 페이지 총 6천 여 태그 이 중 오타 등 이유로 상위 60%(약 3,600)만 사용 50개 클래스

WSET 실험결과-유사한 웹 페이지

WSET 실험결과-유사한 웹 페이지 Web Pages Tag Information 1 http://www.graphdrome.com/ [design, illustration, portfolio, …] 2 http://inspiredology.com/graphic-design/typography [typography, design, inspiration, font, …] 3 http://feltron.com/ [design, portfolio, inspiration, typography, …] 4 http://www.maxomatic.net/ [illustration, design, portfolio, graphic, …] 5 http://www.adrianjohnson.org.uk/ [illustration, design, portfolio, …] page 2 3 4 5 1 0.017 0.018 0.069 0.038 0.016 0.015 0.011 0.042 0.031 0.021 0.027 0.030 0.023 0.028 0.046 SSR Results WSET Results

WSET 실험결과 -완전히 다른 웹 페이지 Web Pages Tag Information 6 http://developer.apple.com/tools/developonrailsleopard.html [rails, ruby, osx, mac, development, …] 7 http://www.overcomingbias.com/2008/02/my-favorite-lia.html [education, teaching, learning, economics, …] 8 http://www.photoattorney.com/ [photography, legal, law, copyright, …] 9 http://www.sungevity.com/#start [solar, energy, home, green, …] 10 http://www.yumsugar.com/1663993 [coffee, recipe, food, dessert, cooking, …] 11 http://www.chami.com/html-kit/services/favicon/ [favicon, webdesign, icon, tools, …] page 7 8 9 10 11 6 7.8E-5 6.1E-5 1.5E-5 1.5E-4 6.7E-5 SSR Results WSET Results

WSET 실험결과 -완전히 다른 웹 페이지

WSET 실험결과 -다양한 의미를 가지는 태그 webdev, howto

고려 사항 웹 페이지-태그 데이터의 적절한 샘플링 최신 데이터를 반영하여 SMM을 주기적 구축 필요 적절한 수의 K개의 추상 클래스 지정

결론 SMM을 이용해 각 태그들이 클래스에 나타날 확률이 아닌 해당 태그 전체가 같은 클래스에 서 나타날 확률을 계산하여 의미적 유사도를 측정하는 방식에 더 좋은 결과를 보임

완전히 다른 태그에 대해 민감 Web Pages Tag Information 1 http://www.graphdrome.com/ [design, illustration, portfolio, …] 2 http://inspiredology.com/graphic-design/typography [typography, design, inspiration, font, …] 3 http://feltron.com/ [design, portfolio, inspiration, typography, …] 4 http://www.maxomatic.net/ [illustration, design, portfolio, graphic, …] 5 http://www.adrianjohnson.org.uk/ [illustration, design, portfolio, …] page 2 3 4 5 1 0.017 0.018 0.069 0.038 0.016 0.015 0.011 0.042 0.031 0.021 0.027 0.030 0.023 0.028 0.046 SSR Results WSET Results

완전히 다른 태그에 대해 민감 http://www.graphdrome.com/ http://www.maxomatic.net/ Tag : illustration,design,portfolio,art,typography,grap hics,inspiration,drawing,illustrator,designer http://www.maxomatic.net/ Tags : illustration,design,portfolio,inspiration,collage, barcelona,art,graphics,graphic,illustrator

여러 의미 가진 태그 제거에 우수 여러 의미를 지닌 태그로 인해 의미적 유사성 이 높게 나오는 것을 방지하는데 우수 다만, 완전히 다른 태그 하나가 끼어들어 있으 면 더 유사한 웹 페이지더라도 의미적 유사도 가 낮게 나올 수 있음