Presentation is loading. Please wait.

Presentation is loading. Please wait.

TF-IDF Porter stemmer, AP-88데이터셋

Similar presentations


Presentation on theme: "TF-IDF Porter stemmer, AP-88데이터셋"— Presentation transcript:

1 TF-IDF Porter stemmer, AP-88데이터셋
IS lab. 김건영

2 오늘 할거 Porter stemming 적용 Sed/awk를 이용한 문서 가공
(과제)저번 시간에 한 tf-idf 를 수정하여 scoring

3 AP-88 데이터 설명 AP88-small 을 다운받아 사용

4 Porter stemmer Porter stemmer를 다운받아 cs서버로 옮긴 후 python stemmer.py AP88s.txt > stemmedAP88s.txt

5 Porter stemmer stemmer.py 내부 __main__부분

6 Porter stemmer stemmer.py 내부 __main__부분
cmd line 매개변수가 1개이상 들어왔다면 f로 파일 오픈 f의 line 마다 < 태그가 있음 그냥 프린트 없으면, line의 symbol 제거 Line의 word마다 lower 및 stem

7 Sed/awk를 이용한 문서 가공 Script.sed 작성

8 Sed/awk를 이용한 문서 가공 방금 코드는 잡다한 태그들을 지우고 DOCNO와 TEXT 내용만 남게 만들어줌 -> awk로 가공하기 쉬워짐 레코드 구분은 <DOCNO> 태그로(태그 밑은 해당 DOC 의 TEXT)

9 Sed/awk를 이용한 문서 가공 계속 써왔던 코드를 조금만 수정하면 된다.

10 Sed/awk를 이용한 문서 가공 Term [전체tf] : doc1#doc1tf doc2#doc2tf … 꼴로 포스팅 리스트를 얻을 수 있다.

11 Python tf-idf socring 1

12 Python tf-idf socring 나머지 부분(stemming)은 스스로 추가 (과제)
앞서 import한 stemmer는 다음과 같이 인스턴스를 만든 다.

13 과제 설명 사용자가 쿼리를 입력할 때마다 스코어를 계산하여 상위 5개의 스코어와 해당하는 문서 번호를 출력 (입력 query는 tf-idf계산할 때 stemming을 거쳐야 함) ex)

14 과제 설명 제출 이메일 : gyk@kangwon.ac.kr 메일 제목 양식 : [학번]ap88_small
1. stemmer사용은 5page 참조 remove_symbol()과 term 단위로 stem()을 쓴다는 것만 알면 됨(__main__부분) 2. awk를 거치고 나온 posting list의 양식은 저번과 동일 하므로 TFIDF클래스의 생성자 변수만 달리 주면 됨


Download ppt "TF-IDF Porter stemmer, AP-88데이터셋"

Similar presentations


Ads by Google