Download presentation
Presentation is loading. Please wait.
Published byれれ にかどり Modified 5년 전
1
IS lab. 김건영 http://hagazzusa.github.io/
TF-IDF IS lab. 김건영
2
들어가기에 앞서 CS1 서버에서 컴퓨팅을 하되 GUI환경의 파일탐색과 편 집기 사용을 위한 환경세팅
들어가서 Download WinSCP 클릭 [파일탐색기] 편집기는 아무거나 (윈도우 기본 메모장, winscp내장 메 모장, Notepad++, VS code 등) 원하는 거 쓰기
3
WinSCP - 1 New Site를 클릭하고 Host name에 cs1서버를 적는다.
아래 Save버튼을 클릭하면 왼쪽에 저장이된다.
4
WinSCP - 2 아이디와 비밀번호를 적어 들어간다.
Password아래 Remember .. 체크시 이번 세션에 한해서 비밀 번호를 저장한다. (접속종료시 유지되지 않음)
5
WinSCP - 3 왼쪽에는 로컬 디렉토리가 오른쪽에는 원격 서버의 디렉 토리 구조가 표시된다.
6
WinSCP - 4 파일을 더블 클릭시 winscp에 설정된 편집기로 열린다. 별다른 설정이 없다면 winscp내부 편집기를 사용하여 열므로 설정해줘야 한다. –기본 편집기 사용 추천 X-
7
WinSCP - 5 Add버튼으로 원하는 편집기를 추가하고 Up을 이용하 여 1순위로 올리면 원하는 편집기로 바로 열 수 있다.
8
WinSCP - 6 위와 같이 임시폴더를 이용하여 임시파일이 생성되고 임 시파일에 변화가 있다면 WinSCP가 변화를 알아채어 본 래 파일(원격 서버쪽)을 임시파일로 대체한다. 새파일 추가
9
WinSCP - 7 WinSCP를 이용하여 python 실행해보기 test.py란 이름의 스크립트파일 생성 후 편집기에서 저장
(Remember password … 비체크 시 저장할 때마다 인증 팝업이 뜬다.) 쉘에서 python test.py 입력 시 헬로우 월드 출력
10
오늘 할거 Awk로 포스팅 리스트 만들기 Python으로 포스팅 리스트 읽기 Tf-idf 구현
오늘도 출석은 과제제출로 대신합니다. 과제 제출 정보 는 맨 마지막 페이지에 있습니다.
11
Awk를 이용한 posting list 작성
저번에 했던 예제에 문서별 tf 추가
12
Awk를 이용한 posting list 작성
다음과 같이 문서이름 뒤에 #이 붙고 단어가 해당 문서 에서 몇 번이나 등장했는지 보여줌 위 출력을 post.list 로 redirection
13
TF-IDF 클래스 만들기 Class TF_IDF 생성자: post.list파일 읽어서 파이썬 사전 형태로 만듬 word_tf(term, doc): doc에 있는 term의 term frequency를 계산하여 리턴 word_idf(term): term의 inverse document frequency를 계산하여 리턴 calc_sent_tfidf(sentence): 들어온 query인 sentence 의 tf-idf를 계산하여 리턴 print_sorted_tfidf(sentence): calc_sent_tfidf의 결과를 출력해줌 디렉토리 구조->
14
TF-IDF 클래스 만들기 1
15
TF-IDF 클래스 만들기 2
16
TF-IDF 클래스 만들기 2 위 코드를 돌리면 아래와 같은 화면 출력
17
과제와 제출정보 Ex) 제출 이메일 : gyk@kangwon.ac.kr 제목 양식 : [학번]tf-idf
No, that would be too easy. Well, we`ll just see how he feels after I... 라는 query의 tf-idf 결과를 캡쳐하여 보내기 Ex) 제출 이메일 : 제목 양식 : [학번]tf-idf
Similar presentations