IS lab. 김건영 http://hagazzusa.github.io/ 정보검색기 구현 프로젝트 안내사항 IS lab. 김건영 http://hagazzusa.github.io/

Slides:

Advertisements

Similar presentations

학교 자체평가의 실제 신 동 한. 목 차  표지 제목  학교 소개  평가위원회 구성  지표별 평가의 실제  학교 자체평가의 향후 반영 계획  설문지 처리.

Advertisements

한국의 전통 문화 2 조 국제 수행 보고서 조장 : 신양우 조원 : 김 솔, 류원빈, 송선우, 임준희 2 조 국제 수행 보고서 조장 : 신양우 조원 : 김 솔, 류원빈, 송선우, 임준희.

10장. 시기별 학급경영 11조 염지수 이 슬 권용민 신해식.

일본 근세사. (1) 에도막부의 개창 ( ㄱ ) 세키가하라의 전투 (1600) - 히데요시의 사후 다섯 명의 다이로 ( 大老 ) 가운데 최대 영지 (250 만석 ) 를 보유하고 있던 도쿠가와 이에야스가 급부상. 이에 이에야스와 반목해 온 이시다 미쓰나리 ( 石田三成 ),

아니마 / 아니무스 송문주 조아라. 아니마 아니마란 ? 남성의 마음속에 있는 여성적 심리 경향이 인격화 한 것. 막연한 느낌이나 기분, 예견적인 육감, 비합리적인 것에 대 한 감수성, 개인적인 사랑의 능력, 자연에 대한 감정, 그리.

대구가톨릭대학교 체육교육과 06 학번 영안중학교 체육교사 신웅섭 반갑습니다. 반야월초등학교 축구부 대륜중학교 축구부 대륜고등학교 대구가톨릭대학교 차석 입학 대구가톨릭대학교 수석 졸업 2014 년 경북중등임용 체육 차석 합격 영안중학교 체육교사 근무 소개.

5 학년 6 반 김진석.  애니메이션은 라틴어의 아니마 에서 온 것이다. 아니마 는 생명 영혼 정신을 가르키는 것리다.  애니메이션의 원리는 그림을 움직이는 환등기로 만드는데, 환등기는 인간이 가지고 있는 눈의 잔상 을 이용해 만들어 졌다.  최초의 애니메이션 작품은.

일장 - 1 일 24 시간 중의 명기 ( 낮 ) 의 길이 ( 밤은 암기, 낮은 명기 ) 광주기성 - 하루 중 낮의 길이의 장단에 따라 식물의 꽃눈 형성이 달라지는 현상 일장이 식물의 개화현상을 조절하는 중요한 요인 단일식물 - 단일조건에서 개화가 촉진되는 식물 장일식물.

수학 일기 제 1 라운드 스피드 퀴즈 피타고라스 수학책 1. 구장산술 2. 주비산경 3. 차근방몽구 4. 기하학원론 5. 산술관견.

간질 ( 뇌전증 ) 장 애 김성혜 이현지 윤승희 이윤선.

문화연구방법 꽃보다 아름다운 그곳에 사는 사람들. 노송동 1 조 김은진 박하늬 나인정. 목차 조사구역 - 중앙시장. 경험지도 노송동 - 중앙시장 사람들의 삶. 진행상황 앞으로의 계획.

2 학년 6 반 1 조 고은수 구성현 권오제 김강서.  해당 언어에 본디부터 있던 말이나 그것에 기초하여 새로 만들어진 말  어떤 고장 고유의 독특한 말  Ex) 아버지, 어머니, 하늘, 땅.

보건소영양사 실습 강북구보건소 건강증진과 보충 영양실 & 판교보건지소 건강증진센터 2011 년 여름방학.

2012학년도 교내과학탐구대회 4월 16일(월요일, 5~6교시). 5 교시 활 동 실험.조립활동 - 별자리열쇠고리만들기 (5교시) 각 학급에 과학동아리학생들이 2인 1조로 들어가서 실험키트조립활동을 안내함 임장 지도교사가 컴퓨터로 탐구대회 PPT안을 띄워주고 동아리원들이.

최종보고회 옥 철 영 (울산대학교 컴퓨터정보통신공학부)

김수민, 박태일, 이찬솔, 하광철, 하주미. 서 론 - 목 적 : 보수동 책방골목의 관광지로서의 기능 조사 ( 제목과 ???) 본 론 - 공간지각 : 보수동 책방골목 - 참여관찰 ( 주제에 맞는 소제목 !!) 보수동 상인들 설문조사 공식 / 비공식 인터뷰 보수동 손님들.

2014년도 교원 및 기간제교사 성과상여금 전달교육 개 회 국기에 대한 경례 - 인사말

사과가 어느 상태일 때 갈변 현상이 늦게 나타날까?

5급 승진 후보자 기획보고서 역량평가 대비 교육 안내 (대학교/교육청/중앙부처/지자체 등) 역량평가아카데미 2014년 5급승진을 위한 역량평가 대비를 위해서 다음과 같이 “기획보고서 교육”을 실시하오니 상담후 신청 바랍니다. 모든 기관의 공통 역량평가사항인 “ 사례제시형.

말뭉치 기반 형태소 및 의미 태깅 시스템 발표자 : 신준철

선진 고양교육 “유아교육 행정 업무 연수” 유치원 회계실무 및 유아학비 연수 경기도고양교육청.

신장,심장,간 장애 정영화 윤병란 이달해 최지희.

묵자 겸애, 비명, 비공, 상현, 상동, 천지, 명귀, 삼표 법.

누벨바그 이후 현대 영화의 전개 뉴 이탈리안 시네마, 뉴 아메리칸 시네마, 뉴 저먼 시네마

내 아이를 위한 구강관리.

제16장 원무통계 • 분석 ☞ 통계란 특정의 사실을 일정한 기준에 의하여 숫자로 표시한 것을 말한다.통계로서 활용할 수 있는 조건으로는 ① 동질성을 지녀야 하고 ② 기준이 명확하고 ③ 계속성이 지속되어야 하며 ④ 숫자로 표시하여야 한다 경영실적의.

2016년도 625바로 알리기 교육 평가 보고 대한민국6∙25참전유공자회

11ㅡㅡ 공모 1. 대단위 미술마을 조성 (행복프로젝트) 작성 방법 및 제출 서류 2016마을미술프로젝트

서울지방세무사회 부가세 교육 사진클릭-자료 다운 세무사 김재우.

프로젝트 1 프로젝트 공지: 1-1학기부터 4-1학기까지 프로젝트 수업 3개 이상 수강해야 졸업작품 제출할 수 있음

Homework #1 연관규칙, 분류, 클러시트링의 세 가지 마이닝 방법에 대해, 교재 및 강의노트에 나오지 않는 사례를 각각 1개씩 드시오. 교재 p. 86의 2번 문제 교재 p. 91의 19번 문제 문서는 각 단어의 빈도를 조사하여 문서 벡터로 나타낼 수 있다. 문서.

교동 장독대 마을 회의 2010년 3월 7일.

102 베기 학번: 이름: 박지훈.

치매의 예방 김 은민 윤금 노인요양원 치매의.

TF-IDF Porter stemmer, AP-88데이터셋

마산에 대하여 만든이 : 2204 김신우, 2202 권성헌.

반 학생들의 컴퓨터 사용시간 ppt제작담당 : 최민수 박지호.

2016학년도 1학기 채플 이 광고내용은 학교 홈페이지에 게시됩니다.

경기도 화성시 봉담 동화 역말길 33번지(동화 휴먼시아 5단지 앞)

안전교육 수호천사 공공장소에서 안전 1.

1 [1] 매체 자료의 표현 방식 02 괴물.

경기도 화성시 봉담 동화 역말길 33번지(동화 휴먼시아 5단지 앞)

단원의 길잡이 국어 중학교 1학년/1학기 1. 문학의 즐거움〉단원의 길잡이(1/9) [화면 소개] 초기화면 : 학습 주제 제시

『한국형 온라인 공개강좌(K-MOOC)』

소방시설 자동산정 프로그램.

심리사회이론. ppt_ 곽호연 자료조사 임진섭 김유한

나의 과거, 현재 그리고 미래 경제학과 권오성.

제 5생활실 실장:뇌출혈, 부실장:또라이 타조,기럭지,홍홍,외계인,이내,우엉

양일중학교 1학년 최경은 지도교사-이춘자선생님

쇼트트랙 스케이팅의 특성과 효과 체육 1학년 Ⅴ. 개인운동 > 3. 스케이팅 (3/5) 활용방법

조 양명용. 하미자. 손혜련. 원 정영숙. 강미라. 이해섭.

6장 마케팅 조사 박소현, 김중호, 박기찬.

한밭대학교 창업경영대학원 회계정보학과 장 광 식

/happygwedu/ 보건복지부 발표 전국 18세 미만 아동을 양육하는 4천여 가구를 대상으로 한,

의사결정과 의사소통 발표 철학과 나지훈 요약 정치외교학과 양승명 PPT 일본어학과 왕동현 사례 패션학과 강민경

평안북도 피현군 봉화 화학공장 (정유소) 평안북도 피현군에서 30 km 선 (중국의 빠산(八三) 원유저장소 추정)

결정은 어떤 환경에서 잘 자랄까? 한림초등학교 6학년 송은지.

음양오행과 물리학 조 원 : 김용훈, 양범길, 박수진, 윤진희, 이경남, 박미옥, 박지선 (11조)

글로벌 교육 통신원 2015 해외대학 전공교육과정 우수사례 공모전 제목 소속(학과) 학번 성명.

이야기 치료에 대하여 <8조 학문적 글쓰기 발표> 주희록 최은지

2019년 사립작은도서관 운영설명회 및 회계 교육 일 시 : (화) 14:00 ~

서울시 도시및주거환경정비조례 개정(안) 시의회 보고.

내가 뽑고싶은 국회 의원 지은이:4-1 이름:송윤아..

네 자리 수끼리의 뺄셈 알아보기 수학 3학년 2학기 1. 덧셈과 뺄셈 ( 4/8 ) -학습진행내용-

정부조직론 Team 1 발표 제5장 제1절, 제2절 공공정책학부 강철욱 권지호

문제 해결하기 수학 3학년 1학기 6. 곱 셈 (7-8/9) 수업계획 수업활동 -학습진행내용-

<PPT3> 어느 날 예수님이 예루살렘성에 들어와서 성전에서 가르치시러 들렸어요

학교규칙 제 개정 절차 및 사례 일시 : 강사 : 삼계중 김세홍.

중국문학개론 한부와 겅건안문학 중어중국학과 ㅇ이진원 한부와 건안문학.

제2기 지역사회복지계획 수립, 추진 및 평가 사 례 발 표

Presentation transcript:

IS lab. 김건영 http://hagazzusa.github.io/ 정보검색기 구현 프로젝트 안내사항 IS lab. 김건영 http://hagazzusa.github.io/

정보검색기 구현 프로젝트 외부 검색 라이브러리 사용 불가 6/18 ~ 6/25 보강 날짜 중 하루 최종 발표 (추후확정) 최종발표는 PPT 1~2장으로 3분내 발표(모델, 성능) 발표 후 이메일 제출(gyk@kangwon.ac.kr) 팀단위로 프로젝트 진행 가능

한국어 데이터 셋 2015년도 한글 및 한국어 학회 CQA 데이터셋 # 문서번호 \n 문서제목\n 문서내용\n 구조는 아래와 같고 데이터는 프로젝트 외 사용을 불허함 # 문서번호 \n 문서제목\n 문서내용\n

한국어 데이터 셋 CQA: 커뮤니티 기반 질의 응답 질의가 들어왔을 때, 존재하는 QnA 게시글을 정보검색 총 20개의 쿼리가 주어지며 검색 결과 양식은 AP88 데이 터셋과 똑같이 하면 된다. 20 쿼리 중 일부

한국어 전처리 방법 한국어는 조사가 붙어 한 어절이 완성 되므로 같은 의미 의 단어라도 여러 모양을 가진다. (ex: 고마워, 고맙다, 고마운데, 고맙지만, 고맙고 등) 영어라면 stemming을 쓰지만 한국어는 음절 단위로 나 눠 사용할 경우 가장 좋은 성능을 보인다. (음절 단위 bi-gram : 고맙다 -> 고맙, 맙다) 한국어에서 쓰는 주 전처리 방법 2가지를 알아보자. 1. 음절단위 n-gram 2. 형태소단위 n-gram

음절단위 n-gram 음절단위 uni-gram 음절단위 bi-gram 음절단위로 보는 작은 창이 있다고 보면 쉽다. <s>는 문 장의 시작을, <sp>는 띄어쓰기를 나타낸다. 음절단위 tri-gram은 어떻게 나타날까? 어떻게 표기하는 것이 좋을까요? <s> 어 떻 게 <sp> 표 기 하 는 <sp> 것 이 <sp> 좋 을 까 요 ? </s> 어떻게 표기하는 것이 좋을까요? <s>어 어떻 떻게 게<sp> <sp>표 표기 기하 하는 는<sp> <sp>것 것이 이<sp> <sp>좋 좋을 을까 까요 요? ?</s>

형태소 단위 n-gram 형태소 단위 uni-gram 말 그대로 의미를 가지는 최소 단위지만 일반적으로 tf- idf와 bm25등에서는 음절 단위 n-gram이 더 좋은 성능 을 보여준다. 추가적으로 형태소 분석기 툴이 필요하다. [1]에서 음절과 형태소 단위 n-gram을 적절히 같이 사용 할 경우 더 좋은 성능을 낼 수 있음을 보였다. [1]황현선, 최경호, 김건영, 오준호, 이창기. 딥러닝을 적용한 CQA 시스템 구현, 한국정보과학회 동계학술발표회, 2015 어떻게 표기하는 것이 좋을까요? <s> 어떻/VA 게/EC 표기/NNG 하/XSV 는/ETM 것/NNB 이/JKS 좋/VA 을까요/EF ?/SF </s>

형태소 단위 n-gram http://konlpy-ko.readthedocs.io/ko/v0.4.3/

음절과 형태소 비교 Daum 영화평 60만 문장 음절단위 bi-gram과 형태소단위 uni-gram은 사전 크기 가 비슷하며 어느 정도 같은 정보를 함축한다고 볼 수 있 다. 음절단위 tri-gram의 경우 사전크기가 너무 커서 정 보가 분산되었다.

Python2에서 유니코드 사용 Python2의 스트링 구조는 ASCII를 기반으로 하여 1바이 트 단위이다. 한글 문자 인코딩 중 하나인 유니코드(UTF-8)는 4바이트 를 사용하므로 다음과 같은 현상이 발생한다.

Python2에서 유니코드 사용 1. 한글 스트링 변수 선언시 “”앞에 u를 붙여 유니코드임을 명시해줄 수 있다.

Python2에서 유니코드 사용 2. 파일에서 읽어온 라인을 사용할 때 파이썬 string의 메소드 중 하나인 decode를 써서 utf-8 로 전환해 줄 수 있다.