LSA를 이용한 시소러스 자동 구축 인지과학 협동과정 신 동 호.

Slides:



Advertisements
Similar presentations
20722 이유라 5.18 민주화 운동의 의미 배경 : 1979 년 12 월 12 일 쿠데타 원인 : 사태 (1979) - 박정희 대통령 죽음, 국가 혼란 - 전두환은 군대를 동원, 정권강탈 - 전국적 시위 발생 5.18 민주화 운동 발생.
Advertisements

프로그램이란 프로그램 생성 과정 프로젝트 생성 프로그램 실행 컴퓨터를 사용하는 이유는 무엇인가 ? – 주어진 문제를 쉽고, 빠르게 해결하기 위해서 사용한다. 컴퓨터를 사용한다는 것은 ? – 컴퓨터에 설치 혹은 저장된 프로그램을 사용하는 것이다. 문제를 해결하기 위한.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
우리테크 녹색경영을 달성하기 위한 녹색경영 방침 □ 우리테크는 파워 드레인트탭을 제조, 판매하는 회사로써 오랜경험과 축적된 노하우를 통해 독 자적인제품 개발에 주력하고 있다. □ 또한 우리테크는 안정적이고 친환경적인 제품 생산을 위해 항상 연구와.
도서관에서 역사인물 정보자료 찾 기 다양한 검색방법으로 역사 속 인물의 자료를 검색 해보자.
주제 – 식물에 자외 선차단제를 바르면 어떻게 될까 ? 주제선정이유 우리는 자외선 차단제를 바르면 타지 않는데 식물은 어떤 반응을 나타낼까 궁금해서.
MB노믹스의 실패와 미래 22조 배주환 외 5명.
2012년 12월 정기 제직회 기 도 : 김영민 집사 출 석 : 서 기 개회 선언 : 제직회장 (이태환 장로)
제6장 가치평가.
이산수학 (2012년 2학기) : 강의 소개 담당교수: 류승택 (60주년 기념관: 18407)
사회적 비용&외부효과 이별희 최미니.
사회자와 참여자의 역할과 책임 토론 사회자의 주된 역할 객관적인 입장에서 토론이 원만히 이루어지도록 공정하게 토론을 진행
1장. 이것이 C 언어다.. 1장. 이것이 C 언어다. 프로그래밍 언어 1-1 C 언어의 개론적 이야기 한글, 엑셀, 게임 등의 프로그램을 만들 때 사용하는 언어 ‘컴퓨터 프로그래머’라는 사람들이 제작 C 언어(C++ 포함)를 가장 많이 사용함.
1-1 일과 일률.
Hybrid INDIGO project 중간보고
WJ543 인공지능 2003년도 제 2학기.
Learning Classifier using DNA Bagging
Multi Intelligence Theory
3강 한글 맞춤법 총칙.
분석적 사고 (Analytical Thinking)
컴퓨터과학 전공탐색 배상원.
1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근
통계청, 한국은행, 기획재정부 등 자료를 이용하여 KEN(한국 전자사업자 네트워크) 가공
간지 Ⅰ. 시스템소개 Autoway Groupware User Manual Ⅰ. 시스템 소개 | 시스템 소개.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
현대오일뱅크 박유나 디자이너 디자인 특화 주유소 공모전 현대오일뱅크 박유나 디자이너
자바 5.0 프로그래밍.
‘2012년 정보화 사업 교육 버그추적시스템(BTS) 사용 절차 2012, 02.
박성진 컴퓨터 프로그래밍 기초 [09] 배열 part 1 박성진
2장 모델링 2.1 소개 2.2 정보 검색 모델의 분류체계 2.3 검색 : 축적과 여과 2.4 정보 검색 모델의 형식 특성
제 10 장 의사결정이란 의사결정은 선택이다.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
Term Project 수행 안내 2007 컴퓨터공학실험(Ⅰ).
컴퓨터소프트웨어설계및실험 년 1학기 실험계획 -.
Multi Intelligence Theory
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
Excel 일차 강사 : 박영민.
USN(Ubiquitous Sensor Network)
품질의 세가지 개념 김연성 (인하대 경영학부 교수).
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
알쏭달쏭 요한복음 성경퀴즈.
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
메모리 타입 분석을 통한 안전하고 효율적인 메모리 재사용
3강. 컴퓨터와의 기본적인 소통수단 - I 연산자란? 컴퓨터와 소통하기 위한 다양한 방법들
데이터 베이스 DB2 관계형 데이터 모델 권준영.
텍스트 분석 기초.
수학10-나 1학년 2학기 Ⅰ. 도형의 방정식 2. 직선의 방정식 (9/24) 점과 직선 사이의 거리 수업계획 수업활동.
Problem-Based Learning
알고리즘 알고리즘이란 무엇인가?.
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
고등학생을 위한 성교육 7단원: 음란물, 나의 미래를 좀먹는다
햄버거가 만들어내는 사회·생태적 문제는?.
작도 작도 작도: 눈금 없는 자와 컴퍼스만을 사용하여 도형을 그리는 것
Word2Vec.
Word Embedding.
아두이노와 충격감지센서, GPS를 활용한 자전거 주행 중 응급 상황 발생 시 자동 신고 시스템
다문화교육론 호 원 대 학 교.
수학10-나 1학년 2학기 Ⅰ. 도형의 방정식 4. 도형의 이동 (20/24) 도형의 평행이동 수업계획 수업활동.
의미론적 관점 * TV에서 ‘푸른 빛이 아닌 청자빛’이란 표현을 들었을 경우
Static과 const 선언 조 병 규 한 국 교 통 대 학 교 SQ Lab..
텍스트 분석 ㈜ 퀀트랩.
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
(4)잎의 구조와 기능 학습목표 잎의 구조와 기능을 설명할수 있다. 기공의 구조와 증산의 조절 작용을 설명할 수 있다.
.Net FrameWork for Web2.0 한석수
Wake On Lan 발표자: 김 홍 기 김홍기 조성오
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
자연언어 처리 인지과학 입문.
교 육 순 서 화재예방과 진화요령 긴급상황 시 대처요령 소방시설 사용 화재진화 및 피난 기타 당부 및 질문.
꽃잎의 수로 피보나치 수열하기 장전초등학교 6학년 신찬유.
Latent Semantic Analysis
Presentation transcript:

LSA를 이용한 시소러스 자동 구축 인지과학 협동과정 신 동 호

시소러스의 필요성 자동 문서 처리 시스템의 문제점 기존 시소러스의 문제점 컴퓨터는 기본적으로 구문론적 방식으로 작동 자연어는 기표와 기의의 쌍으로 이루어짐 컴퓨터는 기호의 의미를 이해하지 못함 주어진 단어가 아니면 분석을 못함 의미 정보가 들어 있는 시소러스를 이용 기존 시소러스의 문제점 구축에 많은 비용이 든다. 자연언어의 다변성에 잘 대처하지 못한다. 새로운 환경에 잘 적용되지 못한다.

LSA(Latent Semantic Analysis) 특성 통계적 방법론 완전 자동적 충분한 문맥 자료만 주어지면 단어들간의 연관성을 찾아냄. local co-occurrence 를 통하여 global 지식을 도출 구문론적 정보는 고려치 않음 언어적 지각적 유사성 사용 않음.

SVD 문맥 [DJ 내각제 발언] 자민련 반응 `백인백색' 김대중 대통령이 지난 18일 충남에서 가진 기자회견에서 "내각제 개헌문제를 8월에 해결하겠다"고 밝힌 데 대해 자민련 관계자들의 반 응은 여러 갈래로 나뉘고 있다. 이양희 대변인은 "매우 긍정적이고 고무적인 상황전개로 본다"며 그 근거로 두 가지를 들었다. 우선 발언장소가 자민련의 텃밭인 충남 이었다는 점, 또 "국민회의와 자민련이 협의해서 여러분들(충남 보도 진)이 납득할 수 있는 방안을 마련하겠다"고 언급한 대목이다. 이 대 변인은 "자민련이희망하는 방향으로 약속을 이행하겠다는 의미가 아 니겠느냐"고 분석했다.

문맥

SVD

학습 학습 데이터 학습 국내 90년도 신문 (164Mb) 문서 수 : 23598 색인어 수 : 9999 (40<term frequency<3202) 학습 SVD를 이용하여 변형된 메트릭스 X를 구함 사용된 singular value : 100개

테스트 테스트 데이터 금일 인터넷 신문 정치 2 경제 2 단어 중심 색인과 LSI의 결과를 비교

결과

결론 LSA를 이용한 색인 방법의 장점 연구할 사항 문서에 나와 있지 않은 정보도 이용한다. 통계적인 방법론적 근거 자동화 변화하는 환경에서도 사용 가능 연구할 사항 LSA를 사람의 유비추리에 적용