[별첨] 특허 DB 구축 및 토픽 모델링 수행 과정 Flowchart, File List

Slides:



Advertisements
Similar presentations
Web Based Data Warehouse Query Tool 이화여자대학교 2002 년 컴퓨터학과 졸업프로젝트 14 조.
Advertisements

SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
전공 : 컴퓨터 공학 전공 과목 : 인터넷 정보 검색 학번 : , 이름 : 조 항 두, 오 철 원 발표일 :
데이터마이닝 & 정보검색 연구실 신 현 일.  검색 시스템에 필요한 요소  인터넷 검색의 유형 / 태그란 ?  Blog 검색 시스템 설계  Target : Blog ? / 국내 Blog 사이트 분류  Collection : 어디서 무엇을 추출할 것인가 ? 
© DBLAB, SNU 화일구조. 강의 소개 - 화일구조  Instructor : Prof. Sukho Lee (301 동 404 호 )  홈페이지 :  교과목 개요 – 이 과목은 데이타 관리와 응용을 위한 화일 구조의 설계와.
Android 프로그램개발 환경. 학습 목표 ■ 교육 목표  JDK 설치  JDK 환경 설정  Eclipse 설치  Android SDK 설치  ADT Plug-in 설치  Android Virtual Device(AVD) 설치  Android 예제 프로그램.
데이터 파일 열기 데이터 편집기 상에서 새로운 데이터 파일을 만들거나, 혹은 기존의 파일을 불러올 수 있음.
화일구조.
Deep Learning in Udacity
PARK SUNGJIN Oracle 설치 PARK SUNGJIN
DB 프로그래밍 학기.
DB 프로그래밍 학기.
Qman QMan QMan 이란? QMan은 문제등록 및 관리하는 프로그램으로 문제분류별 관리, 문제입력, 문항분석, 동영상, 이미지, 음성, 수식입력, 일괄입력 기능, 오류문제 수정 기능 등을 이용하여 편리하게 문제은행을 구축할 수 있습니다.
Sep Youn-Hee Han 웹서비스 컴퓨팅 수업을 위한 코딩 환경 준비 Sep Youn-Hee Han
Chapter 32 Analyzing Web Traffic
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
JDBC 프로그래밍 이수지 이동주 1.
6장 Mysql 명령어 한빛미디어(주).
MySQL 및 Workbench 설치 데이터 베이스.
(개정판) 뇌를 자극하는 Red Hat Fedora 리눅스 서버 & 네트워크
14장 질의응답 한빛미디어(주).
2007. Database Term Project Team 2 윤형석, 김희용, 최현대 우경남, 이상제
1. 시멘틱웹(Semantic Web) Preview 항목 상세내역 개요 기출여부 관련KeyWord 추천사이트
5장 Mysql 데이터베이스 한빛미디어(주).
4장. 웹로직 서버상에서의 JDBC와 JTA의 운용
4-1장. MySQL 제13장.
Root Filesystem Porting
Introduction to Big Data, Summer, 2013
Root Filesystem Porting
13 인덱스 인덱스의 개념 인덱스의 구조 인덱스의 효율적인 사용 방법 인덱스의 종류 및 생성 방법 인덱스 실행 경로 확인
WinCE Device Driver 실습 #3
KHS JDBC Programming 4 KHS
5장 Mysql 데이터베이스 한빛미디어(주).
DB연동하기 원격db접속.
13 인덱스 인덱스의 개념 인덱스의 구조 인덱스의 효율적인 사용 방법 인덱스의 종류 및 생성 방법 인덱스 실행 경로 확인
You YoungSEok Oracle 설치 You YoungSEok
Grade Server Team14. Attention Seeker
CXQuery를 사용하는 STREAM XML Filter
DataBase 연결 및 사용방법
낮과 밤 알아보기 슬기로운 생활 2학년 1학기 4. 빛과 그림자>낮과 밤( 4/8 )
CHAP 13. 방명록 만들기 실습.
응급의학과 설명회 국내 응급의학의 역사, 현황 및 전망
JDBC Lecture 004 By MINIO.
활동 다이어그램(Activity Diagram)
개발 환경 세팅.
영상처리 실습 인공지능연구실.
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
産業財産權 槪論 대동공업 특허팀 대리 박 동욱.
Smart Workplace 개발자 가이드
TERM PROJECT 제안서 안내 2010 컴퓨터공학실험(Ⅰ).
Endnote 이용 안내 2010 중 앙 도 서 관.
네트워크 설정 방법 (측정값데이터수집설정)
Chapter 34. Advanced Web Page Options
CHAP 21. 전화, SMS, 주소록.
화일구조.
문성우 SQL 실습 Part Ⅰ 문성우.
KISTI Supercomputing Center 명훈주
05. General Linear List – Homework
.Net Web Application 2007 컴퓨터공학실험(Ⅰ)
eBooks on EBSCOhost 이용매뉴얼
eBooks on EBSCOhost 이용매뉴얼
Naver & Google 이덕중 최보람 도현호 여민기
적용 가능 시간표 무한 생성 기계 2007/06/18 최석훈.
유예 X-FILE *조사자* 1301권희원 1315이예지 1317장아정 1322홍자현.
코 칭 결 과 센 터 구성센터 (모바일) 코칭대상 프로 (엔지니어) 코칭일시
eBooks on EBSCOhost 이용매뉴얼
흐름도FLOWCHART 프로그래밍 과정 전단부 처리 단계 문제 분석 논리 설계
팀명 : 팀 구성원 : 지도교수 : 호남대학교 공과대학 전기공학과
팀명 : 팀 구성원 : 지도교수 : 호남대학교 공과대학 전기공학과
Ⅰ. 데이터베이스 정의 Ⅱ. MS SQL 서버 Ⅲ. 데이터베이스 인터페이스
Presentation transcript:

[별첨] 특허 DB 구축 및 토픽 모델링 수행 과정 Flowchart, File List 2016. 8. 26. 혁신경영연구실 서한빈

Patent DB Building Flowchart USPTO URL Build DB Structure HTML file Download Convert TXT file Insert Patent DB Process Reference Process Assignee HTML files TXT files Patent DB Resource Dataset Process Output Result

Patent DB Building File Directory Collect Unit Folder html_files txt_files error_log resultset

Patent DB Code File List Process File Name Description Input Output Note Build DB Structure ddl_patent_db.sql Patent DB 구조 선언 . Database, Table Structure MySQL, 연구실 서버(포트60) 사용 HTML file Download DownHtmlRobot.java 수집 대상 특허 HTML문서들을 다운로드함 URL, file directory HTML 문서 모음 Java 사용, 이하 모든 java파일은 class로 변환해 사용, USPTO 검색결과 URL 필요 Convert TXT file HtmlTestRobot.java HTML문서들을 TXT문서로 변환 (file directory) TXT 문서 모음 Java 사용 Insert Patent DB InsertDBRobot.java FileAttribute.class 수집 특허의 기본 서지 정보 추출 및 DB 삽입 TXT 문서 모음 (file directory), DB server 주소 DB Instance (실제 저장된 값) - Patent 외 5개 테이블 Java 사용, FileAttribute.class는 변경 없이 사용 Process Reference ProcReference.java Reference 정보 추출 및 추가 수집 Patent 테이블의 patent_number 칼럼 정보 - Cited Table, Patent 테이블의 count_ref 값 Process Assignee ProcAssignee.java Assignee 세부 정보 추출 Patent 테이블의 assignee_name 칼럼 정보 - Assignee Table

Topic Modeling Flowchart Iteration 결정 Patent DB (Dataset) Input Data Preprocess LDA Modeling Hot/Clod Topic Wordcloud LDAvis Stopwords List (산출) Lemmatizer Term-Document Matrix(부산물) Hot/Cold Topic 그래프 Doc-Topic Probability Table Topic-Term Probability Table Topic-Doc List Topic-Term List Topic-Prob List Topic JSD Matrix Resource Word Cloud 이미지 Dataset Process LDAvis 결과 링크 Decision Vis. Result

Topic Modeling File Directory Process Unit Folder topic_modeling_resultset doc-topic_probability topic-term_probability topic-prob_list topic-term_list wordcloud topic-doc_list hot_cold_topic topic_jsd_matrix

Patent DB Code File List Process File Name Description Input Output Note Preprocess topic_lemma.R getStopWords.R 불용어처리, Lemmatization 등 전처리 과정 beta_data.csv (input dataset) stopwords_abstract.csv (불용어 목록) letm_re_all.csv (lemma 결과) 연구실 서버에 구축 된Lemmatizer 사용 (포트번호 8182) LDA Modeling Topic_modeling_after_Lemma.R LDA 모델링 (토픽모델링 핵심과정) beta_data.csv letm_re_all.csv topic 개수, iteration 조합별 6개 산출물 데이터사이언스학과 workstation 사용 (RAM 36GB 이상 필요) Hot/Clod Topic topic_hot-cold.R Hot Topic, Cold Topic 추출 및 그래프 시각화 (meta_data.csv 통합), doc-topic_probability Linear Regression Result Table, Hot and Cold Topic Plot 등 4개 산출물, 2개 부산물 이하 과정은 topic 개수, iteration 수 결정 필요 Wordcloud topic_wordcloud.R 각 토픽 주요 키워드 시각화 letm_re_all.csv, topic-term probability Topic 별 wordcloud 이미지 Cutoff 에 따라 출력 다르므로 조정 필요함. LDAvis topic_ldavis.R 토픽모델링 2차원 시각화 및 주요 키워드 확률분포 목록 시각화 document frequency matrix, doc-topic probability, topic-term probability Html 등 웹파일 산출물 서버업로드 필요