[별첨] 특허 DB 구축 및 토픽 모델링 수행 과정 Flowchart, File List 2016. 8. 26. 혁신경영연구실 서한빈
Patent DB Building Flowchart USPTO URL Build DB Structure HTML file Download Convert TXT file Insert Patent DB Process Reference Process Assignee HTML files TXT files Patent DB Resource Dataset Process Output Result
Patent DB Building File Directory Collect Unit Folder html_files txt_files error_log resultset
Patent DB Code File List Process File Name Description Input Output Note Build DB Structure ddl_patent_db.sql Patent DB 구조 선언 . Database, Table Structure MySQL, 연구실 서버(포트60) 사용 HTML file Download DownHtmlRobot.java 수집 대상 특허 HTML문서들을 다운로드함 URL, file directory HTML 문서 모음 Java 사용, 이하 모든 java파일은 class로 변환해 사용, USPTO 검색결과 URL 필요 Convert TXT file HtmlTestRobot.java HTML문서들을 TXT문서로 변환 (file directory) TXT 문서 모음 Java 사용 Insert Patent DB InsertDBRobot.java FileAttribute.class 수집 특허의 기본 서지 정보 추출 및 DB 삽입 TXT 문서 모음 (file directory), DB server 주소 DB Instance (실제 저장된 값) - Patent 외 5개 테이블 Java 사용, FileAttribute.class는 변경 없이 사용 Process Reference ProcReference.java Reference 정보 추출 및 추가 수집 Patent 테이블의 patent_number 칼럼 정보 - Cited Table, Patent 테이블의 count_ref 값 Process Assignee ProcAssignee.java Assignee 세부 정보 추출 Patent 테이블의 assignee_name 칼럼 정보 - Assignee Table
Topic Modeling Flowchart Iteration 결정 Patent DB (Dataset) Input Data Preprocess LDA Modeling Hot/Clod Topic Wordcloud LDAvis Stopwords List (산출) Lemmatizer Term-Document Matrix(부산물) Hot/Cold Topic 그래프 Doc-Topic Probability Table Topic-Term Probability Table Topic-Doc List Topic-Term List Topic-Prob List Topic JSD Matrix Resource Word Cloud 이미지 Dataset Process LDAvis 결과 링크 Decision Vis. Result
Topic Modeling File Directory Process Unit Folder topic_modeling_resultset doc-topic_probability topic-term_probability topic-prob_list topic-term_list wordcloud topic-doc_list hot_cold_topic topic_jsd_matrix
Patent DB Code File List Process File Name Description Input Output Note Preprocess topic_lemma.R getStopWords.R 불용어처리, Lemmatization 등 전처리 과정 beta_data.csv (input dataset) stopwords_abstract.csv (불용어 목록) letm_re_all.csv (lemma 결과) 연구실 서버에 구축 된Lemmatizer 사용 (포트번호 8182) LDA Modeling Topic_modeling_after_Lemma.R LDA 모델링 (토픽모델링 핵심과정) beta_data.csv letm_re_all.csv topic 개수, iteration 조합별 6개 산출물 데이터사이언스학과 workstation 사용 (RAM 36GB 이상 필요) Hot/Clod Topic topic_hot-cold.R Hot Topic, Cold Topic 추출 및 그래프 시각화 (meta_data.csv 통합), doc-topic_probability Linear Regression Result Table, Hot and Cold Topic Plot 등 4개 산출물, 2개 부산물 이하 과정은 topic 개수, iteration 수 결정 필요 Wordcloud topic_wordcloud.R 각 토픽 주요 키워드 시각화 letm_re_all.csv, topic-term probability Topic 별 wordcloud 이미지 Cutoff 에 따라 출력 다르므로 조정 필요함. LDAvis topic_ldavis.R 토픽모델링 2차원 시각화 및 주요 키워드 확률분포 목록 시각화 document frequency matrix, doc-topic probability, topic-term probability Html 등 웹파일 산출물 서버업로드 필요