Presentation is loading. Please wait.

Presentation is loading. Please wait.

빅데이터 공통기반 및 시범과제 구축 사업 I 사업 개요 II 빅데이터 공통기반 활용포털 구축 III 공통기반을 활용한 분석 사례 V 공통기반을 이용한 통계청 시범과제 구축 IV 시범과제 추진 방안.

Similar presentations


Presentation on theme: "빅데이터 공통기반 및 시범과제 구축 사업 I 사업 개요 II 빅데이터 공통기반 활용포털 구축 III 공통기반을 활용한 분석 사례 V 공통기반을 이용한 통계청 시범과제 구축 IV 시범과제 추진 방안."— Presentation transcript:

1

2 빅데이터 공통기반 및 시범과제 구축 사업 I 사업 개요 II 빅데이터 공통기반 활용포털 구축 III 공통기반을 활용한 분석 사례 V 공통기반을 이용한 통계청 시범과제 구축 IV 시범과제 추진 방안

3 1. 사업 개요 2. 빅데이터 공통기반의 비전 3. 빅데이터 공통기반이란? 4. 빅데이터 공통기반의 구성 5. 사업 추진 결과 I. 사업 개요 빅데이터 공통기반 및 시범과제 구축 사업

4 4 1. 사업 개요 I. 사업 개요 사 업 자 사 업 명 사업기간 사 업 비

5 5 2. 빅데이터 공통기반의 비전 I. 사업 개요

6 6 3. 빅데이터 공통기반이란? I. 사업 개요 허가정보 data.go.kr 대장정보 정책정보 공부정보 정부 기관 보유 정보 활용포털 시스템 빅데이터 분석 시스템 빅데이터 저장 시스템 빅데이터 연계ㆍ수집 시스템 소셜/웹/SNS비정형정보 빅데이터 인프라를 통해 공공ㆍ민간데이터를 융합하여 분석 서비스를 제공하는 플랫폼 시범서비스 시스템 감성분석 (키워드) 정형분석 (R분석) 통계청 (물가지수) ’13년 농림부 (쇠고기 수 요) ’14년 …

7 7 4. 빅데이터 공통기반의 구성 I. 사업 개요

8 8 5. 사업 추진 결과  행정정보공동이용센터 연계기능 구축  공공데이터 포털 자료 연계기능 구축  부처/지자체 보유데이터 수집 기능  민간 공개데이터 수집 기능 구축 연계ㆍ수집시스템 구축  Hadoop을 이용한 Scale-out 방식의 빅데이터 저장 플랫폼 구성  데이터 분석ㆍ활용을 위한 연계 API 개발  R 정형데이터 분석 알고리즘 개발 저장ㆍ분석시스템 구축  GPKI 시스템을 이용한 사용자 인증 및 관리시스템 구축  수집/분석 시스템 구축  민간ㆍ공공데이터 연계 시스템 구축 활용 포털 시스템 구축  온라인에 기반한 물가지수 산출  비주얼 분석 솔루션을 활용한 분석 리포트 개발  민간 공개 웹데이터를 활용한 물가지수 분석 통계청 시범과제 구축 빅데이터 공통기반 빅데이터 인프라를 이용한 활용기관 및 사용자 중심의 맞춤형 분석 서비스 환경 제공 시스템 안정화 및 테스트 수행 후 2월 중순(17일경) 빅데이터 공통기반 시스템 오픈 예정 I. 사업 개요

9 1. 빅데이터 공통기반 처리 프로세스 2. 데이터 검색 및 연계/수집요청 3. 감성분석 요청 4. 공공데이터 정형분석 5. 사용자 데이터파일(CSV파일) 정형분석 6. 사용자주도 분석을 위한 분석도구 활용 II. 빅데이터 공통기반 활용포털 구축 빅데이터 공통기반 및 시범과제 구축 사업

10 10 1. 빅데이터 공통기반 처리 프로세스 II. 빅데이터 공통기반 활용포털 구축 Login 사용자로그인 사용자정보등록 Login 사용자로그인 사용자정보등록 1 수집/연계 공공데이터연계/협의 민간데이터수집/구매 수집/연계 공공데이터연계/협의 민간데이터수집/구매 4 공통기반 프로세스 공통기반 프로세스 공통기반 연계시스템 공통기반 연계시스템 분석요청 수집/분석요청 선택적분석요청 분석요청 수집/분석요청 선택적분석요청 2 심의 요청정보검토 수집유형선택 심의 요청정보검토 수집유형선택 3 저장 HDFS저장 R-Hive저장 저장 HDFS저장 R-Hive저장 5 분석 감성분석 정형R분석 검색(색인) 분석 감성분석 정형R분석 검색(색인) 6 Visualization 분석결과포탈제공 분석결과SAS제공 색인정보포탈제공 Visualization 분석결과포탈제공 분석결과SAS제공 색인정보포탈제공 7 망연계 공공데이터 연계 Agent (망연계시스템) ESB (행정정보공동 이용센터) 구매연계 (빅데이터 구매연계기관) 민간데이터 구매연계 수집세팅 환경설정 분석세팅 환경설정

11 11 공통기반의 공공데이터의 연계/수집 메타데이터, 원문데이터 검색 및 활용 검색결과 원문데이터 및 메타데이터 활용 BRM 분류체계: 정부기능 분류체계 (예: 과학기술-과학기술 연구지원-과학기술 인력양성 ) DRM 분류체계: 업무기능 분류체계 (예: 활동영역-대국민서비스-국민건강-환경위생-방제현황 ) 참고 2. 데이터 검색 및 연계/수집 요청 ① ② ③ ④ ⑤ 검색조건 수집 데이터 검색 원문데이터 연계 / 수집 메타데이터 원문데이터 메타데이터 연계/수집 요청 수집 키워드 보고서 API ⑥ Input 사용자공통기반 Output ① 전체검색, 주제별 검색, 기능별검색 탭 선택 후 검색조건 입력 ② 공통기반 시스템에 저장된 연계/수집 메타데이터, 원문데이터 검색 후 결과 출력 ③ 검색결과 목록 확인, 원하는 결과 선택 ④ 원문데이터(pdf, hwp 파일 등)일 경우 다운로드 및 활용 ⑤ 메타데이터일 경우 수집에 필요한 키워드 입력 후 수집요청 버튼 클릭 후 수집요청 ⑥ 홈>수집/분석>수집/분석결과목록 에서 결과확인 후 제공된 결과 (보고서, API) 활용 ① 각 검색기능에 따른 분류체계 입력 필요 주요 내용 고려 사항 II. 빅데이터 공통기반 활용포털 구축

12 12 2. 데이터 검색 및 연계/수집 요청 II. 빅데이터 공통기반 활용포털 구축 공공데이터 목록

13 13 2. 데이터 검색 및 연계/수집 요청 II. 빅데이터 공통기반 활용포털 구축 공공데이터 수집요청

14 14 3. 감성분석 요청 사용자의 상세 요구사항을 반영한 민간데이터(구매, 수집데이터)의 감성분석 요청 감성분석결과를 보고서와 OpenAPI 형태로 활용 가능 수집/분석 신규요청: 이용자의 상세한 수집/분석 요구사항을 반영하여 분석 전문가 분석 요청: 분석전문가가 이용자의 수집/분석 내용을 바탕으로 상세 사항 입력 후 분석 참고 ① 데이터 검색 후 분석하고자 하는 데이터가 없는 경우 > 수집/분석 신규요청 메뉴로 분석을 원하는 데이터 요청 ② 수집/분석명, 수집문서조건, 감성분석패턴, 수집기간, BRM/DRM 분류체계, 수집채널, 수집카테고리, 수집 목적, 내용, 공개여부 설정 후 분석요청 ②-1 원하는 감성분석패턴이 없을 경우 직접 감성사전에 등록 후 분석 요청 ③ 요청 심의 ④ 민간데이터 수집→저장→분석 ⑤ 수집/분석결과목록 에서 결과확인 후 제공된 결과(보고서, API) 활용 ④ 민간데이터는 구매데이터와 크롤링 등을 통해 수집된 수집데이터로 이루어 짐 주요 내용 고려 사항 ① ② ③ ④ GPKI 인증 ( 로그인) 수집/분석 조건 수집 수집/분석 신규요청 요청심의 보고서 API 구매 데이터 민간 수집데이터 저장 감성분석 ⑤ Input 사용자공통기반 Output 감성사전 ②-1②-1 감성패턴 II. 빅데이터 공통기반 활용포털 구축

15 15 3. 감성분석 요청 II. 빅데이터 공통기반 활용포털 구축 민간데이터 수집 요청

16 16 II. 빅데이터 공통기반 활용포털 구축 민간데이터 수집 요청(계속)

17 17 4. 공공데이터 정형분석 공통기반에서 분석이 가능한 형태의 공공연계데이터 분석 기술통계, 상관분석, 군집분석 제공 빅데이터 공통기반 제공 분석방법: 기술통계, 상관분석, 군집분석 참고 ① 홈> 정형분석 > 연계(정형)데이터 분석 ② 분석 하려고 하는 데이터를 검색하기 위하여 DRM, BRM 분류체계 및 검색어 입력 후 검색 ③ 검색결과 목록 확인, 원하는 결과 선택, 분석 방법 선택, 분석 대상 컬럼 선택 ④ 사용자가 선택한 분석 방법, 대상 컬럼에 대한 분석 실행 ⑤ 홈>수집/분석>수집/분석결과목록 에서 결과확인 후 제공된 결과 (보고서, API) 활용 ② 다양한 형태의 연계데이터 중, 공통기반의 분석시스템으로 분석이 가능한 형태의 데이터 만 출력, 검색 주요 내용 고려 사항 ① ② ③ ④ ⑤ GPKI 인증 ( 로그인) 검색조건 연계데이터 검색 공통기반 분석가능데이터 공통기반 분석시스템으로 분석이 가능한 데이터 출력 연계데이터 분석요청 분석방법, 대상컬럼 기술통계 (보고서/API) 상관분석 (보고서/API) 군집분석 (보고서/API) Input 사용자공통기반 Output II. 빅데이터 공통기반 활용포털 구축

18 18 4. 공공데이터 정형분석 II. 빅데이터 공통기반 활용포털 구축 공공데이터 연계분석

19 19 5. 사용자 데이터파일(CSV파일) 정형분석 공통기반에서 분석이 가능한 형태의 공공연계데이터 분석 기술통계, 상관분석, 군집분석 제공 사용자가 분석을 원하는 CSV 파일 형식이 공통기반 분석시스템을 이용하여 분석이 가능한 형태인지 파악 필요 참고 ① 홈>정형분석>CSV파일 신규등록 메뉴로 분석을 원하는 데이터신규등록 데이터 재등록시 CSV파일 재등록 메뉴 사용 ② 홈>정형분석>등록데이터 분석 메뉴에서 등록한 데이터 선택 또는 기존 등록 데이터 검색 후 선택 ③ 분석종류 선택, 분석을 원하는 컬럼 선택 ④ 공통기반 R 정형통계분석 실행 ⑤ 분석결과 확인 ① 공통기반의 R 정형통계분석을 이용하기 위해서는 사용자가 분석을 하고자 하는 CSV파일의 형식이 분석이 가능한 형태인지 확인 필요 주요 내용 고려 사항 ① ② ③ ④ GPKI 인증 ( 로그인) CSV 파일 CSV 파일 신규등록 ⑤ 분석조건 등록데이터 분석 R 통계 분석 기술통계 (보고서/API) 상관분석 (보고서/API) 군집분석 (보고서/API) Input 사용자공통기반 Output II. 빅데이터 공통기반 활용포털 구축

20 20 5. 사용자 데이터파일(CSV파일) 정형분석 II. 빅데이터 공통기반 활용포털 구축 사용자 데이터 파일 등록

21 21 5. 사용자 데이터파일(CSV파일) 정형분석 II. 빅데이터 공통기반 활용포털 구축 사용자 등록데이터 분석

22 22 6. 사용자주도 분석을 위한 분석도구 활용 심화된 사용자 주도분석을 위한 전문 통계 분석도구 활용 요청 기본지수, 연쇄지수, 등 지수별 요약/상세분석 결과 제공 주의사항 : Adobe Flash Player11 버전 이상 설치되어 있어야 함 상세기능 및 활용법은 “비주얼분석솔루션 이용가이드” 제공 참고 ① 포털을 통해 로그인 한 후 비주얼분석솔루션에 접속 ② URL로 접근하여 직접 접속 ③ 공통기반에 하둡, RDB테이블 등록 ④ 데이터 준비를 통해 분석 데이터 추출 ⑤ 데이터 탐색을 통해 고급분석 ⑥ 보고서 생성 ① 신규 테이블 등록시 IT관리자가 SMC를 통해 사전에 등록 해야 함. 데이터 활용방법에 따라 권한, 리포트, 쿼리 작업이 발생할 수 있음 주요 내용 고려 사항 민간데이터 감성분석 통계청 BPP Hadoop RDBMS II. 빅데이터 공통기반 활용포털 구축

23 23 통계청 시범서비스 구현 화면 6. 사용자주도 분석을 위한 분석도구 활용 II. 빅데이터 공통기반 활용포털 구축

24 1. 민간데이터 감성분석 적용 사례 2. 정형데이터 분석 적용 사례 III. 공통기반을 활용한 분석 사례 빅데이터 공통기반 및 시범과제 구축 사업

25 25 1. 민간데이터 감성분석 적용 사례 활용포털 사용자빅데이터 공통기반 수집/분석 신규요청 입력 내용: 수집/분석명, 수집문서조건, 감성분석패턴, 수집주기, BPM/DRM, 수집채널, 수집목적, 수집내용, 수집결과 공개여부 준비사항 수집/분석 신규요청: 이용자의 상세한 수집/분석 요구사항을 반영하여 분석 전문가 분석 요청: 분석전문가가 이용자의 수집/분석 내용을 바탕으로 상세 사항 입력 후 분석 민간데이터 감성분석결과 검색 : 공공데이터의 검색 절차와 같음 참고 GPKI 인증 ( 로그인) 데이터검색 ① 수집/분석 신규요청 수집 구매데이터 민간 수집데이터 감성분석 요청결과 확인 결과 활용 ②③ ④ ⑤ ⑥ 보고서 Open API File 저장 요청심의 III. 공통기반을 활용한 분석 사례구분 입력 항목 주제어정부3.0 문서 조건 동의어: 정부 3.0 수집 기간 시작일: 2013-01-01 종료일: 2013-12-31

26 26 1. 민간데이터 감성분석 적용 사례 사용자 입력관리자 처리 III. 공통기반을 활용한 분석 사례

27 27 1. 민간데이터 감성분석 적용 사례 감성분석 결과 III. 공통기반을 활용한 분석 사례

28 28 1. 민간데이터 감성분석 적용 사례 감성사전 관리 감성사전 패턴관리 : 감성사전의 항목과 속성을 입력하여 분석에 사용함 III. 공통기반을 활용한 분석 사례

29 29 1. 민간데이터 감성분석 적용 사례 III. 공통기반을 활용한 분석 사례 감성사전 패턴 등록

30 30 1. 민간데이터 감성분석 적용 사례 감성분석 주제 수집위치수집대상건수집 필터링감성분석 필터링 정부3.0 블로그10,356 건 9,512 건2,162 건 카페21,616 건 12,759 건6,027 건 뉴스22,600 건 1,885 건1,429 건 게시판685 건 657 건101 건 SNS39,864 건 486 건 합계95,121 건 64,677 건10,205 건 설명 수집설정기간에 수집채널에 존재하는 게시물(문서) 건수 분석목적에 맞도록 배제어, 포함어를 적용하여 실제 저장된 문 서 건수 저장된 문서에서 감성 표현 패턴에 의하여 감성분석된 문장 수 III. 공통기반을 활용한 분석 사례 수집 채널 분석

31 31 포털 사용자빅데이터 공통기반 GPKI 인증 ( 로그인) 분석관리 공통기반 분석시스템으로 분석이 가능한 형태의 연계데이터에 한하여 분석결과 제공 검색데이터 분류체계 : BRM 분류체계, DRM 분류체계 준비사항 ①② ③ ⑤ BRM 분류체계: 정부기능 분류체계 (예: 과학기술-과학기술 연구지원-과학기술 인력양성 ) DRM 분류체계: 업무기능 분류체계 (예: 활동영역-대국민서비스-국민건강-환경위생-방제현황 ) 빅데이터 공통기반 제공 분석방법: 기술통계, 상관분석, 군집분석 참고 사용자가 직접 작성한 R Script 등록 분석결과 확인 R 분석요청 ④ 분석 모듈 등록 기술통계 상관분석 군집분석 2. 정형데이터 분석 사례구분내용 분석 목적 공공데이터 이용현황 분석 분석 항목 공공데이터 신청 건수 공공데이터 활용 건수 공공데이터 키워드 수집 건수 ※ 출처 : 공공데이터 포털 (data.go.kr) 및 공공데이터 키워드 민간 수집 건수 III. 공통기반을 활용한 분석 사례

32 32 2. 정형데이터 분석 사례 III. 공통기반을 활용한 분석 사례 분석 모듈(R스크립트) 등록

33 33 0.0: 무상관 0.0 ~ ±0.1미만: 거의 관계 없음 ±0.1 ~ ±0.2미만: 약한 상관관계 ±0.2 ~ ±0.4미만: 보통의 상관관계 ±0.4 ~ ±0.6미만: 비교적 강한 상관관계 ±0.6 ~ ±0.8미만: 강한 상관관계 ±0.8 ~ ±1.0미만: 매우 강한 상관관계 ±1: 완벽한 선형관계 OPEN API를 활용하기 위한 신청건수는 지속적으로 증가하는 추세를 보임 OPEN API 활용건수는 줄어드는 상황으로 나타나고 있음 OPEN API 신청건수와 활용건수의 상관도는 음의 상관도를 보이고 있음 ※참조 : 상관관계 분석의 해석 기준 2. 정형데이터 분석 사례 III. 공통기반을 활용한 분석 사례 분석 결과 공공데이터 활용 추이공공데이터 키워드 수집 추이공공데이터 활용 및 수집 상관관계

34 34 2. 정형데이터 분석 사례 ※참조 : 상관관계 분석의 해석 기준 0.0: 무상관 0.0 ~ ±0.1미만: 거의 관계 없음 ±0.1 ~ ±0.2미만: 약한 상관관계 ±0.2 ~ ±0.4미만: 보통의 상관관계 ±0.4 ~ ±0.6미만: 비교적 강한 상관관계 ±0.6 ~ ±0.8미만: 강한 상관관계 ±0.8 ~ ±1.0미만: 매우 강한 상관관계 ±1: 완벽한 선형관계 상관관계 분석 결과 공공데이터 신청 건수와 공공데이터 키워드 수집(민간) 건수 간의 상관계수는 0.59로 양(+)의 상관관계가 있음 공공데이터 신청 건수와 공공데이터 키워드 수집(민간) 건수의 산점도를 살펴보면 두 변수간의 양(+)의 상관관계가 있음을 확인할 수 있음 III. 공통기반을 활용한 분석 사례

35 1. 시범과제 구축 추진 절차 2. 시범과제 구축을 위한 공통기반의 역할 3. 시범과제 구축을 위한 공통기반의 제공 기능 4. 시범과제의 공통기반 적용 분석(예시) IV. 시범과제 추진 방안 빅데이터 공통기반 및 시범과제 구축 사업

36 36 1. 시범과제 구축 추진 절차 IV. 시범과제 추진 방안

37 37 2. 시범과제 구축을 위한 공통기반의 역할 공통기반 역할 정의 공통기반 기능 제공 원칙 IV. 시범과제 추진 방안

38 38 3. 시범과제 구축을 위한 공통기반의 제공 기능 공용 데이터 저장 파싱 (Parsing) 크롤링 (Crawling) ESB기관연계 지수산출(R) 감성분석 기타 (SNA 등) API기관연계 기관시스템 (Web /Legacy) QC 공통기반 (포탈/BI) API ESB DB 기관별 데이터 저장 색인 전처리 저장분석제공(연계) 시각화/서비스 수집ㆍ연계 실시간성 / 배치성공통 활용 여부망연계서비스  데이터 수집 시 수집 주기 및 수집 데이터량 산정 필요  하드웨어 및 추가 솔루션 도입은 공통기반에서 일괄 진행  타기관 데이터 연계 시, 데이터 소유 기관과의 협의 주도 필요  분석모델 및 솔루션에서 요구 하는 데이터 표준 정의 필요  공용으로 활용 가능한 데이터일 경우, 공통기반에서 기관과의 협의 및 데이터 연계/적재 처리작업 진행함 (예: 기상데이터, 인구이동데이터 등)  공용으로 사용 가능한 분석모델 및 솔루션 구축 시, 공통기반에서 솔루션 커스터마이징 및 모델 개발작업 진행 (예: SNA 등)  기관별 특화된 분석모델 필요 시 환경 셋팅 작업만 공통기반에서 제공하며 구축 기관에서 개발작업 진행함  내부망 접속 불가능 시, 분석 결과 데이터 제공 방식 협의 후 공통기반에서 인터페이스 기능개발 제공  공통기반은 데이터의 수집/ 저장/분석에 중점을 두며 각 기관에서 서비스 개발 및 시스템 구축을 담당함 IV. 시범과제 추진 방안

39 39 4. 시범과제의 공통기반 적용 분석(예시) 빅데이터를 이용한 쇠고기 수요예측 파일럿시스템 구축 (농림부/경상북도) 각 기관에 흩어져 있는 쇠고기 수요 예측 정보를 수집하여 국내산/수입산 쇠고기 수급물량 및 쇠고기 부위별 소비패턴의 예측 가능 수요예측 알고리즘을 신규로 개발해야 하며 이에 따른 알고리즘 생성 ISP를 동시 진행 필요 추진 현황 공통기반 적용 분석 Web 데이터 보유기관 빅데이터 공통기반 가축사육정보 가격정보 도축정보 수입정보 등 SNS 웹(뉴스 등) Open API SDP ESB Open API SDP Web Crawling 수집 연계 저장분석 농림부/경북 시각화 /서비스 Open API SDP ESB Open API SDP API 통계청 물가정보 (쇠고기) 수집/연계 데이터 전처리 데이터 전처리 수요예측 알고리즘 수요예측 알고리즘 데이터 후처리 데이터 후처리 Web Service Web Service BI Tool BI Tool 분석 결과 행정정보공동 이용센터 연계 행정정보공동 이용센터 연계 파싱 ※ 활용기관 개발 영역 IV. 시범과제 추진 방안

40 1. 빅데이터 분석을 통한 일일 물가지수 개요 2. 일일 물가지수 생성 과정 3. 일일 물가지수 데이터 연계 4. 일일 물가지수 시각화 예시 V. 공통기반을 이용한 통계청 시범과제 구축 빅데이터 공통기반 및 시범과제 구축 사업

41 41 빅데이터를 이용한 BPP(Billion Price Project) 물가지수 작성, 기존 물가통계와 비교 분석 - 네이버 등에서 299개 소비자물가 품목의 가격정보 등을 수집하여 일일 물가지수 생성 - 온라인물가지수(BPP), 소비자물가지수(CPI), 생산자물가지수(PPI), 감성지수( EI:SNS상 물가관련 감정지수) 시각적으로 비교분석 BPP 도입배경  온라인 마켓의 상품을 모두 반영할 수 있어 CPI보다 폭넓은 상품을 지표에 반영 가능  수집부터 정제, 통계 생성까지 시스템을 통해 자동화  물가지수의 일(day) 단위 변화량 관찰 가능 BPP(Billion Price Project) 물가지수 온라인 쇼핑몰에서 수집되는 가격정보에 기반한 연구를 목적으로 미국 MIT가 주도하는 프로젝트에서 산출된 물가지수 (일 단위, 시스템 조사) 1. 빅데이터 분석을 통한 일일 물가지수 개요 V. 통계청 시범과제 구축 소비자물가지수(CPI) 품목 별로 일정 시점에 대한 가격 비율을 계산하여 상대적인 가격 수준을 측정한 후 품목별 가중치를 적용하여 기준시점의 물가수준에 대한 비교시점의 상대적인 물가수준 (월 단위, 사람이 조사)

42 42 일일 물가지수 생성 과정 일일 물가지수 생성 과정 2. 일일 물가지수 생성 과정 파싱 (Parsing) 저장 크롤링 (crawling) QC 지수 산출 시각화 과정설명 크롤링 온라인 쇼핑몰을 대상으로 상품 판매를 위한 웹 문서 수집 파싱 수집된 상품 판매 웹 문서에서 특정 패턴을 활용하여 가격정보 등 원하는 정보 추출 저장 파싱에 의해 추출된 정보를 하둡 분산파일 시스템(HDFS)에 저장 QC(품질제어) 일일 물가지수 지수 산출을 위하여 저장된 데이터의 품질 확인 지수산출 품질이 확인된 데이터를 활용하여 일일 물가지수 산출 시각화 산출된 일일 물가지수를 다양한 방법으로 화면에 표출 빅데이터 공통기반 시스템통계청 시스템 V. 통계청 시범과제 구축

43 43 파싱저장크롤링QC 지수 산출 시각화 농축수산물 네이버지식쇼핑 외 4개 사이트 가전제품 네이버지식쇼핑 외 6개 사이트 교과서 (고등학교) 교학사 쇼핑몰 자동차 다나와 서 적 YES24 유류 한국석유공사 그 외품목 네이버지식쇼핑 온라인 수집 대상 사이트 2. 일일 물가지수 생성 과정 V. 통계청 시범과제 구축

44 44 HTML 제목품목명상품ID가격배송료기타 [반값도전] 이마트 드림뷰2 LED TV 10..LEDTVLEDTV654699,00030,000… 파싱 (Parsing) 저장 크롤링 (crawling) QC 지수 산출 시각화 2. 일일 물가지수 생성 과정 V. 통계청 시범과제 구축

45 45 제목품목명상품ID가격배송료기타 [반값도전] 이마트 드림뷰2 LED TV 10..LEDTVLEDTV654699,00030,000… Site 코드수집일시물가 품목ID 제목품목명상품ID가격배송료 노출 페이지페이지내순서 emart20131111A031010 [반값도전] 이마트 드림뷰2 LED TV 10.. LEDTVLEDTV654699,00030,000 11... 파싱 (Parsing) 저장 크롤링 (crawling) QC 지수 산출 시각화 2. 일일 물가지수 생성 과정 수집시에는 존재하지 않으나 분석에서 필요한 데이터를 추가적으로 매핑 V. 통계청 시범과제 구축

46 46 Site 코드수집일시제목물가 품목 ID품목명상품ID가격배송료노출 페이지페이지내 순서 emart20131111 [반값도전] 이마트 드림뷰2 LED TV 10.. A031010LEDTVLEDTV654699,00030,00011... QC 알고리즘설명 결측치 검사 어제 가격이 있고 오늘 가격이 결측치일 경우 ⇒ 어제 가격으로 대체 데이터중복검사 상품ID가 같고 판매사이트 코드가 동일한 경우 데이터 필터링 물리 한계 검사 물리적으로 가능한 한계범위에 대한 고정 한계 값(최대, 최소 값)을 넘어가는 경우 데이터 필터링 단계 검사 가격 변동 차이가 일정 한계치를 넘어가는 이상변동이 있는지 체크하여 데이터 필터링 내적 일치성 검사 수집값과 평균값의 차이가 너무 심한 경우 데이터 필터링 중앙값 필터 검사 과거에 유지되던 가격에 비해 급격하게 변화한 비정상적인 데이터를 필터링 파싱 (Parsing) 저장 크롤링 (crawling) QC 지수 산출 시각화 2. 일일 물가지수 생성 과정 결측치 검사 데이터 중복 검사 물리 한계 검사 단계 검사 내적 일치성 검사 중앙값 필터 검사 V. 통계청 시범과제 구축

47 47 Site 코드수집일시제목물가품목 ID품목명상품ID가격배송료노출 페이지페이지내 순서 emart20131111 [반값도전] 이마트 드림뷰2 LED TV 10.. A031010LEDTVLEDTV654699,00030,00011... 파싱 (Parsing) 저장 크롤링 (crawling) QC 지수 산출 시각화 2. 일일 물가지수 생성 과정 BPP 지수 MBPP 지수 대형마트 지수 V. 통계청 시범과제 구축

48 48 파싱 (Parsing) 저장 크롤링 (crawling) QC 지수 산출 시각화 2. 일일 물가지수 생성 과정 V. 통계청 시범과제 구축

49 49 3. 일일 물가지수 데이터 연계 통계청 시스템 HDFS ESB 연동 프로그램 비주얼 분석 솔루션 분석결과제공 API 2 1 ESB 통계청 ⇒ 공통기반 : 물가품목, CPI, PPI 연동 공통기반 ⇒ 통계청 : BPP, MBPP, 사이트 지수, 감성지수 분석결과 제공 2 메타데이터 제공 API 1 V. 통계청 시범과제 구축

50 50 4.1 일일 물가지수 시각화 예시(생활물가지수 전체) 12.25 ~ 01.15 물가지수 구분별 생활물가지수 추이 2014.01.15 생활물가지수 등락률 TOP 15 품목 2014.01.15 생활물가지수 하강 기여도 품목 TOP 10 2014.01.15 생활물가지수 상승 기여도 품목 TOP 10 생활물가지수 : 일상생활에서 소비자들이 자주 구입하는 물품과 기본생필품을 대상으로 작성된 소비자물가지수의 보조지표 V. 통계청 시범과제 구축

51 51 4.2 일일 물가지수 예시(생활물가지수 대형마트별) 12.25 ~ 01.15 대형마트별 BPP 생활물가지수 추이 2014.01.15 대형마트 생활물가지수 등락률 TOP 15 품목 2014.01.15 대형마트 생활물가지수 하강 기여도 품목 TOP 10 2014.01.15 대형마트 생활물가지수 상승 기여도 품목 TOP 10 V. 통계청 시범과제 구축

52 52 4.3 일일 물가지수 예시 (생활물가지수 물가 품목별) 12.25 ~ 01.15 대형마트별 닭고기 BPP 물가지수 추이 12.25 ~ 01.15 닭고기의 물가지수 구분별 추이 V. 통계청 시범과제 구축

53


Download ppt "빅데이터 공통기반 및 시범과제 구축 사업 I 사업 개요 II 빅데이터 공통기반 활용포털 구축 III 공통기반을 활용한 분석 사례 V 공통기반을 이용한 통계청 시범과제 구축 IV 시범과제 추진 방안."

Similar presentations


Ads by Google