빅데이터 분석을 위한 통계 프로그래밍 R 오 승 근 2013. 10. 21.

Slides:



Advertisements
Similar presentations
SMART MANAGED INSTRUCTION WITH SNS 도지원 강동하 나지범 박창현 최병찬 SixSignal Capstone Design 2012.
Advertisements

© 2014 CUBRID Co., Ltd. All rights reserved. 0 / 20 Date: 공공/국방부문 클라우드 추진현황 및 오픈소스 DBMS 적용사례.
이혁재 /KASA NoSQL. 요약 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머.
WCL 이민학 Big Data & Hadoop.
Big Data Chap 3. I. VBRE(Value-Based RE) II. Requirement Prioritization III. AHP(Analytical Hierarchy Process) IV. Requirement Negotiation Q & A.
5 조 - 음악학과 이수영 5 조 - 음악학과 이수영 사회복지학과 김원미 사회복지학과 김원미 신민지 신민지 이정원
빅데이터란 ? 1. 빅데이터에 관한 잘못된 상식 빅데이터는 용량과 규모가 매우 큰 데이터를 말한다. 2.
주사위를 이용한 땅 따먹기 청솔초 영재학급 4 학년 장 택 민 목차 1. 제작 동기와 원리 2. 필요한 도구 3. 게임규칙 설명 4. 게임 분석 및 전략 1. 제작 동기와 원리 2. 필요한 도구 3. 게임규칙 설명 4. 게임 분석 및 전략.
일본주식시장의 신 고레가와긴조 투자전략 6 조 안승권. 신문수 발표자 : 신 문 수. 출 생 : 1897 효고현에서 출생 학 력 : 초등학교졸업, 사업가 1992 년 95 세 사망 유일한 자서전 1981 년 스미토모 금속광산 주식매매 200 억엔 벌다⇒ 일본 소득세 납세.
2009개정 중등 국어과 교육과정 울산광역시교육청 교육과정 컨설팅단 : 정일진.
Linux Seminar #1 리눅스 이해하기.
2010년도 DNI Consulting 인턴 모집요강
MrDataBld 2.x 제품 소개 2007.
마을기업 더폴락 협동조합 방문일시 : 방문조원 : 3조 김영순 김춘옥 박경해 정경숙.
2. 문학의 활동 방법 [1] 문학의 수용 01 소설가 구보 씨의 일일 작가 소개 작품 정리 읽기 중 활동 학습 활동.
달라지는 노동법 개정 내용 노무법인 正道 잠시나마… 주요 노동관계법 개정내용 3. 마무리 Contents
금속의 종류와 액체의 성질에 따른 금속의 부식 창의적 산출물 연구 보고서 부명 초등 학교 임재윤 지도교사 노지은선생님
양성평등 리더만들기 조.
컴퓨터공학과 김소원.
연구실 인턴쉽 안내자료 컴퓨터공학과 2017학년도 1학기.
IBM Academic Initiative 소개
2 세상 이해 02. 다양한 자료를 통한 사회 현상의 이해 지도 활용 및 문제점 통계 활용 및 문제점 신문 활용 및 문제점
Chapter 7 데이터웨어하우징 의사결정지원시스템.
빅데이터 분산 처리 시스템 충북대학교 정보통신공학부 복경수
Minitab 16 Single-user License 설치가이드
소비자 만족도 설문조사 결과.
빅데이터 분석 과정.
빅데이터 순환 과정과 플랫폼.
효과적인 DB암호화 구축을 위한 애슬론 v1.5 제안
Knowledge Enterprise Portal Solution(iKEP)
Apache Hive 빅데이터 분산 컴퓨팅 박영택.
동호회 구축 제안서 인터넷전문가그룹 4biz.
안드로이드 기반에서 MapServer를 이용한 지도 서비스
최 연식 ( ) EDMS를 활용한 EKP 구축 전략 2002년 09월 04일 성우시스템 주식회사 김 정훈 ( ) 최 연식 ( )
Korea University of Technology and Education Hongyeon Kim
데이터 웨어하우스 목차 1.데이터 웨어하우스 개발방법론 2슬라이드~13슬라이드
경상 Forum June 4, 2002 Department of Statistics Sehyug Kwon
교육팀 도경모 Big.
개선된 ATMSim을 이용한 DDoS 공격 분석
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
SPSS 소개 서울대학교 보건대학원 김 호.
제 2 장 스키마 이론과 읽기 교육 이아람.
무인도에서 살아남기 위해서는 집이 가장 중요합니다!!!
영원한 복음.
제주닷컴 매뉴얼 (실시간 예약시스템) 2013년 10월.
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
Part 5. MS-SQL Server Basic
(주)아이티아이에스 각 분야별 신입/경력사원 모집
1조 김성수 백현기 석광우 김지원 박광연.
01. 데이터베이스와 SQL 개요.
의사결정지원시스템 개요 Database DBMS D G M S MBMS Modelbase User Interface
건양대학교 OPIc 평가 신청 매뉴얼 (
ITQ 액세스 문제풀이 TIP 한국생산성본부 ITQ센터
운영체제의 종류 장승빈.
차량 관제시스템 제안서 신흥콘트롤㈜ 031 / 705 / 6923(代).
전자정부 컨퍼런스 2005 전자정부 구현을 위한 공개SW 적용방안
제 8장 데이터베이스.
식물의 성장조건 만 든 이 : 김지혁 지도교사 : 김경순선생님.
대한공중보건의사협의회 구강보건사업단 심 수 영
졸업논문영상OT.
CONTENTS Ⅰ. 대회목적 Ⅱ. 대회개요 Ⅲ. 대회요강 Ⅳ. 대회규정 Ⅴ. 운영계획 Ⅵ. 홍보계획 Ⅶ. 예산계획.
5-3최신영.
의사결정지원시스템 6조 오나연 송혜정 신은수 오경석
순천향대학교 공연영상미디어학부 미디어콘텐츠전공
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
홈페이지 제안서
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
2009개정 중등 국어과 교육과정.
엑셀 Add-In 응용프로그램 개발 소개
Presentation transcript:

빅데이터 분석을 위한 통계 프로그래밍 R 오 승 근 2013. 10. 21

CONTENTS 1 2 3 4 5 6 7 데이터 분석 변화와 R의 위치 R의 특징 R을 이용한 트위터 분석 예제 Hive R Streaming 7 연구 방향 및 결론

데이터 분석 변화와 R의 위치 데이터 업무 패턴의 변화 단순 통계 분석가에서 데이터 과학자로의 변화가 필요

데이터 분석 변화와 R의 위치 데이터 분석에서의 R의 위치

Interactive Data Analysis

데이터 분석 변화와 R의 위치 빅 데이터 플랫폼과 분석가 빅 데이터 플랫폼 데이터 분석가 (과학자)

데이터 분석 변화와 R의 위치 역동적인 분석에 적합한 언어 R 배열 및 행렬로 표현된 데이터에 대하여 효과적인 연산자를 이용해 자료의 분석, 시뮬 레이션 및 시각적 표현에 유용한 객체지향적 프로그램 R 프로그래밍 언어는 SAS, SPSS, MINITAB,..., 등과 같은 통계 소프트웨어이며, 통 계 계산과 그래픽을 위한 프로그래밍 언어이자 소프트웨어 환경 최근 빅 데이터의 태동과 함께 급부상하고 있으며, 빅 데이터의 전성기가 사그라져도 대표적인 기본 데이터 분석 툴로 확고 부동할 것으로 예상 되고 있음

R의 특징 최대의 자유로 최대의 혁명을 누림

단순 통계 분석 소프트웨어를 빅 데이터 분석 언어로... R의 특징 단순 통계 분석 소프트웨어를 빅 데이터 분석 언어로...

R의 특징 다양한 패키지(라이브러리) 제공 4500여개의 패키지, 31개의 종류

R의 특징 Why R? R은 공짜다. R은 문서화가 잘 되어 있다(패키지 마다 매뉴얼 제공).

R을 이용한 트위터 분석 예제 R 기반 트위터 분석 방법 R 기반 트위터 분석 방법 과거의 트위터 분석 방법

R 설치 환경 선택 및 주의사항 R 설치 환경 및 시스템 설계 시 주의 사항 (더욱이 로케일 문제 발생으로 인하여 시간이 흐를 수록 문제가 발생) 맥 : 서버가 아닌 랩탑에서 실무 분석을 한다면 가장 좋은 선택 리눅스 : R 튜닝이 가능하다면 가장 좋은 선택! 그리고 빅데이터 분석을 위해선 필수! 빅 데이터 분석 서비스 제공을 위한 시스템 구현 시 클라이언트-서버 모두 리눅스 환경으로 통일해야 하며, 서버에서 사용되는 패키지도 클라이언트에 함께 배포가 되어져야 함

R-Studio User Interface

R의 자료구조와 한계점 R의 자료 구조 – 통계계산에 최적화 패키지마다 자료 구조 형태가 다르나 겁먹지 말자! – 패키지 + 쿼리로 해결!

R의 자료구조와 한계점 R의 한계점 단순 병렬처리 패키지(mclapply)와 코드 최적화로 문제 해결 필요!

Hive R Streaming Hive http://hive.apache.org A data warehouse system for Hadoop Open Source (Apache License) ANSI SQL Support Facebook의 Main Data Warehousing System

Hive R Streaming Why Hive R Streaming? 목표 : 인터넷 몰에서 수천만 고객이 만든 앱 접속 로그를 기반으로 고객별 접속 시간과 접속 위치 로그로 이 사람이 주로 접속하는 시간과 위치를 클러스터링 하고 싶다. 조건 : 당신네 회사는 수십대 이상의 Hadoop(Hive) 클러스터를 가지고 있다. 각 사용자마다 몇 개의 클러스터로 나눌 것인가? 실제 위치와 시간 정보가 클러스터 중심으로 도출되어야만 함 R에 pamk알고리즘이 이에 해당하나 모든 고객 로그를 올려서 분석할 수 없다. 답 : Hive + R Streaming (R은 언제나 마지막 깃발을 꽂는 역할만을 수행!)

Hive R Streaming Example DBMS와 같이 테이블 형태로 데이터를 읽어와서 처리 (SQL 구문에 익숙한 자라면 쉽게 사용 가능)

Hive R Streaming Example R에서는 id를 통하여 접근

Hive R Streaming Example 결과 도출 후 plot 지원 패키지를 이용하여 표현

Hive R Streaming Example 결과 도출 후 plot 지원 패키지를 이용하여 표현

Hive R Streaming Example 결과 도출 후 plot 지원 패키지를 이용하여 표현

Hive R Streaming Example 오픈된 Map-API(Google Map, Naver Map 등)를 이용항 지도에 표현한 결과

Hive R Streaming 빅 데이터 시스템 구성 환경 예제

분석가가 Map/Reduce를 알아야 하는가? Hive R Streaming 분석가가 Map/Reduce를 알아야 하는가?

연구 방향 및 결론 현재의 연구 방향 및 결론 연구 환경 : 서버 구성에 따라 빅데이터 분석 연구 방향이 정해지므로, 신중히 결정 필요 고가의 서버 가상화 시스템으로 연구 방향 진행 하드웨어 스펙을 최대한 높게 잡은 후 가상으로 메모리 분할에 따른 결과 스케쥴링 필요 고가의 하드웨어로 인하여 싱글 머신에서 돌릴 경우 GPU 사용 불필요 중저가 또는 데스크탑 조립형 서버 실제 분산 환경의 흐름 파악 용이 가상화가 아닌 리얼 환경에서의 결과물 분석 필요 단, 스펙 높을 경우 데이터 결핍으로 인하여 연구 결과에는 악영향을 줄 가능성이 있음 유지보수를 위한 인력 충원 필요 (학부생의 졸업 프로젝트와 연동 가능성 고려) 리눅스 환경으로 인하여 Hadoop과 같은 분산 처리 기술과 R 프로그래밍 학습이 어려우나 좋은 연구주제가 될 것으로 판단 됨

연구 방향 및 결론 현재의 연구 방향 및 결론 연산 수행 시간 알고리즘 및 QoS 연산 하드웨어 증설에 따른 연산 수행 시간 측정(sec.) 각 스케쥴링 방법에 따른 연산 수행 시간 측정(sec.) 데이터 규모 증가에 따른 연산 수행 시간 변화 측정(sec.) 쿼리 응답 시간 측정(sec.) 알고리즘 및 QoS 데이터(멀티미디어 데이터) 성향에 따른 처리 방법 멀티미디어 로그 데이터 구성 및 가공 전략 수립 분석된 데이터의 결과 분석

연구 방향 및 결론 현재의 연구 방향 및 결론 빅데이터 분석은 새로운 개념이 아닌 기존 전산 기술의 집합체 그럼에도 불구하고 현재까지의 연구는 굉장히 초기 단계의 연구들이 대부분 (Watch Dog, Load Balancing, Resource Leveling 등이 필요함에도 불구하고... ) 빅 데이터 이슈와 관련하여 연구를 하고자 하면 LINUX와 Hadoop은 반드시 짚고 넘어갈 문제 최종 목표 달성을 위해서는 머하웃과 R을 지켜봐야할 것으로 예상 됨 (아직 까지는 R이 선전 중)

감사합니다.