Presentation is loading. Please wait.

Presentation is loading. Please wait.

소프트웨어시스템실습 1강: 빅데이터 및 R분석도구의 소개

Similar presentations


Presentation on theme: "소프트웨어시스템실습 1강: 빅데이터 및 R분석도구의 소개"— Presentation transcript:

1 소프트웨어시스템실습 1강: 빅데이터 및 R분석도구의 소개
2016년 2학기

2 Big Data: 3V The “BIG” isn’t just about volume

3 How much data? Google processes 20 PB a day (2008)
Wayback Machine has 3 PB TB/month (3/2009) Facebook has 2.5 PB of user data + 15 TB/day (4/2009) eBay has 6.5 PB of user data + 50 TB/day (5/2009) CERN’s Large Hydron Collider (LHC) generates 15 PB a year

4 Big Data EveryWhere! 다양하고 수많은 데이터가 수집, 저장 DW화 되고 있음
Big Data EveryWhere! 다양하고 수많은 데이터가 수집, 저장 DW화 되고 있음 Web data, e-commerce purchases at department/ grocery stores Bank/Credit Card transactions Social Network Natural Science environments

5 Data 유형 Relational Data (Tables/Transaction/Legacy Data)
Text Data (Web) Semi-structured Data (XML, HTML) Graph Data Social Network, Semantic Web (RDF), … Streaming Data You can only scan the data once Sensor data

6 데이터 분석을 왜 하는가?

7 데이터 패러다임 변화 데이터 시장 성장 : 데이터의 상품화
데이터 (data) -> 정보 (information) -> 지식 (knowledge)

8 빅데이터 관련 주요 용어 빅데이터 Big Data 빅데이터 분석 Big Data Analysis
데이터마이닝 Data Mining 기계학습 Machine Learning 데이터사이언스 (또는 데이터과학) Data Science

9 데이터 마이닝 Data Mining Knowledge Discovery in large Databases
대량의 데이터로부터 (from large data base) 이전에 알려지지는 않은 (previously unknown) 묵시적이고 (implicit) 잠재적으로 유용한 (potentially useful) 정보 또는 패턴을 탐사하는 작업

10 Artificial Intelligence Information Retrieval Statistics Mathematics
Data Mining 학문의 융합성 Artificial Intelligence Data Base Information Retrieval Statistics Mathematics Web Technology

11 빅데이터 분석 = 데이터사이언스 Data Science = Big Data Analysis
Data Mining : 주로 정형 데이터에 대한 분석 ... Data Engineering 가치 창출 활용 Text Mining Data Mining 해석 Data Domain Understanding Aggregation and Statistics Data warehouse and OLAP Indexing, Searching, and Querying Keyword based search Pattern matching (XML/RDF) Knowledge discovery Data Mining Machine Learning Distributed computing Ex) Hadoop

12 빅데이터(분석) 활용 분야 출처 : 이경일, 빅데이터 공공부문 적용전략, 솔트룩스,

13 빅데이터(분석) 활용 화장품 종합 성분 정보 서비스 SNS사진 기반 날씨 정보 서비스 환자 맞춤형 병원 정보 서비스
출처 : 이경일, 빅데이터 공공부문 적용전략, 솔트룩스, 환자 맞춤형 병원 정보 서비스 산불 예측 시스템 도서 추천 시스템 빅데이터 분석개요-13

14 빅데이터(분석) 적용사례 미국의 치안 및 범죄예방

15 빅데이터(분석) 적용사례 미국의 치안 및 범죄예방

16 빅데이터(분석) 적용사례 무엇을 예측할 것인가? => class 컬럼, target 컬럼, 종속 변수
무엇을 가지고 예측할 것인가? => feature 컬럼, 독립 변수 현재 데이터 현재 상황 현재 사건 Class = Y or N Class = 0.8

17 빅데이터(분석) 적용사례 범죄 예측을 위한 학습 데이터
특정 지역 위치, 시간, 주변 상황, 교통, 인구학적 정보, 지역교육수준, 지역소득수준, …

18 빅데이터(분석) 적용사례 범죄 예측 시각화

19 빅데이터(분석) 적용사례 미국 국세청 추진내용 효과 다양한 데이터 분석을 활용하여 탈세 및 사기 범죄 예방 시스템 구축
정부기관 사기 방지 솔루션 방대한 자료로부터 이상 징후를 찾아내고 예측 모델링을 통해 과거의 행동 정보를 분석하여 사기 패턴과 유사한 행동 검출 소셜 네트워크 분석을 통한 범죄 네트워크 발굴 페이스북이나 트위터를 통해 범죄자와 관련된 소셜 네트워크를 분석하여 범죄자 집단에 대한 감시 시스템 마련 효과 통합형 탈세 및 정부사기 방지 시스템을 통해 연간 3,450억 달러에 달하는 세금 누락 및 불필요한 세금 환급 절감

20 빅데이터(분석) 적용사례 밀라노 지능형 교통정보 시스템 시내 교통 상황을 고려한 최적의 교통안내 서비스
일정 기간 동안의 교통량, 속도, 기후 조건 등의 데이터를 종합 분석 실시간 교통흐름을 바탕으로 신속 정확한 내비게이션 서비스 가능

21 빅데이터(분석) 적용사례 구글, 실시간 자동 번역시스템
6개국어로 번역된 유엔 회의록과 23개국어로 번역된 유럽의회 회의록을 번역 엔진에 입력 서적 스캐니 프로젝트(scany project)에서 수천만 권의 전문 번역 데이터베이스 구축

22 빅데이터(분석) 적용사례 리츠칼튼 호텔 투숙 고객의 특성을 관찰한 데이터를 종합 분석하여 친절 서비스 제공
전 세계 100만 명의 고객 정보 DB를 공유

23 빅데이터(분석) 적용사례 캐나다 온타리오 공과대병원, 미숙아 모니터링을 통한 감염 예방 및 예측
환자당 일 9,000만 건 이상 의 생리학 데이터 스트림을 실시간 으로 분석 의료진보다 24시간 전에 감염 사실을 밝혀냄으로써 상태가 더 악화되기 전에 치료시작 가능

24 빅데이터(분석) 적용사례 미국의 산불 예측 시스템

25 빅데이터(분석) 적용사례 SNS를 활용한 할리우드 흥행 수익 예측 사용자 대화 내용을 분석하여 할리우드 영화 흥행 예측
트위터의 내용을 토대로 할리우드 영화 흥행을 정확히 예측 트위터 등 소셜 네트워크서비스(SNS)가 미국 할리우드에서 영화의 흥행 여부를 미리 판단하는 중요 도구로 활용 활용사례 칼슨은 트위터를 통해 분석한 영화 ‘트와일라잇’의 예상 흥행 실적은 약 1억 4,000만 달러였는데 실제로 1억 3,850만달러로 매우 근접 (예측 컬럼은 ?) 2010년 리메이크된 '나이트메어'는 트위터에 올라온 부정적 반응들 때문에 개봉 후 유료관객이 50% 감소

26 빅데이터(분석) 적용사례 | 식품건강 화해 (제 1회 공공데이터창업경진대회 최우수상)
화해 (제 1회 공공데이터창업경진대회 최우수상) 화장품 전 성분 정보를 분석하여 안전도, 피부 타입 별 성분, 기능성 성분 등 화장품 종합 성분 정보를 제공 활용공공데이터: 화장품 원료 및 성분 데이터 (식품의약품안전처) 다운로드 : 50만 건 이상 (‘14.12월 기준)

27 빅데이터(분석) 적용사례 | 보건의료 메디라떼 : 검색 ? 예측 ? 병원 DB를 활용, 환자 맞춤형 병원 정보를 제공
영업시간, 주소, 전화번호, 카톡, 시술사진, 의료진 약력 등 활용공공데이터: 병원정보DB (건강심사평가원) 다운로드 : 50만건 이상 (‘14.12월 기준)

28 빅데이터(분석) 적용사례 | 외식업소 추천 한국에 오는 중국관광객들을 대상으로 서비스
수익모델로서 예약과 모바일 페이먼트 시스템을 도입 한국관광공사와 한식재단의 표준 메뉴 및 위치 정보 공공데이터 활용 여러 나라의 언어로 되어 있는 위치 정보와 지하철 정보들도 이용

29 빅데이터(분석) 적용사례 | 여행코스 추천 Course 앱 여행 관련 빅데이터분석을 통해
빅데이터(분석) 적용사례 | 여행코스 추천 여행 관련 빅데이터분석을 통해 사람들이 어떤 코스를 가장 많이 가고, 어떤 연령층이 어떤 시간대에 주로 이용하는지 등을 파악 맞춤형 여행코스를 추천하는 서비스가 가능하며, 수익 창출 가능 Course 앱

30 빅데이터(분석) 적용사례 : opinion (text) 분석
펄스K

31 빅데이터(분석) 적용사례 : opinion (text) 분석
티버즈

32 빅데이터(분석) 적용사례 Amazon.com 매출의 30%가 similarity 기반 추천(recommendation)의 결과

33 빅데이터(분석) 이론의 키워드 기계 학습 Machine Learning 설명 모델 Description Model
데이터에 어떤 내용들이 들어 있나? 간략하게 표현할 수 없나? “요약”의 개념 예측 모델 Prediction Model 데이터에 숨어 있는 패턴을 찾아내어 앞으로의 상황을 예측할 수 있을까? “학습”의 개념

34 빅데이터(분석)을 위한 기초이론 기계학습 (machine learning) 패러다임 물리, 수학, 천문학 데이터마이닝
대자연, 우주를 형성, 지배하는 법칙 만유인력 법칙 상대성 이론 케플러 법칙 ... 빅데이터를 형성, 지배하는 법칙

35 빅데이터(분석)의 결과는? 추상화 (abstraction) 일반화 (generalization) 모델, 패턴

36 제동거리 데이터 분석 제동거리를 결정하는 법칙이 있나?
제동거리 = ? speed : 차량속력(단위 : mile), dist : 제동거리(단위 : feet) 예) speed : 4, dist : 2 → 4 mile로 주행하는 차량이 급정지하면, 제동거리는 2 feet 제동거리 결정 법칙

37 제동 거리 예측 일정한 속력으로 가는 차량이 멈췄을 때의 제동거리가 어떤지 예측할 수 있다. 이때, 예측방법으로는 회귀분석법을 이용한다. cars데이터에 대한 회귀모델 식 y=3.932x

38 빅데이터(분석) 결과 데이터마이닝 모델 (Model) 빅데이터를 형성, 지배하는 법칙

39 빅데이터(분석) 이론적 토대: Machine Learning (기계학습)
감독형 학습 (Supervised Learning) 자동분류 (Classification) 회귀분석 (Regression) => 예측 모델 (Prediction model)의 도출 비감독형, 자율 학습 (Unsupervised Learning) 클러스터링 (Clustering), 연관규칙 마이닝 (Association) => 설명 모델 (Description model)의 도출 강화학습 (Reinforcement Learning) Agent : (State, Action) -> Reward (Reward가 최대가 되도록 action planning)

40 자동 분류 Classification 학습 알고리즘에 따라 예측(분류) 모델 형태가 다름 k-Nearest Neighbors
Support Vector Machine Statistics (ex) Bayesian Network Decision Trees Neural Network

41 자동 분류 시스템 구조 기본 개념 분류 (예측) 모델

42 예측모델의 생성: 의사결정 트리 (Decision Tree)
Credit Analysis accept reject salary < 20000 no yes Education in graduate 학습 레이블 (클래스) 학습 데이터 분류 모델

43 회귀분석 Regression 제동거리를 결정하는 법칙이 있나? 제동거리 결정 법칙
제동거리 = ? speed : 차량속력(단위 : mile), dist : 제동거리(단위 : feet) 예) speed : 4, dist : 2 → 4 mile로 주행하는 차량이 급정지하면, 제동거리는 2 feet 제동거리 결정 법칙

44 회귀분석 Regression 일정한 속력으로 가는 차량이 멈췄을 때의 제동거리가 어떤지 예측할 수 있다. 이때, 예측방법으로는 회귀분석법을 이용한다. cars데이터에 대한 회귀모델 식 y=3.932x

45 클러스터링 Clustering 여행을 즐기는 직장인 골프를 즐기는 부자 노년층

46 설명모델의 생성: 거리기반 클러스터링 Credit Analysis 군집화 클래스 컬럼 없음 클러스터 특성 분석

47 연관마이닝 Association Mining
Given: 상품 구매 기록으로부터 상품간의 연관성을 측정하여 함께 거래될 가능성을 규칙으로 표현 일명: 장바구니 분석

48 빅데이터 분석을 잘하기 위해서는... 분석의 목적을 도출 분석하고자 하는 데이터를 먼저 이해
데이터 스키마의 이해 데이터 용어 및 콘텐츠의 이해 데이터 융합의 이해 빅데이터분석도구는 자동화된 도구가 아님을 인식 Big data analysis is not a magic ! 기계학습 Machine Learning의 이해 기초적 이해만 해도 활용 가능함 중요한 것은 기계학습 모델을 구성하는 인자 또는 특징 (feature)을 설정하는 것이 매우 중요 분석의 목적을 도출

49 데이터 통찰 : 스키마 이해 테이블 개체의 의미 및 기능의 이해
테이블 필드의 의미 및 필드간 관계의 이해 테이블 개체간의 관계(외래키)의 의해 Fact 테이블의 이해: 분석 주제 컬럼의 설정 및 또는 정의 Dimension 테이블의 이해: 분석 주제에 대한 다차원 뷰의 정의

50 데이터 통찰 : 콘텐츠 이해 Feature Engineering의 이해 Scatter Plotting
Feature selection Feature generation Feature transformation Scatter Plotting 2개 컬럼(속성)간의 관계를 파악 클래스 분류를 위한 최적의 feature 컬럼 파악 Feature selection 문제에 대한 이해를 유도 Big Data 기반 예측 기술의 이해를 유도 Iris (붓꽃) 데이터에 대한 scatter plot

51 Iris Data

52 예 : 붓꽃(iris) 데이터 붓꽃 실제 붓꽃 데이터 특성 추출

53 예 : 붓꽃(iris) 데이터 붓꽃데이터 3가지 종류(class): setosa, versicolor, virginica
꽃받침길이(Sepal.Length) 꽃받침폭(Sepal.width) 꽃잎길이(Petal.Length) 꽃잎폭(Petal.Width)

54 예: 붓꽃(iris) 데이터

55 예 : 붓꽃(iris) 데이터 boxplot
하위 속성을 나누지 않고 클래스별 데이터를 분석했을 시 클래스마다 특징을 보이면서 보다 분류하기가 쉬워짐을 볼 수 있다.

56 예 : 붓꽃(iris) 데이터 데이터 이해 과정: boxplot

57 예 : 붓꽃(iris) 데이터 Scatter Plot 2개의 속성간의 관계를 파악
pairs(iris[1:4], main = "Anderson's Iris Data -- 3 species", pch = 21, bg = c("red", "green3", "blue")[unclass(iris$Species)]) Scatter Plot 2개의 속성간의 관계를 파악

58 분석의 목적: 붓꽃(iris) 품종 분류 setosa versicolor virginica ? 어떤 종류인가? ? ?

59 예 : 붓꽃(iris) 데이터 분류모델의 생성 (decision tree 알고리즘)
idx <- sample(2, nrow(iris), replace=TRUE, prob=c(0.7, 0.3)) trainData <- iris[idx==1,] testData <- iris[idx==2,] library(party) formula <- Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width iris_ctree <- ctree(formula, data=trainData) pred <- predict(iris_ctree, testData) conf.mat <- table(pred, testData$Species) (accuracy <- sum(diag(conf.mat))/sum(conf.mat) * 100) plot(iris_ctree)

60 예: 붓꽃(iris) 데이터 자동분류 모델

61 데이터 통찰 : 데이터 융합 예: 화재 예측 시스템의 구성 외부 데이터 화재 관련 내부 데이터 인명  재산피해 저감 최소화
예측대응 시스템 (SW) 재해  재난 데이터확보 데이터융합 융합마이닝 적합성평가 예층대응모델 개선모델 환경 건물 지리 기상 행정 화재 데이터 교통 서비스(시스템)화 저감 최소화 요약  학습 외부 데이터 화재 관련 내부 데이터

62 빅데이터 시대의 R

63 R’s popularity in Big Data Analysis

64 R’s popularity in Big Data Analysis

65 R packages

66 Development of R packages

67 대기업 데이터분석 플랫폼으로서 R의 활용

68 빅데이터분석도구 R의 장점 In-memory computing Object-oriented programming
Up-to-date data analysis packages Data visualization Effective text processing and analysis

69 데이터 시각화 Data Visualization

70 R을 위한 Web Sites Official site R packages R studio: GUI
R packages R studio: GUI

71 R 개발 환경: R Studio

72 빅데이터분석 프로세스

73 Feature Transformation
Data Preparation Training Data Test Data Feature Engineering Feature Selection Feature Generation Feature Transformation Learning Prediction Evaluation Confusion Matrix Accuracy


Download ppt "소프트웨어시스템실습 1강: 빅데이터 및 R분석도구의 소개"

Similar presentations


Ads by Google