소프트웨어시스템실습 1강: 빅데이터 및 R분석도구의 소개

Slides:



Advertisements
Similar presentations
SPEAKER VERIFICATION SYSTEMS 대화형 사용자 인터페이스 개론 정보와 추론 연구실.
Advertisements

빅 데이터의 정의와 특징 빅 데이터의 이용사례 빅 데이터의 문제점 or 한계점 빅 데이터의 전망.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
영화 예매 시스템 - 많이 봤다이가 ? CSE Corp. PM 송진희 김성욱 김보람 천창영.
Proprietary ETRI OOO 연구소 ( 단, 본부 ) 명 1 CDN 을 위한 캐시 시험 모듈 소프트웨어연구부문 빅데이터 SW 플랫폼연구부 분석소프트웨어연구실 ETRI Technology Marketing Strategy ETRI Technology Marketing.
금융산업 발전을 위한 금융수학의 역할 가톨릭대학교 전인태 가톨릭대학교 전인태. 금융산업 개인 기관투자자 연기금 보험회사 등등 개인 기관투자자 연기금 보험회사 등등 다양한 형태 기술 아이디어 기업 기술 아이디어 기업 다양한 형태 매칭 자금조달 투자상품제공 주식, 채권 전환사채.
KPC 자격 강원지역센터 사업계획서 OO. OO. 제안사 명칭.
접수번호 : 스마트콘텐츠 중화권 전략 비즈니스 지원사업 참가 업체 사업계획서 - 프로젝트명(앱) : 업 체 명 :
연관규칙기법과 분류모형을 결합한 상품 추천 시스템:
논문 모집 안내 한국BI데이터마이닝학회 빅 데이터 시대의 데이터마이닝 역할 초대의 글 주요 일정
Deep Learning.
Deep Learning.
[별첨] 특허 DB 구축 및 토픽 모델링 수행 과정 Flowchart, File List
Data Interface, Data mart Technology
검색광고 Search Advertising
의사 결정 트리(decision tree)
Information & Communication Technology
뇌를 자극하는 Windows Server 2012 R2
(Classification – Advanced Techniques)
Entity Relationship Diagram
Machine Learning Network Data Science Lab Seunghun Lee, KangHee Lee
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
Hybrid INDIGO project 중간보고
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
데이터마이닝의 소개 Data Mining Introduction
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
1. 컴포넌트 개요 – [빅데이터] 기능 개요 컴포넌트 기능 구성도 주요 기능 정의 JDBC Interface 데이터 가공제공
컴퓨터과학 전공탐색 배상원.
MicroStrategy6 컴퓨터학과 석사 2학기 진수경.
17강. 데이터 베이스 - I 데이터 베이스의 개요 Oracle 설치 기본적인 SQL문 익히기
머신 러닝 2 ㈜ 퀀트랩.
제 1장. 멀티미디어 시스템 개요.
SK Telecom 매출 통계 시스템의 SQL Server Reporting Services 적용사례
소프트컴퓨팅 연구실 소개자료 . 소프트컴퓨팅연구실 조성배.
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
강의 개요. 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
정보 추출기술 (Data Mining Techniques ) : An Overview
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
2014년 가을학기 손시운 지도 교수: 문양세 교수님 분류 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
자율주행 차량용 드라이빙 컴퓨팅 하드웨어 플랫폼 05
Chapter 03. 관계 데이터베이스 설계.
Google 애널리틱스로 광고 성과 분석하기
04. DBMS 개요 명지대학교 ICT 융합대학 김정호.
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
기상 레이더 정보를 이용한 획기적인 LID시설 제어 방법 GIST대학 물리학부 정희원 GIST대학 기초교육학부 박연준, 기태윤
20 장 네트워킹과 인터네트워킹 장치 20.1 리피터(Repeaters) 20.2 브리지(Bridges)
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
ALLPPT.com _ Free PowerPoint Templates, Diagrams and Charts
강의 제목 강사 이름 | 강의 번호.
Data Analytics for Healthcare
수율관리를 위한 POP시스템 목적과 용도 시스템과 구성 POP의 효과
뇌를 자극하는 Solaris bible.
Support Vector Machine
1. 비정형 데이터마이닝의 이해.
인공 지능 시대에 필요한 인재 행복한 미래를 만드는 기술자 김송호.
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
Map Designer Solution 소개자료
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
IO-Link 통신 기술 소개 산업 Ethernet 필드버스 게이트웨이 접속 IO-Link 마스터 IO-Link 통신
텍스트 분석 ㈜ 퀀트랩.
마케팅 의사결정과정 시장조사 의사결정 시장 상황 분석
.Net FrameWork for Web2.0 한석수
학부 컴퓨터공학부 교육과정 (학부) 2학년 4학년 3학년 1학년 1학기 2학기 IPP 자격과정 전공트랙
1. 강의 소개 컴퓨팅적 사고와 문제해결.
WISE OLAP.
WISE DQ.
제 2 회 보건의료 빅데이터 사이언티스트 인증 프로그램 일 시 : (월) – 04.04(금) (5일간)
Presentation transcript:

소프트웨어시스템실습 1강: 빅데이터 및 R분석도구의 소개 2016년 2학기

2014-06-04 Big Data: 3V The “BIG” isn’t just about volume

How much data? Google processes 20 PB a day (2008) Wayback Machine has 3 PB + 100 TB/month (3/2009) Facebook has 2.5 PB of user data + 15 TB/day (4/2009) eBay has 6.5 PB of user data + 50 TB/day (5/2009) CERN’s Large Hydron Collider (LHC) generates 15 PB a year

Big Data EveryWhere! 다양하고 수많은 데이터가 수집, 저장 DW화 되고 있음 2014-06-04 Big Data EveryWhere! 다양하고 수많은 데이터가 수집, 저장 DW화 되고 있음 Web data, e-commerce purchases at department/ grocery stores Bank/Credit Card transactions Social Network Natural Science environments

Data 유형 Relational Data (Tables/Transaction/Legacy Data) Text Data (Web) Semi-structured Data (XML, HTML) Graph Data Social Network, Semantic Web (RDF), … Streaming Data You can only scan the data once Sensor data

데이터 분석을 왜 하는가?

데이터 패러다임 변화 데이터 시장 성장 : 데이터의 상품화 데이터 (data) -> 정보 (information) -> 지식 (knowledge)

빅데이터 관련 주요 용어 빅데이터 Big Data 빅데이터 분석 Big Data Analysis 데이터마이닝 Data Mining 기계학습 Machine Learning 데이터사이언스 (또는 데이터과학) Data Science

데이터 마이닝 Data Mining Knowledge Discovery in large Databases 대량의 데이터로부터 (from large data base) 이전에 알려지지는 않은 (previously unknown) 묵시적이고 (implicit) 잠재적으로 유용한 (potentially useful) 정보 또는 패턴을 탐사하는 작업

Artificial Intelligence Information Retrieval Statistics Mathematics Data Mining 학문의 융합성 Artificial Intelligence Data Base Information Retrieval Statistics Mathematics Web Technology

빅데이터 분석 = 데이터사이언스 Data Science = Big Data Analysis Data Mining : 주로 정형 데이터에 대한 분석 ... Data Engineering 가치 창출 활용 Text Mining Data Mining 해석 Data Domain Understanding Aggregation and Statistics Data warehouse and OLAP Indexing, Searching, and Querying Keyword based search Pattern matching (XML/RDF) Knowledge discovery Data Mining Machine Learning Distributed computing Ex) Hadoop

빅데이터(분석) 활용 분야 출처 : 이경일, 빅데이터 공공부문 적용전략, 솔트룩스, 2012.6.

빅데이터(분석) 활용 화장품 종합 성분 정보 서비스 SNS사진 기반 날씨 정보 서비스 환자 맞춤형 병원 정보 서비스 출처 : 이경일, 빅데이터 공공부문 적용전략, 솔트룩스, 2012.6. 환자 맞춤형 병원 정보 서비스 산불 예측 시스템 도서 추천 시스템 빅데이터 분석개요-13

빅데이터(분석) 적용사례 미국의 치안 및 범죄예방

빅데이터(분석) 적용사례 미국의 치안 및 범죄예방 https://www.youtube.com/watch?v=wwgapf87I0o https://www.youtube.com/watch?v=_doyMwsK3Ls

빅데이터(분석) 적용사례 무엇을 예측할 것인가? => class 컬럼, target 컬럼, 종속 변수 무엇을 가지고 예측할 것인가? => feature 컬럼, 독립 변수 현재 데이터 현재 상황 현재 사건 … Class = Y or N Class = 0.8

빅데이터(분석) 적용사례 범죄 예측을 위한 학습 데이터 특정 지역 위치, 시간, 주변 상황, 교통, 인구학적 정보, 지역교육수준, 지역소득수준, …

빅데이터(분석) 적용사례 범죄 예측 시각화

빅데이터(분석) 적용사례 미국 국세청 추진내용 효과 다양한 데이터 분석을 활용하여 탈세 및 사기 범죄 예방 시스템 구축 정부기관 사기 방지 솔루션 방대한 자료로부터 이상 징후를 찾아내고 예측 모델링을 통해 과거의 행동 정보를 분석하여 사기 패턴과 유사한 행동 검출 소셜 네트워크 분석을 통한 범죄 네트워크 발굴 페이스북이나 트위터를 통해 범죄자와 관련된 소셜 네트워크를 분석하여 범죄자 집단에 대한 감시 시스템 마련 효과 통합형 탈세 및 정부사기 방지 시스템을 통해 연간 3,450억 달러에 달하는 세금 누락 및 불필요한 세금 환급 절감

빅데이터(분석) 적용사례 밀라노 지능형 교통정보 시스템 시내 교통 상황을 고려한 최적의 교통안내 서비스 일정 기간 동안의 교통량, 속도, 기후 조건 등의 데이터를 종합 분석 실시간 교통흐름을 바탕으로 신속 정확한 내비게이션 서비스 가능

빅데이터(분석) 적용사례 구글, 실시간 자동 번역시스템 6개국어로 번역된 유엔 회의록과 23개국어로 번역된 유럽의회 회의록을 번역 엔진에 입력 서적 스캐니 프로젝트(scany project)에서 수천만 권의 전문 번역 데이터베이스 구축

빅데이터(분석) 적용사례 리츠칼튼 호텔 투숙 고객의 특성을 관찰한 데이터를 종합 분석하여 친절 서비스 제공 전 세계 100만 명의 고객 정보 DB를 공유

빅데이터(분석) 적용사례 캐나다 온타리오 공과대병원, 미숙아 모니터링을 통한 감염 예방 및 예측 환자당 일 9,000만 건 이상 의 생리학 데이터 스트림을 실시간 으로 분석 의료진보다 24시간 전에 감염 사실을 밝혀냄으로써 상태가 더 악화되기 전에 치료시작 가능

빅데이터(분석) 적용사례 미국의 산불 예측 시스템

빅데이터(분석) 적용사례 SNS를 활용한 할리우드 흥행 수익 예측 사용자 대화 내용을 분석하여 할리우드 영화 흥행 예측 트위터의 내용을 토대로 할리우드 영화 흥행을 정확히 예측 트위터 등 소셜 네트워크서비스(SNS)가 미국 할리우드에서 영화의 흥행 여부를 미리 판단하는 중요 도구로 활용 활용사례 칼슨은 트위터를 통해 분석한 영화 ‘트와일라잇’의 예상 흥행 실적은 약 1억 4,000만 달러였는데 실제로 1억 3,850만달러로 매우 근접 (예측 컬럼은 ?) 2010년 리메이크된 '나이트메어'는 트위터에 올라온 부정적 반응들 때문에 개봉 후 유료관객이 50% 감소

빅데이터(분석) 적용사례 | 식품건강 화해 (제 1회 공공데이터창업경진대회 최우수상) 화해 (제 1회 공공데이터창업경진대회 최우수상) 화장품 전 성분 정보를 분석하여 안전도, 피부 타입 별 성분, 기능성 성분 등 화장품 종합 성분 정보를 제공 활용공공데이터: 화장품 원료 및 성분 데이터 (식품의약품안전처) 다운로드 : 50만 건 이상 (‘14.12월 기준)

빅데이터(분석) 적용사례 | 보건의료 메디라떼 : 검색 ? 예측 ? 병원 DB를 활용, 환자 맞춤형 병원 정보를 제공 영업시간, 주소, 전화번호, 카톡, 시술사진, 의료진 약력 등 활용공공데이터: 병원정보DB (건강심사평가원) 다운로드 : 50만건 이상 (‘14.12월 기준)

빅데이터(분석) 적용사례 | 외식업소 추천 한국에 오는 중국관광객들을 대상으로 서비스 수익모델로서 예약과 모바일 페이먼트 시스템을 도입 한국관광공사와 한식재단의 표준 메뉴 및 위치 정보 공공데이터 활용 여러 나라의 언어로 되어 있는 위치 정보와 지하철 정보들도 이용

빅데이터(분석) 적용사례 | 여행코스 추천 Course 앱 여행 관련 빅데이터분석을 통해 빅데이터(분석) 적용사례 | 여행코스 추천 여행 관련 빅데이터분석을 통해 사람들이 어떤 코스를 가장 많이 가고, 어떤 연령층이 어떤 시간대에 주로 이용하는지 등을 파악 맞춤형 여행코스를 추천하는 서비스가 가능하며, 수익 창출 가능 Course 앱

빅데이터(분석) 적용사례 : opinion (text) 분석 펄스K

빅데이터(분석) 적용사례 : opinion (text) 분석 티버즈

빅데이터(분석) 적용사례 Amazon.com 매출의 30%가 similarity 기반 추천(recommendation)의 결과

빅데이터(분석) 이론의 키워드 기계 학습 Machine Learning 설명 모델 Description Model 데이터에 어떤 내용들이 들어 있나? 간략하게 표현할 수 없나? “요약”의 개념 예측 모델 Prediction Model 데이터에 숨어 있는 패턴을 찾아내어 앞으로의 상황을 예측할 수 있을까? “학습”의 개념

빅데이터(분석)을 위한 기초이론 기계학습 (machine learning) 패러다임 물리, 수학, 천문학 데이터마이닝 대자연, 우주를 형성, 지배하는 법칙 만유인력 법칙 상대성 이론 케플러 법칙 ... 빅데이터를 형성, 지배하는 법칙

빅데이터(분석)의 결과는? 추상화 (abstraction) 일반화 (generalization) 모델, 패턴

제동거리 데이터 분석 제동거리를 결정하는 법칙이 있나? 제동거리 = ? speed : 차량속력(단위 : mile), dist : 제동거리(단위 : feet) 예) speed : 4, dist : 2 → 4 mile로 주행하는 차량이 급정지하면, 제동거리는 2 feet 제동거리 결정 법칙

제동 거리 예측 일정한 속력으로 가는 차량이 멈췄을 때의 제동거리가 어떤지 예측할 수 있다. 이때, 예측방법으로는 회귀분석법을 이용한다. cars데이터에 대한 회귀모델 식 y=3.932x-17.5791

빅데이터(분석) 결과 데이터마이닝 모델 (Model) 빅데이터를 형성, 지배하는 법칙

빅데이터(분석) 이론적 토대: Machine Learning (기계학습) 감독형 학습 (Supervised Learning) 자동분류 (Classification) 회귀분석 (Regression) => 예측 모델 (Prediction model)의 도출 비감독형, 자율 학습 (Unsupervised Learning) 클러스터링 (Clustering), 연관규칙 마이닝 (Association) => 설명 모델 (Description model)의 도출 강화학습 (Reinforcement Learning) Agent : (State, Action) -> Reward (Reward가 최대가 되도록 action planning)

자동 분류 Classification 학습 알고리즘에 따라 예측(분류) 모델 형태가 다름 k-Nearest Neighbors Support Vector Machine Statistics (ex) Bayesian Network Decision Trees Neural Network

자동 분류 시스템 구조 기본 개념 분류 (예측) 모델

예측모델의 생성: 의사결정 트리 (Decision Tree) Credit Analysis accept reject salary < 20000 no yes Education in graduate 학습 레이블 (클래스) 학습 데이터 분류 모델

회귀분석 Regression 제동거리를 결정하는 법칙이 있나? 제동거리 결정 법칙 제동거리 = ? speed : 차량속력(단위 : mile), dist : 제동거리(단위 : feet) 예) speed : 4, dist : 2 → 4 mile로 주행하는 차량이 급정지하면, 제동거리는 2 feet 제동거리 결정 법칙

회귀분석 Regression 일정한 속력으로 가는 차량이 멈췄을 때의 제동거리가 어떤지 예측할 수 있다. 이때, 예측방법으로는 회귀분석법을 이용한다. cars데이터에 대한 회귀모델 식 y=3.932x-17.5791

클러스터링 Clustering 여행을 즐기는 직장인 골프를 즐기는 부자 노년층

설명모델의 생성: 거리기반 클러스터링 Credit Analysis 군집화 클래스 컬럼 없음 클러스터 특성 분석

연관마이닝 Association Mining Given: 상품 구매 기록으로부터 상품간의 연관성을 측정하여 함께 거래될 가능성을 규칙으로 표현 일명: 장바구니 분석

빅데이터 분석을 잘하기 위해서는... 분석의 목적을 도출 분석하고자 하는 데이터를 먼저 이해 데이터 스키마의 이해 데이터 용어 및 콘텐츠의 이해 데이터 융합의 이해 빅데이터분석도구는 자동화된 도구가 아님을 인식 Big data analysis is not a magic ! 기계학습 Machine Learning의 이해 기초적 이해만 해도 활용 가능함 중요한 것은 기계학습 모델을 구성하는 인자 또는 특징 (feature)을 설정하는 것이 매우 중요 분석의 목적을 도출

데이터 통찰 : 스키마 이해 테이블 개체의 의미 및 기능의 이해 테이블 필드의 의미 및 필드간 관계의 이해 테이블 개체간의 관계(외래키)의 의해 Fact 테이블의 이해: 분석 주제 컬럼의 설정 및 또는 정의 Dimension 테이블의 이해: 분석 주제에 대한 다차원 뷰의 정의

데이터 통찰 : 콘텐츠 이해 Feature Engineering의 이해 Scatter Plotting Feature selection Feature generation Feature transformation Scatter Plotting 2개 컬럼(속성)간의 관계를 파악 클래스 분류를 위한 최적의 feature 컬럼 파악 Feature selection 문제에 대한 이해를 유도 Big Data 기반 예측 기술의 이해를 유도 Iris (붓꽃) 데이터에 대한 scatter plot

Iris Data

예 : 붓꽃(iris) 데이터 붓꽃 실제 붓꽃 데이터 특성 추출

예 : 붓꽃(iris) 데이터 붓꽃데이터 3가지 종류(class): setosa, versicolor, virginica 꽃받침길이(Sepal.Length) 꽃받침폭(Sepal.width) 꽃잎길이(Petal.Length) 꽃잎폭(Petal.Width)

예: 붓꽃(iris) 데이터

예 : 붓꽃(iris) 데이터 boxplot 하위 속성을 나누지 않고 클래스별 데이터를 분석했을 시 클래스마다 특징을 보이면서 보다 분류하기가 쉬워짐을 볼 수 있다.

예 : 붓꽃(iris) 데이터 데이터 이해 과정: boxplot

예 : 붓꽃(iris) 데이터 Scatter Plot 2개의 속성간의 관계를 파악 pairs(iris[1:4], main = "Anderson's Iris Data -- 3 species", pch = 21, bg = c("red", "green3", "blue")[unclass(iris$Species)]) Scatter Plot 2개의 속성간의 관계를 파악

분석의 목적: 붓꽃(iris) 품종 분류 setosa versicolor virginica ? 어떤 종류인가? ? ?

예 : 붓꽃(iris) 데이터 분류모델의 생성 (decision tree 알고리즘) idx <- sample(2, nrow(iris), replace=TRUE, prob=c(0.7, 0.3)) trainData <- iris[idx==1,] testData <- iris[idx==2,] library(party) formula <- Species ~ Sepal.Length + Sepal.Width + Petal.Length + Petal.Width iris_ctree <- ctree(formula, data=trainData) pred <- predict(iris_ctree, testData) conf.mat <- table(pred, testData$Species) (accuracy <- sum(diag(conf.mat))/sum(conf.mat) * 100) plot(iris_ctree)

예: 붓꽃(iris) 데이터 자동분류 모델

데이터 통찰 : 데이터 융합 예: 화재 예측 시스템의 구성 외부 데이터 화재 관련 내부 데이터 인명  재산피해 저감 최소화 예측대응 시스템 (SW) 재해  재난 데이터확보 데이터융합 융합마이닝 적합성평가 예층대응모델 개선모델 환경 건물 지리 기상 행정 화재 데이터 교통 서비스(시스템)화 저감 최소화 요약  학습 외부 데이터 화재 관련 내부 데이터

빅데이터 시대의 R

R’s popularity in Big Data Analysis

R’s popularity in Big Data Analysis

R packages

Development of R packages

대기업 데이터분석 플랫폼으로서 R의 활용

빅데이터분석도구 R의 장점 In-memory computing Object-oriented programming Up-to-date data analysis packages Data visualization Effective text processing and analysis

데이터 시각화 Data Visualization

R을 위한 Web Sites Official site R packages R studio: GUI http://www.r-project.org/ R packages http://cran.r-project.org/ R studio: GUI http://www.rstudio.com/

R 개발 환경: R Studio

빅데이터분석 프로세스

Feature Transformation Data Preparation Training Data Test Data Feature Engineering Feature Selection Feature Generation Feature Transformation Learning Prediction Evaluation Confusion Matrix Accuracy