Download presentation
Presentation is loading. Please wait.
1
교육팀 도경모 Big
2
'마이너리티 리포트'가 현실로… 범인잡았다 # 2011년 7월, 미국 캘리포니아 주 산타 크루즈시에서는 흥미로운 일이
벌어졌다. 경찰이 범죄가 발생할 곳 을 예측해 미리 현장 인근에 출동했 고, 실제 거기서 범죄가 일어난 것이 다. 마치 영화 '마이너리티 리포트'의 한 장면과 같은 일이 벌어진 것이다.
3
2011년 한 해의 전세계 데이터 사용량? 1.8 ZETTABYTE 1,800,000,000,000 GIGABYTE
4
매달 300억개의 새로운 컨텐츠 추가 매일 전송량 10억건 돌파 매시간 35시간 분량의 비디오 업로드 매달 14억개의 트윗 전송
6
분석 흐름과 패턴 예측
7
빅데이터의 조건
8
빅데이터의 요소 빅데이터 3대요소 빅데이터 인력 빅데이터 플랫폼 기술 자원 데이터 자원확보 데이터 품질 관리
데이터 사이언티스트 수학,공학(IT기술,엔지니어링) 능력 경제학, 통계학, 심리학 등 다문학적 이해 비판적 시각과 커뮤니케이션 능력 스토리텔링 등 시각화 능력 빅데이터의 요소 빅데이터 3대요소 인력 자원 기술 빅데이터 플랫폼 데이터 저장,관리기술 대용량 데이터 처리 빅 데이터 분석 (자연어처리, 의미분석, 데이터 마이닝) 시각화(Visualization) 빅데이터 데이터 자원확보 데이터 품질 관리
9
기존의 데이터 vs 빅데이터 정의 설명 정형 (Structured)
고정된 필드에 저장된 데이터. 관계형 데이터베이스(RDBMS) 및 스프레드시트 등을 예로 들 수 있다. 반정형 (Semi-Structured) 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터. XML이나 HTML 텍스트 등을 예로 들 수 있다. 비정형 (Unstructured) 고정된 필드에 저장되어 있지 않은 데이터. 텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등을 예로 들 수 있다. 이름 학번 전공 전번 도경모 정통 010-xxx-xxxxx ---- -----
10
NoSQL Not Only SQL의 약자 대용량 비정형 데이터 처리를 위한 분산 확장형 DB
Join 없으며 고정된 스키마도 없음 ACID(Atomicity, Consistency, Isolation, Durability) 지원 하지않음
11
RDBMS vs NoSQL 더 많은 Data (빅 데이터) Data
12
RDBMS vs NoSQL Table Table Join Join 결과 결과
13
Hadoop 오픈소스 분산처리기술 프로젝트 현재 정형/비정형 빅데이터 분석에 가장 선호되는 솔루션
Yahoo! ,Facebook에서 사용
14
Hadoop의 구조
15
HDFS
16
Map/Reduce Map 함수 : 리스트의 각 원소들에게 공통작업 처리
전체 데이터를 여러 개의 데이터 조각으로 나누어 분산처리후 결과를 모아 다시 분산 파일 시스템에 저장
17
Map/Reduce
18
분석기술
19
데이터 마이닝 대량의 데이터로부터 유용한 정보를 추출하여 이해하기 쉬운 형태로 변환하여 실제의 의사결정과정에 적용하는 전과정
저장된 데이터에서 정보, 지식, 규칙, 패턴,특성을 추출함
20
R 통계계산 및 시각화를 위한 언어 및 개발환경 제공 기본적인 통계기법,모델링,데이터 마이닝 구현/개선 가능
기본적인 통계기법,모델링,데이터 마이닝 구현/개선 가능 구현한 결과를 그래프 등으로 시각화 Hadoop과 의 연계 용이
21
R
22
Thank you
Similar presentations