교육팀 도경모 Big
'마이너리티 리포트'가 현실로… 범인잡았다 # 2011년 7월, 미국 캘리포니아 주 산타 크루즈시에서는 흥미로운 일이 벌어졌다. 경찰이 범죄가 발생할 곳 을 예측해 미리 현장 인근에 출동했 고, 실제 거기서 범죄가 일어난 것이 다. 마치 영화 '마이너리티 리포트'의 한 장면과 같은 일이 벌어진 것이다.
2011년 한 해의 전세계 데이터 사용량? 1.8 ZETTABYTE 1,800,000,000,000 GIGABYTE
매달 300억개의 새로운 컨텐츠 추가 매일 전송량 10억건 돌파 매시간 35시간 분량의 비디오 업로드 매달 14억개의 트윗 전송
분석 흐름과 패턴 예측
빅데이터의 조건
빅데이터의 요소 빅데이터 3대요소 빅데이터 인력 빅데이터 플랫폼 기술 자원 데이터 자원확보 데이터 품질 관리 데이터 사이언티스트 수학,공학(IT기술,엔지니어링) 능력 경제학, 통계학, 심리학 등 다문학적 이해 비판적 시각과 커뮤니케이션 능력 스토리텔링 등 시각화 능력 빅데이터의 요소 빅데이터 3대요소 인력 자원 기술 빅데이터 플랫폼 데이터 저장,관리기술 대용량 데이터 처리 빅 데이터 분석 (자연어처리, 의미분석, 데이터 마이닝) 시각화(Visualization) 빅데이터 데이터 자원확보 데이터 품질 관리
기존의 데이터 vs 빅데이터 정의 설명 정형 (Structured) 고정된 필드에 저장된 데이터. 관계형 데이터베이스(RDBMS) 및 스프레드시트 등을 예로 들 수 있다. 반정형 (Semi-Structured) 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터. XML이나 HTML 텍스트 등을 예로 들 수 있다. 비정형 (Unstructured) 고정된 필드에 저장되어 있지 않은 데이터. 텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등을 예로 들 수 있다. 이름 학번 전공 전번 도경모 20851014 정통 010-xxx-xxxxx ---- -----
NoSQL Not Only SQL의 약자 대용량 비정형 데이터 처리를 위한 분산 확장형 DB Join 없으며 고정된 스키마도 없음 ACID(Atomicity, Consistency, Isolation, Durability) 지원 하지않음
RDBMS vs NoSQL 더 많은 Data (빅 데이터) Data
RDBMS vs NoSQL Table Table Join Join 결과 결과
Hadoop 오픈소스 분산처리기술 프로젝트 현재 정형/비정형 빅데이터 분석에 가장 선호되는 솔루션 Yahoo! ,Facebook에서 사용
Hadoop의 구조
HDFS
Map/Reduce Map 함수 : 리스트의 각 원소들에게 공통작업 처리 전체 데이터를 여러 개의 데이터 조각으로 나누어 분산처리후 결과를 모아 다시 분산 파일 시스템에 저장
Map/Reduce
분석기술
데이터 마이닝 대량의 데이터로부터 유용한 정보를 추출하여 이해하기 쉬운 형태로 변환하여 실제의 의사결정과정에 적용하는 전과정 저장된 데이터에서 정보, 지식, 규칙, 패턴,특성을 추출함
R 통계계산 및 시각화를 위한 언어 및 개발환경 제공 기본적인 통계기법,모델링,데이터 마이닝 구현/개선 가능 기본적인 통계기법,모델링,데이터 마이닝 구현/개선 가능 구현한 결과를 그래프 등으로 시각화 Hadoop과 의 연계 용이
R
Thank you