Big Data 2012.3. 순서  배경  Hadoop  관련 프로젝트  활용  주요 이슈  전망과 과제 2.

Slides:



Advertisements
Similar presentations
이혁재 /KASA NoSQL. 요약 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머.
Advertisements

공공기관을 위한 정보시스템 통합 서버가상화 솔루션 개요 주요 기능 구축사례 경쟁제품 비교 구축 예시 제품 정보 및 문의.
Product Lifecycle Management © 2003 IBM Corporation PLM Definition Product Lifecycle Management.
빅데이터란 ? 1. 빅데이터에 관한 잘못된 상식 빅데이터는 용량과 규모가 매우 큰 데이터를 말한다. 2.
SDU 재학생 및 신. 편입 학생을 대상으로 “ 클라우드 컴퓨팅 ” 에 대해서 알아보는 특강을 준비하였습니다. 본 특강은 컴퓨팅 산업에서 가장 큰 화두로 성장하고 있는 “ 클라우드컴퓨팅 (Cloud Computing) 에 대한 기초 적 이해와 클라우드 컴퓨팅에서 사용되는.
Windows Clustering Technology Overview 기술사업부 ( 주 ) 마이크로소프트.
0 Sytem Architecture Eric Lim AKAON. 1/44 Ⅰ. 아키텍처 개요 Ⅱ. 아키텍처 물리 설계 Ⅲ. 아키텍처 구성도 ( 예 ) Ⅳ. 고려사항.
더존다스 경영전략과 비젼 1 ERP 개발부문
SQL Server 2005 기반의 Microsoft Business Intelligence 전략 박명은 차장 SQL Technology Specialist 기술사업부 기업고객사업 한국마이크로소프트.
㈜다산씨앤씨 The next generation Windows-based Terminal1 교육 정보화를 위한 W B T 제안서.
Table of Contents I. OLAP 의 이해 II. OLAP의 CRM 적용 사례 III. 향후 OLAP의 발전 방향.
MrDataBld 2.x 제품 소개 2007.
2.1 In-Memory Computing 디스크 기반 데이터베이스에서 인메모리 기반 데이터베이스로 BW시스템 전환
Hourglass-A library for incremental processing on Hadoop
Message Driven Architecture for Massive Service
연구실 인턴쉽 안내자료 컴퓨터공학과 2017학년도 1학기.
기술 표준 6대 필수 기술 요소에 대해 지정한 그룹 IT 기술 표준에 따라 DBMS는 MS SQL과 Oracle에 대해 검토 함 구분 OS DBMS WAS Web Sever 검토대상 종합의견 x86 기반 OS(64bit 권장) 성능, 안정성 및 HW의 확장성 향상으로.
Chapter 7 데이터웨어하우징 의사결정지원시스템.
빅데이터 분산 처리 시스템 충북대학교 정보통신공학부 복경수
빅데이터 분석 과정.
개발자에게 SharePoint Services 란 무엇인가?
INI STEEL 성과관리시스템 구축을 위한 SAP 제안설명회
빅데이터 순환 과정과 플랫폼.
BIG Data 컴퓨터응용과학부 박진완.
Comshare Decision을 이용한 SCM Monitoring
Operating Systems Overview
EPG Rendering Service ㈜ 이 파 워 게 이 트.
Distributed Computing (Apache Hadoop & Hive Review)
7장 : 캐시와 메모리.
Enterprise Data Warehouse
Azure WebApp on Linux와 .NET Core
12. 데이터베이스 설계.
Excel OLAP Reporting / OWC를 이용한
지식저장 및 활용사례 삼성SDS 아리샘 KMS 오승연 책임
실시간 DW를 위한 엔터프라이즈 플랫폼 SYBASE KOREA October, 2010.
Korea University of Technology and Education Hongyeon Kim
2007. Database Term Project Team 2 윤형석, 김희용, 최현대 우경남, 이상제
14장. 병렬 프로세서 다루는 내용 병렬 프로세서로의 개념 병렬 처리와 병렬 컴퓨터 분류 배열 프로세서와 다중 프로세서의 개념
NTAS 소개 (Network Transaction Application Server)
SQL Server 2000, SQL Server 2005 비교 자료
장윤석과장 Technology Specialist (주)한국마이크로소프트
On the computation of multidimensional Aggregates
SSAS 변화된 구조와 사용자 분석 화면 구현 우철웅 기술이사 BI 사업부 인브레인.
The next generation Windows-based Terminal
CRM에서의 Data Quality Management
2장 운영 체제의 개요 운영체제의 개념 운영체제의 유형 운영체제의 발전 과정 운영체제의 구성 운영체제 서비스 시스템 구조
선진사 Benchmarking 결과보고 통합 ERP 구축 전담반.
Hadoop 김연왕
Web상에서의 Network Management
B S C Balanced Scorecard System 구축 사례
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
하둡 기반 빅데이터 처리 방법.
목차 회사소개 회사현황 시스템 구성도 SQL Server 사용 로드맵 프로젝트 개요 DB 마이그레이션
Computer System Architecture
전자상거래 구축을 위한 EC/EDI Solution 제안서.
하성희 복제 구축 예제 하성희
Past, Present, and Future Trends
운영체제(Operating System)
정보 추출기술 (Data Mining Techniques ) : An Overview
DataScience Lab. 박사과정 김희찬 (목)
NTAS 소개 (Network Transaction Application Server)
분산 파일 시스템의 구조 GFS 와 CEPH SW공학센터 융합SW공학팀 장원석 책임 연구원
JFS operation HP Korea / Operations JFS operation.
Chapter 12 Memory Organization
시스템 분석 및 설계 글로컬 IT 학과 김정기.
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
데이터 베이스의 내부 구조.
1. 데이터베이스 환경.
Dynamic Graph Query Primitives for SDN-based Cloud Network Management Ramya Raghavendra, Jorge Lobo, Kang-Won Lee 2012 HotSDN 정보통신공학과.
Presentation transcript:

Big Data

순서  배경  Hadoop  관련 프로젝트  활용  주요 이슈  전망과 과제 2

배경  Big Data 의 물결  Supercomputer  BI

배경 – Big Data Tidal Waves  A Tidal Wave of Data 4

 현상으로서의 Big Data: “ V 3 C ” 5 V3 이로 인한 C Complexity

 Online 공간에서의 – 모든 행위 (click-stream)  Click, ad impression, wall post, friending,...  billing event, transaction,  server request, network message, fault  fast forward, pause,...  분석할 데이터 stream 이 끊임없이 발생  The Power of Big Data Analytics

배경 – Supercomputer  Supercomputer – High-throughput computing – 주로 Technical-Computing – 2 가지 방향 :  grid computing = 원격, 분산형 대규모 컴퓨팅  Clustering (tightly-coupled) & MPP (loosely-coupled) – 추세 :  Batch  Mission critical & real-time orientation  Static search  pipelining of intelligent agents  Scale-Up vs. Scale-Out – 1000 개 CPU 장착된 supercomputer 대신 1,000 개의 single-CPU 또는 250 개의 quad-core 서버를 제시.  cost-effective compute cluster. 7

배경 – Supercomputer  Big Data 는 HPC 의 또 다른 진화모습 – 4 개의 Implied Solutions – Data Aggregation  find a specific group of records that comply with a set of requirements filesystem application – Data Analytics  computation of common characteristics or key regression characteristics in data aggregated for the analysis HPC + filesystem – Data Visualization  construct visual representation of a computationally-derieved model of aggregated for analysis HPC + filesystem + visual analysis – Interactive Visualization and Simulation  command adapative analysis through manipulation and simluation of aggregated data. Insight from human-derived optimization points. HPC + filesystem + visual analytics + design

배경 – BI  BI (Business Intelligence) – “Survival of the Smartest” (H.Mendelson & J.Ziegler, 1999)  “ 조직의 지능지수 (Organizational IQ) 란 “ 정보를 신속하게 처리하여 효과적 의사결정을 하고 이를 행동에 옮길 수 있는 능력 ”  즉, Intelligence ( 의사결정능력 ) + Collaboration/BPM ( 실행능력 ) – 조직 지능지수를 올리는 해답이 “ 비즈니스 인텔리전스 (BI)” 9

배경 – BI 구분내용솔루션비고 전략 Intelligence 경영전략을 효과적으로 수립하고 실행하기 위한 각종의 정보관리 VBM BSC ABC/ABM 전략적인 측면에 초점 을 맞춤 분석 Intelligence ( 초기 ) 특정 이슈의 해결목적 ( 추세 ) 전략경영 보조 OLAP Data Mining 전문 의사결정 분석도구 특정 분석가에서 일선 담당자로 확산 확장 Intelligence 기업 내부뿐 아니라 고객, 공급자 등 외부 이해관계자의 데이터 ERP Intelligence CRM Intelligence SCM Intelligence ERP/CRM 등의 데이터 를 대상으로 함 Intelligence Infra BI 를 제공하기 위한 플랫폼 ETL Data Warehousing/DM 분석 인텔리전스와 함 께 제공 Intelligence 정보전달 사용자별 Intelligence 정보를 통 합 제공 Portal 경보솔루션 보조적 기능으로 제공 BI 분류

배경 – BI 구분 OLTPRDBMSDW/OLAP 주된 목적일상업무 (Operational) 에서의 거래사항 처리 History 데이터 및 세부 데이터 분석 Access 유형 Read/WriteRead-onlyRead/Write 주된 담당자전산 현업 담당자 ( 분석자 ) 주된 데이터 형 태 Application 별 관리 – 거래내역 중심 전사 / 전 영역의 데이터 ( 참고 : Data Mart 는 개별 주제별 데이터 ) 요약 / 총계 (aggregation) 에 대한 분석 중심 데이터 구조정규화정규화 또는 비정규화 Dimension, 계층구조 OLAP, OLAP 비교

배경 – BI  Data Warehousing  OLAP 12 Cube design Visualization

Hadoop  Hadoop 개요  HDFS  MapReduce  설치 운영 13

Hadoop 개요  Hadoop ( – 대규모 데이터 처리를 위해 분산 Clustered 파일시스템을 이용하는 컴퓨팅 환경. – ( 역사 )  Lucene > Nutch > Hadoop – ( 특징 )  Programming 모델의 단순화  선형 확장성 (Flat linearity)  “function-to-data model vs. data-to-function” (Locality)

 Hadoop 의 Building Blocks – master/slave architecture (distributed storage(HDFS), distributed computation) – NameNode  = master of HDFS that directs the slave DataNode daemons to perform the low-level I/O tasks.  파일을 block 단위로 분할하는 작업, block 별 저장현황 등의 일체사항을 관리  memory and I/O intensive  user data (x), MapReduce 의 처리를 하지 않음.  단, single point of failure of your Hadoop cluster.  Secondary NameNode – DataNode  slave machine 은 DataNode daemon 을 통해 분산파일의 read/write 작업을 수행.  DataNode communicate with other DataNodes to replicate its data blocks for redundancy.  NameNode 와 끊임없이 통신. 15

– JobTracker  computing daemon 들 사이의 master/slave architecture: – JobTracker = master, TaskTracker = slave node.  응용프로그램과 Hadoop 사이의 중간연락을 하는 daemon  파일처리를 위한 실행계획, node 할당, task monitoring 등  master node 가 수행 – only one JobTracker daemon per Hadoop cluster. – TaskTracker  JobTracker 가 지정하는 개별 task 수행.  A single TaskTracker/slave node 이지만 각 TaskTracker 는 여러 개 JVM 을 통해 병렬 처리 16

 Hadoop’s components: – HDFS (Hadoop Distributed File System) – Programming paradigm (MapReduce). – Partitioner – redirect output from Mapper – Combiner – local reduce 17

 HDFS: Data Distribution – 데이터 적재 즉시 HDFS 가 파일을 chunk 로 나누어서 해당 node 에 복수로 분배 / 복제. 특정 node 장애 시 monitoring system 이 데이터를 re-replicate. – 전략 :  Record-oriented (input 파일을 split 하고 각 process 가 HDFS 의 locality 에 따라 할당된 record 만 처리 )  Moving computation to the data ( 데이터를 컴퓨터에 할당하는 대신 컴퓨터에 데이터를 보내준다.) 18 Data is distributed across nodes at load time.

 MapReduce: Isolated Processes – 프로세스간 통신은 only implicitly. Task 는 각각의 record 를 독립적으로 (in isolation) 처리. – Mapper 라는 task 가 record 를 처리한 후 그 출력물을 Reducer 로 보내서 merge. 19 Mapping and reducing tasks run on nodes where individual records of data are already present.

HDFS  특징 – Block-structured 파일 시스템 으로서 Node 간 중복 저장 (replication factor= 3, by default). – 별도의 namespace  장점 – HDFS 는 대용량 처리 (terabytes or petabytes). ☜ 분산배치 / 대용량 파일. – HDFS 는 데이터 신뢰성 강화. ☜ 데이터의 HA. 특정 node failure 시 그곳에 국한 – HDFS 는 fast, scalable access 구현. ☜ Cluster scalability 염두 – HDFS 는 Hadoop MapReduce 와 완벽하게 통합 ☜ 데이터 지역성 전제.  단점 – long sequential streaming read 를 전제로 함. ☞ Random access 는 취약. – Write once and read many 에 최적화 ☞ Update 가 빈번한 데이터는 적합치 않음. – Local caching 이 지원되지 않음 ☞ simply be re-read from HDFS source. 20

 DataNode – 입력항목은 random 하게 block 단위로 나누어 배분.  NameNode – Main memory 상에서 metadata 의 관리 – Client 는 NameNode 에게 질의하여 특정 파일에 해당하는 block 의 목록을 가져오고 이후 Client 는 NameNode 의 간섭없이 병렬로 read 작업 수행. 21 DataNodes holding blocks of multiple files (replication factor = 2). NameNode maps the filenames onto the block ids.

 HDFS 의 환경설정 (configuration) – Hadoop 설치 디렉토리의 conf/hadoop-defaults.xml 파일 (default 값 ) 을 override 하여 설정. – Configuration 설정은 key-value pairs: property-name property-value 22

 HDFS 의 운용 – HDFS 시작하기  포맷작업 bin/hadoop namenode -format  작업 시작 bin/start-dfs.sh  master node 에서 NameNode 서버를, slave 기기에서는 DataNode instances 를 개시.  원격이용은 ssh 로 가능. – HDFS 작업  작업을 위한 script 의 위치 : bin/hadoop.  명령어 구조 bin/hadoop moduleName -cmd args...  2 가지 대표적 modules: dfs 와 dfsadmin..  예 : bin/hadoop dfs -ls / Found 2 items drwxr-xr-x - hadoop supergroup :40 /hadoop drwxr-xr-x - hadoop supergroup :08 /tmp 23

 MapReduce 에서의 HDFS 이용 – fs.default.name 설정 option 을 NameNode 로 지정  Hadoop MapReduce job 은 데이터 입력 source 는 자동으로 HDFS 가 된다. – FileInputFormat subclass 를 이용  자동으로 HDFS 로부터 데이터를 받고 cluster node 들에게 분배.  HDFS API 의 이용 24

 HDFS 에서의 Node 퇴출 (decommissioning) – Step 1: Cluster configuration.  excludes 파일 을 이용. conf/hadoop-site.xml 파일에 dfs.hosts.exclude 키를 추가하고 NameNode 의 파일에 해당하는 경로를 지정. – Step 2: decommission 할 host 를 결정  dfs.hosts.exclude 에 해당 기기를 등록  NameNode 에 연결되는 것을 방지 – Step 3: configuration 정보를 reload 시킴  다음 명령을 수행 bin/hadoop dfsadmin -refreshNodes. – Step 4: Shutdown nodes.  decommission 작업 완료 후, decommissioned H/W 는 shutdown 가능.  이때 bin/hadoop dfsadmin -report 명령 시 현재 연결된 node 의 목록을 볼 수 있음. – Step 5: excludes 파일을 재 수정.  일단 decommission 되고 나면 excludes 파일로부터 다시 제거한다. 이를 위해 다음 명령을 수행. bin/hadoop dfsadmin -refreshNodes 25

MapReduce  개념 – Functional Programming  작업 대상물을 나누어서 여러 기계에 배분하는데 이때 각각의 구성인자는 데이터를 공유하지도 않고 동기화하지도 않는다.  MapReduce 에서 모든 데이터 항목은 immutable, 즉, 수정불가능. 수정이 되면 그 사항은 (key, value) pair 의 형태로 새로 산출되고 이때만 통신을 한다. – List Processing  이론적으로 MapReduce 프로그램은 입력되는 데이터 List 를 변환하여 출력 데이터 List 로 보낸다. MapReduce 에서 이러한 작업은 2 개의 서로 다른 map 과 reduce 에 의해 2 번 발생.

 Mapping Lists – 입력 데이터 항목의 목록 (list) 을 Mapper 라는 함수에 하나씩 전달. – Mapper 는 각각을 변환하여 출력 데이터 항목 (output data element) 으로 전달.  Reducing Lists – Reducing 에서는 관련되는 값들을 합친다. reducer 함수는 입력 리스트로부터 입력 값의 iterator 를 받아서 관련되는 값들 을 결합 (combine) 하여 하나의 출력값을 만들어 낸다. – 통상 Reducing 을 통해 " 요약 (summary)" 데이터. 27 Mapping creates a new output list by applying a function to individual elements of an input list. Reducing a list iterates over the input values to produce an aggregate value as output.

 MapReduce 의 결합 – Mapper 수행 + Reducer 수행  Key 와 values: – MapReduce 에서 모든 값 (value) 는 반드시 관계되는 key 를 가진다. 예컨대 : AAA mph, 12:00pm ZZZ mph, 12:02pm CCC mph, 12:15pm...  모든 mapping 및 reducing 함수는 반드시 (key, value) pair 의 형태로 데이터를 받으며 그 출력 역시 이 형태를 유지. – 유연한 MapReduce  여타 functional mapping /reducing 과 달리 각 단계마다 여하한 수의 값도 발생할 수 있다. – Mapper 는 하나의 입력이 존재하여도 이를 0, 1, 또는 수백 개의 출력으로 mapping 할 수 있다. – reducer 도 하나의 입력리스트에 대해 이를 처리한 후 0, 1, 또는 수십 개의 출력형태로 산출.  Keys divide the reduce space: – 같은 key 를 가지는 모든 값 (value) 는 하나의 reducer 에게 제시되며 key 가 다른 여타의 value list 에 대한 reduce 작업과는 별개로 독립적으로 진행된다. 28 Different colors represent different keys. All values with the same key are presented to a single reduce task.

 예제 프로그램 : Word Count – 가정 : 2 개의 파일  foo.txt 의 내용 : “Sweet, this is the foo file”  bar.txt 의 내용 : “This is the bar file” – 원하는 출력형태 sweet 1 this 2 is 2 the 2 foo 1 bar 1 file 2 – 로직 29 mapper (filename, file-contents): for each word in file-contents: emit (word, 1) reducer (word, values): sum = 0 for each value in values: sum = sum + value emit (word, sum)

– 구현 30

31

 MapReduce 에서의 데이터 흐름 32

 MapReduce 에서의 데이터 흐름 ( 상세모형 ) 33

Hadoop Programming  개발도구 – Eclipse 를 이용  Eclipse Classic + MapReduce plugin 추가 – NetBeans 이용  NetBeans + MapReduce plugin 추가 34

 예제 프로그램 35

36

37

Hadoop 설치  권장 기기 사양 – Xeon processors GHz 이상 – Hadoop job 은 core 당 1 ~ 2 GB RAM 소모. (Python 등 script 사용 시 메모리 추가 소요 ) – ( 참고 ) 일정한 수의 HDD 를 가지는 시스템 여러 대가 바람직. (Hadoop 은 기본적으로 I/O-bound ). – NIC: gigabit Ethernet 권장  설치 요건사항 – Java 환경 : Sun Java 1.6 이상 – 운영체제 : MS Windows 도 가능하나 (cygwin 설치 ) 가급적 Linux.  다운로드 및 설치 – 다운로드 : 에서 Download (2013/3/27 현재 1.0.X - current stable version, 1.0 release) – 설치 (hadoop-0.18 기준 ) gunzip hadoop tar.gz tar vxf hadoop tar 디렉토리 구조  bin/ Hadoop 실행을 위한 script 저장  conf/ cluster 의 설정정보 (configuration) 저장 – 실행  conf/ hadoop-env.sh 를 수정 (JAVA_HOME 설정 )  hadoop-site.xml 을 수정. ( 환경설정 ) 38

 Multiple node Hadoop Cluster 의 경우 – conf/masters 파일 ; SecondaryNameNode 의 hostname ("localhost" 를 FQDN of node to run the SecondaryNameNode service). – conf/slaves 파일 : cluster 내에서 TaskTracker 및 DataNode daemon 을 수행할 node 의 host 명 slave01 slave02 slave03 ... 암호 설정되지 않은 ssh 도 login 할 수 있도록 하려면 : – $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys – ~/.ssh/id_dsa.pub 및 authorized_keys 파일을 cluster 내의 모든 기기에 복제 – 복제방법 :  소규모의 경우 : rsync or copy 이용  대규모의 경우 : configuration 관리시스템 ( 예 : bcfg2, smartfrog, puppet) 이용.  ( 주의 )  NFS 는 가급적 사용하지 말 것. (bottleneck 이 된다.)  DataNode 는 block storage 를 공유 또는 NFS 상에서 기타의 high-bandwidth 작업을 하지 말 것. 39

디렉토리내용 Default 위치권장하는 위치 HADOOP_LOG_DIR daemon 으로부터 출력되는 log 파일 ${HADOOP_HOME}/logs/var/log/hadoop hadoop.tmp.dir 다른 temporary 디렉토리에 대한 base /tmp/hadoop-${user.name}/tmp/hadoop dfs.name.dir NameNode metadata 가 저장되는 곳 ${hadoop.tmp.dir}/dfs/name/home/hadoop/dfs/name dfs.data.dir DataNodes 가 자신의 block 을 저장하는 곳 ${hadoop.tmp.dir}/dfs/data/home/hadoop/dfs/data mapred.system.dir 공유하는 MapReduce 시스템 파일에 대한 in-HDFS 경로 ${hadoop.tmp.dir}/mapred/system/hadoop/mapred/system 40 주요 디렉토리

Cluster 구성  소규모 Clusters: 2-10 Nodes – 최소한 1 대는 NameNode/JobTracke 와 DataNode/TaskTracker 의 역할을 동시에 수행 ; 나머지 1 대는 DataNode/TaskTracker 로 동작. – 최소규모 시 conf/hadoop-site.xml 의 예 ☞ – 8-10 node 경우 dfs.replication 을 3 으로 설정.  중간규모 Clusters: Nodes – ( 생략 ) 41

 대규모 Clusters: 40 대 이상의 Multiple Rack 환경 – rack failure 에 대비키 위해 NameNode 의 설정을 변경. dfs.block.size – Block size 를 64MB  128MB 로 증가. 단, 파일 당 block 수가 감소하므로 parallelism 은 저하. – 중간규모 cluster 에서 NameNode 는 HDFS metadata 를 자신이 위치한 rack 내 다른 기기로 NFS 로 기록. 또한 그 기기를 checkpoint 에 이용하고 SecondaryNameNode process 에 compact 시킴. 이때 cluster 가 해당 rack 의 상태에 좌우되므로 NFS-mounted write-through backup 을 다른 rack 에도 보관. – Multiple rack 환경에서 RPC timeout 이 빈번해지므로 NameNode 는 DataNode 의 상태를 수시로 감시. 유사한 timeout mechanism 이 JobTracker 의 MapReduce 측면에도 존재한다. 예 : dfs.namenode.handler.count 40 mapred.job.tracker.handler.count 40 42

 대규모 Clusters: 250 대 이상의 Multiple Rack 환경  Rack awareness 의 문제 – multi-rack 에서 block 의 replica 의 분산에 따른 데이터 손실이 없도록 할 것. (rack-aware placement 정책 ). – DNSToSwitchMapping interface 를 이용해서 rack topology 대응에 필요한 java 프로그램을 작성. – 또는 사용자 지정 script 를 각각의 node 에 수행하도록 default mapper 를 이용. – 단, Hadoop 의 version 별로 설정항목의 변화가 있으므로 유의한다. 43 Property 영역설명 io.file.buffer.size SequenceFiles 에 이용되는 Read/write buffer size (H/W page size 의 배수로 설정 ) io.sort.factor shuffling 과정에서의 파일 정렬 시 concurrently merge 되는 stream 의 수 io.sort.mb 데이터 정렬 시 사용하는 메모리 mapred.reduce.parallel.copies20-50 mapper 에서 입력데이터를 가져오기 위해 reducer 가 사용하는 concurrent connection 의 수 tasktracker.http.threads40-50 TaskTracker 가 uses to provide to reducers 에 intermediate map output 을 제공하기 위해 사용하는 thread 의 수 mapred.tasktracker.map.tasks.maximum 1/2 * (cores/node) ~ 2 * (cores/node) 각각의 기기에 설치하는 map task 의 수. mapred.tasktracker.reduce.tasks.maxim um 1/2 * (cores/node) ~ 2 * (cores/node) 각각의 기기에 설치하는 reduce task 의 수

 Hadoop 성능의 Monitoring 도구 – Ganglia  분산환경에서의 performance monitoring framework 으로서 특히 Hadoop 의 운영사항을 관리할 수 있다.  ( 세부 사항 생략 ) – Nagios  범용의 cluster health 관리 도구로서 large cluster 관리에 적합하다. 필요 시 Nagios 와 Ganglia 를 함께 이용할 수도 있다.  Tips  "hadoop" 이라는 이름의 user 를 별도로 설정할 것. root 로 동작하지 말 것.  만약 Hadoop 이 /home/hadoop/hadoop 에 설치되어 있다면 /home/hadoop/hadoop 을 /home/hadoop/hadoop 로 link 할 것. 44

관련 프로젝트  Apache 프로젝트  주요 업체의 전략 45

Hadoop-related projects  Apache Avro – 데이터 serialization  Cassandra 와 HBase – 데이터베이스  Chukwa – monitoring system  Hive – 데이터의 aggregation 및 summarization 을 위한 ad hoc SQL-like queries  Mahout – Machine learning library  Pig 와 Pig Latin – Pig = 대규모 data set 에 대한 분석 플랫폼 – Pig Latin = Hadoop 에서 데이터 변환을 위한 고급언어. – ☞ Parallel computation 을 위한 data-flow 및 실행 framework  ZooKeeper – 분산 application 에 대한 coordination 서비스  And more… 46

Big Data 의 활용  경영  자연과학  기타 47

Big Data 활용  전 영역에 활용 48 Improved Security (Scary guys) Urban Planning & Simulation Urban Planning (Traffic Planning)

Big Data 활용  대표적 활용 예 : – IT Log Analytics – Fraud Detection Pattern – Social Media Pattern – Call Center Mantra: "This Call may be recorded for QA purposes" – Risk: Patterns for Modeling and Management – Big Data and the Energy Sector – Video Recommendation

Application Requirements

 과거의 Fraud Detection

 Big Data 를 활용한 Fraud Detection

 Cancer Tumor Genomics – Vision: Personalized Therapy  " years from now, each cancer patient is going to want to get a genomic analysis of their cancer and will expect customized therapy“ Director, The Cancer Genome Atlas, Time Magazine, 2011  진행 : – UCSF cancer researchers + UCSC cancer genetic database + UC Berkeley – Sequencing costs (1/150), big data 가속화 – TCGA 의 경우 : 5PB = 20 cancers x 1000 genomes

주요 이슈  Big Data 와 Cloud Computing  Big Data 와 스토리지  과제  주요 업체 동향 54

 Cloud Computing 과 Big Data – Amazon AWS (Amazon Web Services) – Amazon EC2 (Elastic Compute Cloud)

 Big Data 와 Storage – Current Storage Hierarchies don't support emerging requirements for Big Data  File system block interface breaks object model  Based on 1960's technologies and techniques  Data and storage differentiated  User access is shell + ls  User metadata is lost  Intelligence in storage systems needed!

Big Data 와 Storage  New Approach to Storage Hierarchy: Flexibility and Intelligence Built In – Applications define objects – Storage of objects is abstracted – Access transformed from shell + ls --> python – Enables Lustre ecosystem – Eables analytics

 Cloudera – Hadoop 상용화의 원조 – Cloudera Enterprise RTQ (Real-Time Query)  provides Management and 8x5 support for Impala.  available as an add-on to Cloudera Enterprise Core ( 유료 서비스 ) 58 CONFIDENTIAL - RESTRICTED

 UC Berkeley 의 Big Data Architecture Framework

 Berkeley Data Analysis System  A new open source software stack to: – effectively manage cluster resources – efficiently extract value out of big data – continuously optimize cost, time and answer quality

 Big Data 와 Intel – Cray 의 HPC interconnect 사업부문 합병 (2012.9)  Fabric Switch (Gemini/Aries interconnect) 를 Xeon processor 에 통합 – Xeon E7 (2013 주력 ) – H/W-level security 내장  McAfee's Deep Defender & DeepSafe 통합 – Intel MIC (Many Integrated Core) architecture for Big Data

Big Data Landscape 62

전망 – 데이터 폭주 가속화  Massive: – FacebooK: 200~400TB/day, 83 million pictures – Google: >25 TB/day processed data  끝없는 데이터 폭주 – 더 많은 기기 (cell phones, Sensors & RFIDs), 더 많은 사람 (3 rd world)  Dirty & Unpredictable – Diverse, No schema, Unstructured, Semantic – Inconsistent syntax  일상생활 깊숙이 … – Smart TV, Smart Car, Smart Grid, Smart ???  Analytics 의 시대 – Business Analytics, Technology Analytics, ???  데이터 융합 – Big Data 와 여타의 데이터가 결합될 때 더 큰 value 를 거둔다. 63 Big data Other data Create a synergy effect

과제  Data Cleansing & Filtering 의 문제  Visualization 의 문제  Security & Privacy 의 문제 64

감사 합니다