하둡 기반 빅데이터 처리 방법.

Slides:



Advertisements
Similar presentations
작성자조성웅 작성일자 Bioworkbench 구현 계층 수준의 기능 정의 사용자 계층작업 분배 계층작업 수행 계층 사용자 환경 제공 작업 수행 요청 작업 요청 기록 작업 순서 관리작업 수행 데이터 관리 계층 작업 분배 관리.
Advertisements

내 마음의 버 스 이천신하교회 청년부. 이름 : 한상훈 나이 : 30 살 종교 : 기독교 ( 모태신앙 ) 생활신조 : 인생은 한방 ! 로또나 사자 이상형 : 청순 가련한 모태미녀 특이사항 : 걸그룹 노래에 환장함 식스팩을 갖기엔 슬픈 몸을 타고 남.
WCL 이민학 Big Data & Hadoop.
독서골든벨 2009 학년도 6 학년 1 학기 6-10 반. 1. 이야기 삼국유사 정대한 원효대사는 수행을 위해 떠나던 중 피곤하여 숲 속에서 잠이 들었다. 잠결에 너무 목이 마른 나머지 어디에 담겨있는 물을 맛있게 마셨나요 ?
두 손 들고 두 손 들고 찬양합니다 두 손 들고 찬양합니다 다시 오실 왕 여호와께 다시 오실 왕 여호와께 두 손 들고 찬양합니다 두 손 들고 찬양합니다 다시 오실 왕 여호와께 다시 오실 왕 여호와께 오직 주만이 나를 다스리네 오직 주만이 나를 다스리네 나 주님만을.
© DBLAB, SNU 화일구조. 강의 소개 - 화일구조  Instructor : Prof. Sukho Lee (301 동 404 호 )  홈페이지 :  교과목 개요 – 이 과목은 데이타 관리와 응용을 위한 화일 구조의 설계와.
지금은 기도 하는 시간입니다 1. 송구영신예배를 위해서 2. ‘크리스마스 이브’ 행사를 준비하는 교육 기관을 위하여
아름다운 이들의 행복한 길음안나의 집.
MB노믹스의 실패와 미래 22조 배주환 외 5명.
화일구조.
컴퓨터공학과 김소원.
2012년 12월 정기 제직회 기 도 : 김영민 집사 출 석 : 서 기 개회 선언 : 제직회장 (이태환 장로)
SAR 영상자료를 이용한 해양 파라미터 추출 기법 연구
HDFS Tutorial.
Activation Records & Recursion
Hadoop 동작방식(F5를 눌로 슬라이드쇼로 볼 것!!)
* 그룹 상시 연락망 : 각사 조직도 기준 연락망으로 대체함
현대사회의 여성문제와 여성복지 3조 권경욱 강향원 황대인 변갑수 박창욱 김지현.
2014학년도 중학교 교육과정 편성시 유의사항 울산광역시교육청 교육과정운영과 한 상 철.
빅데이터 분산 처리 시스템 충북대학교 정보통신공학부 복경수
빅데이터 분석 과정.
고교평준화의 득과 실 김영주 이지영 최윤영.
BIG Data 컴퓨터응용과학부 박진완.
Big Data Analytics with R and Hadoop
01 화일의 기본 개념 02 화일 저장장치 03 화일 입출력 제어 04 순차화일 05 화일의 정렬 06 화일의 합병
Distributed Computing (Apache Hadoop & Hive Review)
10장 예외 처리 프로그래밍 언어론 10.6 Pascal과 C의 에러 처리 10.1 설계 주제 10.2 PL/I의 예외 처리
12. 데이터베이스 설계.
공학기초설계 Youn-Hee Han 강의 소개 & MinGW & gcc 공학기초설계 Youn-Hee Han
Korea University of Technology and Education Hongyeon Kim
교육팀 도경모 Big.
㈜학술교육원 온라인논문투고시스템 투고자 메뉴얼.
Quartus 를 이용한 ROM 설계 ROM table 의 작성
Hadoop 김연왕
Chapter 16 데이터베이스 파일 인덱싱 기법, B-트리 및 B+-트리
윤 홍 란 4 장 클래스 작성 윤 홍 란
Introduction to Big Data, Summer, 2013
MapReduce Practice :WordCount
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
강문경 · 박용욱 · 이훈열 (강원대학교 지구물리학과) 이문진 (한국해양연구원 해양시스템안전연구소)
HDFS와 대용량 데이터 처리 콘텐츠서비스연구팀 최완.
2010년 직원연수 자료 제1차 : 4월 16일 ~ 17일 제2차 : 4월 23일 ~ 24일
Computer System Architecture
Programmable Logic Device
17강 파일처리함수(1) 강 의 내 용 파일 입출력의 개념 파일포인터를 이용한 입출력 파일 입출력 과정
4. 나라 사랑의 길 골든벨 퀴즈.
목차 INDEX 1. 회원가입 및 로그인 2. 업체정보 3. 제조검사 신청 4. 인보이스 5. 검사진행현황(현장검사 신청)
DataScience Lab. 박사과정 김희찬 (목)
Swap 추가, fsck.
Apache Spark Tutorial 빅데이터 분산 컴퓨팅 박영택.
Hadoop Chapter 2. 맵리듀스 김영지.
알쏭달쏭 요한복음 성경퀴즈.
제2차 CEO 특강 10년뒤 뭘 먹고 살 것인가? 현 명 관.
Apache Spark Tutorial 빅데이터 분산 컴퓨팅 박영택.
nauten Compiler – Report Ver.3 Mini-C (주간)
화일구조.
CHAPTER 04 파일 설계(FiLE Design).
[투팩] 메신저백 (TP-MB02) 수연대리님, 투팩 메신저백 상세페이지 요청 드립니다.
03. 메모리 관리 C++ 프로그램에서 다룰 수 있는 메모리의 종류
자료구조 세미나 발표 주제: 자료구조 기초 - 1회 차: 자료구조의 정의, 기초 지식 (함수, 포인터, 레퍼런스)
6월 1주 주간메뉴표 NEW 엄마손 조식 쉐프 삼촌 중식 참새 방앗간 석식 ◎원산지 안내 : 쌀(국내산)
성전기공식(안) 식 순 1. 기공미사 2. 기 공 식 3. 축 하 연 천주교 수원교구 퇴촌성당.
성경퀴즈 여호수아1장 3장 복습게임.
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
데이터 베이스의 내부 구조.
시민이 체감하는 편리한 건축인허가 절차 개선 추진.
유예 X-FILE *조사자* 1301권희원 1315이예지 1317장아정 1322홍자현.
나-는 믿음으로 주 얼굴 보리니- 아침에 깰 때에 주형상에 만족하리 나주님 닮기 원하네 믿음으로 주얼굴 보리라 -
책을 읽읍시다  탈향 진지하게 설명해드림 1303 김소희 1309박지호 1315이지수.
2016년 제1차 운영위원회 평택시건강가정 ∙다문화가족지원센터
Presentation transcript:

하둡 기반 빅데이터 처리 방법

HDFS File Distribution 하둡 기반 빅데이터 처리 기반 기술 기본 HDFS File Distribution HDFS Data Blocks and Input Split RECORD 1 100 MB RECORD 2 100 MB RECORD 3 100 MB RECORD 4 100 MB HDFS 블록 사이즈가 128메가바이트로 설정되어 있다면 4개 레코드들은 각 블록에 1개씩 분산될 수 없음. RECORD 1 100MB BLOCK 1 128MB RECORD 2 28MB 예) 블록1이 RECORD1 전체를 포함하면 RECORD2의 28MB가 블록1에 할당됨. BLOCK 2 128MB RECORD 2 72MB BLOCK1에서 하나의 Mapper가 작업을 수행한다면 RECORD2의 전체가 없기 때문에 수행을 완료할 수 없음(EOF 손실 현상) RECORD 3 56MB BLOCK들을 연결하여 논리적 레코드로 연결-> Input splits BLOCK 3 128MB RECORD 3 44MB RECORD 4 84MB BLOCK 4 128MB RECORD 4 16MB

HDFS File Distribution 하둡 기반 빅데이터 처리 기반 기술 기본 HDFS File Distribution HDFS Data Blocks and Input Split INPUT SPLIT 1 200MB RECORD 1 100MB Input split의 크기가 200MB로 설정되어 있다고 하면 RECORD 2 28MB RECORD 2 72MB Input Split1은 Record 1, 2를 모두 포함하게 되고, Split2는 Record3 에서 시작하게 됨. INPUT SPLIT 2 200MB Input split은 블록의 시작과 끝을 연결한 데이터의 논리적 묶음이됨. RECORD 3 56MB RECORD 3 44MB 만약 Input split의 크기가 Block 크기의 정수배가 된다면, Input Split을 다수의 Block으로 구성할 수 있고, 전체 Job을 위한 Mapper의 갯수가 작아지면서 병렬 작업의 크기가 작아짐.(빨라짐) INPUT SPLIT 3 200MB RECORD 4 84MB RECORD 4 16MB Ideal Configuration -> Input Split size = Block size

HDFS File Distribution 하둡 기반 빅데이터 처리 기반 기술 기본 HDFS File Distribution HDFS Data Blocks and Input Split Block size와 Input Split Size가 정수에 비례로 형성되지 않는다면, 완전 분산 모드시 Block 위치 탐색에 시작 소비가 증가함.

MapReduce Logical Flow 하둡 기반 빅데이터 처리 기반 기술 기본 MapReduce Logical Flow Input File(s) A Job RECORD 1 RECORD 2 MAPPER RECORD 3 Reducer MAPPER part_r_0000x RECORD 4 Result File(s) Reducer RECORD 5 MAPPER Temporary File(s) Processid_r_0000x RECORD 6 MAPPER Temporary File(s) RECORD 7 Processid_m_0000x RECORD 8

MapReduce Data Flow 하둡 기반 빅데이터 처리 기반 기술 기본 Input File(s) Mapper RECORD 1 개별 파일이 블록으로 나뉘어져 다수의 데이터 노드에 분산 저장 Mapper RECORD 2 블록으로 나뉘어진 다수의 레코드가 다수의 Mapper에 입력으로 설정됨. 개별 Mapper가 다루는 데이터는 상호 배제, 중복 되지 않음. RECORD 3 Mapper 각 Mapper함수의 Input Parameter protected void map(LongWritable key, Text value, Context context) RECORD 4 Key : 데이터의 index, 모든 Mapper가 동일한 값으로 시작 Mapper Value : 1개의 레코드 데이터 context: 현재 map함수가 수행되는 hadoop에 관한 정보를 가짐 RECORD 5 각 Mapper함수의 Output Parameter: Emit라고도 함 Context.write(Implemented WritableComparable key, Implemented WritableComparable value’) RECORD 6 Mapper Key : WritableComparable 인터페이스를 implement한 클래스 Value : WritableComparable 인터페이스를 implement한 클래스 RECORD 7 주의: 1. 각 Mapper에서는 전체 데이터중 해당 레코드의 위치를 판단할 수 없다. index 조차 Split되어 들어온 일부 데이터의 index에 불과하다. 2. Mapper 입력 데이터의 첫 라인은 전체 데이터의 첫 라인이 아니다. 3. Mapper의 결과는 emit되어야 한다. 4. Mapper가 emit하는 데이터 타입과 Reduce의 input 데이터 타입이 일치해야 한다. 5. 완전 분산 모드가 아닌 경우 단일 Mapper가 수행, 개발용 환경에서의 MapReduce수행과 분산 모드의 수행 결과가 다를 수 있다.(개발 설계 오류로 많이 발생하는 문제임) RECORD 8

MapReduce Data Flow 하둡 기반 빅데이터 처리 기반 기술 기본 Reducer Mapper가 emit한 key, value stream 입력으로 하여 연산을 수행함. protected void map(LongWritable key, Text value, Context context) context.write(new Text(key’), new Text(value’)); protected void reduce(Text key, Iterable<Text> value, Context context) Mapper value stream의 index는 reset되지 않는다. Reducer Value를 buffering 시도시 main memory 초과 현상 발생 or Out of Heap Memory가능 (하나의 데이터 노드에 다수의 Reducer가 생성되며, 처리할 데이터는 빅데이터로 가정해야 함) Mapper Key, values stream value 1 value 1 value ….. Mapper value ….. 중간 저장 금지 입력 되는 Stream을 읽으면서 계산함. value i value i Reducer value ….. value ….. Mapper value End Of Stream value End Of Stream

하둡 기반 빅데이터 처리 기반 기술 기본 MapReduce Data Flow

MapReduce 특이 사항 하둡 기반 빅데이터 처리 기반 기술 기본 데이터의 split size 고려 RECORD 1 Mapper Reducer RECORD 2 Mapper Reducer RECORD i Mapper RECORD 8 데이터의 split size 고려 Split size가 작으면 그만큼 Mapper의 입력 레코드 수가 여러개로 분산 -> 입력 데이터의 크기가 커지면 Mapper의 수도 늘어남 -> 분산 효과 커짐 늘어난 Mapper가 emit한 key, value를 Reducer가 감당해야 함. -> Key의 다양성과 Key와 연결된 Value들의 크기에 따라 Reducer가 계산할 용량이 달라짐 Split size가 커지면 그만큼 Mapper의 갯수는 작아지나 처리할 양이 많아짐. -> 분산 효과 낮아짐 줄어든 Mapper의 emit 결과가 작아지면서, Reducer의 순간 입력이 작아짐 -> Mapper의 출력이 늦어지면서 최종 결과까지 시간 소모가 증가함.