Hadoop Chapter 2. 맵리듀스 2010301027 김영지.

Slides:



Advertisements
Similar presentations
비즈쿨 - 정 성 욱 - - 금오공고 비즈쿨 - 정 성 욱 1. 나는 각 단원들의 활동들에 성실하게 참여 하겠습니다. 우리의 다짐 2. 나는 나와 전체의 발전을 위해 각 멘토들의 지도에 순종하겠습니다. 3. 나는 각 단원들을 숙지함으로써 비즈니스 마인드를 함양하고 자신의.
Advertisements

내 마음의 버 스 이천신하교회 청년부. 이름 : 한상훈 나이 : 30 살 종교 : 기독교 ( 모태신앙 ) 생활신조 : 인생은 한방 ! 로또나 사자 이상형 : 청순 가련한 모태미녀 특이사항 : 걸그룹 노래에 환장함 식스팩을 갖기엔 슬픈 몸을 타고 남.
10장. 시기별 학급경영 11조 염지수 이 슬 권용민 신해식.
일본 근세사. (1) 에도막부의 개창 ( ㄱ ) 세키가하라의 전투 (1600) - 히데요시의 사후 다섯 명의 다이로 ( 大老 ) 가운데 최대 영지 (250 만석 ) 를 보유하고 있던 도쿠가와 이에야스가 급부상. 이에 이에야스와 반목해 온 이시다 미쓰나리 ( 石田三成 ),
독서골든벨 2009 학년도 6 학년 1 학기 6-10 반. 1. 이야기 삼국유사 정대한 원효대사는 수행을 위해 떠나던 중 피곤하여 숲 속에서 잠이 들었다. 잠결에 너무 목이 마른 나머지 어디에 담겨있는 물을 맛있게 마셨나요 ?
아니마 / 아니무스 송문주 조아라. 아니마 아니마란 ? 남성의 마음속에 있는 여성적 심리 경향이 인격화 한 것. 막연한 느낌이나 기분, 예견적인 육감, 비합리적인 것에 대 한 감수성, 개인적인 사랑의 능력, 자연에 대한 감정, 그리.
대구가톨릭대학교 체육교육과 06 학번 영안중학교 체육교사 신웅섭 반갑습니다. 반야월초등학교 축구부 대륜중학교 축구부 대륜고등학교 대구가톨릭대학교 차석 입학 대구가톨릭대학교 수석 졸업 2014 년 경북중등임용 체육 차석 합격 영안중학교 체육교사 근무 소개.
두 손 들고 두 손 들고 찬양합니다 두 손 들고 찬양합니다 다시 오실 왕 여호와께 다시 오실 왕 여호와께 두 손 들고 찬양합니다 두 손 들고 찬양합니다 다시 오실 왕 여호와께 다시 오실 왕 여호와께 오직 주만이 나를 다스리네 오직 주만이 나를 다스리네 나 주님만을.
일장 - 1 일 24 시간 중의 명기 ( 낮 ) 의 길이 ( 밤은 암기, 낮은 명기 ) 광주기성 - 하루 중 낮의 길이의 장단에 따라 식물의 꽃눈 형성이 달라지는 현상 일장이 식물의 개화현상을 조절하는 중요한 요인 단일식물 - 단일조건에서 개화가 촉진되는 식물 장일식물.
Copyright © 2006 by The McGraw-Hill Companies, Inc. All rights reserved. McGraw-Hill Technology Education Copyright © 2006 by The McGraw-Hill Companies,
2 학년 6 반 1 조 고은수 구성현 권오제 김강서.  해당 언어에 본디부터 있던 말이나 그것에 기초하여 새로 만들어진 말  어떤 고장 고유의 독특한 말  Ex) 아버지, 어머니, 하늘, 땅.
지금은 기도 하는 시간입니다 1. 송구영신예배를 위해서 2. ‘크리스마스 이브’ 행사를 준비하는 교육 기관을 위하여
2014년도 교원 및 기간제교사 성과상여금 전달교육 개 회 국기에 대한 경례 - 인사말
선진 고양교육 “유아교육 행정 업무 연수” 유치원 회계실무 및 유아학비 연수 경기도고양교육청.
누가 누가 인기 많나? 막무가내 설문조사.
묵자 겸애, 비명, 비공, 상현, 상동, 천지, 명귀, 삼표 법.
HDFS Tutorial.
YBMNET 2016 TOEIC 프로그램.
컴퓨터 응용 및 실습 Part1. OOP&Java Programming data type Review
행복한 부자교실 16기 8조 성동구 성수동 답사 결과 12월 22일 발표.
내 아이를 위한 구강관리.
현대사회의 여성문제와 여성복지 3조 권경욱 강향원 황대인 변갑수 박창욱 김지현.
제16장 원무통계 • 분석 ☞ 통계란 특정의 사실을 일정한 기준에 의하여 숫자로 표시한 것을 말한다.통계로서 활용할 수 있는 조건으로는 ① 동질성을 지녀야 하고 ② 기준이 명확하고 ③ 계속성이 지속되어야 하며 ④ 숫자로 표시하여야 한다 경영실적의.
고교평준화의 득과 실 김영주 이지영 최윤영.
서울지방세무사회 부가세 교육 사진클릭-자료 다운 세무사 김재우.
PART 01 총 론 제9장 한국 사회복지법제의 형성과 발전.
BIG Data 컴퓨터응용과학부 박진완.
치매의 예방 김 은민 윤금 노인요양원 치매의.
Hadoop 김연왕
Hadoop 김연왕
Edus 충남 통합인증을 위한 교과부 표준보안 모듈 설치 안내 (smart.edus.or.kr)
하둡 기반 빅데이터 처리 방법.
2010년 직원연수 자료 제1차 : 4월 16일 ~ 17일 제2차 : 4월 23일 ~ 24일
Java의 정석 제 1 장 JDK설치 및 설정 Java 정석 남궁성 의
마산에 대하여 만든이 : 2204 김신우, 2202 권성헌.
Java의 정석 제 1 장 JDK설치 및 설정 Java 정석 남궁성 의
안전한 생활 교과용도서의 이해 2015 개정 교육과정 초등학교 1~2학년군 (화)
Choi Younghwan CSE HUFS
이슬람의 세계사 18장 - 인도 아대륙 : 델리 술탄국과 무굴제국
Project apk 디컴파일과 난독화(with Proguard)
웹 다이어리 완료보고서 이상제 정영석.
DataScience Lab. 박사과정 김희찬 (목)
칼빈의 생애와 개혁자로의 변모 사학과 김종식.
프로그래밍 개론 Ⅰ 제 1장 . 서론 ①.
국제의료관광 관련 법, 제도.
3장. 웹로직 서버에서의 서블릿과 JSP의 운용 3-1. 서블릿, JSP를 실행하기 전의 환경 설정
J2ME 개발환경설치 SUN MIDP-FCS
자바 5.0 프로그래밍.
의성어 국어어휘론 이신옥 정지연 정지형 임총인.
6장 마케팅 조사 박소현, 김중호, 박기찬.
한밭대학교 창업경영대학원 회계정보학과 장 광 식
기술 진화와 진보.
CHAPTER 9-1 한국의 사회복지정책 - 사회보험제도 -
원소재유상사급 시스템 사용자 메뉴얼 주식회사 경창
2015년 2학년 1반.
컴퓨터 프로그래밍: 실습 1 제 1장 . 서론.
Part 02. 파워포인트 실무와 활용.
음양오행과 물리학 조 원 : 김용훈, 양범길, 박수진, 윤진희, 이경남, 박미옥, 박지선 (11조)
한양인 주차정기권 신청 안내 2018년 2학기 관리처 관재팀.
선의관악종합사회복지관 김정현.
이야기 치료에 대하여 <8조 학문적 글쓰기 발표> 주희록 최은지
Part 정비사업의 절차 1 ※ : 도시주거환경정비기본계획 도시·주거환경 정비계획(안) 작성 도시·주거환경정비 기본계획 수립
자료구조 강의소개 정성훈 연락처 : 이메일 : 연구실 : 연219호 연락처 : 이메일 : 홈페이지: 정성훈.
정부조직론 Team 1 발표 제5장 제1절, 제2절 공공정책학부 강철욱 권지호
나-는 믿음으로 주 얼굴 보리니- 아침에 깰 때에 주형상에 만족하리 나주님 닮기 원하네 믿음으로 주얼굴 보리라 -
착한가게 광고 제안 착한 매출, 착한 광고! 돈벌리는 착한 어플!.
Java의 정석 제 7 장 객체지향개념 II-3 Java 정석 남궁성 강의
중국문학개론 한부와 겅건안문학 중어중국학과 ㅇ이진원 한부와 건안문학.
경찰학 세미나 제 5 강 경찰관직무집행법 2조 5호의 의미 신라대학교 법경찰학부 김순석.
남자의피부의 고민을 한번에 싹~ 해결해주는 옴므라인
Presentation transcript:

Hadoop Chapter 2. 맵리듀스 2010301027 김영지

2.1 기상 데이터셋 2.1.1 데이터 포맷 - 국립기후자료센터(http://www.ncdc.noaa.gov/)로부터 가져온 기상 데이터 사용. - 예제에서는 http://www.hadoopbook.com/ 에 있는 데이터 사 용. : 이 데이터들은 반구조적이면서도 레코드 지향적이기 때문에 맵리 듀스를 이용한 데이터 분석에 적합하다. (각 행이 하나의 레코드이며 행 단위의 ASCII형식으로 저장되어있다.)

2.2 유닉스 도구로 데이터 분석하기 Awk - ‘awk’는 행 기반의 데이터 처리를 위한 유닉스 도구. #!/usr/bin/env bash for year in all/* do each –ne ‘bashname $year .gz’ “\t” gunzip –c $year | \ awk ‘{ temp = substring($0, 88, 5) + 0; q = substring($0, 93, 1); if(temp != 9999 && q ~ /[01459]/ && temp > max = temp } END { print max }’ done0000 % ./max_temperature.sh

2.2 유닉스 도구로 데이터 분석하기 문제점 - 이 방법으로 20세기 전체에 대한 완전한 수행은 하나의 EC2 고성 능 CPU XL 인스턴스에서 42분이 걸림. : 처리 속도를 높이기 위해서는 프로그램의 각 부분을 병렬로 수행할 필요가 있다. -> 이러한 이슈를 처리하기 위해 하둡 프레임워크를 사용.

2.3 하둡으로 데이터 분석하기 2.3.1 맵과 리듀스 - 맵리듀스는 맵 단계와 리듀스 단계로 처리 과정을 나누어 작업. _ 각 단계는 입력과 출력으로써 키-값 쌍을 가지고 있고 그 타입은 프로그래머가 선택. <기상데이터를 이용한 예제>에서 맵 함수 : 분석대상인 연도와 기온을 추출한다. 리듀스 함수 : 연도별로 최고 기온을 찾아준다.

2.3 하둡으로 데이터 분석하기 2.3.2 자바 맵리듀스 최고 기온을 구하는 Mapper예제

최고 기온을 구하는 Reducer예제

기상청 데이터셋으로부터 최고 기온을 찾는 프로그램

2.3 하둡으로 데이터 분석하기 2.3.2 자바 맵리듀스 - 컴파일 # javac –classpath /hadoop-core-x.y.z.jar가 있는 경로/ –d /class파일을 저장할 경로/ /java파일이 있는 경로/ ex)(자바파일이 있는 경로에서) # javac –classpath /usr/hadoop- 1.2.1/hadoop-core-1.2.1.jar –d classes MaxTemperatureMapper.java

2.3 하둡으로 데이터 분석하기 2.3.2 자바 맵리듀스 - jar 생성 # jar cvf 파일이름.jar /jar파일로 압축할 디렉토리/ ex)(jar파일을 저장할 경로에서) # jar cvf MaxTemperature.jar classes

2.3 하둡으로 데이터 분석하기 2.3.2 자바 맵리듀스 - 실행 # hadoop jar /jar파일이 있는 경로/파일이름.jar Main문이 있는 클래스명 /입력할 데이터가있는 경로/ /출력할 디렉토리/ ex)(jar파일이 있는 경로에서) # hadoop jar MaxTemperature.jar MaxTemperatureWithCombiner /usr/hadoop- 1.2.1/input/sample.txt /usr/hadoop-1.2.1/output/ (이때 output 디렉토리는 존재하지 않아야 함)

2.3 하둡으로 데이터 분석하기 2.3.2 자바 맵리듀스 - 확인 # cat /output디렉토리/part-r-00000

2.4 분산형으로 확장하기 2.4.1 데이터 흐름 - 맵리듀스 잡은 클라이언트가 수행하려는 작업의 단위. - 맵리듀스 잡은 입력데이터, 맵리듀스 프로그램, 설정 정보로 구성. _ 하둡은 잡을 맵 태스크와 리듀스 태스크로 나누어 실행.

- 잡 실행과정을 제어하기 위해 하나의 잡트래커와 다수의 태스크트래 커가 존재 - 잡 실행과정을 제어하기 위해 하나의 잡트래커와 다수의 태스크트래 커가 존재. 잡트래커는 태스크트래커가 수행할 테스크를 스케쥴링. 태스크트래커는 태스크를 수행하고 각 잡의 전체 경과를 하나 의 레코드로 유지하는 경과 보고서를 잡트래커에게 보냄. 만일 태스크가 실패하면 잡트래커는 그것을 다른 태스크트래커 에게 다시 스케쥴. - 하둡은 맵리듀스의 잡을 스플릿이라고 불리는 고정크기의 조각으로 나눔. 하둡은 각 스플릿마다 맵 태스크를 생성. 그 스플릿에 있는 각 레코드를 사용자 정의 맵 함수로 처리. -> 전체 입력을 통째로 처리하는 시간보다 스플릿을 통해 분할된 조각을 처리하는 시간이 더 짧게 걸리고, 그 스플릿을 병렬로 처리할 경우 비율 적으로 더 많은 스플릿을 처리할 수 있기 때문에 부하 분산에 더 좋은 효 과를 낸다.

- 지역성 최소화 : 하둡은 HDFS 내의 입력 데이터가 있는 노드에서 맵 태스크를 실행할 때 가장 잘 작동된다 - 지역성 최소화 : 하둡은 HDFS 내의 입력 데이터가 있는 노드에서 맵 태스크를 실행할 때 가장 잘 작동된다. (클러스터의 중요 자원인 네트워크 대역폭을 사용하지 않기 때문) - 최적의 스플릿 크기 = HDFS 블록 크기. (단일 노드에 저장된다고 확신할 수 있는 가장 큰 입력크기이기 때문) [그림2-3]단일 리듀스 태스크의 맵리듀스 데이터 흐름

2.4 분산형으로 확장하기 2.4.2 컴바이너 함수 -컴바이너 함수의 출력이 결국 리듀스 함수의 입력이 된다. 2.4.2 컴바이너 함수 -컴바이너 함수의 출력이 결국 리듀스 함수의 입력이 된다. (맵리듀스 잡은 클러스터 내에서 이용할 수 있는 대역폭이 제한적이 기 때문에 맵과 리듀스 태스크 간의 데이터 전송 최소화 할 필요가 있다.) job.setCombiner(MaxTemperatureReducer.class); 만 추가해주면 된다. -> 컴바이너 함수를 추가하여 수행할 경우 CPU XL 인스턴스를 실 행중인 10개의 노드의 EC 클러스터에서 프로그램이 수행된 시간은 6분이었다.

2.5 하둡 스트리밍 2.5.1 루비 2.5.2 파이썬 하둡에서는 자바 외에 다른 언어로 맵과 리듀스 함 수를 작성할 수 있는 맵리듀스 API를 제공한다.

2.6 하둡 파이프 하둡 파이프는 하둡 맵리듀스를 위한 C++ 인터페 이스의 이름이다.