하둡 분산 파일 시스템 Yonsei University 2nd Semester, 2014 Sanghyun Park

Slides:



Advertisements
Similar presentations
Made by 주례 없는 결혼식♥ 대본 사회 : 홍길동.
Advertisements

Book Review 작지만강한기업에 투자하라 - 랄프 웬저. 목차 1.- 랄프웬저에 대하여 2. 심리에대하여 3. 어떤기업에 투자할것인가 ? - 합리적인 주가의 성장주, - 작은기업 - 작지만 강한기업의 3 가지 지지대 4. 종목발굴의 아이디어 - 테마 - 나쁜뉴스.
한국교육 일제고사, 자사고, 입학사정관 … 그리고 교육감 선거. MB 교육철학과 정책 교육은 경쟁인가 협력인가 - 미국식 모델과 핀란드 모델 핀란드 모델 -3 주체 전부 경쟁 - 사회경제적 배경이 학업성취도 주요변인 학교만족 두 배, 사교육비 절반.
INTERNATIONAL CHAIRMAN’S CLUB MEMBER 구 현 모. 어디에서 출발하시겠습니까 ? 디스트리뷰터 (DS) 석세스 빌더 (SB) 에스피 (SP)
더 쉬운 해고, 더 낮은 임금, 더 많은 비정규직에 맞서 박근혜를 멈춰 ! 오늘 하루 제껴 ! 2015 년 박근혜에 맞선 노동자 살리기 총파업.
우리도서관에 2 권이 있어요 ~. 도서위치 : 유 꼬 32 새 v.2 우리도서관에 1 권이 있어요 ~. 도서위치 : 유 408 생 12 v.36 이 책은 숲 속을 바쁘게 뛰어다니는 토끼 이야기를 통해 아이가 어떤 동물이 겨울잠에 빠져드는지 자연스럽게 익혀나갈.
불어불문학과 전진 불어불문학과 권민지 Book Festival Incheon.
성경읽기 (10) ■ 판관기 ☞ 신명기계 역사서 - ▲ 신학적 주제 ① 역사의식 - ‘ 신명기계 역사가 ’ 가 바라본 역사의 틀. 배신 → 벌 → 회개 → 구원 → 평화 → 배신 이 틀 안에서 ‘ 하느님과의 계약에 대한 철저한 준수 ’ 를 강조한다. 용의주도한 이런 이야기.
4 대강 사업 누굴 위한 것 ? - 4 대강 사업 반대. 위원장 : 김영남, 류영림 위 원 김만식, 김성용 김원숙, 김정숙 문주섭, 박종남 손호순, 양인욱 윤병모, 이진성 이학근, 한병효 체육위원회 명단.
제 5 과 이력서와 자기소개서를 준비합니다.. 이력서 성명 : 王倩( Wang Qian ) 성별 : 여 생년월일 : 1981 년 8 월 10 일 연락처 : ( 기숙사 ), ( 휴대폰 / 휴대전화 ) 학력 –
11 장 적시생산 시스템. Kwangtae Park, Korea University 2 70 년대 후반 도요타자동차에 의해 완성, 80 년대부터 구미 및 국내 기업에도 도입됨 필요한 때, 필요한 것을 필요한 만큼만 생산함으로써 생산 시간을 단축하고 재고를 최소화하여 낭비를.
새 정부의 공정거래정책 추진방향 Ⅲ 공정위는 새롭게 변하겠습니다. - 튼튼한 기업, 활기찬 시장, 행복한 소비자 -
목 차 1 추진 배경 및 목적 2 기본 방향 3 추진 경과 4 시스템 메뉴 5 포트폴리오 6 향후 추진 계획.
환 영 신입생 도서관 이용 교육 동강대학교 도서관.
MB노믹스의 실패와 미래 22조 배주환 외 5명.
Sound on 경호의 선물.
2012년 4.11총선과 노동자 정치를 바꾸자! 세상을 바꾸자! 강의 제목, 강사 소개.
Presentation Loading…
2MB 교육정책과 교육운동 송경원(진보신당/ 교육),
컴퓨터공학과 김소원.
2012년 12월 정기 제직회 기 도 : 김영민 집사 출 석 : 서 기 개회 선언 : 제직회장 (이태환 장로)
건양대학교 군사학과 Konyang University Department of Military Science 건양대 군사학과
서초동 00공동주택신축공사 ㈜ 천 지 수 성.
Hadoop 동작방식(F5를 눌로 슬라이드쇼로 볼 것!!)
2014학년도 중학교 교육과정 편성시 유의사항 울산광역시교육청 교육과정운영과 한 상 철.
대학 특성화사업 (CK-Ⅰ, CK-Ⅱ) 한국연구재단 학술진흥본부 대학지원팀 대학지원팀.
학과 : 컴퓨터정보과 B반 학번 : 성명 : 박광원
고급 컴퓨터 프로그래밍 팀명:지식인 팀원:홍광수 원대연 이소정.
BIG Data 컴퓨터응용과학부 박진완.
뇌를 자극하는 SQL Server 장. 서버 자동화.
게임 엔진 : 프로젝트 PPT_1 참참참 김 현 원.
하나님의 말씀을 하는 것같이 하고(베드로전서
㈜학술교육원 온라인논문투고시스템 투고자 메뉴얼.
Multimedia Programming 11: Image Warping
Hadoop 김연왕
Edus 충남 통합인증을 위한 교과부 표준보안 모듈 설치 안내 (smart.edus.or.kr)
하둡 기반 빅데이터 처리 방법.
에버랜드 대학생 마케팅 패널 <에버랜드 마케터스> 지원서 및 지원 가이드
한 양 대 학 교 의 과 대 학 HANYANG UNIVERSITY COLLEGE OF MEDICINE
Luxury 소통과 ‘승부수’ 이미지메이킹
타대학 학점인정 신청 매뉴얼 ○포털시스템에 접속하여 로그인.
Project Specification - 학사관리 시스템 과제 2번
2016 호텔관광대학 동계 전공연수 공모전 설명회 ㆍ 공모전 개요 ㆍ 선발절차 및 평가 방법 ㆍ 공모전 주제
Korea University of Technology and Education
한국IT교육원 팀장 : 도신욱 팀원 : 박영준 윤상철 여성모
유고결석자 출석인정 안내 Contents 유고결석자 출석인정 사유 신청 시 유의사항 유고결석자 출석인정 절차 흐름도
[자세한 사항은 SW융합대학 홈페이지( 공지사항 참조]
분산 파일 시스템의 구조 GFS 와 CEPH SW공학센터 융합SW공학팀 장원석 책임 연구원
Hadoop Chapter 2. 맵리듀스 김영지.
Office 365 서비스 사용 안내 정보지원센터/ 두원공과대학교.
요한계시록 (2) 요한계시록의 7가지 중점사항 Rev 2-0.
알쏭달쏭 요한복음 성경퀴즈.
1. 신규 연세메일(Gmail)에 로그인 합니다. ( yonsei. ac. kr )
1. 신규 연세메일(Gmail)에 로그인 합니다. ( yonsei. ac. kr )
맵리듀스 Yonsei University 2nd Semester, 2014 Sanghyun Park
의료원 교수 회의 자료
교육후기(보고서) 작성 양식 및 우수후기 시상 방법 안내
3단원 디지털 세상 속으로 1. 0과 1의 비밀.
양궁게임 게임기획서 1차안 2011/01/17 최가운.
복수노조 시대, 노동운동의 과제 (火) 노광표 (한국노동사회연구소 부소장)
무용의 특성 및 종류 체 육 1 학년 7. 무용 > (1) 무용의 특성 및 종류 > 1) 무용의 특성 (1/6)
모바일홈 사용자 안내문 우리 아파트는 인터넷과 휴대폰으로 원격 제어할 수 있는 기능이 있습니다. 사용하면 이런 점이 좋아요~
음 식 물 쓰 레 기 ▶ 감량의무 사업장 ; 1일 평균 연 급식인원 100인 이상인 집단급식소 음식물 쓰레기란?
경제민주화의 방향과 정책 헌법 제119조 경제민주화 특별위원회 2011년 11월 8일.
북한학 과목소개 최 장 옥 교 수 연평도 앞 월래도 시찰.
이번 호에는 서울휘경초등학교 사이트를 소개합니다.
4 다문화 및 탈북학생 멘토링 진행.
담당교수 : 김 인 규 동양문화에서 얻는 삶의 지혜 동양사상이란 무엇인가?` 담당교수 : 김 인 규
세계를 품는 빌립보 기도 2목장 김효찬 선교사 키르키즈스탄.
/ AKR HTML?input=1179m
Presentation transcript:

하둡 분산 파일 시스템 Yonsei University 2nd Semester, 2014 Sanghyun Park * The slides are from the book “시작하세요! 하둡 프로그래밍: 기초부터 실무까지 하둡의 모든 것” written by 정재화 (위키북스, 2012)

목차 HDFS의 설계 목표 HDFS 아키텍쳐 파일 저장 파일 읽기 보조 네임노드

HDFS의 설계 목표 (1) 장애 복구 스트리밍 방식의 데이터 접근 분산 서버 간에 주기적으로 상태를 체크해 빠른 시간에 장애를 인지하고, 대처할 수 있게 도와줌 스트리밍 방식의 데이터 접근 HDFS에 파일을 저장하거나, 저장된 파일을 조회하려면 스트리밍 방식으로 데이터에 접근해야 함 HDFS는 기존 파일 시스템과는 달리 배치 작업에 적합하도록 설계돼 있고, 낮은 데이터 접근 지연 시간보다는 높은 데이터 처리량에 중점을 두고 있음

HDFS의 설계 목표 (2) 대용량 데이터 저장 데이터 무결성 높은 데이터 전송 대역폭과 하나의 클러스터에서 수백 대의 노드를 지원할 수 있어야 함 하나의 인스턴스에서는 수백만 개 이상의 파일을 지원함 데이터 무결성 HDFS는 한 번 저장한 데이터는 더는 수정할 수 없고, 읽기만 가능하게 해서 데이터 무결성을 유지함 데이터 수정은 불가능하지만 파일 이동, 삭제, 복사할 수 있는 인터페이스를 제공함 하둡 2.0 알파버전부터는 HDFS에 저장된 파일에 append가 제공됨

HDFS 아키텍처 (1) HDFS는 블록 구조의 파일 시스템임 블록 사이즈는 기본적으로 64MB로 설정돼 있으며 변경 가능함 분산된 서버에 나눠서 데이터를 저장하기 때문에 로컬 서버의 하드디스크보다 큰 사이즈의 데이터를 저장할 수 있음 HDFS는 스트리밍 방식으로 로컬 디스크에 저장된 데이터를 순차적으로 검색할 수 있게 해 줌

HDFS 아키텍처 (2) 다음 그림은 320MB의 파일을 HDFS에 저장했을 때 블록이 복제되는 것을 나타냄

HDFS 아키텍처 (3) HDFS의 파일 복제 구조

HDFS 아키텍처 (4) HDFS는 마스터와 슬레이브 아키텍쳐로 구성됨 마스터 역할을 하는 네임노드 서버가 한 대, 슬레이브 역할을 하는 데이터노드 서버가 여러 대로 구성됨 네임노드는 HDFS의 모든 메타데이터를 관리하고, 클라이언트가 HDFS에 저장된 파일에 접근할 수 있게 해줌 HDFS에 저장할 때, 블록으로 나눠진 데이터는 여러 대의 데이터노드에 분산 저장됨 사용자가 구현한 애플리케이션은 HDFS에 파일을 저장하거나, 저장된 파일을 읽기 위해 HDFS 클라이언트를 사용하며, 클라이언트는 API 형태로 사용자에게 제공됨 다음 그림은 이러한 HDFS 아키텍쳐를 나타낸 것임

HDFS 아키텍처 (5)

HDFS 아키텍처 (6) HDFS는 계층형 파일 시스템을 지원하기 때문에 클라이언트는 HDFS에 디렉토리를 만들고, 이 디렉토리에 파일을 저장할 수 있음 디렉토리명과 파일명 같은 파일 시스템의 네임스페이스는 네임노드의 메타데이터에 저장됨 해당 파일의 복제본의 수와 블록의 위치도 네임노드의 메타데이터에서 관리됨

HDFS 아키텍처 (7) 데이터노드는 주기적으로 네임노드에게 하트비트와 블록의 목록이 저장된 블록 리포트를 보내줌 네임노드는 하트비트를 통해 데이터노드가 정상 동작하는지 확인함 네임노드는 블록 리포트를 통해 데이터노드의 모든 블록을 확인하고, 파일의 복제본 위치를 결정함 클라이언트는 네임노드에 접속해 원하는 파일이 저장된 블록의 위치를 조회하고, 해당 블록이 저장된 데이터노드에서 직접 데이터를 조회함

파일 저장 (1) 아래 그림은 파일 저장에 대한 동작 방식을 나타낸 것이며, 다음과 같은 단계로 진행됨

파일 저장 (2) 사용자 어플리케이션이 클라이언트에게 파일 저장을 요청함 클라이언트는 네임노드에게 사용자가 요청한 파일 경로를 생성할 것을 요청함 네임노드는 해당 파일 경로가 기존에 존재할 경우 에러 처리를 함. 기존에 존재하지 않는다면 메모리에 파일 경로를 생성한 후, 다른 클라이언트가 해당 경로를 수정하지 못하게 락을 검 네임노드는 클라이언트에게 해당 파일을 저장할 데이터노드의 목록을 반환함 (환경설정 파일 내의 “블록의 복제 개수”만큼) 클라이언트는 첫 번째 네임노드에게 데이터를 전송함

파일 저장 (3) 첫 번째 데이터노드는 전송받은 데이터를 로컬 디스크에 저장한 후, 두 번째 데이터노드로 데이터를 전송함 두 번째 데이터노드도 전송 받은 데이터를 로컬에 저장한 후, 세 번째 데이터노드로 데이터를 전송함 세 번째 데이터도 전송 받은 데이터를 로컬에 저장함 두 번째와 세 번째 데이터노드는 첫 번째 데이터노드에게 로컬 저장이 완료됐다는 사실을 알려줌 첫 번째 데이터노드는 클라이언트에게 파일 저장이 완료됐음을 응답함 클라이언트는 어플리케이션에게 파일 저장이 완료됐음을 응답함

파일 읽기 (1) 아래 그림은 파일 읽기에 대한 동작 방식을 나타낸 것이며, 다음과 같은 단계로 진행됨

파일 읽기 (2) 사용자 어플리케이션이 클라이언트에게 파일 읽기를 요청함 클라이언트는 네임노드에게 어플리케이션이 요청한 파일이 어떤 블록에 저장돼 있는지 블록의 위치 정보를 요청함 네임노드는 요청된 파일의 복제 블록이 저장된 위치를 메타데이터를 통해 확인한 후 해당 데이터노드의 목록을 반환함. 이 때 데이터노드의 목록은 요청 중인 클라이언트와 가까운 순서대로 정렬해서 반환됨 클라이언트는 데이터노드에게 블록을 조회할 것을 요청함 데이터노드는 클라이언트에게 요청한 데이터를 전송함 클라이언트는 어플리케이션에게 전송 받은 데이터를 전달함

보조 네임노드 (1) 네임노드는 HDFS의 메타데이터를 관리하기 위해 에디트 로그(EditLog)와 파일 시스템 이미지(FsImage) 파일을 사용함 에디트 로그는 HDFS의 메타데이터에 대한 모든 변화를 기록하는 로그 파일로서, 네임노드의 로컬 파일시스템에 파일로 저장됨 HDFS에 새 파일을 저장하거나, 기존 파일을 삭제하거나, 파일 위치를 변경하는 등의 파일 상태를 변화시키는 모든 액션이 에디트 로그에 기록됨 파일 시스템 이미지 파일은 파일 시스템의 네임스페이스(디렉토리명, 파일명, 상태정보)와 파일에 대한 블록 매핑 정보를 저장하는 파일로서, HDFS의 스냅샷이라고 할 수 있음 파일 시스템 이미지 파일도 네임노드의 로컬 파일시스템에 파일로 저장됨

보조 네임노드 (2) 네임노드가 구동할 경우 다음과 같은 단계로 파일 시스템 이미지 파일과 에디트 로그를 사용함 로컬에 저장된 파일 시스템 이미지 파일과 에디트 로그 파일을 조회함 (메모리로 읽어 들임) 에디트 로그 파일에 있는 내용을 바탕으로 메모리에 올라와 있는 파일 시스템 이미지를 갱신함 메모리에 올라와 있는 파일 시스템 이미지를 로컬에 있는 파일 시스템 이미지 파일에 적용함 에디트 로그 파일을 초기화함

보조 네임노드 (3) 보조 네임노드는 체크포인팅이라는 작업을 통해 네임노드의 파일 시스템 이미지 파일의 크기를 축소하는 역할을 함 그래서 보조 네임노드를 흔히 체크포인트 서버라고 표현함 (보조 네임노드는 네임노드의 백업 서버가 아님) 보조 네임노드의 체크포인팅 과정은 설명을 생략함