Hadoop network I/O Performance on Virtualized Cluster - System Perspective August 25th. 2015 Cho, Hyojae.

Slides:



Advertisements
Similar presentations
1 08 시스템 구성도 고려사항 * 웹 서버 클러스터 구성  클러스터 구축은 ㈜ 클루닉스의 Encluster 로 구축 (KT 인증,IT 인증 획득, 실제 클러스터 구축 사이트 200 여곳 )  웹 서버 클러스터는 Dynamic, Static, Image.
Advertisements

WCL 이민학 Big Data & Hadoop.
Microsoft ANSWER 이명희 이경서 김나은 김정현 서리다 유시은 이재현 심광철.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
1)RACK 2)UPS 3)P D U 장치 4)Server Group 5)KVM Switch 7)UPS 를 위한 HUB 6) RACK Monitor.
Real Time Systems Lab. rtlab.knu.ac.kr 무인 헬리콥터 자율비행 소프트웨어의 실시간 성능 개선을 위한 CAN 기반 센서 네트워크 경북대학교 실시간 시스템 연구실 이재신.
Mobile 모바일 싱크 기반 무선 센서 네트워크 류재희, 이호성, 김소영.
컴퓨터와 인터넷.
성능 및 보안 SLA 보장이 가능한 차세대 클라우드 인프라SW 개발 SWRC 포럼 2016
교회를 교회되게 예밸 예배되게 우릴 사용 하소서 진정한 부흥의 날 오늘 임하도록 우릴 사용 하소서
교회를 교회되게 예밸 예배되게 우릴 사용 하소서 진정한 부흥의 날 오늘 임하도록 우릴 사용 하소서
Part TCP / IP(계속) 3. IP 주소 4. IP 라우팅 5. 응용 프로토콜.
컴퓨터공학과 김소원.
전능하사 천지를 만드신 하나님 아버지를 내가 믿사오며, 그 외아들 우리 주 예수 그리스도를 믿사오니,
전능하사 천지를 만드신 하나님 아버지를 내가 믿사오며, 그 외아들 우리 주 예수 그리스도를 믿사오니,
뜻이 하늘에서 이룬 것 같이 땅에서도 이루어지이다.
Part 4 장치 관리하기 Chapter 13. 주변 장치 관리하기 Chapter 14. 하드디스크 관리하기
Chapter 8. 인터넷 연결공유와 개인네트워크 구축
- 세부 1 - 이종 클라우드 플랫폼 데이터 관리 브로커 연구 및 개발
Hadoop 동작방식(F5를 눌로 슬라이드쇼로 볼 것!!)
네트워크 기술을 통한 현재와 미래 소개.
뇌를 자극하는 Windows Server 2012 R2
1. Windows Server 2003의 역사 개인용 Windows의 발전 과정
Windows Server 장. Windows Server 2008 개요.
1장. 실습 환경 구축.
뇌를 자극하는 Windows Server 2012 R2
Hadoop 2.완전 분산 처리.
18장. 방화벽 컴퓨터를 만들자.
SysmanagerOne 네트웍 구성도 ㈜시스원 IDC사업부.
XEN & CLOUD SPARCS14 ONION.
UNIT 07 Memory Map 로봇 SW 교육원 조용수.
11 장 LAN 기본 개념과 Ethernet LAN
8장. 원격지 시스템 관리하기.
Introduction to Big Data, Summer, 2013
FTP 프로그램 채계화 박재은 박수민.
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
HDFS와 대용량 데이터 처리 콘텐츠서비스연구팀 최완.
병렬 처리/컴퓨터 기초.
뇌를 자극하는 Windows Server 장. Windows Server 2008 개요.
GPRS(general Packet Radio System) 설명
뇌를 자극하는 Windows Server 장. 장애 조치 클러스터.
MiniBox: A Two-Way Sandbox for x86 Native Code
Transmission & Analysis
UNIT 07 Memory Map 로봇 SW 교육원 조용수.
리눅스 시스템 & 커널 기초 P.46 – P.53 이름: nsh009 학번: 112 1/20.
Day-04(mon_9.6) Host_PC Router NAT NIC Switch ISP NAT Host Only
강의 개요. 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
뇌를 자극하는 Windows Server 장. 원격 접속 서버.
DataScience Lab. 박사과정 김희찬 (목)
(개정판) 뇌를 자극하는 Red Hat Fedora 리눅스 서버 & 네트워크
Tiny OS와 NesC Tiny OS Part1. Won Mi Sun – 17 지능제어 연구실.
DHCP 조지훈 김대성 이정민 용석중.
Chapter 26 IP over ATM.
네트워크 환경 구축과 이미지 전송 호스트/타겟 통신 직렬 통신을 이용한 이미지 전송 수퍼 데몬 BOOTP 환경 구축
알고리즘 알고리즘이란 무엇인가?.
Virtual Private Networks,
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
가상화 소개자료 02학번 이동신.
AT MEGA 128 기초와 응용 I 기본적인 구조.
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
5.2.3 교환방식의 비교 학습내용 교환방식의 비교.
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
전능하사 천지를 만드신 하나님 아버지를 내가 믿사오며, 그 외아들 우리 주 예수 그리스도를 믿사오니,
소리가 작으면 이어폰 사용 권장!.
Completion Port기반의 채팅프로그램
CHAP 15. 데이터 스토리지.
ARP.
LEON3 DBT 엔진을 이용한 ERC32 기반의 하이퍼바이저 프로토 타입 개발
Presentation transcript:

Hadoop network I/O Performance on Virtualized Cluster - System Perspective August 25th. 2015 Cho, Hyojae

Index 서론 Background Enhancing network I/O Evaluation Rack Awareness VM Consolidation 결론

Big Data 서론 - 1 디지털 정보의 팽창에 따른 big data 처리량 증가 big data 처리를 위해 구글, MapReduce 모델 제안

Hadoop framework 서론 - 2 MapReduce 모델을 오픈 소스로 구현 Yahoo, Ebay, Facebook과 Twitter

Virtualization, Cloud System 서론 - 3 Virtualization, Cloud System 가상화 기술에 기반한 클라우드 시스템 최신 컴퓨팅 트렌드 여러 개의 OS를 한 물리적 머신에서 작동할 수 있게 함. 비용을 줄이고자 하는 기업들에게 가장 중요한 요소.

Overhead 서론 - 4 가상화 레이어의 하드웨어 가상화 CPU/MEM : 하드웨어적 가상화 지원 오버헤드 발생 CPU/MEM : 하드웨어적 가상화 지원 Intel VT-x, AMD-V native 머신과 거의 비슷한 성능 하지만 network, disk I/O에서는 아직도 상당한 overhead 존재

Network I/O Overhead 서론 - 5 특히 network I/O overhead가 Hadoop의 전체 실행시간에 큰 영향. Network I/O overhead를 줄이면, 전체적인 성능 향상에 큰 효과 기대

3개의 대표적 설정 방법 서론 - 6 NAT Single Root I/O Virtualization Network Address Translation Bridge SR-IOV Single Root I/O Virtualization

이 문제를 해결하기 위한 방법 서론 - 7 더 나은 네트워크 모델 제안 3가지 방법을 조합 제안한 네트워크 모델에 맞는 rack awareness scheme제안 기존의 Bridge 네트워크보다 최대 147% 성능 향상

Virtualization Background - 1 Virtual Machine Monitor(VMM)이 하드웨어 자원을 가상화, 서로 다른 OS 구동. Performance overhead를 피할 수 없음. CPU, Memory는 native와 거의 비슷한 성능.

I/O overhead Background - 2 아직 disk, network I/O overhead는 가상화의 큰 장애물 SR-IOV H/W 레벨 서포트 Native 머신과 같은 퍼포먼스 일반적으로 사용하기엔 너무 비용이 큼

Hadoop and network traffic Background - 3 Hadoop and network traffic Hadoop Distributed File System 빅 데이터를 여러 클러스터 노드에 분산 저장. 네트워크 트래픽을 유발하는 3가지 유형 존재

Hadoop and network traffic Background - 4 Hadoop and network traffic Map 페이즈를 위한 데이터를 가져올 때 ‘연산을 옮기는 것이 데이터를 옮기는 것보다 저렴하다‘ Hadoop은 데이터가 있는 node에서 연산하도록 스케줄하게 되어 있음. 네트워크 트래픽 소모가 크지 않음.

Hadoop and network traffic Background - 5 Hadoop and network traffic Reducer가 입력 데이터를 요구할 때 대부분의 트래픽이 발생 Reducer가 연산한 결과를 저장할 때 역시 많은 트래픽이 발생

Rack Awareness Background - 6 Rack grouping을 통해 같은 랙 내에서 데이터통신이 일어나면, 트래픽을 줄일 수 있음 더 나은 성능을을 보임.

Enhancing Network I/O - 1 Motivation

Enhancing Network I/O - 2 Virtualization and Network Config. 주로 사용되는 3가지 네트워크 설정 비교.

Enhancing Network I/O - 3 NAT 각 VM에게 private IP 할당 같은 머신 내부 VM간의 통신 대역폭 높음 Virtio library 사용 Memory Copy 명령어 사용 외부 노드에서 VM에 접근 불가

Enhancing Network I/O - 4 Bridge Network 각 VM에게 public IP 할당 같은 머신 내부 VM간의 통신 대역폭 낮음 서로 통신하기 위해 software bridge를 거침. 외부 노드에서 VM에 접근 가능 Software bridge에 의한 CPU overhead

Enhancing Network I/O - 5 SR-IOV 하드웨어적 NIC이 VM에게 virtual NIC 제공 일반적으로 사용하기에는 높은 비용

Enhancing Network I/O–6

Enhancing Network I/O - 7 Bridge Networking with NAT NAT 같은 물리적 머신 내의 대역폭이 높음 외부 노드에서의 접근 불가 Bridge 같은 물리적 머신 내의 대역폭 낮음 외부 노드에서의 접근 가능

Enhancing Network I/O - 8 Bridge Networking with NAT

Enhancing Network I/O - 9 SR-IOV Networking with NAT Bridge 네트워킹을 SR-IOV로 치환 SR-IOV 네트워크는 Bridge에 비해 높은 퍼포먼스를 가지지만, 같은 물리적 머신 내에서도 1Gbps의 대역폭을 가지는 한계

Enhancing Network I/O - 10 Rack Awareness 제안한 네트워크는 한 물리적 머신 내의 성능 향상에 초점 Hadoop framework와 HDFS는 여러 개의 복제본을 만듬. 이를 Rack grouping을 통해 같은 물리적 머신 내의 복제본을 참조하도록 하여 성능 향상.

Enhancing Network I/O - 11 Hadoop Configuration 같은 물리적 머신 내의 통신은 NAT를 통해서, 다른 물리적 머신 간의 통신은 Bridge 사용. Hadoop framework의 수정 없이 설정 변경만으로 가능. Linux의 /etc/hosts 파일 수정. hdfs-site.xml 파일 수정.

Evaluation - 1 Environment

BR network performance - send receive Evaluation - 2 BR network performance - send receive VM : Virtual Machine PM : Physical Machine (Hadoop과 관련없는) HM : Host Machine

SR network performance - send receive Evaluation - 3 SR network performance - send receive

Evaluation - 4 TeraGen

Evaluation - 5 TeraSort

Evaluation - 6 WordCount

Replication Factor & Rack Awareness Evaluation - 7 Replication Factor & Rack Awareness

VM Consolidation Evaluation - 8 VM 통합의 효과 비교 PM을 2개 사용하였으나 퍼포먼스는 오히려 하락 VM 개수의 증가에 따라 격차 감소

Conclusion Hadoop을 가상화 클라우드/클러스터에서 수행 시 Network I/O를 최적화 할 수 있는 방안 제시 기존에 제시된 NAT, Bridge, SR-IOV를 조합하여 더 나은 성능을 이끌어 낼 수 있음 실험 결과 최대 147% performance improvement 달성