Download presentation
Presentation is loading. Please wait.
Published by币 贡 Modified 7년 전
1
Hadoop network I/O Performance on Virtualized Cluster - System Perspective
August 25th. 2015 Cho, Hyojae
2
Index 서론 Background Enhancing network I/O Evaluation Rack Awareness VM Consolidation 결론
3
Big Data 서론 - 1 디지털 정보의 팽창에 따른 big data 처리량 증가
big data 처리를 위해 구글, MapReduce 모델 제안
4
Hadoop framework 서론 - 2 MapReduce 모델을 오픈 소스로 구현
Yahoo, Ebay, Facebook과 Twitter
5
Virtualization, Cloud System
서론 - 3 Virtualization, Cloud System 가상화 기술에 기반한 클라우드 시스템 최신 컴퓨팅 트렌드 여러 개의 OS를 한 물리적 머신에서 작동할 수 있게 함. 비용을 줄이고자 하는 기업들에게 가장 중요한 요소.
6
Overhead 서론 - 4 가상화 레이어의 하드웨어 가상화 CPU/MEM : 하드웨어적 가상화 지원
오버헤드 발생 CPU/MEM : 하드웨어적 가상화 지원 Intel VT-x, AMD-V native 머신과 거의 비슷한 성능 하지만 network, disk I/O에서는 아직도 상당한 overhead 존재
7
Network I/O Overhead 서론 - 5
특히 network I/O overhead가 Hadoop의 전체 실행시간에 큰 영향. Network I/O overhead를 줄이면, 전체적인 성능 향상에 큰 효과 기대
8
3개의 대표적 설정 방법 서론 - 6 NAT Single Root I/O Virtualization
Network Address Translation Bridge SR-IOV Single Root I/O Virtualization
9
이 문제를 해결하기 위한 방법 서론 - 7 더 나은 네트워크 모델 제안
3가지 방법을 조합 제안한 네트워크 모델에 맞는 rack awareness scheme제안 기존의 Bridge 네트워크보다 최대 147% 성능 향상
10
Virtualization Background - 1
Virtual Machine Monitor(VMM)이 하드웨어 자원을 가상화, 서로 다른 OS 구동. Performance overhead를 피할 수 없음. CPU, Memory는 native와 거의 비슷한 성능.
11
I/O overhead Background - 2 아직 disk, network I/O overhead는 가상화의 큰 장애물
SR-IOV H/W 레벨 서포트 Native 머신과 같은 퍼포먼스 일반적으로 사용하기엔 너무 비용이 큼
12
Hadoop and network traffic
Background - 3 Hadoop and network traffic Hadoop Distributed File System 빅 데이터를 여러 클러스터 노드에 분산 저장. 네트워크 트래픽을 유발하는 3가지 유형 존재
13
Hadoop and network traffic
Background - 4 Hadoop and network traffic Map 페이즈를 위한 데이터를 가져올 때 ‘연산을 옮기는 것이 데이터를 옮기는 것보다 저렴하다‘ Hadoop은 데이터가 있는 node에서 연산하도록 스케줄하게 되어 있음. 네트워크 트래픽 소모가 크지 않음.
14
Hadoop and network traffic
Background - 5 Hadoop and network traffic Reducer가 입력 데이터를 요구할 때 대부분의 트래픽이 발생 Reducer가 연산한 결과를 저장할 때 역시 많은 트래픽이 발생
15
Rack Awareness Background - 6
Rack grouping을 통해 같은 랙 내에서 데이터통신이 일어나면, 트래픽을 줄일 수 있음 더 나은 성능을을 보임.
16
Enhancing Network I/O - 1
Motivation
17
Enhancing Network I/O - 2
Virtualization and Network Config. 주로 사용되는 3가지 네트워크 설정 비교.
18
Enhancing Network I/O - 3
NAT 각 VM에게 private IP 할당 같은 머신 내부 VM간의 통신 대역폭 높음 Virtio library 사용 Memory Copy 명령어 사용 외부 노드에서 VM에 접근 불가
19
Enhancing Network I/O - 4
Bridge Network 각 VM에게 public IP 할당 같은 머신 내부 VM간의 통신 대역폭 낮음 서로 통신하기 위해 software bridge를 거침. 외부 노드에서 VM에 접근 가능 Software bridge에 의한 CPU overhead
20
Enhancing Network I/O - 5
SR-IOV 하드웨어적 NIC이 VM에게 virtual NIC 제공 일반적으로 사용하기에는 높은 비용
21
Enhancing Network I/O–6
22
Enhancing Network I/O - 7
Bridge Networking with NAT NAT 같은 물리적 머신 내의 대역폭이 높음 외부 노드에서의 접근 불가 Bridge 같은 물리적 머신 내의 대역폭 낮음 외부 노드에서의 접근 가능
23
Enhancing Network I/O - 8
Bridge Networking with NAT
24
Enhancing Network I/O - 9
SR-IOV Networking with NAT Bridge 네트워킹을 SR-IOV로 치환 SR-IOV 네트워크는 Bridge에 비해 높은 퍼포먼스를 가지지만, 같은 물리적 머신 내에서도 1Gbps의 대역폭을 가지는 한계
25
Enhancing Network I/O - 10
Rack Awareness 제안한 네트워크는 한 물리적 머신 내의 성능 향상에 초점 Hadoop framework와 HDFS는 여러 개의 복제본을 만듬. 이를 Rack grouping을 통해 같은 물리적 머신 내의 복제본을 참조하도록 하여 성능 향상.
26
Enhancing Network I/O - 11
Hadoop Configuration 같은 물리적 머신 내의 통신은 NAT를 통해서, 다른 물리적 머신 간의 통신은 Bridge 사용. Hadoop framework의 수정 없이 설정 변경만으로 가능. Linux의 /etc/hosts 파일 수정. hdfs-site.xml 파일 수정.
27
Evaluation - 1 Environment
28
BR network performance - send receive
Evaluation - 2 BR network performance - send receive VM : Virtual Machine PM : Physical Machine (Hadoop과 관련없는) HM : Host Machine
29
SR network performance - send receive
Evaluation - 3 SR network performance - send receive
30
Evaluation - 4 TeraGen
31
Evaluation - 5 TeraSort
32
Evaluation - 6 WordCount
33
Replication Factor & Rack Awareness
Evaluation - 7 Replication Factor & Rack Awareness
34
VM Consolidation Evaluation - 8 VM 통합의 효과 비교
PM을 2개 사용하였으나 퍼포먼스는 오히려 하락 VM 개수의 증가에 따라 격차 감소
35
Conclusion Hadoop을 가상화 클라우드/클러스터에서 수행 시 Network I/O를 최적화 할 수 있는 방안 제시
기존에 제시된 NAT, Bridge, SR-IOV를 조합하여 더 나은 성능을 이끌어 낼 수 있음 실험 결과 최대 147% performance improvement 달성
Similar presentations