Download presentation
Presentation is loading. Please wait.
1
슈퍼컴퓨팅센터의 클러스터 컴퓨팅 주제
2
슈퍼컴퓨팅센터의 의무 슈퍼컴퓨팅 환경 변화 적응을 위한 선도 연구/개발최신 기술 전파 최신 기술에 기반한 서비스 제공
컴퓨팅 자원/서비스의 품질과 경제성 향상 고성능 클러스터 컴퓨팅/응용 기술의 확산 과학/기술 계산량/복잡도 증가, 편의성, 효율성 요구 증대 대용량 계산 자원/기술 수요발생 E-Science & E-Manufacturing, IT839등 국가생존을 위한 정부 추진 프로젝트들은 고성능, 고효율, 경제성높은 클러스터 슈퍼컴퓨팅과 그 응용 서비스를 필요 국가 과학기술과 산업분야에서 연구/개발 경쟁력 향상을 위해 클러스터 /응용 기술등의 현업 적용 확대 서비스 모델 발굴/제시 필요
3
목표 국내 확보 기술로 대규모 컴퓨팅 자원의 확보방안 마련 대규모 클러스터 컴퓨팅 핵심 기술 원형 개발
대규모 클러스터의 구축, 운영 및 최적화 기술 연구/개발 기술의 수준 : 대표적인 세계기술과 동급 또는 우수 2년 내에 20 TeraFlops급의 고성능 클러스터 기술 확보 대규모 클러스터 컴퓨팅 핵심 기술 원형 개발 차기 클러스터 운영 및 모니터링 기술 확보 차기 클러스터 시스템 서비스를 위한 병렬 프로그램 환경 정의 응용/가시화/그리드(e-Science) 연계 활용의 시범 환경 구축 클러스터 응용/서비스 모델 발굴 / 적용 클러스터 컴퓨팅의 현업 응용 /서비스 모델 개발
4
내용 국내 확보 기술로 대규모 컴퓨팅 자원의 확보방안 마련 응용/가시화/그리드(e-Science) 연계 활용의 시범 환경 구축
대규모 클러스터 시스템을 위한 병렬 파일 시스템 기술력 확보 대규모 클러스터 관리를 위한 프레임웍, 도구 개발 응용/가시화/그리드(e-Science) 연계 활용의 시범 환경 구축 가시화 클러스터 구축 기술 확보 클러스터 응용/서비스 모델 발굴 / 적용 RDDM(Research and Development Data Management) 시스템 Prototype 연구 슈퍼컴퓨팅센터내의 컴퓨팅 자원의 효율적 분배를 위한 각 시스템 및 응용프로그램의 성능 비교 RP클러스터 기술 개발 네트워크 에뮬레이션 클러스터 구축 클러스터 기술 센터 운영
5
전략 Hamel 클러스터 운영을 통해 파악한 문제점 해결을 통해 차기 클러스터 구축에 필요한 기술 확보
클러스터 컴퓨팅 효율화를 위한 기술 및 데이터 확보 클러스터 기술센터 활동을 통한 기술 확산과 공동 연구 기회 증대 다양한 응용분야 확대
6
클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(1/3)
클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(1/3) 2005년 계획 분석(Analysis) 주요 병렬 파일 시스템 기능 비교 분석 파일 시스템 성능 측정 도구 기능 비교 분석 구성 요소별 파일 시스템 성능 상관 관계 분석 설계(Design) 프로토타입 설계(1단계)
7
클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(2/3)
클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(2/3) 병렬 파일 시스템별 기능 비교 분석 기존 병렬 파일 시스템들의 주요 기능, 장단점및 특이 사항 파악 PVFS, PVFS2, Lustre, GFS등 파일 시스템 성능 측정 도구 기능 비교 분석 클러스터 시스템 도입시 파일 시스템에 대한 테스트 기준 모호 측정 도구의 특징을 비교 분석한후 적합한 측정 도구(집합) 도출 구성 요소별 파일시스템 성능 상관 관계 분석 병렬 파일 시스템의 성능에 영향을 미치는 요소를 파악 파일 시스템에 대하여 여러 구성 요소를 변경하면서 성능 분석
8
클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(3/3)
클러스터 시스템 환경을 위한 자체적인 병렬 파일 시스템 기술력 확보 및 개발(3/3) 프로토타입 설계(1단계) 1단계 Prototype 구성 - 기본 골격 구성 핵심적인 User Interface및 Command 구현 2~3단계 기본 구조 보강 User Interface및 Command 확장 로우레벨 파일 시스템 개발 및 File System Command 개발
9
클러스터 관리 환경 구축 목표 내용 클러스터 관리 시스템을 위한 프레임워크
클러스터 시스템 운영/관리를 위한 도구들과 이를 체계화 할 프레임워크의 개발 수십 테라급 통합 클러스터 관리 시스템을 위한 기반 인프라 개발 내용 클러스터 관리 시스템을 위한 프레임워크 모니터링 도구 커널 디버깅 도구
10
클러스터 관리 시스템을 위한 프레임워크 개발(1/3)
클러스터 관리 시스템을 위한 프레임워크 개발(1/3) 클러스터 시스템 운영/관리에 필요한 도구들의 개발과 이용을 쉽게 할 프레임워크의 개발 통합 클러스터 관리 시스템 구축을 위한 기반 인프라 다양한 클러스터 도구들의 연관성을 높임 분산 관리 기술의 축적
11
클러스터 관리 시스템을 위한 프레임워크 개발(2/3)
클러스터 관리 시스템을 위한 프레임워크 개발(2/3) 개발 내용 Messaging Protocol Service Modeling Registry Service Directory Service Repository Service Management Structure Components X-Client/Server 목표 사양 Service Oriented Architecture Messaging Middleware Support DMTF standard (CIM based) Real-Time Service Operation Provide Powerful UI (X-Internet based)
12
클러스터 관리 시스템을 위한 프레임워크 개발(3/3)
클러스터 관리 시스템을 위한 프레임워크 개발(3/3) X-Client X-Client CMF Architecture Service Oriented Architecture X-Server Messaging Middleware Cluster Manager Real-Time Service Operation Repository Indication Service Directory DMTF based Model Service Manager Adapter Messaging Bus Adapter Adapter Adapter Adapter Node Manager Node Manager Node Manager Node Manager Indication Service Registry Indication Service Registry Indication Service Registry Indication Service Registry Service Manager Service Manager Service Manager Service Manager Service Service Service Service
13
모니터링 도구 개발(1/3) 클러스터 시스템에 대한 모니터링 및 장애 복구를 위한 능동적인 모니터링 도구 개발( 각 개별 node 중점) 2005년도 계획 분석 주요 모니터링 도구 동작 구현 분석 주요 모니터링 도구의 각 노드별 동작 분석(자원 소모, 성능 등) 장애에 대한 분석 및 분류 장애 복구를 위한 방법, 동작, 기능 분석 및 분석 설계 노드별 기능 및 동작 설계 노드단에서 동작을 수행하기 위한 기본 스키마 동작 설계 장애 복구에 대한 분석 장애 증상 및 장애 복구에 대한 지식 데이터 베이스 스키마 분류 및 작성 구현 장애 복구를 위한 스키마 작성 노드단에서 정보 취합 및 장애 감지/복구를 담당하는 에이전트 구현
14
모니터링 도구 개발(2/3) 인터페이스 모니터링 장애 확인 및 동작 Database 웹 인터페이스(Viewer, 설정)
시스템에 대한 주기적인 모니터링 개별 노드에서 데이터 전송 관리 노드에서 데이터 취합 장애 확인 및 동작 장애 발생시 관리노드에 전송 기능 장애에 대한 대처 수행 부분 Database 장애에 대한 데이터 베이스 장애 복구에 대한 데이터 베이스
15
모니터링 도구 개발(3/3) 웹 인터페이스 장애 DB 관리 시스템 장애 관리 모니터링 장애 복구 DB 개별 노드 데이터 전송
(H/W) 모니터링 시스템 감지 장애 복구 DB 개별 노드 데이터 취합 장애 알림 장애 복구 (S/W) 데이터 전송
16
커널 디버깅 도구 개발(1/3) 필요성 현재 클러스터 계산노드에서 system hang 발생시, 해당 노드 시스템을 reboot 시키는 것으로 장애 처리 hang/crash의 원인을 규명할 수 있는 절차/방법/도구 부재 kernel-level checkpointing 툴 개발을 위한 사전 연구 목표 커널 디버깅 및 커널 로그 툴 관련 연구 및 개발을 통해 시스템의 장애 발생시 원인을 정확히 규명하여 차후 동일 장애를 예방 사용자의 application 문제일 경우 올바른 가이드 라인 제시 kernel 및 라이브러리 문제일 경우 해결안 강구
17
커널 디버깅 도구 개발(2/3) 접근 방법 HPC 클러스터의 커널 디버깅 프로세스의 절차의 표준안 확립
Automated Cluster System Debugging Solution 구현 HPC 클러스터 시스템의 hang/crash 등의 에러 패턴에 대한 이해 Magic SysRq Ksymoops KDB (KGDB,GDB) Kernel Hooks Kprobes LKCD Klogd evlog Lcrash hang or crash dump analysis test, study oops & provide solution
18
커널 디버깅 도구 개발(3/3) 목표 결과 착안 oops and crash replica tool
knowledge of crash/hang pattern of HPC cluster automated cluster debugging solution technical documents for debugging tools & method 착안 enhancement of Magic-Sys-Rq Automatic Hang detection never implemented in linux cluster environment before. can refer AIX 5.2 implementation whitepaper Automatic crash detection make it as a kernel module Linux Kernel LKCD (crash detect) MagicSysRq Hang detect
19
가시화 클러스터 시스템(1/5) 클러스터를 기반으로 다수의 컴퓨터의 출력화면을 하나로 연결해서 일반 PC로는 구현이 불가능한 수준의 초고해상도의 단일화면을 구현한 시스템 개발
20
가시화 클러스터 시스템(2/5) 목적 하드웨어 가속 볼륨 렌더링 e-Science 환경을 위한 가시화 플랫폼
GPU 클러스터를 이용한 대용량 볼륨 데이터의 실시간 가시화 e-Science 환경을 위한 가시화 플랫폼 국제 협업 가시화 환경 구축 OptIPuter 공식 노드로 참가 / iGrid 2005 시연
21
가시화 클러스터 시스템(3/5) 문제점&목표 시스템 구성
클러스터의 모든 노드를 동원해도 512x512x512 크기의 데이터 가시화 불가능 목표 데이터의 크기: 1024x1024x1024 구현 과정에서 반드시 필요한 작업의 현저한 처리속도 차이 고성능 비디오 카드를 채용하여 가시화 성능의 34.6배 향상 가능 시스템 구성 가시화 클러스터 PCI-express를 지원하는 비디오 카드 및 대용량 메모리 장착 대용량 데이터를 저장하기 위한 디스크 장치 빠른 데이터 전송을 위한 고속 네트워크 설치(Infiniband, 10Gbps) 프로젝터 큐브 해상도 확장 ( ⇒ , 33% 확대)
22
가시화 클러스터 시스템(4/5)
23
가시화 클러스터 시스템(5/5) 시스템 활용 e-Science 환경의 가시화 시스템 OptIPuter 프로젝트 테스트베드
다수의 rendering image stream, 화상회의를 위한 A/V stream을 동시에 받아서 출력할 수 있는 고성능 시스템 개발 GPU 클러스터 기반 분산 렌더링 기술 개발 비압축 데이터의 원격 가시화 기술 개발 OptIPuter 프로젝트 테스트베드 10Gbps GLORIAD를 이용하는 한국의 공식 OptIPuter 노드 역할 iGrid 2005 시연 PIRE 프로젝트 테스트베드 SDSC에서 주도, 협업 가시화 환경 고성능 가시화 시스템 구축기술 확보 고성능 가시화 시스템을 필요로 하는 대학교 연구실에 기술 보급
24
RDDM 시스템 Prototype 연구(1/5) - 정의 및 구성요소 -
Research and Development Data Management 의 약어 다음과 같은 사항을 관리하는데 사용되는 기술을 뜻함 연구개발과 관련된 모든 정보 : 참고문헌, 중간파일 및 중간결과물, 최종결과 및 문서, 연구개발에 필요한 시스템 등을 기술하는 모든 정보 연구개발과 관련된 모든 절차 : 연구 및 개발 수행과정 상의 작업절차와 관련된 관리 정보 연구개발 과정에서의 정보의 흐름을 관리하기 위해 관련된 컴퓨팅 자원을 통합, 효율화하는 일련의 작업을 의미 RDDM의 구성요소 정보관리 (Information Management) 작업흐름관리 (Workflow Management) 컴퓨팅 자원 통합 (Computing Resource Integration)
25
RDDM 시스템 Prototype 연구(2/5) - 개념도 -
일정관리(Webcollab) Web 기반 RDDM DB 문서관리 (WebDAV+CVS) 참고문헌 Cluster / Supercomputer 중간결과 공유스토리지 결과문서 소스코드
26
RDDM 시스템 Prototype 연구(3/5) - 추진 일정 -
적용분야 및 응용프로그램 선정 ABAQUS for Structural Analysis Fluent for CFD Application Workflow 분석 및 Metadata 포맷 결정 구성요소 연구 정보관리방안 연구 Versioning, Data 저장 포맷 등 작업흐름관리 일정관리 및 RDDM 시스템 사용자 관리 방안 DB 구성 Web Interface 구성 연구 작업분배방안 연구 컴퓨팅 자원으로의 입력 전송 및 계산 결과의 공유 저장
27
RDDM 시스템 Prototype 연구(4/5) - 추진 일정 -
적용분야 및 응용프로그램 선정 ABAQUS for Structural Analysis Fluent for CFD Application Workflow 분석 및 Metadata 포맷 결정 구성요소 연구 정보관리방안 연구 Versioning, Data 저장 포맷 등 작업흐름관리 일정관리 및 RDDM 시스템 사용자 관리 방안 DB 구성 Web Interface 구성 연구 작업분배방안 연구 컴퓨팅 자원으로의 입력 전송 및 계산 결과의 공유 저장
28
RDDM 시스템 Prototype 연구(5/5) - 전략 -
구현 : 2006 특히 산업체에서의 컴퓨팅 수요 및 발전 환경 수요조사 해외의 동종 업계의 사례 기술적 분석 연말에 이에 대한 보고서 작성 (응용프로그램 연구와 병행) 웹기반 일정관리 (예)
29
응용프로그램 성능측정 및 시스템 자원 배분 연구
응용프로그램 성능측정 및 시스템 자원 배분 연구 목적 : 슈퍼컴퓨팅센터내의 컴퓨팅 자원의 효율적 분배를 위한 각 시스템 및 응용프로그램의 성능 비교 방법 슈퍼컴퓨팅센터 응용프로그램 활용도 조사 사업실 – 시스템 사용율 조사 응용실 – 응용프로그램 현황 및 버전 조사 상용프로그램의 nobel과 hamel에서의 성능 비교 ISV(Independent Software Vendor)로부터 성능 측정용 예제 확보 Small Size / Medium Size / Large Size 문제 확보 Hamel 및 Nobel에서의 성능 비교 및 Scability 측정 대표적인 Inhouse 코드의 nobel 및 hamel에서의 성능 비교 MD, 천문학코드, 구조해석, CFD, MM5 Small Size / Medium Size / Large Size 문제 및 실행 환경 확보 성능 비교 결과와 활용도 및 라이선스 비용을 종합적으로 고려한 사용자 배분 정책 초안 작성
30
Rapid prototyping 서비스 클러스터 기술 개발(1/3)
슈퍼컴퓨팅분야의 신기술인 클러스터 컴퓨터 운영기술을 적용, 슈퍼컴퓨팅 실험 결과를 3D형태로 출력 할 수 있는 Rapid Prototyping 서비스를 원격에서 공유 가능케 하는 기술 개발 기술적인 목표 MS 윈도우즈 시스템 플랫폼으로 개인용으로 개발된 슈퍼컴퓨팅 분야 고가의 소프트웨어 및 하드웨어, 관련 실험 장비를 인터넷을 통하여 공유 활용할 수 있게 하는 사용자 관리 및 어카운팅, 자원 수요 중재 미들웨어
31
RP(Rapid Prototyping)?
: 신속조형기술 3차원 CAD DATA로부터 박막 적층 기법을 이용하여 물리적인 모형을 신속하게 조형하는 기술
32
Rapid prototyping 서비스 클러스터 기술 개발(2/3)
서비스 대상 슈퍼컴퓨팅 이용자들 중, 3D 출력이 필요한 연구 그룹(교수, 대학원생) 부품소재 사업자 등 CAD등을 사용하여 제품을 생산하는 중•소 산업체 공업고등학교와 보수학원, 각급 기계설계, 디자인 관련 학과 등의 슈퍼컴퓨팅 전단계 기술교육을 수행하는 교육기관/단체 각급 학교의 과학교사 및 과학영재 교육 프로그램 수강자 게임 퍼블리셔, 독립 모델러, 취미생활자, 발명가 독립 디자이너 및 소규모 상품 디자인 업체 건축 설계업체 및 건축 모델 제작사 등 대덕 연구단지 과학관과의 연계 프로그램 각급 지자체의 지역 산업 혁신 클러스터 프로그램을 통한 프로모션 슈퍼컴퓨팅센터의 지역센터 활용 지역관련 산업/교육 지원 사업화
33
Rapid prototyping 서비스 클러스터 기술 개발(3/3)
전략
34
네트워크 에뮬레이션 클러스터 구축(1/2) 개요 동향 네트워크 R&D 지원을 위한 개방형 테스트베드 시뮬레이션이 아닌
REAL 트래픽/네트워크/시스템을 통한 네트워크 R&D 동향 NSF 및 DARPA 의 지원 (미국) 운영중인 사이트 (미국) U. Utah, Georgia Tech, U. Kentucky, U. wisconsin Cornell, U. Texas at Austin, USC, UC Berkeley The Aerospace Corporation KISTI Supercomputing Center 40 노드 구성 중 University of Kentucky University of Utah University of Wisconsin
35
네트워크 에뮬레이션 클러스터 구축(2/2) 구축 현황 향후 계획 U. Kentucky 를 벤치 마킹 2005년 현재
(4*48 Port) 4506(6509) 제어서버 관리서버 Node 40 nodes 구성도 구축 현황 U. Kentucky 를 벤치 마킹 2005년 현재 유타대학 방문 및 기술 협력 요청 구조물 제작, 40노드 구매, 핵심 스위칭 장비 구매 완료 제어 및 관리 서버 미들웨어 설치 중 향후 계획 2005년 상반기 시스템 구축 완료 (배선 및 서버 설치) 미들웨어 설치 완료 방화벽 설치 완료 2005년 하반기 테스트 및 시범 서비스 서비스 대상 대학 및 연구소의 네트워크 R&D 연구 및 수업 네트워크 R&D 관련 논문 시뮬레이션 산업체의 네트워크 관련 기술 개발 University of Kentucky
36
기대 효과 클러스터 컴퓨팅 확대를 통한 산업 활성화 산업 활성화 상용코드/인하우스 코드 성능과 사용자 정책을 위한 자료 확보
클러스터 기술 센터 운영을 통한 기술 교류 방안 확보 응용분야 확산을 통한 수요층 증대 산업 활성화 상용코드/인하우스 코드 성능과 사용자 정책을 위한 자료 확보 클러스터 컴퓨터의 효용성과 서비스 방식 개선을 전용 서비스 모델 확보 서비스 개발 클러스터 컴퓨팅 핵심 기술 개발 차기 클러스터 컴퓨터 구축을 위한 기반 기술 체계적인 클러스터 컴퓨터 관리 및 운영 소프트웨어, 파일 서비스 기술 개발 및 확보 핵심 기술
37
감사합니다.
Similar presentations