HDFS와 대용량 데이터 처리 2012. 3. 26. 콘텐츠서비스연구팀 최완.

Slides:



Advertisements
Similar presentations
CI(Continuous Integration) 이학성. C ontinuous I ntegration? 2 지속적으로 품질관리 를 적용하는 과정 개발자가 기존 코드의 수정 작업 을 시작할 때, 코드 베이스의복사본을 받아서 작업을 시작하면서 코드의 변경.
Advertisements

1 08 시스템 구성도 고려사항 * 웹 서버 클러스터 구성  클러스터 구축은 ㈜ 클루닉스의 Encluster 로 구축 (KT 인증,IT 인증 획득, 실제 클러스터 구축 사이트 200 여곳 )  웹 서버 클러스터는 Dynamic, Static, Image.
WCL 이민학 Big Data & Hadoop.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
2008 년 11 월 20 일 실습.  실험제목 ◦ 데이터베이스 커넥션 풀  목표 ◦ 데이터베이스 커넥션 풀의 사용.
2009 개정 교육과정에 따른 예술(음악/미술)교과 교육과정 개정의 주요 내용
컴퓨터와 인터넷.
오라클 백업과 복구.
목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.
홍보출판 위원회 출판국 2010년 사역 계획서 발표자 : 출판국 국장 / 박수만권사 일시: 2010년 01월 17일(일) 1.
컴퓨터공학과 김소원.
Hive. Part of Hadoop Ecosystems MapReduce Runtime (Dist. Programming Framework) Hadoop Distributed File System (HDFS) Zookeeper (Coordination) Hbase (Column.
ADP BUSINESS SCHOOL is the place learning management skills. You can learn strategy, marketing, leadership, HRM, Operations, International Business, Accounting,
역대 정부개편의 교훈과 새로운 정부조직개편의 방향
뇌를 자극하는 Windows Server 2012 R2
소리가 작으면 이어폰 사용 권장!.
뇌를 자극하는 Windows Server 2012 R2
빅데이터 분산 처리 시스템 충북대학교 정보통신공학부 복경수
Power Java 제3장 이클립스 사용하기.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
김종찬 김정석 이상미 임성규 담당 교수님 최병수 교수님
체위변경과 이동 요양보호 강사 : 이윤희.
김병곤 / Flamingo Community Meetup Flamingo 소개 김병곤 /
Windows Server 장. Windows Server 2008 개요.
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
Hadoop 2.완전 분산 처리.
Distributed Computing for Big Data
목차 백업과 복원.
Windows Server 장. 사고를 대비한 데이터 백업.
5장 Mysql 데이터베이스 한빛미디어(주).
DAG 기반 분산 스트림 처리 기술 V1.0 ETRI Technology Marketing Strategy
Contents 1. 빅데이터란? 2. 빅데이터 기술 3. In-memory DB 4. 활용 사례 데이터의 종류
Introduction to Big Data, Summer, 2013
컴퓨터 프로그래밍 기초 #02 : printf(), scanf()
컴퓨터과학 전공탐색 배상원.
Cloudera 하둡 빨간색코딩.
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
18강. 데이터 베이스 - II JDBC 살펴보기 Statement객체 살펴보기 Lecturer Kim Myoung-Ho
하둡 기반 빅데이터 처리 방법.
뇌를 자극하는 Windows Server 장. Windows Server 2008 개요.
5장 Mysql 데이터베이스 한빛미디어(주).
1장. 데이터베이스 자료의 조직적 집합체_데이터베이스 시스템의 이해
SAS Statistical Analysis System 통계패키지 실습 (2011년 1학기)
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
신 윤 호 ㈜엘림에듀 초등사업본부장, 중앙대학교 체육학박사
뇌를 자극하는 Windows Server 2012 R2
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
Chapter 11. Windows Server 2000 & 2003
Lab 1 Guide: 교재 2장 DrawX ( 쪽)
DataScience Lab. 박사과정 김희찬 (목)
USN(Ubiquitous Sensor Network)
Chapter 12. 파일, 프린트 서버관리 네트워크 환경에서 파일서버, 프린트 서버를 구축하여 사용하는 것은 기본이다. 효율성 있는 파일서버의 관리방법에 대해서 설명하고 있으며, 프린트 서버를 운영할 때 참고할 만한 기능에 대해서도 설명한다. 분산파일시스템, 디스크할당량.
Database Management System
데이터 베이스 DB2 관계형 데이터 모델 권준영.
CHAP 21. 전화, SMS, 주소록.
네트워크 환경 구축과 이미지 전송 호스트/타겟 통신 직렬 통신을 이용한 이미지 전송 수퍼 데몬 BOOTP 환경 구축
강의 제목 강사 이름 | 강의 번호.
오라클 11g 보안.
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
Map Designer Solution 소개자료
MIDP 네트워크 프로그래밍 ps lab 김윤경.
슬라이드 쇼의 설정 슬라이드 쇼의 실행 파일과 폴더의 관리 글꼴을 포함해서 저장 웹 페이지로 게시 압축 파일
양초 한 자루의 과학 과학영재교육 전공 김 연 주 류 은 희 이 상 희.
프로그래밍 언어 학습을 위한 가상실습환경 창원대학교 이수현.
06. 디바이스의 등록과 해제 김진홍
학부 컴퓨터공학부 교육과정 (학부) 2학년 4학년 3학년 1학년 1학기 2학기 IPP 자격과정 전공트랙
CHAP 15. 데이터 스토리지.
 6장. SQL 쿼리.
리더 코딩 스토리 디자인 박찬준 이근영 박동현 박나영
교과서 78쪽 학습 목표 정보 관리의 필요성을 이해할 수 있다. 데이터베이스의 개념과 필요성을 이해할 수 있다.
Presentation transcript:

HDFS와 대용량 데이터 처리 2012. 3. 26. 콘텐츠서비스연구팀 최완

발표순서 I. Hadoop 개요 II. Hadoop 프로젝트 III. Hadoop 장,단점 IV. Q&A

1. Hadoop 개요(1/2) 많은 컴퓨터들의 클러스터 조직을 통해 대용량 데이터 집중 분산 애플리케이션을 지원하는 자유 자바 소프트웨어 프레임워크 (by 위키피디아) 분산 파일 시스템(Distributed File System) 분산 데이터 처리 시스템 (MapReduce) 분산 데이터베이스(Hbase)

1. Hadoop 개요(2/2) Hadoop의 필요성 저장 데이터의 대용량화 : 파일 저장 안정성의 필요성 대두 서버의 활용 방식 변화 : 저비용 서버의 클러스터 화

2. Hadoop 프로젝트(1/3) HDFS(Hadoop Fille System) : 대용량 데이터 분산 처리 파일 시스템 MapReduce : 데이터 처리를 위한 프로그래밍 모델 ZooKeeper : 분산환경에서 노드 간의 정보 공유, 락, 이벤트, 모니터링 등의 용도 Pig : Hadoop에 저장된 대용량 데이터 분석(SQL활용) Hbase : 분산 데이터베이스 Hive : Hadoop에 저장된 대용량 데이터 분석(SQL활용, 테이블 개념이 있음) Chukwa : 분산된 노드의 시스템 모니터링, 응용프로그램 로그, Hadoop 로그 수집, HDFS로 저장, 분석하기 쉬운 형태로 재수정해주는 도구 Core Avro MapReduce HDFS Zoo Keeper Pig Chukwa Hive

2. Hadoop 프로젝트(2/3) HDFS의 특징 대용량, 저비용 파일 쓰기만 지원 Data Block : 64MB Highly fault-tolerant : Data Replication 빠른 접근성 보다는 높은 처리량 제공 NameNode : File System Namespace DataNode : HDFS 내 metadata 관리 Node 번호 순으로 선형적인 파일 시스템 추가 가능

2. Hadoop 프로젝트(3/4) HDFS 아키텍쳐

2. Hadoop 프로젝트(4/4) MapReduce 데이터 처리를 위한 프로그래밍 모델 Map : 입력 쌍을 사용, 중간 key, Value 출력 흩어져 있는 데이터를 Key, Value 의 형태로 연관성 있는 데이터 분류로 묶는 작업. Reduce : 중간 키값을 이용 결과값 출력 저비용 Map 화 한 작업 중 중복 데이터를 제거하고 원하는 데이터를 추출하는 단계

2. Hadoop 프로젝트(4/4) MapReduce 사례

3. Hadoop 장,단점 장점 단점 파일에 대한 백업/복구가 거의 필요 없음 많은수의 대용량 파일 처리 가능하며 추가 백업이 필요없음 장비의 추가, 제거가 자유로움 특정 노드 장애시 별도의 복구 절차 없이 지속적인 서비스 가능 파일 접근에 병목이 발생하지 않음 파일이 클 경우 Map&Reduce를 이용 병렬처리 가능 단점 단순한 DFS가 아님, 파일을 위한 저장소가 아니라 데이터 저장소 일반 파일에 비해 3배 이상의 write속도 저하 (파일 생성시 복사본 까지 저장함) 기본 3개의 복사본 저장하므로 3배의 디스크 공간 필요 파일 생성후에는 읽기 작업만 발생하는 시스템에 적합(Facebook, twitter, 게임 로그, 검색 등) 실시간 시스템에는 부적합

Q & A