Cloudera 하둡 빨간색코딩.

Slides:



Advertisements
Similar presentations
CI(Continuous Integration) 이학성. C ontinuous I ntegration? 2 지속적으로 품질관리 를 적용하는 과정 개발자가 기존 코드의 수정 작업 을 시작할 때, 코드 베이스의복사본을 받아서 작업을 시작하면서 코드의 변경.
Advertisements

1 08 시스템 구성도 고려사항 * 웹 서버 클러스터 구성  클러스터 구축은 ㈜ 클루닉스의 Encluster 로 구축 (KT 인증,IT 인증 획득, 실제 클러스터 구축 사이트 200 여곳 )  웹 서버 클러스터는 Dynamic, Static, Image.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
난이도 : 초급 제1장 앱 인벤터 소개 및 준비.
엑셀리포트를 이용한 날짜별 리포트 자동 저장 방법
컴퓨터와 인터넷.
컴퓨터 운영체제의 역사 손용범.
ADP BUSINESS SCHOOL is the place learning management skills. You can learn strategy, marketing, leadership, HRM, Operations, International Business, Accounting,
뇌를 자극하는 Windows Server 2012 R2
소리가 작으면 이어폰 사용 권장!.
제 11 장 하둡 에코시스템.
뇌를 자극하는 Windows Server 2012 R2
Power Java 제3장 이클립스 사용하기.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
1. Windows Server 2003의 역사 개인용 Windows의 발전 과정
Windows Server 장. Windows Server 2008 개요.
Hadoop 2.완전 분산 처리.
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
램( RAM ) 램의 개념 램 선택법 듀얼채널의 의미.
운영체제 박상민.
4장. 웹로직 서버상에서의 JDBC와 JTA의 운용
Contents 1. 빅데이터란? 2. 빅데이터 기술 3. In-memory DB 4. 활용 사례 데이터의 종류
뇌를 자극하는 SQL Server 장. SQL Server 2008 소개.
Introduction to Big Data, Summer, 2013
Visual Basic .NET 처음 사용하기.
1. C++ 시작하기.
Error Detection and Correction
NJM Messenger 박상원 박연호.
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
18강. 데이터 베이스 - II JDBC 살펴보기 Statement객체 살펴보기 Lecturer Kim Myoung-Ho
HDFS와 대용량 데이터 처리 콘텐츠서비스연구팀 최완.
뇌를 자극하는 Windows Server 장. Windows Server 2008 개요.
KHS JDBC Programming 4 KHS
뇌를 자극하는 Windows Server 장. 장애 조치 클러스터.
스크래치 언어 이해 스크래치 이용법 습득 고양이가 말을 하며 움직이는 예제 작성
웹 어플리케이션 보안 2016년 2학기 3. Mongo db.
디지털회로설계 (15주차) 17. 시프트 레지스터와 카운터 18. 멀티바이브레이터 * RAM & ROM.
15차시_스마트 애플리케이션 기획 스마트 애플리케이션 모형 제작 및 발표.
강의 개요. 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
홀인원2.0 설치 메뉴얼.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
영상처리 실습 인공지능연구실.
뇌를 자극하는 Windows Server 2012 R2
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
Adobe 제품 다운로드 및 설치 방법 안내 Adobe Creative Cloud Adobe License 권한을 받으신 분
Nessus 4 설치 정보보호응용 조용준.
자율주행 차량용 드라이빙 컴퓨팅 하드웨어 플랫폼 05
FileMaker를 이용한 데이터 관리 옥현진(KICE).
ASP.NET AJAX / AJAX Control Toolkit 응용 2008 컴퓨터공학실험( I )
데이터 베이스 DB2 관계형 데이터 모델 권준영.
맵리듀스 Yonsei University 2nd Semester, 2014 Sanghyun Park
S-Work 2.0 DRM 신규 버전 설치 가이드 SOFTCAMP
네트워크 환경 구축과 이미지 전송 호스트/타겟 통신 직렬 통신을 이용한 이미지 전송 수퍼 데몬 BOOTP 환경 구축
클러스터 시스템에서 효과적인 미디어 트랜스코딩 부하분산 정책
암호학 응용 Applied cryptography
뇌를 자극하는 Solaris bible.
소리 편집 안 재 형.
수동 설치시는 설치 방법 1. 두번에 설치 CD 속에 fscommand 폴더 밑에 Osstem 이라는 폴더를
AT MEGA 128 기초와 응용 I 기본적인 구조.
01. 분산 파일 시스템의 개요 네트워크에 분산된 파일을 사용자가 쉽게 접근하고 관리할 수 있게 해준다.
세션에 대해 알아보고 HttpSession 에 대해 이해한다 세션 관리에 사용되는 요소들을 살펴본다
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
Map Designer Solution 소개자료
슬라이드 쇼의 설정 슬라이드 쇼의 실행 파일과 폴더의 관리 글꼴을 포함해서 저장 웹 페이지로 게시 압축 파일
06. 디바이스의 등록과 해제 김진홍
CHAP 15. 데이터 스토리지.
펌웨어(S/W) Upgrade 방법 Samsung Kies3
엑셀 리포트를 웹 클라이언트에서 사용시 설정 방법
JAVA 프로그래밍 16장 JNLP.
소리가 작으면 이어폰 사용 권장!.
Presentation transcript:

Cloudera 하둡 빨간색코딩

목차 소개 개념 설치과정 작동사진 질의응답

0. Cloudera 소개 하둡 기반 빅데이터 벤처기업의 대표적인 선두주자로 야후, 오 라클, 출신 등의 사람들에 의해 2008년 설립 여기서 만든 CDH라는 하둡 배포판이 아파치 파운데이션이 만 든 아파치 하둡 배포판보다 훨씬 더 많이 사용됨

1. 하둡이란? 대용량 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 자바 프레임워크 하둡은 크게 분산 저장과 병렬 처리, 2개의 프레임워크로 구성 분산 저장은 클러스터 환경에서 대용량 데이터를 분산하여 안정적으로 저 장하는 프레임워크 병렬 처리는 저장 환경 위에서 병렬로 데이터 Processing하는 프레임워크 여러 대의 컴퓨터를 모아 디스크를 묶어서 쓸 수 있게 하는 분산 저장소와, CPU를 동시에 쓸 수 있는 병렬 처리 소프트웨어 라이브러리

2. 하둡의 목적 매우 큰 데이터를 저장할 수 있어야 한다 -> HDFS 그 데이터를 이용해서 연산을 수행할 수 있어야함 -> 맵리듀스

3. HDFS: 분산 파일 시스템 HDFS마스터는 슬레이브 노드 사이의 저장 공간을 분할하고 데이터 저장 위치를 관리하는 책임을 담당 네임노드는 어떤 데이터노드가 각 파일 블록을 관리하는지 등과 같은 파일시스템에 대한 메타데이터를 메모리에 보관 데이터노드는 파일 읽기 및 쓰기를 위해 통신 파일은 블록으로 구성되며, 각 파일은 여러 차례 복제된다. 이는 파일의 블록별로 동일한 복사본이 여러 개 있다는 뜻이다. Hdfs는 장애가 발생해도 데이터를 잃지 않는 견고성, 하드웨어 추가로 성능을 향상하는 확장성, 클러스터 내의 여러 노드에 데이터분할 등의 기능이 있습니다. 데이터노드는 네임노드에게 하트비트를 3초마다 보낸다. 하드비트에는 디스크 가용 공간정보, 데이터이동, 적재량 등의 정보가 들어있다 핸드셰이킹에 사용된다. 10초이상 못받으면 사용하지 못한다고 인식한다.

4. 맵리듀스 Map은 데이터 원천을 key와 value의 형태로 연관성있는 데이터 분류로 묶는 작업 Reduce는 Map화한 작업 중 중복데이터를 제거하고 원하는 데이터를 추출하는 작업 4. 맵리듀스

4. 맵리듀스 잡 클라이언트가 수행하려는 작업 단위 하둡은 job을 map task와 reduce task로 작업을 나누어서 실행 잡 트래커: 태스크 트래커가 수행할 task 스케줄링, 모니터링 태스크 트래커: Task를 수행하고, 잡 트래커에게 상황 보고

맵리듀스 잡 과정

5. 하둡 에코 시스템 HBASE는 분산 방식의, 임의 접근 가능한, 칼럼 기반의 데이터베이스다. HBASE는 직접 HDFS 기반 위에 동작하고 개발자가 HDFS에 데이터를 직접 읽고 쓰도록 해준다. SQL를 지원하지않아 NoSQL이라 부른다. Hive는 빅데이터를 다룰 수 있는 웨어하우스를 제공한다. 주키퍼는 노드 간의 의사소통에 사용한다. 조율자 역할 암바리는 하둡 클러스터를 모니터링하는 도구 모음을 제공한다 스쿱은 RDB, 웨어하우스, 사용자 애플리케이션 등 다양한 데이터 원천으로부터 데이터를 가져오거나 내보낸다. 플룸은 비전형적인 원천으로부터 하둡에 데이터를 가져온다.

설치 노드간 SSH로 상호 암호입력없이 연결 Nutch 1.8 설치(ant로 빌드) 클라우데라 5.8 설치 Yarn 설정 Nutch와 solr 스키마 통일 Nutch/runtime/deplo에서 crawling 후 solr에 밀어넣기

작동화면