Cloudera 하둡 빨간색코딩
목차 소개 개념 설치과정 작동사진 질의응답
0. Cloudera 소개 하둡 기반 빅데이터 벤처기업의 대표적인 선두주자로 야후, 오 라클, 출신 등의 사람들에 의해 2008년 설립 여기서 만든 CDH라는 하둡 배포판이 아파치 파운데이션이 만 든 아파치 하둡 배포판보다 훨씬 더 많이 사용됨
1. 하둡이란? 대용량 자료를 처리할 수 있는 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈소스 자바 프레임워크 하둡은 크게 분산 저장과 병렬 처리, 2개의 프레임워크로 구성 분산 저장은 클러스터 환경에서 대용량 데이터를 분산하여 안정적으로 저 장하는 프레임워크 병렬 처리는 저장 환경 위에서 병렬로 데이터 Processing하는 프레임워크 여러 대의 컴퓨터를 모아 디스크를 묶어서 쓸 수 있게 하는 분산 저장소와, CPU를 동시에 쓸 수 있는 병렬 처리 소프트웨어 라이브러리
2. 하둡의 목적 매우 큰 데이터를 저장할 수 있어야 한다 -> HDFS 그 데이터를 이용해서 연산을 수행할 수 있어야함 -> 맵리듀스
3. HDFS: 분산 파일 시스템 HDFS마스터는 슬레이브 노드 사이의 저장 공간을 분할하고 데이터 저장 위치를 관리하는 책임을 담당 네임노드는 어떤 데이터노드가 각 파일 블록을 관리하는지 등과 같은 파일시스템에 대한 메타데이터를 메모리에 보관 데이터노드는 파일 읽기 및 쓰기를 위해 통신 파일은 블록으로 구성되며, 각 파일은 여러 차례 복제된다. 이는 파일의 블록별로 동일한 복사본이 여러 개 있다는 뜻이다. Hdfs는 장애가 발생해도 데이터를 잃지 않는 견고성, 하드웨어 추가로 성능을 향상하는 확장성, 클러스터 내의 여러 노드에 데이터분할 등의 기능이 있습니다. 데이터노드는 네임노드에게 하트비트를 3초마다 보낸다. 하드비트에는 디스크 가용 공간정보, 데이터이동, 적재량 등의 정보가 들어있다 핸드셰이킹에 사용된다. 10초이상 못받으면 사용하지 못한다고 인식한다.
4. 맵리듀스 Map은 데이터 원천을 key와 value의 형태로 연관성있는 데이터 분류로 묶는 작업 Reduce는 Map화한 작업 중 중복데이터를 제거하고 원하는 데이터를 추출하는 작업 4. 맵리듀스
4. 맵리듀스 잡 클라이언트가 수행하려는 작업 단위 하둡은 job을 map task와 reduce task로 작업을 나누어서 실행 잡 트래커: 태스크 트래커가 수행할 task 스케줄링, 모니터링 태스크 트래커: Task를 수행하고, 잡 트래커에게 상황 보고
맵리듀스 잡 과정
5. 하둡 에코 시스템 HBASE는 분산 방식의, 임의 접근 가능한, 칼럼 기반의 데이터베이스다. HBASE는 직접 HDFS 기반 위에 동작하고 개발자가 HDFS에 데이터를 직접 읽고 쓰도록 해준다. SQL를 지원하지않아 NoSQL이라 부른다. Hive는 빅데이터를 다룰 수 있는 웨어하우스를 제공한다. 주키퍼는 노드 간의 의사소통에 사용한다. 조율자 역할 암바리는 하둡 클러스터를 모니터링하는 도구 모음을 제공한다 스쿱은 RDB, 웨어하우스, 사용자 애플리케이션 등 다양한 데이터 원천으로부터 데이터를 가져오거나 내보낸다. 플룸은 비전형적인 원천으로부터 하둡에 데이터를 가져온다.
설치 노드간 SSH로 상호 암호입력없이 연결 Nutch 1.8 설치(ant로 빌드) 클라우데라 5.8 설치 Yarn 설정 Nutch와 solr 스키마 통일 Nutch/runtime/deplo에서 crawling 후 solr에 밀어넣기
작동화면