WCL 이민학 Big Data & Hadoop
Big Data? 일종의 데이터베이스 관리도구 비정형 데이터의 집합에서 가치를 추출하고 결과 를 분석하는 기술 다변화된 현대 사회를 정확하게 예측하고, 사회 구성원마다 요구하는 맞춤형 정보를 제공하는 것 이 목표 병렬 처리 2012 년 세계 10 대 기술 중 첫 번째로 선정 대한민국에서도 IT 10 대 핵심기술 중 하나로 선정
등장 배경 디지털 세계의 확장 –2006 년 0.18ZB 2011 년 1.8ZB – 뉴욕 증권 거래소는 하루에 1TB 의 거래가 생성 – 페이스북은 대략 15 억 개 이상의 사진을 보유 – 제네바 입자 가속기는 연간 15PB 의 데이터 생산 개인이 생산하는 데이터의 증가 – 일상생활 ( 전화, 이메일, 문서, 사진등 ) – 생체 데이터의 실시간 데이터화 거의 모든 아날로그 데이터의 디지털화
등장배경
등장 배경 데이터의 양은 기하급수적으로 늘어났지만 처리 속도는 ? – 하드디스크의 모든 데이터를 읽어 들이는데 1990 년대 에는 5 분이 걸렸으나 지금은 2 시간 반이 넘게 걸린다. 병렬 분산 처리 –2 시간 반이 걸리는 데이터 양을 100 개의 드라이브에 분 산시켜서 병렬 처리 한다면 2 분 내에 모든 데이터를 읽 을 수 있다. 이처럼 방대한 양의 데이터를 분산시켜 병렬로 처 리 하는 것이 빅 데이터의 근본적인 기술
사용 사례 2008 미국 대선 아마존닷컴 추천 상품 표시 MLB 의 머니볼 이론, 데이터 야구 생물 정보학 의료 비용 절감 구글 번역
분석 기술 Text Mining Opinion Mining Social Network Analysis Community Analysis Etc 대규모의 정형 / 비정형 데이터를 처리하는 분석 인 프라로 Hadoop 등을 사용한다.
표현 기술 빅 데이터의 분석 기술을 통하여 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 프로그 래밍 언어로는 ‘R’ 이 있다.
전망
hadoop? 대용량 데이터를 분산 처리할 수 있는 자바 기반 의 오픈소스 프레임워크 HDFS + MapReduce –HDFS(Hadoop Distributed File System) 고가의 서버장비 대신 웹서버를 운영할 수 있는 저사양의 PC 들로 구성이 가능
hadoop 장점 기존 대용량 데이터를 처리 하기 위해서는 고가의 서버 장비를 사용 하였지만 저사양 PC 들로 구성 이 가능하여 비용을 획기적으로 줄일 수 있다. 오픈소스 프레임워크로 라이선스 비용을 지불하 지 않는다. 데이터의 복제본을 함께 저장하여 복구가 가능 저장 용량이 부족한 경우 필요한 만큼의 리눅스서 버를 추가하면 된다.
hadoop 단점 파일 네임스페이스 제한 – 네임노드가 관리하는 메타정보는 저장기기가 아닌 메모 리로 관리되기 때문에 HDFS 에 저장하는 파일과 디렉토 리 수에 제한을 받는다. 데이터 수정이 어렵다 –Hadoop 의 목적상 대용량의 데이터를 읽어와서 재배치 하거나 특정한 정보를 추출 하는 것이다 보니 파일을 읽 는 것에 초첨을 두었고, 수정과 쓰는 것은 점차 발전하고 있다. 별도의 명령어를 습득 해야 한다. 전문 업체의 부족
HDFS 의 구조
HDFS 의 구조
MapReduce
MapReduce 장점 단점 단순하고 사용이 편리 특정 데이터모델이나 스키마, 질의에 의존적 이지 않은 유연성 저장 구조의 독립성 데이터복제에 기반한 내구성과 재수행을 통 한 내고장성 확보 높은 확장성 고정된 단일 데이터 흐 름 기존 DBMS 보다 불편 한 스키마, 질의 단순한 스케줄링 DBMS 와 비교하여 상 대적으로 낮은 성능 개발도구의 불편함과 기술지원의 어려움
Hive
관련 어플리케이션
전체 구조
전체 구조