Big Data & Hadoop
1. Data Type by Sectors
Expected Value using Big Data
Big Data Cases Case 1: Google Flue
Case 2: SNS 분석 응용
Case 3: Social Metrics Insight
4. 빅데이터 활용 현황
SNS 데이터 분석 활용
5. Hadoop 하둡의 두가지 큰 요소는 분산처리 와 분산저장 이다. 여러 개의 개인 컴퓨터를 병열로 연결, 통합하는 기술이다. Hadoop 은 아래의 4 가지 이슈를 해결 하기 위해 구글에서 만든 GFS 를 기반으로 태어난 분산 시스템이다. Hadoop 은 open 소스 이기 때문에 라이센스 비용이 필요지 않으며 또 한 초기에 작은 클러스터를 구성하여 운영 할 수도 있고 데 이터의 증가에 따라 시스템 확장이 용이 하도록 설계가 되 었기 때문에 일반적인 상용 데이터 분석 솔루션에 비하여 초기 비용이 저렴 하다는 장점이 있다. - 대용량 데이터의 관리 적합한 시스템. - 대용량 데이터의 분석에 맞는 시스템. - 초기 구축 비용을 작게 하여 도입이 가능. - 데이터 증가에 따른 확장이 용이한 시스템.
Hadoop 의 구성
Hadoop 의 2 가지 구성 요소 : HDFS(Hadoop Distributed File System), Map/Reduce –HDFS JAVA 로 개발된 순수 JAVA 파일 시스템으로 페타 바이 트 이상의 대용량 데이터를 저장 하는데 있어 효율적입니다. 시스템 확장이 용이 하며 한두개의 데이 터 노드 장애에도 전혀 문제없이 정상적으로 동작 하며 운영중인 시스템에서의 노드의 추가 / 제거 또한 간 단히 할 수 있습니다. –Map/Reduce Map/Reduce 는 대량의 자원을 다루는 분산 / 병렬 시스 템의 효율적인 지원을 위한 목적으로 Google 에서 만들어낸 프로그래밍 모델입니다.
하둡 구성 요소
하둡 기술
6. Hadoop 의 사용 예 대용량 데이터 통계 및 분석 ex) 서비스 활동성 분석, 사용자 이탈율 분석 등 개인 타케팅 광고. Hadoop 기반 데이터 웨어 하우스 구성. 대용량 실시간 로그 수집. FaceBook 현재 Hadoop 기반의 데이터 웨어 하우스 운영 중. FaceBook 이 개발한 로그 수집 프레임워크인 scribe 를 사용하여 Hadoop 에 로그를 저장. Hadoop 을 이용한 데이터 마이닝 작업을 활발히 하고 있으며 실 서비스 에 이용. 트위터 scribe 를 이용해서 로그를 Hadoop 저장. PIG 를 사용해 데이터 분석. Hbase 를 이용해 사용자 검색 기능 강화.
Hadoop 사례
영화 추천 사례