Contents 1. 빅데이터란? 2. 빅데이터 기술 3. In-memory DB 4. 활용 사례 데이터의 종류 기존데이터 VS 빅데이터 빅데이터의 역할 2. 빅데이터 기술 수집 및 통합 기술 저장 및 관리 기술 처리 기술 분석 기술 3. In-memory DB 4. 활용 사례
빅데이터란? 3V (Veracity)정확성 (Visualization) 시각화 (Variability)가변성
데이터의 종류 정의 설명 고정된 필드에 저장된 데이터. 관계형 데이터베이스 및 스프레드시트 등을 예로 들 수 있다. 정형 반정형 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터. XML이나 HTML 텍스트 등을 예로 들 수 있다. 비정형 고정된 필드에 저장되어 있지 않은 데이터. 텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등을 예로 들 수 있다.
” 기존데이터 VS 빅데이터 구분 기존 데이터 빅데이터 데이터 정형화된 수치자료 중심 하드웨어 비정형의 다양한 데이터 하드웨어 고가의 저장창지 데이터베이스 데이터웨어하우스 클라우드 컴퓨팅 등 비용면에서 효율적인 장비 활용 가능 소프트웨어/분석방법 관계형 데이터베이스(RDBMS) 통계패키지 데이터 마이닝 오픈소스 형태의 무료 소프트웨어 오픈소스 통계솔루션 텍스트 마이닝, Opinion 마이닝 ~~. 요약해 말하자면 방대한 양의 데이터~~
빅데이터의 역할 미래사회의 특성 빅데이터의 역할 불확실성 통찰력 리스크 대응력 스마트 경쟁력 융합 창조력 ◌ 사회현상, 현실세계의 데이터를 기반으로 한 패턴분석과 미래 전망 ◌ 여러 가지 가능성에 대한 시나리오 시뮬레이션 ◌ 다각적인 상황이 고려된 통찰력을 제시 ◌ 다수의 시나리오로 상황 변화에 유연하게 대처 리스크 대응력 ◌ 환경, 소셜, 모니터링 정보의 패턴 분석을 통한 위험징후, 이상 신호 포착 ◌ 이슈를 사전에 인지,분석하고 빠른 의사결정과 실시간 대응 지원 ◌ 기업과 국가 경영의 투명성 제고 및 낭비요소 절감 스마트 경쟁력 ◌ 대규모 데이터 분석을 통한 상황인지, 인공지능 서비스 등 가능 ◌ 개인화, 지능화 서비스 제공 확대 ◌ 소셜(니즈)분석, 평가, 신용 평판 분석을 통해 최적의 선택 지원 ◌ 트렌드 변화 분석을 통한 제품 경쟁력 확보 융합 창조력 ◌ 타 분야와의 결합을 통한 새로운 가치 창출(의료, 자동차, 건물, 환경 등) ◌ 인과관계, 상관관계가 복합한 컨버전스 분야의 데이터 분석으로 안정성 향상, 시행착오 최소화 ◌ 방대한 데이터 활용을 통한 새로운 융합시장 창출
빅데이터 플랫폼
빅데이터 기술 요소기술 설명 해당 기술 수집 저장 처리 분석 시각화 조직내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술 크롤링. RSS 로그 수집기 센싱 Open API 등 저장 작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리하고, 처리된 데이터를 더 빠르고 쉽게 분속하도록 하여, 이를 이용하는 기술 병렬 DBMS 하둡 NoSQL 등 처리 엄청난 양의 데이터의 저장, 수집, 관리, 유통, 분석을 처리하는 일련의 기술 실시간 처리 분산 병렬 처리 인-메모리 처리 인-데이터베이스 처리 분석 데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 적용하기 위한 기술 통계분석 데이터 마이닝 텍스트 마이닝 소셜 네트워크 분석 등 시각화 자료를 시각적으로 묘사하는 학문으로 빅데이터는 기존의 단순 선형적 구조의 방식으로 표현하기 힘들기 때문에 시각화 기술이 필수적임 편집기술 정보 시각화 기술 시각화 도구
수집기술 일반적인 조직 내부에 존재하는 정형 데이터는 로그 수집기를 통해 수집 조직 외부에 존재하는 비정형 데이터는 크롤링, RSS Reader, 또는 SNS에서 제공하는 Open API를 이용해 수집
수집 및 통합 기술 용어 뜻 Sqoop 대용량 데이터 전송 솔루션으로 하둡기반 시스템과 통합 지원하며 맵리듀스에 사용될 프로그램 코드 생성 Flume 분산 환경에서 대량의 로그 데이터를 효과적으로 수집해 다른 곳으로 전송하는 서비스로 실시간 로그분석이 가능 Chukwa 분산 서버로부터 로그 데이터를 수집하여 하둡 클러스터의 로그나 서버의 상태 정보를 관리해 하둡 파일 시스템에 저장하여 실시간 분석 가능 Splunk 업무현장이나 클라우드상에 존재하는 페타비트급의 기록 데이터와 실시간 기계 데이터를 모니터링하고 분석 Scribe facebook이 개발해 공개한 로그수집기술로 대량의 서버에서 실시간으로 오는 로그 데이터를 집약해 하둡 분산 시스템에 로그를 저장 Kafka 로그 데이터를 수집 할 뿐만 아니라 메시징 시스템을 통해 전송데이터를 압축하고 메시지를 일괄적으로 전송한다.
Flume ∙ 분산환경에서 대량의 로그 데이터를 효과적으로 수집해 다른 곳으로 전송하는 서비스 ∙ 실시간 로그분석이 가능 ∙ 안정성과 가용성이 높음 Flume의 데이터(로그) 흐름도
Sqoop ∙ 관계형 데이터베이스의 한계 → Sqoop 등장 ∙ 데이터베이스로부터 하둡 분산 파일 시스템으로 데이터를 전송하는데 사용
저장 기술 ∙ CAP이론 특성 無 스키마 탄력성 질의 기능 캐싱 NoSQL
NoSQL ∙ CAP이론을 기준으로 한 RDBMS와 NoSQL 비교 ∙ RDBMS와 NoSQL의 장,단점 및 특성
저장 기술 ” 용어 뜻 Hadoop 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 자바 프레임워크 Map Reduce 구글에서 분산 컴퓨팅을 지원하기 위해 제작하였으며, 대용량 데이터를 병렬처리로 지원하는 분산처리 프로그래밍 모델 하둡 분산 파일 시스템 이기종간의 하드웨어로 구성된 클러스터에서 대용량 데이터 처리를 위하여 개발한 분산 파일 시스템 NoSQL (Not only SQL) 클라우드 환경에서 발생하는 빅데이터를 효과적으로 저장, 관리하는 데이터 저장 기술
” HDFS ∙ Hadoop Distributed File System ∙ 분산 처리 환경에서 필수 조건 ∙ 데이터 복제 기법을 지원 ” ∙ HDFS의 전체 구성도
NoSQL MapReduce 처리 기술 ≫ 빅데이터 처리기술의 필요성 ◌ 데이터 양의 증가 속도가 점점 빠르게 증가 ◌ 데이터의 성격 변화 ◌ 과거의 빅데이터 처리 방법 MapReduce NoSQL
Map Reduce MapReduce 프레임워크는 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델이다
Hadoop ● 데이터 분산 저장 처리 프레임워크 ● 핵심 구성은 저장과 처리 ● 대표적 구성요소는 분산형 파일시스템(HDFS) 서버1 Block1 데이터 서버2 Block2
Spark 역할 상호 독립적 속도
Hive < Map Reduce 3배↑ Hive 특징 기존 데이터베이스 특징 대용량 분산 Data Warehouse 시스템 (SQL on Hadoop) Hive를 완전히 대체하는 플랫폼 Map Reduce 3배↑ <
분석기술 비즈니스 분석 고급 분석 ≫ 빅데이터 분석의 중요성 ◌ 분석은 어떠한 의사결정을 할 때에 중요한 정보로써 사용 ◌ 불확실성이 높고 의사결정이 초래하는 파급효과가 큰 의사결정일수록 중요 비즈니스 분석 고급 분석
Social Network Analytics 분석기술 Text Mining Data Mining Opinion Mining Social Network Analytics
Data Mining Cluster Analysis 관계형 데이터베이스, XML 문서와 같은 구조화된 데이터 Cluster Analysis 텍스트 마이닝 4단계 절차 데이터 마이닝 기술의 한 방법으로, 주어진 빅데이터에서 데이터들의 특성을 고려하여 군집을 정의하고 군집을 대표할 수 있는 대표점을 찾는 것
Opinion Mining Text Mining 빅데이터에 포함된 어떤 사안이나 인물, 이슈, 이벤트에서 사람들의 의견이나 평가 등을 분석하는 것 Text Mining 텍스트 마이닝 4단계 절차 비,반정형 텍스트 데이터로 구성된 데이터베이스에서 자연어 처리 기술에 기반하여 의미 있는 정보를 추출하는 기술
In-memory DB 디스크가 아닌 주 메모리에 모든 데이터를 저장하는 DB를 의미한다. 데이터의 처리와 실시간 의사결정이라는 빅데이터의 요건을 만족시키기 위한 기반 기술 중 하나 기존의 하드디스크(HDD) 기반의 DBMS에 비하여 빠른 성능을 보장 받을 수 있으며 안정적인 응답속도를 보장 받을 수 있기 때문에 그 활용 가치가 높다 메모리단의 정보저장은 디스크와 메모리의 속도 차이뿐 아니라 디스크에서 데이터를 읽어오는 과정까지 제거할 수 있어 데이터 검색과 비교, 분석에서 디스크 기반의 RDBMS에 비해 압도적 성능을 발휘한다.
활용 사례 08 미국 대통령 선거 텍스트 마이닝 4단계 절차
활용 사례 텍스트 마이닝 4단계 절차
활용 사례 텍스트 마이닝 4단계 절차
Thank you~