Contents 1. 빅데이터란? 2. 빅데이터 기술 3. In-memory DB 4. 활용 사례 데이터의 종류

Slides:



Advertisements
Similar presentations
CI(Continuous Integration) 이학성. C ontinuous I ntegration? 2 지속적으로 품질관리 를 적용하는 과정 개발자가 기존 코드의 수정 작업 을 시작할 때, 코드 베이스의복사본을 받아서 작업을 시작하면서 코드의 변경.
Advertisements

개발 환경 소개. 빅데이터 분석을 위한 환경 빅데이터의 특징  Volume : 데이터의 양 (TB 부터 PB 정도의 데이터 )  Variety : 정형 / 비정형 / 반정형 데이터  Velocity : Streaming 성 데이터의 실시간 분석 빅데이터 분석을 위한.
프로그래밍언어론 TA 윤들녁. 소개 윤들녁 연락처 : 공대 7 호관 4 층 401 호 데이터베이스 연구실 실습 후 날짜 _ 학번.zip 으로.
ScanMail for Lotus Notes ( 주 ) 한국트렌드마이크로. RUNNING HEADER, 14 PT., ALL CAPS, Line Spacing=1 line ScanMail Notes 의 주요 기능 Domino 환경의 Antivirus, Content Filter.
1.Big data의 정의 2.Big data의 분석 1)변화 과정 데이터 규모 데이터 유형 데이터 특성 EB(Exa Byte) (90년대 말=100EB) ZB(Zetta Byte) 진입 (2011년=1.8ZB) ZB 본격화 시대 (‘20년=‘11년대비 50배 증가.
1 08 시스템 구성도 고려사항 * 웹 서버 클러스터 구성  클러스터 구축은 ㈜ 클루닉스의 Encluster 로 구축 (KT 인증,IT 인증 획득, 실제 클러스터 구축 사이트 200 여곳 )  웹 서버 클러스터는 Dynamic, Static, Image.
WCL 이민학 Big Data & Hadoop.
Big Data Chap 3. I. VBRE(Value-Based RE) II. Requirement Prioritization III. AHP(Analytical Hierarchy Process) IV. Requirement Negotiation Q & A.
한국클라우드서비스협회 ▶ 제키톡 서비스 - 제키톡 서비스 ∙ 안드로이드 기반의 모바일 무료 메시지, 무전기, 채팅 어플리케이션으로 국내뿐만 아니라 전세계 대상으로 서비스 제공 중 ∙ 현재 안드로이드폰을 대상으로 서비스 중이며, 아이폰을.
Microsoft ANSWER 이명희 이경서 김나은 김정현 서리다 유시은 이재현 심광철.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
Proprietary ETRI OOO 연구소 ( 단, 본부 ) 명 1 CDN 을 위한 캐시 시험 모듈 소프트웨어연구부문 빅데이터 SW 플랫폼연구부 분석소프트웨어연구실 ETRI Technology Marketing Strategy ETRI Technology Marketing.
항공 예약 시스템 1 조 ( 김민철, 김영주, 이혜림, 장유정, 조윤주, 문하늘 ). 목차 차세대 전산시스템 도입의 필요성 현재 항공 시스템 ( 대한항공 ) 항공 시스템의 변화 미래항공 시스템.
구축사례 ( 농협 ) 구축기간 구축목적 특이사항 2001년3월 ( 지속적인 증설 진행중 )
컴퓨터공학과 대학원 소개 자료 컴퓨터공학과 대학원.
컴퓨터와 인터넷.
오라클 백업과 복구.
목 차 C# 언어 특징 .NET 프레임워크 C# 콘솔 프로그램 C# 윈도우 프로그램 실습 프로그래밍세미나 2.
일반 요구 사항 비즈니스 요구사항 고객/정보/위치/상태 탐색방법 제품/서비스 홍보 및 광고 방법
Data Interface, Data mart Technology
뇌를 자극하는 Windows Server 2012 R2
소리가 작으면 이어폰 사용 권장!.
뇌를 자극하는 Windows Server 2012 R2
제 9 장 데이터 웨어하우스의 구조 박 종수 성신여자대학교 컴퓨터정보학부 2002 정보공학특강1.
1. Windows Server 2003의 역사 개인용 Windows의 발전 과정
제 09 장 데이터베이스와 MySQL 학기 인터넷비즈니스과 강 환수 교수.
데이터웨어하우스
데이터베이스 및 설계 금오공과대학교 컴퓨터공학부 이 이섭.
MS SQL Server - 마이크로소프트 사가 윈도우 운영 체제를 기반으로 개발한 관계 DBMS
1. 컴포넌트 개요 – [빅데이터] 기능 개요 컴포넌트 기능 구성도 주요 기능 정의 JDBC Interface 데이터 가공제공
5장 Mysql 데이터베이스 한빛미디어(주).
교육팀 도경모 Big.
디지털 컨버전스 시대의 기업전략 三 星 電 子.
DAG 기반 분산 스트림 처리 기술 V1.0 ETRI Technology Marketing Strategy
뇌를 자극하는 SQL Server 장. SQL Server 2008 소개.
Cloudera 하둡 빨간색코딩.
                              데이터베이스 프로그래밍 (소프트웨어 개발 트랙)                               퍼스널 오라클 9i 인스톨.
HDFS와 대용량 데이터 처리 콘텐츠서비스연구팀 최완.
5장 Mysql 데이터베이스 한빛미디어(주).
제 1장. 멀티미디어 시스템 개요.
SK Telecom 매출 통계 시스템의 SQL Server Reporting Services 적용사례
건축설계사 임동진.
1장. 데이터베이스 자료의 조직적 집합체_데이터베이스 시스템의 이해
Transmission & Analysis
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
소규모 IPTV 사업자용 실시간 미디어 플랫폼 기술
HTTP 프로토콜의 요청과 응답 동작을 이해한다. 서블릿 및 JSP 를 알아보고 역할을 이해한다.
자율주행 차량용 드라이빙 컴퓨팅 하드웨어 플랫폼 05
OS 역사 손병규.
Tiny OS와 NesC Tiny OS Part1. Won Mi Sun – 17 지능제어 연구실.
AUTODESK AUTOCAD ELECTRICAL 전기제어 2D 설계 소프트웨어 표준기반 설계 생산성 도구 구조도 설계
04. DBMS 개요 명지대학교 ICT 융합대학 김정호.
VTalk Solution 소개자료
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
데이터 베이스 DB2 관계형 데이터 모델 권준영.
Self Introduction Template PowerPoint
네트워크 환경 구축과 이미지 전송 호스트/타겟 통신 직렬 통신을 이용한 이미지 전송 수퍼 데몬 BOOTP 환경 구축
“ Presenworks by workerplex
뇌를 자극하는 Solaris bible.
다차원 색인을 사용하는 실질적인 응용예제 컴퓨터 과학과 이 대 기.
1. 비정형 데이터마이닝의 이해.
SNS마케팅 트렌드 사회복지공동봉사회 유영진 참고: 사례.
인공 지능 시대에 필요한 인재 행복한 미래를 만드는 기술자 김송호.
멀티미디어시스템 제 4 장. 멀티미디어 데이터베이스 정보환경 IT응용시스템공학과 김 형 진 교수.
Map Designer Solution 소개자료
학부 컴퓨터공학부 교육과정 (학부) 2학년 4학년 3학년 1학년 1학기 2학기 IPP 자격과정 전공트랙
WISE OLAP.
CHAP 15. 데이터 스토리지.
ARP.
생산성 증대 효율성 향상 측정 수행 능력.
Presentation transcript:

Contents 1. 빅데이터란? 2. 빅데이터 기술 3. In-memory DB 4. 활용 사례 데이터의 종류 기존데이터 VS 빅데이터 빅데이터의 역할 2. 빅데이터 기술 수집 및 통합 기술 저장 및 관리 기술 처리 기술 분석 기술 3. In-memory DB 4. 활용 사례

빅데이터란? 3V (Veracity)정확성 (Visualization) 시각화 (Variability)가변성

데이터의 종류 정의 설명 고정된 필드에 저장된 데이터. 관계형 데이터베이스 및 스프레드시트 등을 예로 들 수 있다. 정형 반정형 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터. XML이나 HTML 텍스트 등을 예로 들 수 있다. 비정형 고정된 필드에 저장되어 있지 않은 데이터. 텍스트 분석이 가능한 텍스트 문서 및 이미지/동영상/음성 데이터 등을 예로 들 수 있다.

” 기존데이터 VS 빅데이터 구분 기존 데이터 빅데이터 데이터 정형화된 수치자료 중심 하드웨어 비정형의 다양한 데이터 하드웨어 고가의 저장창지 데이터베이스 데이터웨어하우스 클라우드 컴퓨팅 등 비용면에서 효율적인 장비 활용 가능 소프트웨어/분석방법 관계형 데이터베이스(RDBMS) 통계패키지 데이터 마이닝 오픈소스 형태의 무료 소프트웨어 오픈소스 통계솔루션 텍스트 마이닝, Opinion 마이닝 ~~. 요약해 말하자면 방대한 양의 데이터~~

빅데이터의 역할 미래사회의 특성 빅데이터의 역할 불확실성 통찰력 리스크 대응력 스마트 경쟁력 융합 창조력 ◌ 사회현상, 현실세계의 데이터를 기반으로 한 패턴분석과 미래 전망 ◌ 여러 가지 가능성에 대한 시나리오 시뮬레이션 ◌ 다각적인 상황이 고려된 통찰력을 제시 ◌ 다수의 시나리오로 상황 변화에 유연하게 대처 리스크 대응력 ◌ 환경, 소셜, 모니터링 정보의 패턴 분석을 통한 위험징후, 이상 신호 포착 ◌ 이슈를 사전에 인지,분석하고 빠른 의사결정과 실시간 대응 지원 ◌ 기업과 국가 경영의 투명성 제고 및 낭비요소 절감 스마트 경쟁력 ◌ 대규모 데이터 분석을 통한 상황인지, 인공지능 서비스 등 가능 ◌ 개인화, 지능화 서비스 제공 확대 ◌ 소셜(니즈)분석, 평가, 신용 평판 분석을 통해 최적의 선택 지원 ◌ 트렌드 변화 분석을 통한 제품 경쟁력 확보 융합 창조력 ◌ 타 분야와의 결합을 통한 새로운 가치 창출(의료, 자동차, 건물, 환경 등) ◌ 인과관계, 상관관계가 복합한 컨버전스 분야의 데이터 분석으로 안정성 향상, 시행착오 최소화 ◌ 방대한 데이터 활용을 통한 새로운 융합시장 창출

빅데이터 플랫폼

빅데이터 기술 요소기술 설명 해당 기술 수집 저장 처리 분석 시각화 조직내부와 외부의 분산된 여러 데이터 소스로부터 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 과정과 관련된 기술 크롤링. RSS 로그 수집기 센싱 Open API 등 저장 작은 데이터라도 모두 저장하여 실시간으로 저렴하게 데이터를 처리하고, 처리된 데이터를 더 빠르고 쉽게 분속하도록 하여, 이를 이용하는 기술 병렬 DBMS 하둡 NoSQL 등 처리 엄청난 양의 데이터의 저장, 수집, 관리, 유통, 분석을 처리하는 일련의 기술 실시간 처리 분산 병렬 처리 인-메모리 처리 인-데이터베이스 처리 분석 데이터를 효율적으로 정확하게 분석하여 비즈니스 등의 영역에 적용하기 위한 기술 통계분석 데이터 마이닝 텍스트 마이닝 소셜 네트워크 분석 등 시각화 자료를 시각적으로 묘사하는 학문으로 빅데이터는 기존의 단순 선형적 구조의 방식으로 표현하기 힘들기 때문에 시각화 기술이 필수적임 편집기술 정보 시각화 기술 시각화 도구

수집기술 일반적인 조직 내부에 존재하는 정형 데이터는 로그 수집기를 통해 수집 조직 외부에 존재하는 비정형 데이터는 크롤링, RSS Reader, 또는 SNS에서 제공하는 Open API를 이용해 수집

수집 및 통합 기술 용어 뜻 Sqoop 대용량 데이터 전송 솔루션으로 하둡기반 시스템과 통합 지원하며 맵리듀스에 사용될 프로그램 코드 생성 Flume 분산 환경에서 대량의 로그 데이터를 효과적으로 수집해 다른 곳으로 전송하는 서비스로 실시간 로그분석이 가능 Chukwa 분산 서버로부터 로그 데이터를 수집하여 하둡 클러스터의 로그나 서버의 상태 정보를 관리해 하둡 파일 시스템에 저장하여 실시간 분석 가능 Splunk 업무현장이나 클라우드상에 존재하는 페타비트급의 기록 데이터와 실시간 기계 데이터를 모니터링하고 분석 Scribe facebook이 개발해 공개한 로그수집기술로 대량의 서버에서 실시간으로 오는 로그 데이터를 집약해 하둡 분산 시스템에 로그를 저장 Kafka 로그 데이터를 수집 할 뿐만 아니라 메시징 시스템을 통해 전송데이터를 압축하고 메시지를 일괄적으로 전송한다.

Flume ∙ 분산환경에서 대량의 로그 데이터를 효과적으로 수집해 다른 곳으로 전송하는 서비스 ∙ 실시간 로그분석이 가능 ∙ 안정성과 가용성이 높음 Flume의 데이터(로그) 흐름도

Sqoop ∙ 관계형 데이터베이스의 한계 → Sqoop 등장 ∙ 데이터베이스로부터 하둡 분산 파일 시스템으로 데이터를 전송하는데 사용

저장 기술 ∙ CAP이론 특성 無 스키마 탄력성 질의 기능 캐싱 NoSQL

NoSQL ∙ CAP이론을 기준으로 한 RDBMS와 NoSQL 비교 ∙ RDBMS와 NoSQL의 장,단점 및 특성

저장 기술 ” 용어 뜻 Hadoop 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 자바 프레임워크 Map Reduce 구글에서 분산 컴퓨팅을 지원하기 위해 제작하였으며, 대용량 데이터를 병렬처리로 지원하는 분산처리 프로그래밍 모델 하둡 분산 파일 시스템 이기종간의 하드웨어로 구성된 클러스터에서 대용량 데이터 처리를 위하여 개발한 분산 파일 시스템 NoSQL (Not only SQL) 클라우드 환경에서 발생하는 빅데이터를 효과적으로 저장, 관리하는 데이터 저장 기술

” HDFS ∙ Hadoop Distributed File System ∙ 분산 처리 환경에서 필수 조건 ∙ 데이터 복제 기법을 지원 ” ∙ HDFS의 전체 구성도

NoSQL MapReduce 처리 기술 ≫ 빅데이터 처리기술의 필요성 ◌ 데이터 양의 증가 속도가 점점 빠르게 증가 ◌ 데이터의 성격 변화 ◌ 과거의 빅데이터 처리 방법 MapReduce NoSQL

Map Reduce MapReduce 프레임워크는 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델이다

Hadoop ● 데이터 분산 저장 처리 프레임워크 ● 핵심 구성은 저장과 처리 ● 대표적 구성요소는 분산형 파일시스템(HDFS) 서버1 Block1 데이터 서버2 Block2

Spark 역할 상호 독립적 속도

Hive < Map Reduce 3배↑ Hive 특징 기존 데이터베이스 특징 대용량 분산 Data Warehouse 시스템 (SQL on Hadoop) Hive를 완전히 대체하는 플랫폼 Map Reduce 3배↑ <

분석기술 비즈니스 분석 고급 분석 ≫ 빅데이터 분석의 중요성 ◌ 분석은 어떠한 의사결정을 할 때에 중요한 정보로써 사용 ◌ 불확실성이 높고 의사결정이 초래하는 파급효과가 큰 의사결정일수록 중요 비즈니스 분석 고급 분석

Social Network Analytics 분석기술 Text Mining Data Mining Opinion Mining Social Network Analytics

Data Mining Cluster Analysis 관계형 데이터베이스, XML 문서와 같은 구조화된 데이터 Cluster Analysis 텍스트 마이닝 4단계 절차 데이터 마이닝 기술의 한 방법으로, 주어진 빅데이터에서 데이터들의 특성을 고려하여 군집을 정의하고 군집을 대표할 수 있는 대표점을 찾는 것

Opinion Mining Text Mining 빅데이터에 포함된 어떤 사안이나 인물, 이슈, 이벤트에서 사람들의 의견이나 평가 등을 분석하는 것 Text Mining 텍스트 마이닝 4단계 절차 비,반정형 텍스트 데이터로 구성된 데이터베이스에서 자연어 처리 기술에 기반하여 의미 있는 정보를 추출하는 기술

In-memory DB 디스크가 아닌 주 메모리에 모든 데이터를 저장하는 DB를 의미한다. 데이터의 처리와 실시간 의사결정이라는 빅데이터의 요건을 만족시키기 위한 기반 기술 중 하나 기존의 하드디스크(HDD) 기반의 DBMS에 비하여 빠른 성능을 보장 받을 수 있으며 안정적인 응답속도를 보장 받을 수 있기 때문에 그 활용 가치가 높다 메모리단의 정보저장은 디스크와 메모리의 속도 차이뿐 아니라 디스크에서 데이터를 읽어오는 과정까지 제거할 수 있어 데이터 검색과 비교, 분석에서 디스크 기반의 RDBMS에 비해 압도적 성능을 발휘한다. 

활용 사례 08 미국 대통령 선거 텍스트 마이닝 4단계 절차

활용 사례 텍스트 마이닝 4단계 절차

활용 사례 텍스트 마이닝 4단계 절차

Thank you~