Korea University of Technology and Education Hongyeon Kim

Slides:



Advertisements
Similar presentations
SMART MANAGED INSTRUCTION WITH SNS 도지원 강동하 나지범 박창현 최병찬 SixSignal Capstone Design 2012.
Advertisements

김 현 곤 한국정보화진흥원 국가정보화기획단장 2012 산림 IT 컨퍼런스.
Web Based Data Warehouse Query Tool 이화여자대학교 2002 년 컴퓨터학과 졸업프로젝트 14 조.
이혁재 /KASA NoSQL. 요약 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머.
경기도 구리시 인창동 127 벤처보육센터 303 호 Tel Fax 산소프트 의료종합정보 시스템 구축 제안서 ( EMR / OCS )
WCL 이민학 Big Data & Hadoop.
Big Data Chap 3. I. VBRE(Value-Based RE) II. Requirement Prioritization III. AHP(Analytical Hierarchy Process) IV. Requirement Negotiation Q & A.
빅데이터란 ? 1. 빅데이터에 관한 잘못된 상식 빅데이터는 용량과 규모가 매우 큰 데이터를 말한다. 2.
0 Sytem Architecture Eric Lim AKAON. 1/44 Ⅰ. 아키텍처 개요 Ⅱ. 아키텍처 물리 설계 Ⅲ. 아키텍처 구성도 ( 예 ) Ⅳ. 고려사항.
SQL Server 2005 기반의 Microsoft Business Intelligence 전략 박명은 차장 SQL Technology Specialist 기술사업부 기업고객사업 한국마이크로소프트.
프로젝트 제안서 날씨대로 기분대로 팀원 박효민 신준범 정민섭 안성원
2.1 In-Memory Computing 디스크 기반 데이터베이스에서 인메모리 기반 데이터베이스로 BW시스템 전환
HANBIRO SERVICE 로드발란싱/클러스터링/FailOver 시스템 구축 제안서 1. 한비로 클러스터 시스템
컴퓨터공학과 김소원.
소프트웨어시스템 실험 Software Systems Lab. (2012년 2학기) 강의 소개
Social Network Service!
Hive. Part of Hadoop Ecosystems MapReduce Runtime (Dist. Programming Framework) Hadoop Distributed File System (HDFS) Zookeeper (Coordination) Hbase (Column.
연구실 인턴쉽 안내자료 컴퓨터공학과 2017학년도 1학기.
Chapter 7 데이터웨어하우징 의사결정지원시스템.
빅데이터 분산 처리 시스템 충북대학교 정보통신공학부 복경수
의사결정 향상을 위한 빅데이터 활용 강윤선 김민성.
빅데이터 분석 과정.
Big Data Analytics BK21+ Kick-off Meeting
INI STEEL 성과관리시스템 구축을 위한 SAP 제안설명회
웹어플리케이션 보안 Web application security
빅데이터 순환 과정과 플랫폼.
BIG Data 컴퓨터응용과학부 박진완.
Distributed Computing (Apache Hadoop & Hive Review)
NoSQL 개요 콘텐츠서비스연구팀 최완.
Apache Hive 빅데이터 분산 컴퓨팅 박영택.
Information Technology
Toad for Oracle 설치 방법.
Toad for SQL Server 제품 소개서 – 프로넷소프트㈜.
빅데이터 분석을 위한 통계 프로그래밍 R 오 승 근
12. 데이터베이스 설계.
Excel OLAP Reporting / OWC를 이용한
Advanced Data Analytics 데이터분석 전문가
지식저장 및 활용사례 삼성SDS 아리샘 KMS 오승연 책임
제 8장. 멀티미디어 데이터베이스 및 정보검색 시스템
14장. 병렬 프로세서 다루는 내용 병렬 프로세서로의 개념 병렬 처리와 병렬 컴퓨터 분류 배열 프로세서와 다중 프로세서의 개념
1. 시멘틱웹(Semantic Web) Preview 항목 상세내역 개요 기출여부 관련KeyWord 추천사이트
장윤석과장 Technology Specialist (주)한국마이크로소프트
포항공과대학교 COMPUTER VISION LAB. 석박통합과정 여동훈
교육팀 도경모 Big.
What is‘Big Data’? - 빅 데이터에 대한 전반적인 이해 네트워크 컴퓨팅 프로젝트 김충현
소프트웨어시스템 실험 Software Systems Lab. 데이터베이스 기초
Dept. of CSE, Ewha Womans Univ.
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
하둡 기반 빅데이터 처리 방법.
LSM-trie: An LSM-tree-based Ultra-Large Key-Value Store for Small Data
목차 회사소개 회사현황 시스템 구성도 SQL Server 사용 로드맵 프로젝트 개요 DB 마이그레이션
SQL Server 7.0 세미나 (Performance Tuning)
~27 윤형기 Python 프로그래밍 (보충) ~27 윤형기
하성희 복제 구축 예제 하성희
ER-Win 4.0 Database Modeling Ⅰ. Logical Design
Part 5. MS-SQL Server Basic
DataScience Lab. 박사과정 김희찬 (목)
분산 파일 시스템의 구조 GFS 와 CEPH SW공학센터 융합SW공학팀 장원석 책임 연구원
McGraw-Hill Technology Education
시스템 분석 및 설계 글로컬 IT 학과 김정기.
NoSQL 박훈
미래의 커뮤니케이션 기술과 이 기술이 인간에 미치는 영향
Data Analytics for Healthcare
제 8장 데이터베이스.
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
1장. 서 론 데이터베이스의 개요 모델의 종류 관계형 모델과 객체 지향형 데이터베이스 SQL이란 무엇인가?
리더 코딩 스토리 디자인 박찬준 이근영 박동현 박나영
1. 데이터베이스 환경.
빅데이터 분석 다양한(Variety) 형태로 수집, 저장된 대용량(Volume)의 데이터들을
Presentation transcript:

Korea University of Technology and Education Hongyeon Kim IoT and Big Data Hongyeon Kim 2014

Data & Knowledge Engineering Lab. News. 대량의 데이터를 생성하는 구조가 없으면 불가능. 센서를 통한 데이터 수집만으로는 데이터의 분석이 불가능. 2020년 IoT 연결 기기 대수가 260억 대에 달하고 IoT 서비스 업체들은 3,000억 달러 매출. Joe Skorupa: IoT 기기 대수의 증가가 데이터센터 업체에게 더 많은 과제를 줄 것. Joe Skorupa (조 스코루파, 가트너US 애널리스트) 다양한 기기에서 발생한 데이터를 처리하는 빅데이터 솔루션들에 대한 관심이 증가. 신제품 개발의 증가: 대용량 로그 분석 플랫폼 (라벤더) Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Increase – Big data. Increase the volume of data. SNS, Youtube, and so on. 2011 1.8 ZB 2015 8.6 ZB 2020 35 ZB 빅 데이터(영어: big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 출처: Storage 기업 EMC 발표 Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Big! – Big data. 10KB 24,900,000 63 bldg. 81,390,355 53 1.8ZB? 35ZB?!! Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Caution – Big data. Big data = The volume of data is big? I cannot process it. 10TB I cannot share it. 10GB Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Factors – Big data. 3V. Batch Real time Streams … Velocity Terabytes Tables Transactions Volume Structured Semi-Structured Un-Structured Variety Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Variety – Big data. Structured (정형). 고정된 필드에 저장된 데이터. R-DB, Spreadsheet. Semi-Structured (반정형). 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터. XML, HTML. Un-Structured (비정형). 고정된 필드에 저장되어 있는 않은 데이터. Document (text), Image, Video, Sound. Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Framework – Big data. Framework. Hadoop. – MapReduce. MongoDB. MapReduce. HDFS (Hadoop Distributed File System). Map & Reduce. – A pair Key & Value(s). Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Techniques – Big data. Recommendation. Sparse data. Skyline. Multi-dimension data. Triangle counting. Graph data. Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Trend – IoT & Big data. Using google trend (Korea, World) Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Purpose – IoT & Big data. Big data. 사용자가 생성하는 데이터의 증가로 인하여 필요성 대두. 데이터 집합에서 가치를 추출. 이에 따른 프레임 워크 등이 개발. IoT. 사물 인터넷의 등장에 따라 데이터의 양이 폭발적으로 증가. 단순 환경 모니터링이 아닌 데이터 활용을 통한 이익 추구. IoT & Big data. 기기에서 수집되는 데이터를 분석하여 기기와 관련된 사용자들에게 보다 많은 정보를 제공. Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Example 1 – IoT & Big data. SFPark (link). 특정 시간에 주차량이 증가하는 구간을 분석. 유동적으로 주차 공간을 늘리는 방안을 시행. Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Example 2 – IoT & Big data. HarvestGeek (link). 농장 면적의 증가에 따른 데이터 양의 증가를 어떻게 처리할 것인가? Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Example 3 – IoT & Big data. Corventis (link). 단순 모니터링이기 때문에 미리 예측하거나 분석한 정보를 사용자에게 제공하지 않음. 자신의 체질, 체형, 성별, 행동양식 등이 유사한 과거 다른 환자의 정보와 비교하여 자신의 상태를 예측 및 분석. Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Example 4 – IoT & Big data. Social Vending System. 자판기에 인터넷을 연결 (SNS, 판매량 파악). 특정 품목에 따른 판매량 등을 분석하여 해당 품목의 수를 늘리는 등의 일을 수행할 수 있음. Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Feature – IoT & Big data. Feature of data. Stream > Static. Sliding window, Continuous query, and so on. MapReduce in Hadoop. 일괄 (Batch) 처리 위주. 연속된 데이터를 처리할 때, 추가 비용 (시간)이 발생. 서울 심야버스 사례. Alternative: HBase, Impala. Data & Knowledge Engineering Lab.

Techniques – IoT & Big data. Structure. HDFS (Hadoop Distributed File System) MapReduce HBase Pig (Data flow) Hive (SQL) Sqoop ZooKeeper (Coordination) Data & Knowledge Engineering Lab.

Techniques – IoT & Big data. HBase. 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스. 다차원 키를 이용한 희소 (Sparse) 행렬 형태의 데이터 모델을 사용. Row key, Column key, Time stamp. 읽기 연산 보다는 쓰기 연산이 주로 사용됨. MapReduce를 사용함으로 질의에 대한 결과 응답 시간의 지연 시간이 발생함. Data & Knowledge Engineering Lab.

Techniques – IoT & Big data. Impala. 질의 (SQL)를 이용하여 HDFS의 데이터를 분석하는 시스템. 기존 SQL과 유사한 Hive-SQL 사용. 실시간 데이터 분석이 가능. 데이터가 저장된 위치에서 프로세스를 처리하기 때문에, 타 시스템보다 빠르게 수행됨. Impala는 크게 impalad와 impala state store라는 프로세스로 구성되어 있다. impalad는 분산 질의 엔진 역할을 담당하는 프로세스로, Hadoop 클러스터 내 데이터노드 위에서 질의에 대한 plan 설계와 질의 처리 작업을 한다. 그리고 impala state store 프로세스는 각 데이터노드에서 수행되는 impalad에 대한 메타데이터를 유지하는 역할을 담당한다. impalad 프로세스가 클러스터 내에 추가 또는 제거될 때, impala state store 프로세스를 통해 메타데이터가 업데이트된다. Data & Knowledge Engineering Lab.

Techniques – IoT & Big data. Impala. Column File Format [1]. 이 포맷은 하나의 레코드를 각각의 컬럼으로 분할해 쓰기 때문에, 레코드에서 일부 컬럼만을 조회할 때 이득을 볼 수 있음. 즉, 전체 컬럼을 조회할 때에는 같은 디스크 I/O가 발생하지만, 일부 컬럼을 조회할 때에는 더 적은 디스크 I/O가 발생함. [1] Melnik, Sergey, et al. "Dremel: interactive analysis of web-scale datasets."Proceedings of the VLDB Endowment 3.1-2 (2010): 330-339. Data & Knowledge Engineering Lab.

Techniques – IoT & Big data. Tajo. 표준 SQL 및 사용자 정의 함수 지원을 통한 기존 DB 시스템과의 호환성을 보장. 효율적인 분산 처리 엔진과 비용 기반 최적화 엔진 기술을 적용. 구조. Tajo Master. Tajo 클러스터 전체의 자원 관리와 테이블 정보 관리. Tajo Worker. 실제로 query를 실행. Query Master. SQL query 처리는 동적으로 할당. 각 query에 대해 독립적인 Query Master가 존재. Query 처리 간의 간섭을 제거. Query Master의 부담을 최소화. Data & Knowledge Engineering Lab.

Techniques – IoT & Big data. Tajo. Tajo Master Catalog server Resource manager Query Master3 SQL Parser Logical Planner Logical Optimizer Global Planner Query Master2 Query Master1 Tajo Worker 2 Query Master 1 Tajo Worker 1 Tajo Worker 3 Physical Planner Operator Storage Manager Cost-based Join Ordering - SQL Parser: Qquery를 해석하여 단위 연산의 트리 형태로 재구성. - Logical planner: 단위 연산 트리로부터 각 기능 블록 연관관계를 정의한 Logical node 트리를 도출 Logical optimizer: Join 순서 및 데이터 filtering 적용 순서를 변경하여 최적화된 Logical node 트리를 도출 Global planner: 하나의 Tajo worker 내에서 함께 수행되어야 할 Logical node들을 Grouping한 후, 각 worker에 전달하여 수행. Physical Planner: 각 worker 서버에서 할당된 Task를 연산 단위로 분해. Physical operator: 각 worker 서버는 할당된 Task를 가장 효율적으로 수행하는 물리적 방법을 선택하여 실행. Storage Manager: Disk 데이터 I/O 제어. Logical Optimizer가 Cost-based join ordering 등과 같은 기법을 적용하여 I/O를 최소화 시킨다. Data & Knowledge Engineering Lab.

Techniques – IoT & Big data. MongoDB. 문서 기반의 NoSQL 데이터베이스. NoSQL DB: RDB보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 매커니즘을 제공. Document-Oriented Storage. 모든 데이터가 JSON 형태로 저장, No schema. Replication. 데이터 복제 가능. Full Index Support. 다양한 인덱싱 제공. Querying. Key 뿐만 아니라 get, put과 같은 다양한 종류의 쿼리를 제공.  Document-Oriented Storage : 모든 데이터가 JSON 형태로 저장되며 schema가 없습니다. - Full Index Support : RDBMS에 뒤지지 않는 다양한 인덱싱을 제공합니다. - Replication & High Availability : 데이터 복제를 통해 가용성을 향상시킬 수 있습니다. - Querying : key 기반의 get, put 뿐만이 아니라 다양한 종류의 쿼리들을 제공합니다. Data & Knowledge Engineering Lab.

Data & Knowledge Engineering Lab. Conclusion. IoT? Big data? 서로 상호 보안적인 측면이 존재. 사물 인터넷 (IoT)에서 발생한 데이터를 Big data 기술을 통해 어떻게 분석해야 하는지가 가장 중요함. 시계열 데이터 분석 기술을 접목. 데이터가 연속적으로 시간의 흐름에 따라 생성되기 때문에. Volume + Velocity + Variety = Value. Data & Knowledge Engineering Lab.

Digression – IoT & Big data. Data & Knowledge Engineering Lab.