Presentation is loading. Please wait.

Presentation is loading. Please wait.

Korea University of Technology and Education Hongyeon Kim

Similar presentations


Presentation on theme: "Korea University of Technology and Education Hongyeon Kim"— Presentation transcript:

1 Korea University of Technology and Education Hongyeon Kim
IoT and Big Data Hongyeon Kim 2014

2 Data & Knowledge Engineering Lab.
News. 대량의 데이터를 생성하는 구조가 없으면 불가능. 센서를 통한 데이터 수집만으로는 데이터의 분석이 불가능. 2020년 IoT 연결 기기 대수가 260억 대에 달하고 IoT 서비스 업체들은 3,000억 달러 매출. Joe Skorupa: IoT 기기 대수의 증가가 데이터센터 업체에게 더 많은 과제를 줄 것. Joe Skorupa (조 스코루파, 가트너US 애널리스트) 다양한 기기에서 발생한 데이터를 처리하는 빅데이터 솔루션들에 대한 관심이 증가. 신제품 개발의 증가: 대용량 로그 분석 플랫폼 (라벤더) Data & Knowledge Engineering Lab.

3 Data & Knowledge Engineering Lab.
Increase – Big data. Increase the volume of data. SNS, Youtube, and so on. 2011 1.8 ZB 2015 8.6 ZB 2020 35 ZB 빅 데이터(영어: big data)란 기존 데이터베이스 관리도구로 데이터를 수집, 저장, 관리, 분석할 수 있는 역량을 넘어서는 대량의 정형 또는 비정형 데이터 집합 및 이러한 데이터로부터 가치를 추출하고 결과를 분석하는 기술을 의미한다. 출처: Storage 기업 EMC 발표 Data & Knowledge Engineering Lab.

4 Data & Knowledge Engineering Lab.
Big! – Big data. 10KB 24,900,000 63 bldg. 81,390,355 53 1.8ZB? 35ZB?!! Data & Knowledge Engineering Lab.

5 Data & Knowledge Engineering Lab.
Caution – Big data. Big data = The volume of data is big? I cannot process it. 10TB I cannot share it. 10GB Data & Knowledge Engineering Lab.

6 Data & Knowledge Engineering Lab.
Factors – Big data. 3V. Batch Real time Streams Velocity Terabytes Tables Transactions Volume Structured Semi-Structured Un-Structured Variety Data & Knowledge Engineering Lab.

7 Data & Knowledge Engineering Lab.
Variety – Big data. Structured (정형). 고정된 필드에 저장된 데이터. R-DB, Spreadsheet. Semi-Structured (반정형). 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터. XML, HTML. Un-Structured (비정형). 고정된 필드에 저장되어 있는 않은 데이터. Document (text), Image, Video, Sound. Data & Knowledge Engineering Lab.

8 Data & Knowledge Engineering Lab.
Framework – Big data. Framework. Hadoop. – MapReduce. MongoDB. MapReduce. HDFS (Hadoop Distributed File System). Map & Reduce. – A pair Key & Value(s). Data & Knowledge Engineering Lab.

9 Data & Knowledge Engineering Lab.
Techniques – Big data. Recommendation. Sparse data. Skyline. Multi-dimension data. Triangle counting. Graph data. Data & Knowledge Engineering Lab.

10 Data & Knowledge Engineering Lab.
Trend – IoT & Big data. Using google trend (Korea, World) Data & Knowledge Engineering Lab.

11 Data & Knowledge Engineering Lab.
Purpose – IoT & Big data. Big data. 사용자가 생성하는 데이터의 증가로 인하여 필요성 대두. 데이터 집합에서 가치를 추출. 이에 따른 프레임 워크 등이 개발. IoT. 사물 인터넷의 등장에 따라 데이터의 양이 폭발적으로 증가. 단순 환경 모니터링이 아닌 데이터 활용을 통한 이익 추구. IoT & Big data. 기기에서 수집되는 데이터를 분석하여 기기와 관련된 사용자들에게 보다 많은 정보를 제공. Data & Knowledge Engineering Lab.

12 Data & Knowledge Engineering Lab.
Example 1 – IoT & Big data. SFPark (link). 특정 시간에 주차량이 증가하는 구간을 분석. 유동적으로 주차 공간을 늘리는 방안을 시행. Data & Knowledge Engineering Lab.

13 Data & Knowledge Engineering Lab.
Example 2 – IoT & Big data. HarvestGeek (link). 농장 면적의 증가에 따른 데이터 양의 증가를 어떻게 처리할 것인가? Data & Knowledge Engineering Lab.

14 Data & Knowledge Engineering Lab.
Example 3 – IoT & Big data. Corventis (link). 단순 모니터링이기 때문에 미리 예측하거나 분석한 정보를 사용자에게 제공하지 않음. 자신의 체질, 체형, 성별, 행동양식 등이 유사한 과거 다른 환자의 정보와 비교하여 자신의 상태를 예측 및 분석. Data & Knowledge Engineering Lab.

15 Data & Knowledge Engineering Lab.
Example 4 – IoT & Big data. Social Vending System. 자판기에 인터넷을 연결 (SNS, 판매량 파악). 특정 품목에 따른 판매량 등을 분석하여 해당 품목의 수를 늘리는 등의 일을 수행할 수 있음. Data & Knowledge Engineering Lab.

16 Data & Knowledge Engineering Lab.
Feature – IoT & Big data. Feature of data. Stream > Static. Sliding window, Continuous query, and so on. MapReduce in Hadoop. 일괄 (Batch) 처리 위주. 연속된 데이터를 처리할 때, 추가 비용 (시간)이 발생. 서울 심야버스 사례. Alternative: HBase, Impala. Data & Knowledge Engineering Lab.

17 Techniques – IoT & Big data.
Structure. HDFS (Hadoop Distributed File System) MapReduce HBase Pig (Data flow) Hive (SQL) Sqoop ZooKeeper (Coordination) Data & Knowledge Engineering Lab.

18 Techniques – IoT & Big data.
HBase. 하둡 플랫폼을 위한 공개 비관계형 분산 데이터베이스. 다차원 키를 이용한 희소 (Sparse) 행렬 형태의 데이터 모델을 사용. Row key, Column key, Time stamp. 읽기 연산 보다는 쓰기 연산이 주로 사용됨. MapReduce를 사용함으로 질의에 대한 결과 응답 시간의 지연 시간이 발생함. Data & Knowledge Engineering Lab.

19 Techniques – IoT & Big data.
Impala. 질의 (SQL)를 이용하여 HDFS의 데이터를 분석하는 시스템. 기존 SQL과 유사한 Hive-SQL 사용. 실시간 데이터 분석이 가능. 데이터가 저장된 위치에서 프로세스를 처리하기 때문에, 타 시스템보다 빠르게 수행됨. Impala는 크게 impalad와 impala state store라는 프로세스로 구성되어 있다. impalad는 분산 질의 엔진 역할을 담당하는 프로세스로, Hadoop 클러스터 내 데이터노드 위에서 질의에 대한 plan 설계와 질의 처리 작업을 한다. 그리고 impala state store 프로세스는 각 데이터노드에서 수행되는 impalad에 대한 메타데이터를 유지하는 역할을 담당한다. impalad 프로세스가 클러스터 내에 추가 또는 제거될 때, impala state store 프로세스를 통해 메타데이터가 업데이트된다. Data & Knowledge Engineering Lab.

20 Techniques – IoT & Big data.
Impala. Column File Format [1]. 이 포맷은 하나의 레코드를 각각의 컬럼으로 분할해 쓰기 때문에, 레코드에서 일부 컬럼만을 조회할 때 이득을 볼 수 있음. 즉, 전체 컬럼을 조회할 때에는 같은 디스크 I/O가 발생하지만, 일부 컬럼을 조회할 때에는 더 적은 디스크 I/O가 발생함. [1] Melnik, Sergey, et al. "Dremel: interactive analysis of web-scale datasets."Proceedings of the VLDB Endowment 3.1-2 (2010): Data & Knowledge Engineering Lab.

21 Techniques – IoT & Big data.
Tajo. 표준 SQL 및 사용자 정의 함수 지원을 통한 기존 DB 시스템과의 호환성을 보장. 효율적인 분산 처리 엔진과 비용 기반 최적화 엔진 기술을 적용. 구조. Tajo Master. Tajo 클러스터 전체의 자원 관리와 테이블 정보 관리. Tajo Worker. 실제로 query를 실행. Query Master. SQL query 처리는 동적으로 할당. 각 query에 대해 독립적인 Query Master가 존재. Query 처리 간의 간섭을 제거. Query Master의 부담을 최소화. Data & Knowledge Engineering Lab.

22 Techniques – IoT & Big data.
Tajo. Tajo Master Catalog server Resource manager Query Master3 SQL Parser Logical Planner Logical Optimizer Global Planner Query Master2 Query Master1 Tajo Worker 2 Query Master 1 Tajo Worker 1 Tajo Worker 3 Physical Planner Operator Storage Manager Cost-based Join Ordering - SQL Parser: Qquery를 해석하여 단위 연산의 트리 형태로 재구성. - Logical planner: 단위 연산 트리로부터 각 기능 블록 연관관계를 정의한 Logical node 트리를 도출 Logical optimizer: Join 순서 및 데이터 filtering 적용 순서를 변경하여 최적화된 Logical node 트리를 도출 Global planner: 하나의 Tajo worker 내에서 함께 수행되어야 할 Logical node들을 Grouping한 후, 각 worker에 전달하여 수행. Physical Planner: 각 worker 서버에서 할당된 Task를 연산 단위로 분해. Physical operator: 각 worker 서버는 할당된 Task를 가장 효율적으로 수행하는 물리적 방법을 선택하여 실행. Storage Manager: Disk 데이터 I/O 제어. Logical Optimizer가 Cost-based join ordering 등과 같은 기법을 적용하여 I/O를 최소화 시킨다. Data & Knowledge Engineering Lab.

23 Techniques – IoT & Big data.
MongoDB. 문서 기반의 NoSQL 데이터베이스. NoSQL DB: RDB보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 매커니즘을 제공. Document-Oriented Storage. 모든 데이터가 JSON 형태로 저장, No schema. Replication. 데이터 복제 가능. Full Index Support. 다양한 인덱싱 제공. Querying. Key 뿐만 아니라 get, put과 같은 다양한 종류의 쿼리를 제공.  Document-Oriented Storage : 모든 데이터가 JSON 형태로 저장되며 schema가 없습니다. - Full Index Support : RDBMS에 뒤지지 않는 다양한 인덱싱을 제공합니다. - Replication & High Availability : 데이터 복제를 통해 가용성을 향상시킬 수 있습니다. - Querying : key 기반의 get, put 뿐만이 아니라 다양한 종류의 쿼리들을 제공합니다. Data & Knowledge Engineering Lab.

24 Data & Knowledge Engineering Lab.
Conclusion. IoT? Big data? 서로 상호 보안적인 측면이 존재. 사물 인터넷 (IoT)에서 발생한 데이터를 Big data 기술을 통해 어떻게 분석해야 하는지가 가장 중요함. 시계열 데이터 분석 기술을 접목. 데이터가 연속적으로 시간의 흐름에 따라 생성되기 때문에. Volume + Velocity + Variety = Value. Data & Knowledge Engineering Lab.

25 Digression – IoT & Big data.
Data & Knowledge Engineering Lab.


Download ppt "Korea University of Technology and Education Hongyeon Kim"

Similar presentations


Ads by Google