DAG 기반 분산 스트림 처리 기술 V1.0 ETRI Technology Marketing Strategy IT R&D Global Leader DAG 기반 분산 스트림 처리 기술 V1.0 ETRI Technology Marketing Strategy 허성진 (sjheo@etri.re.kr) 데이터관리연구실 소프트웨어연구부문 ETRI OOO연구소(단, 본부)명
목 차 ---------------------------------------------- 1. 기술의 개요 목 차 ---------------------------------------------- 1. 기술의 개요 2. 기술이전 내용 및 범위 3. 경쟁기술과 비교 4. 기술의 사업성 - 활용분야 및 기대효과 5. 국내외 시장 동향 소프트웨어연구부문
1. 기술의 개요 (1/3) 소프트웨어연구부문
1. 기술의 개요 (2/3) 기술의 배경 배치 처리에서 스트림 처리 기술로 발전 비정형 데이터 처리 제공: 유연한 처리 로직 통합 확장성 제공: 분산 처리 인프라 기반 분산 데이터 처리 Continuous/ Incremental 처리 분산 스트림 처리 (DSP) 프로세싱 모델 MapReduce기반 Hadoop DAG기반 Dryad Twister HalLoop MapReduce Online Yahoo! S4 Twitter STORM HStreaming 데이터 모델 Hive Pig ? ESP : Event Stream Processing DSMS : Data Stream Management System CEP : Complex Event Processing DSP : Distributed Stream Processing Data Warehouse DBMS ESP/DSMS/CEP 소프트웨어연구부문
1. 기술의 개요 (3/3) 기술의 개념 지속적으로 발생하는 대량의 스트림 데이터를 실시간으로 처리 실시간 처리를 위한 분산 병렬 처리 인프라 기술 스트림 처리 서비스 개발 및 등록 스트림 처리 서비스 분산 배치 스트림 처리 서비스 연속 실행 T1.1 T1.2 T1.3 T6.1 T6.2 T7.1 T7.2 T8.1 T8.2 T3 T4 T2 T5 Input stream Output stream 소프트웨어연구부문
2. 기술이전 내용 및 범위 (1/2) 기술 이전 내용 : 대규모 데이터 스트림 처리가 가능한 분산 병렬 처리 인프라 기술 DAG 기반 Java API 라이브러리 스트림 처리 서비스를 데이터 흐름 기반으로 개발 분산 병렬 처리 엔진 DAG 형태로 작성된 스트림 처리 서비스의 수행 명령어 기반 시스템 유틸리티 SW 분산 병렬 처리 엔진 관리(가동 및 중단, 서비스 등록, 실행, 삭제 등) GUI 기반 스트림 처리 서비스 구축 지원도구 DAG 기반 스트림 처리 서비스 생성 지원 웹 기반 스트림 처리 서비스 운영 관리 지원도구 전체 시스템 운영 관리(클러스터 노드별 작업 배치 및 상태 정보 등 관리) 소프트웨어연구부문
2. 기술이전 내용 및 범위 (2/2) 내부 구조 기술 개발 현황 기술성숙도(TRL : Technology Readiness Level) 단계: (5)단계 서비스 관리기 태스크 실행 관리기 1 서비스 관리기 후보 클러스터 중재기 (Zookeeper) 관리기 2 관리기 n 태스크 실행기 분산 스트림 처리 엔진 API (Java+@) 유틸리티 (CLI) 관리 도구 (Web) 서비스 정의 도구 (Eclipse) 분산 스트림 처리 인터페이스 TI 메타데이터 저장소 소프트웨어연구부문
3. 경쟁기술과 비교 (1/2) 처리 대상 데이터 모델 RFID, USN Stock tick 스트림 비정형 스트림 분산 프로그래밍 분산 스트림 처리 (DSP) 복합 이벤트 처리 (CEP) StreamBase 분산 & 데이터 모델 Storm 정형 복합 스트림 정형/비정형 스트림 Algorithm trading RFID middleware 이전 기술 Scalable CEP 소프트웨어연구부문
3. 경쟁기술과 비교 (2/2) 기술의 특징 기존 경쟁기술 대비 개량된 부분 정형/비정형 데이터 스트림 형식 및 다양한 처리 로직 수용 DAG 기반 서비스 생성 환경 제공 실시간 처리를 위한 분산 병렬 처리 환경 제공 기존 경쟁기술 대비 개량된 부분 기술적 측면: GUI 기반의 스트림 처리 서비스 생성 편의성 제공 사업적 측면: 시장의 다양한 요구사항에 대한 신속한 대응 관리적 측면: 웹 기반 관리도구를 통한 클러스터 관리 편의성 제공 소프트웨어연구부문
4. 기술의 사업성 (1/2) 예상 응용 제품 및 서비스 사업화 애로사항 및 극복방안 예상 제품/서비스 예상 수요자(층) 분산 스트림 처리 시스템 - 빅데이터 실시간 플랫폼 솔루션 업체 - 빅데이터 기반 실시간 분석 서비스 구축 SI 업체 (제조 공정 품질 관리 프로세스 서비스 등) - 빅데이터 기반 스마트 서비스 솔루션 업체 (소셜 미디어 분석 솔루션, 지능형 감시영상 분석 솔루션 등) 실시간 데이터 플로 처리 시스템 (분산 스트림 처리 시스템 기반 CEP) - 빅데이터 기반 스마트 서비스 솔루션 업체 (금융 거래 부정 방지 솔루션, APT 방지 솔루션 등) 사업화 애로사항 및 극복방안 애로점 극복(개선)방안 적용 사례 확보 자사 솔루션의 하부 기반 기술 혹은 자체 구축 서비스의 하부 기반 기술로 활용 추진을 통해 검증 사례 확보 적용 분야가 제한적 대규모 스트림 데이터에 대한 고성능 처리에 적합. 소프트웨어연구부문
4. 기술의 사업성 (2/2) 예상 응용 제품 경쟁력 추가 개발 사항 고가용성 제공 기술 예상 제품 /서비스 예상단가 (천원) 이전기술의 비중(%) 잠재적/현재적 경쟁자와 가격, 시장 등에서 경쟁상 유리한 점 판매 가능 시기 분산 스트림 처리 시스템 노드당 500만원 90% - 가격경쟁력면: 시스템 구축 비용 절감 - 시장환경면: 공개 SW 및 패키지 외산 제품 대비 자체 소스 보유로 고객의 요구에 맞게 최적화 지원 가능 - 기타: 서비스 개발 및 시스템 운영 관리 편의성 제공 2015년 실시간 데이터 플로 처리 시스템 노드당 1,000만원 40% - 기타: 데이터 증가에 대한 확장성 제공 추가 개발 사항 고가용성 제공 기술 GUI 기반의 서비스 생성도구 편의성 보완 동적 스케쥴링 기능 서비스 개발언어 확대 등 소프트웨어연구부문
5. 국내외 시장 동향 (1/3) 국내외 시장 규모 국내외 시장 동향 (단위 : 백만불, 억원) 관련 제품 /서비스 시장 1차년도 (2015 ) 2차년도 (2016 ) 3차년도 (2017 ) 4차년도 (2018 ) 5차년도 (2019 ) 합계 복합 이벤트 처리(CEP) 해외 465.3 561.1 676.7 816.1 984.2 3,503.4 국내 46.5 56.1 67.7 81.6 98.4 350.3 분산 스트림 처리 SW 188.1 248.2 330.1 439.1 584 1,789.5 18.8 24.8 33.0 43.9 58.4 178.9 653.4 809.3 1006.8 1255.2 1568.2 5,292.9 65.3 80.9 100.7 125.5 156.8 529.2 * IDC2012 빅데이터 시장 자료중 Information management SW 시장의 10% 산정 * Information management SW 시장의 연평균 33% 성장률 적용 * 국내 시장은 세계 시장의 1%로 산정, 환율은 $1당 1,000원 산정 국내외 시장 동향 전세계 생성 데이터의 약 80%가 비정형 데이터 적극적 활용이 중요 현재는 MapReduce를 활용한 비정형 데이터를 일괄 처리 중심 향후 비정형 데이터 실시간 활용을 지원하는 분산 스트림 처리 기술에대한 요구가 증대할 것으로 예상 스트림 데이터의 폭증에 따른 고확장성을 제공 및 새로운 분석 기능 추가가 유연한 복합 이벤트 처리 시스템에 대한 요구가 증대 예상 소프트웨어연구부문
5. 국내외 시장 동향 (2/3) 국내외 기술 현황 국외 기술 현황 국내 기술 현황 빅데이터 처리 기술이 배치 처리에서 실시간 처리로 발전 주로 Hadoop MapReduce 프레임워크가 분산배치 처리에 널리 활용 온라인 처리에 대한 관심 증대에 따라 Spark, Tez 공개 SW 개발 추진 실시간 데이터 처리는 주로 CEP가 활용됨 빅데이터 환경에 따라 비정형 스트림 처리 및 고확장성이 중요해짐 국내 기술 현황 Hadoop MapReduce 활용의 편의성 제공을 위한 기술 개발 추진 CEP 개발 및 적용이 진행되고 있으나, 확장성과 비정형 처리에 한계 SK C&C에서는 Storm을 내부 서비스에 활용 및 빅데이터 플랫폼 활용 소프트웨어연구부문
5. 국내외 시장 동향 (3/3) 국내외 업체 현황 국외 업체 현황 국내 업체 현황 IBM InfoSphere Streams, MS StreamInsight, Oracle의 CEP, TIBCO StreamBase의 StreamBase CEP 등은 주식 거래, 신용카드 부정 사용 모니터링 등 금융 분야 서비스에 중점 활용 Twitter의 Storm은 Twitter 의 웹 서비스 분석에 적용 Yahoo!의 S4는 Yahoo!에서 웹 검색 패턴 분석에 적용 국내 업체 현황 알티베이스의 DSM은 국방 분야 실시간 모니터링 응용에 적용 LG CNS의 EventPro CEP는 제조, 쇼핑 분야에 적용 SK C&C의 Real-Event CEP는 텔레콤 분야에 적용 SK C&C에서는 storm 기반 대용량 데이터 분석 프레임워크를 구성하여 빅데이터 시장 공략 중 소프트웨어연구부문
감사합니다. ♣ 연락처 : 소프트웨어연구부문 허성진 책·연 (042-860-4874, sjheo@etri.re.kr) www.etri.re.kr ♣ 연락처 : 소프트웨어연구부문 허성진 책·연 (042-860-4874, sjheo@etri.re.kr) ETRI OOO연구소(단, 본부)명