김병곤 / fharenheit@gmail.com Flamingo Community Meetup Flamingo 소개 김병곤 / fharenheit@gmail.com
Flamingo는 어떻게 시작되었나? Apache Hadoop을 이용하는 빅데이터 프로젝트들이 대부분 개발 생산성이 낮고 개발부터 운영까지 수작업으로 진행하는 경우가 너무 많아서 개발 비용이 증가하게 됩니다. Apache Hadoop EcoSystem을 위한 하둡 인프라를 지원하는 플랫폼 SW 필요 2. 확장 및 저비용 구조를 위한 오픈소스 라이선스 적용 필요 3. 과도하게 낮은 생산성 생산성 향상을 위한 분석 도구의 기능 필요 1. 클라우드 환경을 위한 웹 기반 분석 환경 제공 필요 4. 일반 개발과 동일한 비용 초보적인 개발 환경 “데이터 중심 프로젝트를 일반 홈페이지 개발 프로젝트와 유사하고 진행” “유닉스 개발환경과 유사한 현재의 개발 환경” 개발 도구의 부족으로 인한 단순 반복 작업 증가 데이터 플랫폼의 특성상 보안이 엄격한 환경에서 작업을 하는데 있어서 시스템에 접근 제한 발생 데이터 검수에 많은 시간이 소요 자동화 과정을 수작업으로 개발하는 상황 개발자와 분석가를 분리하지 못하는 개발 체계 알고리즘의 자산화가 어려운 시스템
Flamingo Monitoring Flamingo는 HTML 5 기반으로 Apache Hadoop EcoSystem을 위한 데이터 분석/처리/개발/운영 환경을 제공하며 MapReduce 분석 알고리즘, Hadoop Job 분석 및 모니터링, Hive Metastore 관리, 워크플로우 관리 기능을 제공합니다. 제공 기능 목록 20 여종 이상의 고속 병렬 처리 MapReduce 알고리즘 빅데이터 인프라 모니터링 빅데이터 분석 플로우 모니터링 빅데이터 분석 작업 모니터링 빅데이터 로그 관리 분석 플로우 배치 작업 관리 고속 병렬 질의 엔진 빅데이터 기반 데이터웨어하우스 관리 라이센스 Apache License 2 시스템 요구사항 Linux 64 bit Java 7 이상 / MySQL 5.x 이상 Apache Hadoop 2.3 이상 R 3.0 이상 / ggplot 2 이상 Hive 0.14 이상
Flamingo Workflow Designer Flamingo는 웹 기반 분석도구로 플랫폼 SW를 구현하고 개발한 MapReduce 분석 알고리즘을 워크플로우 디자이너 자유롭게 분석에 활용할 수 있어서 분석 알고리즘을 자산화할 수 있습니다. 상세 내용 1 1 기본으로 제공하는 다양한 분석 모듈 - 머신러닝 알고리즘, Spark - ETL, Java, MR, Hive, Pig, R 2 각 분석 및 처리 모듈은 동작에 필요한 각종 파라미터를 제공하고 사용자는 UI에서 수정하여 적용 2 주요 특징 기 작성한 알고리즘 및 데이터 처리/분석 모듈을 손쉽게 디자이너와 통합 Hadoop API 따라 개발된 경우 기 개발한 모듈의 변경없이 디자이너와 통합
Flamingo Big Data Platform Flamingo Architecture Flamingo는 국내에서 개발하고 있는 Tajo, Ankus를 포함하여 Hadoop EcoSystem을 지원하기 위한 모든 것을 준비하고 있습니다. Apache Spark Flamingo Big Data Platform Apache Spark HDFS Browser Apache Hive Management Pig Latin Editor Batch Job Management HDFS Audit RStudio/R Monitoring Workflow Pivotal HAWQ Management HDFS Log Apache Tajo Management Apache Spark Agent RHive RHadoop Flamingo Collector MR ETL MR Algorithm Apache Kafka Apache Hive Resource Manager Namenode Datanode Apache Kafka Hive Server 2 Resource Manager Application Master Data Node Name Node Apache ZooKeeper Node Manager Hive Metastore Resource Manager Agent Namenode Agent Apache Kafka Agent Map/Reduce Task
Github Repository
Messenger for Developer (Slack) flamingo-dev-team.slack.com
Flamingo Project Flamingo (FL) Flamingo Analytics (FEA) Flamingo Managment (FEM) 구분 Flamingo Enterprise for Analytics (OpenSource) Flamingo Community (OpenSource) Flamingo Enterprise for Management (Commercial) 구 성 요 소 워크플로우 디자이너 for Oozie 워크플로우 디자이너 for Oozie Apache Oozie 모니터링 Apache Oozie 모니터링 Apache Oozie 모니터링 Apache ZooKeeper 모니터링 분석 애플리케이션 모니터링 (YARN, MapReduce, Spark 등) 분석 애플리케이션 모니터링 (YARN, MapReduce, Spark 등) HDFS 브라우저 HDFS 브라우저 리포팅 Apache Hive 개발 및 관리 HAWQ 개발 및 관리 Hive 모니터링 애플리케이션 성능 분석 Pig 개발 및 관리 Deep Learning Pack 리얼타임 정보 수집 클러스터 관리 웹 터미널 ETL Pack HDFS Browse Audit HDFS Audit HDFS 브라우저 Machine Learning Pack 마스터노드 모니터링 서버 리소스 모니터링 Tajo 개발 및 관리 기본 모니터링 Pack Kafka, Flume, Storm, MapR, HAWQ, Greenplum, Spring XD 모니터링 Spark Workflow Designer