Big Data Chap 3
I. VBRE(Value-Based RE) II. Requirement Prioritization III. AHP(Analytical Hierarchy Process) IV. Requirement Negotiation Q & A
빅 데이터의 정의 I. 빅 데이터의 개요 3 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추 출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처 일반적인 데이터베이스 소프트웨어가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 스마트 사회로 변화에 따른 데이터 저장, 처리 비용의 하락 SNS 확대 등으로 소셜, 사물, 라이프로그 데이터 등이 결합 디지털 데이터의 양이 기하급수적으로 폭증 기술적 규모적 데이터 홍수 (Data Deluge) 기존의 관리 및 분석 체계로 감 당할 수 없을 정도의 거대한 데 이터의 집합 대규모 데이터와 관계된 기술 및 도구 ( 수집, 저장, 검색, 공유, 분 석 시각화 등 )
빅 데이터의 생성 4 전 세계적으로 매일 2.5 quintillion(10 18 ) 바이트의 데이터가 생성되고, 존재하는 데 이터의 90% 이상은 최근 2 년 안에 생성 I. 빅 데이터의 개요
데이터 빅뱅 5 디바이스 빅뱅 : 2010 년 100 억 개 모바일 기기 -> 2017 년 7 조개 무선 단말로 연결 데이터 빅뱅 : 2010 년 800EB(Exa Byte)-> 2020 년 35ZB 로 확대 2010~2015 년 : 모바일 트래픽은 6300%, SNS 는 연간 47% 이상 확대 I. 빅 데이터의 개요
비정형 데이터의 생성 6 I. 빅 데이터의 개요
빅 데이터의 종류 고객정보와 같은 정형화된 자산정보 뿐만 아니라 외부 데이터, 비정형, 소셜, 실시 간 데이터 등이 복합적으로 구성 I. 빅 데이터의 개요
빅 데이터의 종류 고정된 필드에 저장된 데이터 (RDB, 스프레드시트에 저장 된 데이터 ) 정형 (Structured) 고정된 필드에 저장되어 있지 않은 데이터 ( 텍스트 분석이 가 능한 텍스트 문서, 이미지 / 동영상 / 음성 데이터 ) 고정된 필드에 저장되어 있지는 않지만, 메타데이터나 스키마 등을 포함하는 데이터 (XML 이나 HTML 텍스트 데이터 ) 반정형 (Semi-Structured) 비정형 (Unstructured) 고객정보와 같은 정형화된 자산정보 뿐만 아니라 외부 데이터, 비정형, 소셜, 실시 간 데이터 등이 복합적으로 구성 I. 빅 데이터의 개요
빅 데이터의 위치 9 기존 BI(Business Intelligence) 영역 : 구조화된 데이터 구조에서 출발 빅 데이터 영역 : 단순 데이터 크기를 넘어 비정형 데이터에서 의미 있는 정보를 유출 하는 영역으로 확대 I. 빅 데이터의 개요
빅 데이터의 요소기술 10 II. 빅 데이터의 기술 대용량 데이터를 처리하고 중 가 치 있는 소수의 데이터를 발굴 비정형 데이터를 사용자 관점에 서 활용할 수 있도록 가공 대용량 데이터 / 비정형화된 데이 터의 수집, 검색, 데이터 전처리 및 분석 기술, 시각화 기술 ( 표현 기술 )
빅 데이터 분석 기술 II. 빅 데이터의 기술 종 류종 류내 용내 용 텍스트 마이닝 (Text Mining) 자연어처리 기술을 기반으로 비정형 텍스트 데이터에서 의미 있는 정보를 추출하고 다른 정보와 연계성을 파악하여 텍스트가 가진 카테고리를 찾아 내는 기술 ( 문서 분류, 문서 클러스터링, 정보 추출 그리고 문서 요약 등 ) 평판 분석 (Opinion Mining) 소셜 미디어 등의 소비자의 의견들을 수집, 분석해 제품이나 서비스 등에 대한 정형 / 비정형 텍스트의 긍정, 부정, 중립의 평판을 추출해 내는 기술 ( 텍스트 마이닝, 자연어처리, 비정형 분석, 형태소 분석 등 ) 소셜 네트워크 분석 (Social Network Analytics) 각 개인 또는 그룹의 소셜 네트워크 내 영향력, 관심사, 성향 및 행동 패턴 을 그래프 이론에 바탕하여 분석, 추출하는 기술 ( 감성 분석이 대표적 ) 클러스터 분석 (Cluster Analysis) 데이터 간의 유사도를 정의하고 각 데이터 간의 거리를 구하고 서로의 거 리가 가까운 것부터 순서대로 합쳐가는 기술 ( 계층적 기법과 비계층적 기 법 )
빅 데이터 처리 기술 II. 빅 데이터의 기술 종 류종 류내 용내 용 Hadoop 분산시스템 상에서 대용량 데이터처리 분석을 지원하는 오픈소스 소 프트웨어 프레임워크로 HDFS(Hadoop Distributed File System) 와 Hbase 및 MapReduce 로 구성 R 통계계산 및 시각화를 위한 언어 및 개발환경을 제공하고, 그래프 등 으로 시각화 및 Mac OS, 리눅스, 윈도우 등 대부분의 컴퓨팅 환경을 지원하여 대용량 데이터 통계분석 및 데이터 마이닝을 위해 사용 NoSQL (Not- Only/No SQL) 비관계형 DB 로 테이블 스키마가 고정되지 않고, 테이블 간 조인 연산 을 지원하지 않으며, 수평적 확장이 용이하다. 네트워크 전송 중 일부 데이터를 손실하더라도 시스템은 정상 동작하는 분산가능성 (Partition Tolerance) 에 중점을 두고 일관성과 유효성은 보장하지 않는다.
빅 데이터 플랫폼 II. 빅 데이터의 기술 고급 분석, 빠른 처리 속도, 확장성 및 실시간성을 지원 대용량 데이터저장 기술, 분산 또는 병렬처리 기술 등이 핵심 비정형 데이터로 복잡성과 확장성에 대한 고려
Hadoop 프레임워크 구성 II. 빅 데이터의 기술