Download presentation
Presentation is loading. Please wait.
Published byMeredith Fletcher Modified 6년 전
1
What is‘Big Data’? - 빅 데이터에 대한 전반적인 이해 네트워크 컴퓨팅 프로젝트 60062340 김충현
이병권 홍수범
2
서론 시대의 화두 빅 데이터 국내·외 빅 데이터 활용 현황 빅 데이터 분석 기법 빅 데이터 분석 인프라 기술 결론
myungji_공학특론 서론 시대의 화두 빅 데이터 국내·외 빅 데이터 활용 현황 빅 데이터 분석 기법 빅 데이터 분석 인프라 기술 결론
3
1. 서론 - 양적 거대함 SNS Social media IT convergence 데이터의 종류와 양의 급격한 증가
4
1. 서론 - 경제 변화의 핵심 자원 역할 산업 시대 = 철, 석탄 IT 시대 = 인터넷 모바일 스마트 시대 = ? 빅 데이터!
5
Volume (양) Variety (다양성) Velocity (속도) 2. 시대의 화두 빅 데이터 – 빅 데이터란?
myungji_공학특론 2. 시대의 화두 빅 데이터 – 빅 데이터란? 의미 있는 결과 도출이 가능한 수십∼수천 TB에 달하는 거대 데이터 집합 Volume (양) 정 형 – 관계형DB, 스프레드시트 반정형 – XML, HTML 비정형 – 이미지, 동영상, 음성 Variety (다양성) 데이터의 생성과 흐름이 매우 빠르게 진행 Velocity (속도) 페타(Peta : ) 엑사(Exa : ) 제타(Zeta : ) 3V 관련도구, 플랫폼, 분석기법까지 포괄하는 용어로 변화
6
2. 시대의 화두 빅 데이터 – 어떻게 활용 할 수 있을까?
myungji_공학특론 2. 시대의 화두 빅 데이터 – 어떻게 활용 할 수 있을까? Network 구조와 정보 패턴 파악 Social Graph와 패턴 사건의 징후와 전개과정을 감지 트랜드의 감지와 예측 경영자의 직관을 보완하는 효과적인 의사결정 지원 데이터에 근거한 의사결정 전략실행 효과의 최적화 예측 모형과 시뮬레이션
7
치안 - FBI의 종합 DNA 색인시스템(CODIS)
myungji_공학특론 3. 국내·외 빅 데이터 활용 현황 – 국가(U.S.A) 국토보안 - 국토안보부 9.11 이후 국토안보부를 중심으로 테러·범죄 방지를 위한 범정부적 빅 데이터 수집, 분석 및 예측체계 도입 치안 - FBI의 종합 DNA 색인시스템(CODIS) DNA포렌식, 클라우드DNA분석 등 “빅DNA데이터"의 활용을 통해 년 45,400건의 범인 DNA Hit rate 달성 의료 - 오바마 Health.20 – 필박스 프로젝트(Pillbox) 수집된 빅 데이터를 통해 후천성 면역결핍증(HIV) 등 관리대상 주요 질병의 분포, 연도별 증가 등에 대한 통계치 확보 가능
8
정보공개 - 정부 사이트(data.gov.uk)
myungji_공학특론 3. 국내·외 빅 데이터 활용 현황 – 국가(U.K , Singapore) 정보공개 - 정부 사이트(data.gov.uk) 공공부문의 정보 공유 및 활용을 위한 데이터 원스톱 서비스 제공 일반인들의 참여를 장려하고 아이디어 수렴, 앱 개발, 데이터 공개 등의 주제에 대한 커뮤니티 제공 국가 위험관리 - RAHS(Risk Assessment & Horizon Scanning) 시스템 질병, 금융위기 등 모든 국가적 위험을 수집 및 분석하여 위험을 방지 수집된 위험 정보는 시뮬레이션, 시나리오 기법 등을 통해 분석되어 사전에 위험을 예측하고 대응 방안을 모색함
9
3. 국내·외 빅 데이터 활용 현황 – 국내 데이터와 같은 데이터의 증가보다 인터넷 트래픽의 증가를 더 심각하게 생각
myungji_공학특론 3. 국내·외 빅 데이터 활용 현황 – 국내 데이터와 같은 데이터의 증가보다 인터넷 트래픽의 증가를 더 심각하게 생각 데이터의 활용이라는 측면의 연구는 상대적으로 부족 빅 데이터 활용 추진 방안
10
ㅇㅇㅇ 3. 국내·외 빅 데이터 활용 현황 – 기업 가장 정교한 검색결과 제공 빅 데이터 처리 핵심기술 MapReduce 공개
myungji_공학특론 3. 국내·외 빅 데이터 활용 현황 – 기업 가장 정교한 검색결과 제공 빅 데이터 처리 핵심기술 MapReduce 공개 빅 데이터 처리 최고 자리를 두고 구글과 경쟁 중 2012 미 대선 - 부동층 파악, 개인별로 맞춤형 선거 캠페인을 전개 ㅇㅇㅇ 사용자 정보처리를 통해 제안되는 ‘추천’ 시스템에서 전체 매출 30% 발생
11
Text mining 4. 빅 데이터 분석 기법 – Text Mining 비·반정형 텍스트 데이터를 자연어 처리 기술에
myungji_공학특론 4. 빅 데이터 분석 기법 – Text Mining Text mining 비·반정형 텍스트 데이터를 자연어 처리 기술에 기반하여 유용한 정보를 추출하여 가공 텍스트 마이닝 과정 의미 있는 정보 추출 다른 정보와의 연계성을 파악 텍스트가 가진 카테고리를 검색 정보 검색 정보 재생산
12
선호도를 나타내는 표현·단어 자원의 축적이 필요
myungji_공학특론 4. 빅 데이터 분석 기법 – Opinion Mining 주관성 분석 극성 분석 극성의 정도 분석 Opinion mining 웹사이트와 소셜 미디어에 나타난 여론과 의견을 분석하여 유용한 정보로 재가공하는 기술 Opinion Mining 3단계 특정 서비스 및 상품에 대한 시장 규모 예측, 소비자의 반응, 입소문 분석 등에 활용 공공분야의 경우 민원의 원인이나 문제점 등을 파악하는 것이 용이해 서비스를 개선 선호도를 나타내는 표현·단어 자원의 축적이 필요
13
- Social Network Analytics 4단계 -
myungji_공학특론 4. 빅 데이터 분석 기법 – Social Network Analytics Social Network Analytics 페이스북, 트위터등의 소셜 네트워크 서비스에서 생산되는 데이터를 분석, 의미 있는 정보를 추출하는 기술 1. 소셜 네트워크의 위상학적 구조 분석 2. 네트워크 구조의 시간에 따른 진화를 분석 3. 네트워크상의 콘텐츠 흐름을 분석, 종합 4. 관심사, 성향 및 행동 패턴을 분석 추출 프라이버시 보호 등 부작용 대응을 위한 기술개발 및 산업육성 필요 - Social Network Analytics 4단계 -
14
Hadoop 5. 빅 데이터 분석 인프라 기술 – Hadoop 오픈 소스 분산처리기술 프로젝트.
myungji_공학특론 5. 빅 데이터 분석 인프라 기술 – Hadoop Hadoop 오픈 소스 분산처리기술 프로젝트. 현재 정형/비정형 빅 데이터 분석에서 가장 선호되는 솔루션 - 하둡 구조 & 대응하는 구글 분산처리기술 - 개발자는 맵리듀스 프레임워크 기반의 자바 프로그램을 개발하고 하둡 플랫폼에서 이를 실행해 대량의 데이터를 병렬로 처리
15
시각화를 통해 데이터의 직관적인 분석과 이해 도움
myungji_공학특론 5. 빅 데이터 분석 인프라 기술 – R R 통계 계산 및 시각화를 위한 언어 및 개발환경. 모델링, 최신 데이터 마이닝 기법까지 구현/개선이 가능 R의 특징 그래프로 시각화 가능 Java, Python등 다른 프로그래밍 언어와 연결도 용이 Mac OS, 리눅스/유닉스, 윈도우 등의 대부분의 컴퓨팅 환경 을 지원 시각화를 통해 데이터의 직관적인 분석과 이해 도움
16
NoSQL NoSQL 5. 빅 데이터 분석 인프라 기술 – NoSQL(Not-only SQL)
myungji_공학특론 5. 빅 데이터 분석 인프라 기술 – NoSQL(Not-only SQL) NoSQL 전통적인 관계형 데이터베이스RDBMS와 다르게 설계된 비관계형 데이터베이스를 의미 NoSQL MongDB Hbase Cassandra SQL(관계형DB) NoSQL 정보 회계정보, 고객정보 등 중요치 않으나 데이터 양이 많고 급격히 늘어나는 시스템 환경 보통 환경 클라우드 컴퓨팅처럼 수천, 수만대의 서버로 이뤄진 분산 환경 장점 무결성 비용과 확장성 처리방법 오라클 RAC등으로 분산처리 페타바이트 수준의 데이터 처리 예 오라클 RAC 빅 데이블(구글 earth) 특징 조인(JOIN), 고정된 스키마 단순한 키와 값의 쌍으로만 이루어져 있음 - 대표적인 NoSQL 솔루션 -
17
장 점 하지만 다양한 빅 데이터 관련 오픈소스 중 기업에 적당한 기술을 선택 해야 할 것! 빅 데이터를 활용해서 새로운 가치
6. 결론 – 기업의 입장에서 장 점 미래에 능동적으로 대응 하거나 변화 예측 가능 기존 사업의 효율적 지원을 위한 심층적인 데이터 기반 서비스 제공 기술이나 역량을 보유한 기업이나 국가가 미래의 경쟁력을 갖게 될 것 하지만 기존 환경과의 연계, 사용의 용이성, 보안, 시각화 등이 가능해야 함 볼륨의 폭증에 대한 기회를 확보할 수 있는 실질적인 방법은 미흡한 상황 빅 데이터 방식의 분석을 통해 더 많은 성과를 거둬야 한다는 압박감 증가 다양한 빅 데이터 관련 오픈소스 중 기업에 적당한 기술을 선택 해야 할 것! 빅 데이터를 활용해서 새로운 가치 창출과 이익 극대화를 위한 연구가 필요! 분석기술과 관리 능력에 초점을 맞춰 심층적인 개선에 주력해야 할 것!
18
무수한 정보에 대한 정보 분석력 다양한 정보에 대한 활용 능력 Developer 시대에 변화에 따른 빠른 적응력
6. 결론 – 개발자의 입장에서 Big Data 무수한 정보에 대한 정보 분석력 다양한 정보에 대한 활용 능력 Big Data에 대한 팀원들과의 정보 이해도 시대에 변화에 따른 빠른 적응력 Developer
19
Thank you
Similar presentations