Big Data Analytics BK21+ Kick-off Meeting

Slides:



Advertisements
Similar presentations
Proprietary ETRI 광대역통합망연구단 1 ETRI Technology Marketing Strategy ETRI Technology Marketing Strategy IT R&D Global Leader 지식 협업 융합서비스 플랫폼 기술 배 현 주
Advertisements

김 현 곤 한국정보화진흥원 국가정보화기획단장 2012 산림 IT 컨퍼런스.
Computer Science and Engineering. 컴퓨터는 미래 지식 사회의 핵심 요인  지식 사회의 도래 : 매 50 년 마다 큰 기술, 사회적 변화 발생.
이혁재 /KASA NoSQL. 요약 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머.
Rethink: Big Intelligence? 2014 년 9 월 27 일 삼성전자 어길수 부사장.
회사소개서 ㈜비스데이타시스템
스마트폰 SW 플랫폼의 변화 방향 March 13, 2010 이승원. 2 03/13/10Seungwon Lee ©SAIT Spring 2010 Contents –Backgournd » 스마트폰이 대세다 » 무엇이 바뀌고 있는가 ? – 스마트폰 SW 구조 »Android.
WCL 이민학 Big Data & Hadoop.
Big Data Chap 3. I. VBRE(Value-Based RE) II. Requirement Prioritization III. AHP(Analytical Hierarchy Process) IV. Requirement Negotiation Q & A.
빅데이터란 ? 1. 빅데이터에 관한 잘못된 상식 빅데이터는 용량과 규모가 매우 큰 데이터를 말한다. 2.
지식재산과 산업보안 한국과학기술정보연구원 원장 한선화
경선추 Smart & Green Technology Innovator ‘ 분산 포렌식 인덱스 검색 기술 ’ 이란 수사의 대상이 되는 디지털 데이터에 대한 빠른 검색을 제공하기 위해 분산 처리 기법으로 인덱스를 생성해 두었다가 사용자 요청이 있을 경우, 인덱스에서.
-2013 Electronics and Telecommunications Trends 오지영.
SQL Server 2005 기반의 Microsoft Business Intelligence 전략 박명은 차장 SQL Technology Specialist 기술사업부 기업고객사업 한국마이크로소프트.
정보기술의 기본 CAD/CAM Lab 석사 1 학기 김종규. 0. Data vs Information vs Knowledge data information knowledge 단편적 사건 의사결정에 필요한 data 의 교환이 되어야 정보 시너지 효과 Info + info.
목차 World Wide Web LOD 소개 LOD 활용.
1. IT 환경 변화 Ⅳ. 프로젝트 추진방안 기업이 당면한 다양한 문제 해결을 위해서 문제를 효과적으로 해결할 수 있는 IT 시스템이 개발되었으며, 이는 기업 내 데이터 발생의 원인으로 작용하고 있음. IT 환경 변화는 단순 데이터가 아닌 다양한 형태의 데이터를 급격하게.
MrDataBld 2.x 제품 소개 2007.
Data Warehouse 이현우
목차 1. CRM의 개념 2. CRM의 기대 효과 3. CRM의 구축/실행 4. CRM 추진의 걸림돌
빅 데이터 전략 연구실 소개 허순영 교수 KAIST 정보미디어 경영대학원 (서울시 동대문구 홍릉 소재) May 10, 2013
2.1 In-Memory Computing 디스크 기반 데이터베이스에서 인메모리 기반 데이터베이스로 BW시스템 전환
CRM : 고객 관계 관리 Process Customer Relationship Management
IT집중교육1 (Mobile Multimedia Service & System Design)
e-Transformation Strategy
삼성 SDS 멀티캠퍼스 데이터웨어하우스, OLAP, 데이터 마이닝 삼성 SDS 멀티캠퍼스
Chapter 7 데이터웨어하우징 의사결정지원시스템.
빅데이터 분산 처리 시스템 충북대학교 정보통신공학부 복경수
서비스의 특성 서비스(service)의 정의 서비스(service)의 특성 서비스의 생산
KMS/Portal 에서의 효율적인 정보검색
빅데이터 분석 과정.
3장 조직 정보시스템과 영향 정보시스템을 분류하는 용어와 개념 © Gabriele Piccoli.
빅데이터 순환 과정과 플랫폼.
Comshare Decision을 이용한 SCM Monitoring
Knowledge Enterprise Portal Solution(iKEP)
Operating Systems Overview
Google Analytics Seminar
Business Strategy & KMS in Financial Industry
Enterprise Data Warehouse
최 연식 ( ) EDMS를 활용한 EKP 구축 전략 2002년 09월 04일 성우시스템 주식회사 김 정훈 ( ) 최 연식 ( )
실시간 DW를 위한 엔터프라이즈 플랫폼 SYBASE KOREA October, 2010.
Korea University of Technology and Education Hongyeon Kim
교육팀 도경모 Big.
What is‘Big Data’? - 빅 데이터에 대한 전반적인 이해 네트워크 컴퓨팅 프로젝트 김충현
CRM에서의 Data Quality Management
생산관리 시스템 II 현대로템 직무능력 향상 교육 - 8주차
전사 기업관리 사이클 최적화를 통한 경영혁신과 전략적 수행방안
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
핵심서비스 무료제공을 통한 고객유치&만족의 중요성
하성희 복제 구축 예제 하성희
세일즈분석/분석CRM을 위한 데이터마이닝 활용방안
2009, 46th KLA General Conference
운영체제(Operating System)
정보 추출기술 (Data Mining Techniques ) : An Overview
DataScience Lab. 박사과정 김희찬 (목)
클라우드 기반 비즈니스 모델 개발 및 비즈니스 스마트화 전략
McGraw-Hill Technology Education
dECISION tree 모델의 갱신 시점 모니터링
소프트웨어 형상관리: 목차 변경 및 형상관리의 기초 개념 형상항목 확인 및 버전관리 변경관리 감사 및 감사보고 99_11
기획관점의 Checklist 빅데이터 기획의 고려사항
Biz Proposal [ ] business 귀하의 갈증을 풀어드립니다..
성공적인 웹사이트 구축 (2) 변화 발전하는 Site의 미래를 예측 반영해야 함.
Data Analytics for Healthcare
17. Spawning Information Agents on the Web
리더 코딩 스토리 디자인 박찬준 이근영 박동현 박나영
1. 데이터베이스 환경.
빅데이터 분석 다양한(Variety) 형태로 수집, 저장된 대용량(Volume)의 데이터들을
부사장 차 석 근 ㈜에이 시 에스 ( 스마트공장 및 데이터 분석 부사장 차 석 근 ㈜에이 시 에스 (
Eclipse를 이용한 Embedded Linux 응용 프로그램 개발
다국어 번역채팅 “헬로챗” 서비스 소개서 NOTICE : Proprietary and Confidential
Presentation transcript:

Big Data Analytics BK21+ Kick-off Meeting Jong Uk, Lee eastwest9@korea.ac.kr 2013. 10. 21

Section I) Data! Section Ⅱ) Big Data! Section Ⅲ) Big Data Technology Section Ⅳ) Big Data Use Case and Proposal Section Ⅴ) Conclusion

Section I) Data! Four “Takeoff” Technologies Smaller faster mobile devices “Cloud computing” Communication availability EVERYWHERE Turning data into information -“business intelligence”

Data “Data are becoming the new raw material of business: 1) Paradigm Shift Data Capital People “Data are becoming the new raw material of business: an economic input almost on a par with capital and labor.” -The Economist, 2010 “Data will separate the winners and losers in every single industry.” -IBM CEO Ginni Rometty, 2012

Predictive Asset Management: 2) Data Revolution Target Marketing: Diaper-Beer  25~35 years, first baby , last night, … Management by Data: New Criteria, New Algorithm to create new Value Predictive Asset Management: Reduce downtime to improve Productivity & save operation cost 머니볼: 빌리빈 단장이 경제학을 공부한 ‘피터’를 영입 머니볼 이론을 실제 야구에 도입, “오클랜드 애슬레틱스” 저비용-> 고효과

80 Vs. 20 Unstructured Data Sources Structured: RDMS, 3) Data Sources Social Networks Images Blogs Videos Data Sources Unstructured Chat Rooms Music Product Review Sites Sensors Web Pages Call Data Records Email Log Files Documents Machine Generated http://www.bicdata.com/bbs/board.php?bo_table=news_clipping&wr_id=186 Structured: RDMS, ERP/CRM, EDW,… 80 Vs. 20

4) Example of Data Production LHC(Large Hadron Collider): particle Accelerator 40 TB/s Boeing Jet Engine 10 TB/30min/Engine Operation Social Networks Facebook: 60~70TB/day LHC(Large Hadron Collider) 대형 강입자 충돌 가속기 1M 100만명 Walmart Transaction 1M customer Transactions/Hour, DB Size: 2.5PB (2013). Sensing as a service and big data

5) Big-bang of Data 2010년 제타 바이트 시대 진입 44배 2020년 35 ZB 데이터 빅뱅 2009년 0.8 ZB 2010년 1.2 ZB 2020년 35 ZB Sensor/M2 증가 Smart Mobil Device 증가 Multimedia Contents 증가 http://www.bicdata.com/bbs/board.php?bo_table=news_clipping&wr_id=186 Data Collection 증가 SNS 급격 확산 데이터 빅뱅 Trent Nouveau, 2010. Digital Data to Earth: You have run out of memory. http://www.tgdaily.com/hardware-features/49611-digital-data-to-earth-you-have-run-out-of-memory

Section Ⅱ) Big Data! Cox, M., & Ellsworth, E. 1997 “Application-controlled demand paging for out-of-core visualization” Proceedings of the 8th conference on Visualization ‘97. IEEE Computer Society Press Visualization provides an interesting challenge for computer systems: data sets are generally quite large, taxing the capacities of main memory, local disk, and even remote disk. We call this the problem of big data. When data sets do not fit in main memory (in core), or when they do not fit even on local disk, the most common solution is to acquire more resources.

현재 시스템으로 처리 가능한 범위를 넘어서는 데이터 1) Big Data 정의 현재 시스템으로 처리 가능한 범위를 넘어서는 데이터 규모적 정의 일반적인 데이터베이스 SW가 저장, 관리, 분석할 수 있는 범위를 초과하는 규모의 데이터 (Mckinsey, ‘11) 기술적 정의 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처(IDC, ‘11) 산업적 정의 디지털 공간의 폭발적으로 증대되는 無(비정형 데이터)에서 有(유효한 지식)를 생성하는 ‘빅 데이터’ 산업

Data와 과학기술의 변화에 따른 Data를 바라보는 관점! 2) 왜 Big Data인가? Data와 과학기술의 변화에 따른 Data를 바라보는 관점! [1세대 R&D] 경험적 관찰의 기록 자연 현상을 관찰하여 기록/분류/목록화하고 탐구하는 것이 과학기술 연구 [2세대 R&D] 데이터는 새로운 이론의 근간 데이터 관찰 결과를 바탕으로 데이터를 설명할 수 있는 이론을 도출 [3세대 R&D] 데이터로 가설/이론/현상을 증명 도출된 이론과 모델을 컴퓨터 시물레이션을 통해 입증 [4세대 R&D] 새로운 발견 방대한 데이터를 분석/융합하여 새로운 과학적 발견을 시도 Data-Intensive Science(DIS)의 본격화 Big Data를 분석할 수 있는 환경인가!

3) Big Data 접근법 사회현상 이해 과학적 패턴 빅데이터 발견 (통찰력) 데이터 마이닝 미래의 현상을 예측 비주얼 디자인

4) 왜 Big Data가 중요한가? 신속히 분석하여 새로운 통찰력을 얻음 [1] 활용되지 않던 데이터의 의미 있는 활용 이전에는 보이지 않던 또는 찾기 어려웠던 것을 찾을 수 있다 [2] 사실에 기반한 결정을 가능케 함 심증이 아닌 분석 결과를 활용 [3] 새로운 접근 전략, mind-set을 요구함 IT 기술의 활용을 재점검할 시기

Hype Cycle for Emerging Technologies, Gartner, 2013 5) 현재 Big Data에 대한 관심도 Hype Cycle for Emerging Technologies, Gartner, 2013 Peak of inflated expectations 관심도 폭증 Enlightenment 기술의 개화 시기 http://www.gartner.com/newsroom/id/2575515

Section Ⅲ) Big Data Technology

3V: Volume, Variety, Velocity(Complexity, Value) 1) Big Data 기술 특성 3V: Volume, Variety, Velocity(Complexity, Value) 규모(Volume): 대규모 분석 양의 변화가 질의 변화를 견인  규모 증가에 따른 분석/ 예측 정확성 향상 예) 자동번역: IBM(수백만) Vs. 구글(수억) 다양성(Variety): 복합 분석 다양한 데이터의 복합 분석  다양한 정보융합을 통한 새로운 가치 창출 예) CRM과 SNS의 결합(TESCO) 예) 고객정보, 위치정보, 모바일 결합(스타벅스+Placecast+O2) 속도(Velocity): 실시간 분석 유효한 분석/예측 결과를 적시에 제공하는 실시간 분석/예측 파이프라인 예)블랙아웃 없는 스마트 그리드(IBM/스페인)

2) Big Data 기술 배경 1) SW/ 컴퓨팅 기반 기술의 지속적 발전 고급분석, 복합분석 인공지능, 기계학습 데이터웨어 하우싱 및 마이닝 기술의 보편화 자연어처리, 인공지능 등 지능형 SW의 등장 컴퓨팅 지능 데이터 관리 SW 분산/병렬 처리 다양한 비정형 데이터 처리 기술(NoSQL) 등장 Hadoop, MapReduce 등 분산처리 기술 발전 CPU의 개수가 1개가 아닌 여러 개 장착됨 컴퓨팅 규모 클라우드 컴퓨팅 가상화 등 컴퓨팅 자원 활용 기술의 성숙 컴퓨팅 자원의 서비스화를 통한 비용 절감 컴퓨팅 성능 고성능 컴퓨팅 (시스템 SW) 무어의 법칙, 황의 법칙 등에 따른 컴퓨팅 성능 발전 리눅스 OS, 클러스터 시스템 등 시스템 SW 고도화

Knowledge acquisition step 3) Handling of Big Data Knowledge acquisition step 1단계 데이터 수집 분산 데이터 수집 정형, 비정형 데이터 2단계 데이터 저장, 관리 분산 데이터 저장 및 관리 3단계 데이터 처리, 분석 데이터 처리 통계, CEP 데이터 마이닝 4단계 지식 취득, 전달 인터페이스 시각화 데이터 통합

4) Data Mining in Big Data “데이터 마이닝” 의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정이다 Data Mining Methods Predictive(예측, 결정): Classification, Regression, Time Series Analysis, Prediction Descriptive(묘사): Clustering, Association Rules, Summarization, Sequence Discovery

5) Big data Open source platform JMS Queue Real-time Feeds Flat Files Hadoop Eco-system HDFS (Hadoop Distributed File System) Hadoop API Adapter HBase Hive Analytics 수집 저장 관리 처리 분석 표현 Data Mart Hbase BulkLoader Aged Data Java API Data Warehouse Operational Data Store HQL/ JCBC JCBC/ Sqoop Map/ Reduce

Section Ⅳ) Big Data Case Study http://www.briansolis.com/wp-content/uploads/2012/12/shutterstock_114480370.jpg

1) Big Data 활용 계획 빅데이터 분석, Saltlux, 2012

2) CASE STUDY: 해외 구축 사례 Manufacturing, Telecom, Finance, Service …

국내 기업 IT 환경에서 빅데이터 기술 적용 사례 소개, NEXR 3) CASE STUDY: 국내 사례 Korea Telecom: 가입자 분석 시스템 CDR: 상세통화내역 국내 기업 IT 환경에서 빅데이터 기술 적용 사례 소개, NEXR

Brain Korea 21 + Section Ⅴ) Conclusion 과학벨트에서 생성되는 대량의 데이터 (중이온 가속기) 를 대상으로 전송/처리/저장 및 분석과 관련된 소프트웨어플랫폼 및 알고리즘 관련 기술을 연구 개발 2017년 중이온가속도기 설치 완료 예정

LHC(Large Hadron Collider): particle Accelerator (강입자 가속기) Heavy Ion Accelerator 중이온 가속기란 ? 수소에서 우라늄까지 다양한 원소들을 높은 에너지로 가속시켜 다른 원자의 핵에 충돌시키는 과정 등을 통해 원자 이하 크기인 펨토 미터(1천조 분의 1미터) 세계를 연구하는 거대과학 장비이다. 희귀 동위원소를 생성하는 중이온가속기는 핵 과학(우주의 원소 및 별의 진화 규명, 핵 구조 및 핵력의 본질 규명, 핵 과학 이론연구), 원자 및 분자과학(정밀질량 측정 및 레이저 분광), 물성과학(물성의 화학적·전자기적 성질 규명), 의생명 과학(생체계의 생화학적 반응)등을 연구함으로써 다양한 기초과학 분야에 이용 및 응용될 수 있다. http://blackcherrying.tistory.com/236 LHC(Large Hadron Collider): particle Accelerator (강입자 가속기) 40 TB/s

IIS Lab, DCN, DB & M, SE, PA, NM, ESRC Lab. BK21+ 빅데이터: 각 연구실에서 어떻게 접근 할 것인가?

IIS Lab, DCN, DB & M, SE, PA, NM, ESRC Lab. 어떤 부분을 공략할 것인가! 1차: 모든 연구실 참여 – 플랫폼 설계 및 빅데이터 처리 환경 연구 및 구축. 2차: 개별 연구실에 맞는 부분에 대한 연구. ex) PA Lab. : 분산환경에서 속도 향상을 위한 병렬처리 3차: 실제 중이온 가속기가 구축되었을 때. ex) 실제 중이온 가속기에서 생성된 데이터 처리 및 분석 1단계 데이터 수집 분산 데이터 수집 정형, 비정형 데이터 2단계 데이터 저장, 관리 분산 데이터 저장 및 관리 3단계 데이터 처리, 분석 데이터 처리 통계, CEP 데이터 마이닝 4단계 지식 취득, 전달 인터페이스 시각화 데이터 통합

Reference - 빅데이터 동향과 전망, ETRI 황승구 - 빅데이터 그리고 과학기술 R&D, KISTI 성원경 - 빅 데이터 활용과 관련기술 고찰, 김정숙, 한국콘텐츠학회, no. 10, vol. 1, 2012. - 빅 데이터 연구 동향과 시사점, 최규헌, 정보통신산업진흥원, 주간기술동향, 2012. - 빅 데이터 기술과 주요 이슈, 안창원, 황승구, 정보과학회지, 2012. - 빅 데이터 어낼리틱스와 공공 데이터 활용, 이만재, 정보과학회지, 2012. - 공공분야에서의 빅 데이터 활용을 위한 지식자산(Knowledge) 구축, 이강용 외 4인, 정보과학회지, 2012. - 빅데이터 분석, Saltlux, 2012 - 빅데이터를 활용한 스마트 정부 구현(안), 이각범 - 국내 기업 IT 환경에서 빅데이터 기술 적용 사례 소개, 한재선, NEXR 2012. - 빅데이터 활용가치 및 국내외 적용사례 www.bicdata.com - 빅데이터로 진화하는 세상: Big Data 글로벌 선진사례, 한국정보화진흥원, 윤미영, 권정은, 2012 - http://www.gartner.com/ - Yang, J., Gu, Y., Bao, Y., & Yu, G. (2012). Scalable complex event processing on top of mapreduce. In Web Technologies and Applications (pp. 529-536). Springer Berlin Heidelberg. - Zaslavsky, A., Perera, C., & Georgakopoulos, D. (2013). Sensing as a service and big data. arXiv preprint arXiv:1301.0159.

감사합니다! Thank You!