Www.company.com WCL 이민학 Big Data & Hadoop. www.company.com.

Slides:



Advertisements
Similar presentations
㈜ 원어데이 상품기획팀 팀장 윤 호 영 ㈜ 원어데이 , 경기도 과천시 과천동 Tel ( 대표 ) ( 직통 ) Fax Mobile
Advertisements

이혁재 /KASA NoSQL. 요약 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머 NoSQL 소개 데이타베이스 관련 문서 대상 : 클라이언트 프로그래머.
물메초등학교 6 학년 홍민선. 1. 탐구 동기 2. 탐구 기간 및 탐구 목적 3. 가설설정 4. 이론적 배경 5. 탐구의 실제 6. 탐구 결과 7. 프로젝트 탐구를 마치며 8. 참고 문헌.
Big Data Chap 3. I. VBRE(Value-Based RE) II. Requirement Prioritization III. AHP(Analytical Hierarchy Process) IV. Requirement Negotiation Q & A.
빅데이터란 ? 1. 빅데이터에 관한 잘못된 상식 빅데이터는 용량과 규모가 매우 큰 데이터를 말한다. 2.
Big Data & Hadoop. 1. Data Type by Sectors Expected Value using Big Data.
경선추 Smart & Green Technology Innovator ‘ 분산 포렌식 인덱스 검색 기술 ’ 이란 수사의 대상이 되는 디지털 데이터에 대한 빠른 검색을 제공하기 위해 분산 처리 기법으로 인덱스를 생성해 두었다가 사용자 요청이 있을 경우, 인덱스에서.
Internet Multimedia solutions Internet Multimedia Solutions (Video Chatting) KLC21 ㈜ 본 제안서의 내용은 ㈜ KLC 에 저작권이 있습니다. 본 제안서는 내용이 구성이 잘된 제안서로서 제안서를.
음란물에 대하여. 인터넷 음란물의 의미 돈벌이를 위해 단지 성적 욕망을 불러 일으키기 위한 음란한 인터넷 상의 사 진, 동영상, 만화 등을 말한다.
Association Rule Sequential Pattern Classification Clustering Data Mining A B C D 2.
제주특별자치도 교육청 Messenger Manual
아이핑 소개 (탁구대회) 아이핑 담당 신동일 네이버(다음)에서 아이핑검색 아이핑 소개 (탁구대회) 담당 신동일 아이핑.
Social Network service
빛을 가장 잘 받는 색깔은? 물메초등학교 6학년 홍민선.
任員 在·不在 案內 시스템.
빅 데이터 전략 연구실 소개 허순영 교수 KAIST 정보미디어 경영대학원 (서울시 동대문구 홍릉 소재) May 10, 2013
일 시 : (목) 장 소 : 1층 도서관 대 상 : 3학년 4반 (36명) 지도교사 : 박 병 진
컴퓨터공학과 김소원.
Hive. Part of Hadoop Ecosystems MapReduce Runtime (Dist. Programming Framework) Hadoop Distributed File System (HDFS) Zookeeper (Coordination) Hbase (Column.
HDFS Tutorial.
1. PC 에서 회원가입 1. 회원가입 버튼 클릭 클릭.
블로그 활용 현황 학과 : 영어영문학과 학번 : 이름 : 정경업
Hadoop 동작방식(F5를 눌로 슬라이드쇼로 볼 것!!)
빅데이터 분산 처리 시스템 충북대학교 정보통신공학부 복경수
빅데이터 분석 과정.
Big Data Analytics BK21+ Kick-off Meeting
빅데이터 순환 과정과 플랫폼.
BIG Data 컴퓨터응용과학부 박진완.
Distributed Computing (Apache Hadoop & Hive Review)
Apache Hive 빅데이터 분산 컴퓨팅 박영택.
빅데이터 분석을 위한 통계 프로그래밍 R 오 승 근
Korea University of Technology and Education Hongyeon Kim
교육팀 도경모 Big.
Internet Multimedia Solutions (Video Chatting)
What is‘Big Data’? - 빅 데이터에 대한 전반적인 이해 네트워크 컴퓨팅 프로젝트 김충현
개선된 ATMSim을 이용한 DDoS 공격 분석
Hadoop 김연왕
Hadoop 김연왕
게임에서 공공까지, 국내 실 사례들로 본 빅데이터 융합 분석
Operating System System Program OS의 목적 OS의 종류 Application Program과 구별
HDFS와 대용량 데이터 처리 콘텐츠서비스연구팀 최완.
하둡 기반 빅데이터 처리 방법.
인공 지능 시대에 필요한 인재 행복한 미래를 만드는 기술자 김송호.
초등학생이 pc방을 가도 되는가? 등마 초등학교 5학년 4반 김근아.
“정보의 표현” 이 점 숙 컴퓨터와 인터넷 “정보의 표현” 이 점 숙
“소프트웨어의 표현” 이 점 숙 컴퓨터와 소프트웨어 “소프트웨어의 표현” 이 점 숙
스마트폰 입문과 활용 강사 : 정 훈 희 STEP 2. SNS(Social Network Service) - 페이스북
DataScience Lab. 박사과정 김희찬 (목)
모두가 행복한 교육, 미래를 여는 창의인재 2015 개정교육과정 서울숭인초등학교 교사 이소정.
분산 파일 시스템의 구조 GFS 와 CEPH SW공학센터 융합SW공학팀 장원석 책임 연구원
■ 화성공장 산학인턴 버스 노선 확인 안내 문의 전화 : 안내페이지 접속 1
비식별 정보의 활용 현황과 가치창출을 위한 선결과제 한국은행 전자금융포럼 2016,10.17(월) 이효찬 실장 / 소장대행.
네트워크 설정 방법 (측정값데이터수집설정)
미래의 커뮤니케이션 기술과 이 기술이 인간에 미치는 영향
의학도서관 기록물 보존 사업 원내 로 대용량 파일 첨부방법
Challenging Issues 다양한 형태로 흩어져 있는 데이터를 어떻게 모으고 관리할 것 인가?
Data Analytics for Healthcare
Digital Signage Leader
의사결정지원시스템 6조 오나연 송혜정 신은수 오경석
Advanced Data Analytics 데이터분석 전문가
리더 코딩 스토리 디자인 박찬준 이근영 박동현 박나영
지역사회복지론 지역사회복지 실천 가치 강 우 수 명 더불어 숲 - 복지의 큰 숲을 만들어 갑니다.
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
포이에마장애인보호작업장 시설소개서.
100세 시대, 스마트 헬스케어와 미래직업 (3) 고령화 사회에 필요한 웨어러블.
유예 X-FILE *조사자* 1301권희원 1315이예지 1317장아정 1322홍자현.
제3의 미디어, SNS의 힘! 경영학부 권예슬.
코딩교육, 어떻게 해야 할까 이천양정여자고등학교 김가연 안선영.
2장. 데이터베이스 관리 시스템 데이터베이스 관리 시스템의 등장 배경 데이터베이스 관리 시스템의 정의
각 나라의 독특한 성인식 문화 1512 하은지.
Presentation transcript:

WCL 이민학 Big Data & Hadoop

Big Data? 일종의 데이터베이스 관리도구 비정형 데이터의 집합에서 가치를 추출하고 결과 를 분석하는 기술 다변화된 현대 사회를 정확하게 예측하고, 사회 구성원마다 요구하는 맞춤형 정보를 제공하는 것 이 목표 병렬 처리 2012 년 세계 10 대 기술 중 첫 번째로 선정 대한민국에서도 IT 10 대 핵심기술 중 하나로 선정

등장 배경 디지털 세계의 확장 –2006 년 0.18ZB  2011 년 1.8ZB – 뉴욕 증권 거래소는 하루에 1TB 의 거래가 생성 – 페이스북은 대략 15 억 개 이상의 사진을 보유 – 제네바 입자 가속기는 연간 15PB 의 데이터 생산 개인이 생산하는 데이터의 증가 – 일상생활 ( 전화, 이메일, 문서, 사진등 ) – 생체 데이터의 실시간 데이터화 거의 모든 아날로그 데이터의 디지털화

등장배경

등장 배경 데이터의 양은 기하급수적으로 늘어났지만 처리 속도는 ? – 하드디스크의 모든 데이터를 읽어 들이는데 1990 년대 에는 5 분이 걸렸으나 지금은 2 시간 반이 넘게 걸린다. 병렬 분산 처리 –2 시간 반이 걸리는 데이터 양을 100 개의 드라이브에 분 산시켜서 병렬 처리 한다면 2 분 내에 모든 데이터를 읽 을 수 있다. 이처럼 방대한 양의 데이터를 분산시켜 병렬로 처 리 하는 것이 빅 데이터의 근본적인 기술

사용 사례 2008 미국 대선 아마존닷컴 추천 상품 표시 MLB 의 머니볼 이론, 데이터 야구 생물 정보학 의료 비용 절감 구글 번역

분석 기술 Text Mining Opinion Mining Social Network Analysis Community Analysis Etc 대규모의 정형 / 비정형 데이터를 처리하는 분석 인 프라로 Hadoop 등을 사용한다.

표현 기술 빅 데이터의 분석 기술을 통하여 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 프로그 래밍 언어로는 ‘R’ 이 있다.

전망

hadoop? 대용량 데이터를 분산 처리할 수 있는 자바 기반 의 오픈소스 프레임워크 HDFS + MapReduce –HDFS(Hadoop Distributed File System) 고가의 서버장비 대신 웹서버를 운영할 수 있는 저사양의 PC 들로 구성이 가능

hadoop 장점 기존 대용량 데이터를 처리 하기 위해서는 고가의 서버 장비를 사용 하였지만 저사양 PC 들로 구성 이 가능하여 비용을 획기적으로 줄일 수 있다. 오픈소스 프레임워크로 라이선스 비용을 지불하 지 않는다. 데이터의 복제본을 함께 저장하여 복구가 가능 저장 용량이 부족한 경우 필요한 만큼의 리눅스서 버를 추가하면 된다.

hadoop 단점 파일 네임스페이스 제한 – 네임노드가 관리하는 메타정보는 저장기기가 아닌 메모 리로 관리되기 때문에 HDFS 에 저장하는 파일과 디렉토 리 수에 제한을 받는다. 데이터 수정이 어렵다 –Hadoop 의 목적상 대용량의 데이터를 읽어와서 재배치 하거나 특정한 정보를 추출 하는 것이다 보니 파일을 읽 는 것에 초첨을 두었고, 수정과 쓰는 것은 점차 발전하고 있다. 별도의 명령어를 습득 해야 한다. 전문 업체의 부족

HDFS 의 구조

HDFS 의 구조

MapReduce

MapReduce 장점 단점 단순하고 사용이 편리 특정 데이터모델이나 스키마, 질의에 의존적 이지 않은 유연성 저장 구조의 독립성 데이터복제에 기반한 내구성과 재수행을 통 한 내고장성 확보 높은 확장성 고정된 단일 데이터 흐 름 기존 DBMS 보다 불편 한 스키마, 질의 단순한 스케줄링 DBMS 와 비교하여 상 대적으로 낮은 성능 개발도구의 불편함과 기술지원의 어려움

Hive

관련 어플리케이션

전체 구조

전체 구조