비정형 데이터분석 유재명.

Slides:



Advertisements
Similar presentations
CI(Continuous Integration) 이학성. C ontinuous I ntegration? 2 지속적으로 품질관리 를 적용하는 과정 개발자가 기존 코드의 수정 작업 을 시작할 때, 코드 베이스의복사본을 받아서 작업을 시작하면서 코드의 변경.
Advertisements

빅 데이터의 정의와 특징 빅 데이터의 이용사례 빅 데이터의 문제점 or 한계점 빅 데이터의 전망.
R 프로그래밍 담당교수명 : 서 영 민 연 락 처 :
Mining the by Graph API. 1. 페이스북 소셜 그래프와 Graph API, OGP 2. 페이스북 페이지와 친구들에서 좋아요 분석하기 3. 소셜 그래프 분석을 위한 결속집단 분석 4. 소셜 그래프 시각화.
문자코드 1 박 2 일 (4 조 ) 이경도 이준집 이수연 엄태규. 문자코드란 ? 문자나 기호를 컴퓨터로 다루기 위하여, 문자나 기호 하나하나에 할당 시키는 고유의 숫자를 말하는 것이다.
각종 광고물로 지저분한 거리 삼청동 간판 정비 간판 공모전 수상 작품들.
평생학습 운영안내 부산광역시립 구포도서관 글꼴 : HY견고딕, 그림자(S) 배경: 그라데이션(기본설정색-가로)
‘비유와 상징’ 학습조 현장답사 -답사일: 인원: 지나라, 정지온, 한민수
초등용 빛으로 노래해요.
Learning+ 공모전 우수 PPT 템플릿 수상작.
컴퓨터와 인터넷.
Deep Learning.
Deep Learning.
네트워크 기술을 통한 현재와 미래 소개.
Ⅰ. 클라이언트 스크립트 Ⅱ. 서버 스크립트 그렇다면 프로그래밍 언어를 수행하는 컴퓨터의 개념적인 구조를 살펴 본다면, 프로그래밍 언어가 무엇인지 이해하는데 도움이 될 것입니다. 현재 컴퓨터 구조의 모태가 되고 있는 폰 노이만 구조는 그림에서 보는 것과 같이, 명령어와.
컴퓨터의 응용-검색엔진 <컴퓨터의 응용> 교수명: 용환승 공학부, 이한아
인터넷 서비스.
MS-Access의 개요 1강 MOS Access 2003 CORE 학습내용 액세스 응용 프로그램은 유용한 데이터를
1장. 이것이 C 언어다.. 1장. 이것이 C 언어다. 프로그래밍 언어 1-1 C 언어의 개론적 이야기 한글, 엑셀, 게임 등의 프로그램을 만들 때 사용하는 언어 ‘컴퓨터 프로그래머’라는 사람들이 제작 C 언어(C++ 포함)를 가장 많이 사용함.
웹 서버 동작 HTTP 클라이언트가 서버와 대화하는 방법과 데이터를 서버에서 클라이언트로 전송 하는 방법을 정의한 프로토콜
WJ543 인공지능 2003년도 제 2학기.
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
7. 프레젠테이션 제품 소개나 홍보 등을 보다 효율적으로 하기 위하여 Presentation Software를 사용하고 있다.
MICE IT 프로젝트 2011년 1학기.
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
고급 웹 개발 응용 프로젝트 2010년 1학기.
홈페이지용 그림 활용법 그림 삽입 태그 <IMG> 배경 그림 다루기 그림과 문자열의 어울림
KeyNote Blur Template By BlancStar.
멀티미디어.
11장. 1차원 배열.
제 1장. 멀티미디어 시스템 개요.
소프트컴퓨팅 연구실 소개자료 . 소프트컴퓨팅연구실 조성배.
집단지성(Collective Intelligence)
이런 직업도 있어요^^ 빅데이터분석전문가 Q : 어떤 일을 하는 직업인가요?
빅데이터 연구회 6주차 발표 주제 : 서포트 벡터 머신 통계학과 서태석.
강의 개요. 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
인터넷 따라 하기 ◆ 인터넷 시작 하기 ◆ 인터넷 끝내기 ◆ 홈페이지 방문 및 정보검색 ◆ 전자우편( ) 가입
문자 인식 개요 NR-LAB 강 동 구.
Excel 일차 강사 : 박영민.
인문학 동영상 강의 사용자 매뉴얼 (PC & Mobile).
자바 5.0 프로그래밍.
MovieStory 작성자 홍성혁 소속 전자전기컴퓨터공학부 학번
데이터마이닝, 빅데이터, 데이터과학: 정의 데이터마이닝(data mining)
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
KTH R​ 교육 주식회사 퀀트랩.
텍스트 분석 기초.
네트워크 환경 구축과 이미지 전송 호스트/타겟 통신 직렬 통신을 이용한 이미지 전송 수퍼 데몬 BOOTP 환경 구축
XML (eXtensible Markup Language) 개요
네트워크 프로그래밍 (모바일 주문 프로그램 )
Chapter 1 단위, 물리량, 벡터.
Word2Vec.
Word Embedding.
Support Vector Machine
Chapter 1 단위, 물리량, 벡터.
.Net Web Application 2007 컴퓨터공학실험(Ⅰ)
1. 비정형 데이터마이닝의 이해.
사회과 서술형 평가 문항 자료집 -중학교 일반사회 영역 -.
텍스트 분석 ㈜ 퀀트랩.
8장 선택 논리 II 1. 논리연산자 1.1 논리연산자 : AND (&&) 1.2 논리연산자 : OR (||)
1. 정보 과학과 정보 사회 1-1. 정보 과학 기술의 역사.
수치해석 ch3 환경공학과 김지숙.
1장 C 언어의 개요 C 언어의 역사와 기원 C 언어의 특징 프로그램 과정 C 프로그램 구조 C 프로그램 예제.
학부 컴퓨터공학부 교육과정 (학부) 2학년 4학년 3학년 1학년 1학기 2학기 IPP 자격과정 전공트랙
1. 강의 소개 컴퓨팅적 사고와 문제해결.
WISE OLAP.
 6장. SQL 쿼리.
컴퓨터는 어떻게 덧셈, 뺄셈을 할까? 2011년 10월 5일 정동욱.
학부생 연구원 및 대학원생 모집 DataBio 연구실 (윤영미 교수님) 연구실 소개 연구 과제 모집 대상 혜택 모집 기간
오늘의 강의 제목을 입력하세요 소 속 : 인문대학 국어국문학과 이 름 : 홍길동 교수 1.
Latent Semantic Analysis
Presentation transcript:

비정형 데이터분석 유재명

비정형 데이터 정형(structured) - 주로 표 형태의 데이터 비정형(unstructred) - 자연어, 이미지 등 표 형태가 아닌 데이터 대부분의 데이터는 비정형

왜 비정형 데이터 분석인가? 최근 많은 컴퓨터 과학 논문은 정식 출판 전 arXiv에 게재 주 5일 하루 10편씩 읽으면 월 100편의 논문을 읽을 수 있음. arXiv에 월 게재되는 논문은 10,000여편. (100배!) 방대한 비정형 데이터를 분석하여 가치있는 정보를 추출할 수 있다면 많은 가치가 있음

텍스트 분석

단어 빈도 분석 단어-문서 행렬을 바탕으로 단어 빈도의 총 합계를 구하거나 시간에 따른 빈도의 변화를 구하는 것

단어 빈도 분석 출처: 뉴욕타임즈

의미망 분석 두 단어가 함께 나오는 관계를 나타내는 것 많이 나오는 단어는 크게, 적게 나오는 단어는 작게 원으로 그림 두 단어가 함께 나오는 경향이 있을 수록 굵은 선으로 그림 굵은 선으로 연결된 단어일 수록 가깝게 배치

의미망 분석 출처: 한겨레21

의미망 분석

의미망 분석

의미망 분석

감정 분석 텍스트에 나타난 감정을 긍정/부정으로 분석하는 것 감정 사전 또는 기계학습 사용 감정 사전: 감정을 나타내는 단어 모음 기계 학습: 텍스트의 감정을 사람이 판정  컴퓨터가 학습 기계학습으로 감정사전을 만들 수도 있음

부모-자녀 관계 감정 사전

곡성 감정 사전

곡성 감정 사전

곡성 감정 사전 긍정 부정 현혹 꿀잼 한국 완전 대박 소름 상영 오랜만 최악 쓰레기 별로 실망 진심 노잼 스트레스 평론가

감정 분석 + 주제 분류: BestBuy

감정 분석 + 주제 분류: BestBuy

감정 분석 + 주제 분류: BestBuy

VIBE

진저

다면평가 분석 다면평가 시 주관식 서술 문항  점수 반영 안됨 감정 분석을 통해 점수화 직급/직무에 맞지 않는 서술 발견

의미 해석 Semantic Parsing 자연어 문장을 논리식, 프로그램 코드 등으로 변환

ifttt http://ifttt.com

의미 해석: ifttt 마이크로소프트의 연구

빅데이터 인문학 빅데이터 인문학: 진격의 서막 에레즈 에이든, 장바티스트 미셸 공저 사계절 2015년 구글 n그램을 이용한 연구 사례 교양서로 읽어볼만

빅데이터 인문학 음식의 언어 댄 주라프스키 어크로스 2015년 음식과 관련된 텍스트 분석 사례 교양서로 읽어볼만

이미지 분석

문자 인식 손글씨 인식(손글씨 이미지  글자) MNIST 숫자 손글씨 데이터 딥러닝 오류율: 0.21% (인간 수준)

물체 인식 물체 인식(물체 이미지  물체 종류) CIFAR10 물체 이미지 데이터 딥러닝 오류율: 3.47%

물체 탐지 https://www.youtube.com/watch?v=VOC3huqHrss

시맨틱 세그멘테이션 semantic segmantation

Colorization

Colorization

SNS 소셜 미디어에 올라온 사진에서 브랜드 인식

위성 사진 segmentation 위성 사진의 물체를 구별

멸종 위기종 탐지

헬스케어

패션 옷을 사진으로 찍으면 쇼핑몰 구매 링크를 제시