데이터 종류와 전처리 (Data Types and Preprocessing)

Slides:



Advertisements
Similar presentations
6 장. printf 와 scanf 함수에 대한 고찰 printf 함수 이야기 printf 는 문자열을 출력하는 함수이다. – 예제 printf1.c 참조 printf 는 특수 문자 출력이 가능하다. 특수 문자의 미 \a 경고음 소리 발생 \b 백스페이스 (backspace)
Advertisements

문자코드 1 박 2 일 (4 조 ) 이경도 이준집 이수연 엄태규. 문자코드란 ? 문자나 기호를 컴퓨터로 다루기 위하여, 문자나 기호 하나하나에 할당 시키는 고유의 숫자를 말하는 것이다.
Lecture Notes for Chapter 2
김태원 심재일 김상래 강신택. 김태원 심재일 김상래 강신택 인터넷 통신망의 정보를 제공하는 서비스 인터넷의 자원 및 정보는 NIC가 관리 IP주소 또는 도메인으로 정보 검색 이용자 및 통신망 관한 정보를 제공.
(Classification – Advanced Techniques)
연관분석 (Association).
Entity Relationship Diagram
제 9 장 구조체와 공용체.
10장 랜덤 디지털 신호처리 1.
Learning Classifier using DNA Bagging
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 12. 포인터의 이해.
5장. 참조 타입.
디지털영상처리 및 실습 대구보건대학 방사선과.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
SqlParameter 클래스 선문 비트 18기 발표자 : 박성한.
컴퓨터 프로그래밍 기초 #02 : printf(), scanf()
멀티미디어 시스템 (아날로그 이미지,신호를 디지털로 변환 방법) 이름 : 김대진 학번 :
6장. printf와 scanf 함수에 대한 고찰
상관함수 correlation function
프로그래밍 랩 – 7주 리스트.
공학컴퓨터프로그래밍 Python 염익준 교수.
11장. 1차원 배열.
C#.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
1.4 중첩된 한정기호 (Nested Quantifiers) 이산수학 (Discrete Mathematics)
Method & library.
자바 5.0 프로그래밍.
프로그래밍 개요
Chap 6.Assembler 유건우.
자료구조: CHAP 7 트리 –review 순천향대학교 컴퓨터공학과 하 상 호.
27장. 모듈화 프로그래밍.
Java의 정석 제 5 장 배 열 Java 정석 남궁성 강의 의
ER-관계 사상에 의한 관계 데이터베이스 설계
Lesson 2. 기본 데이터형.
(Data Exploration & Analysis)
데이터 탐색 (Data Exploration) 2014년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Chapter6 : JVM과 메모리 6.1 JVM의 구조와 메모리 모델 6.2 프로그램 실행과 메모리 6.3 객체생성과 메모리
15장 컬렉션 프레임워크 Section 1 컬렉션 프레임워크의 개요 Section 2 리스트 Section 3 셋
USN(Ubiquitous Sensor Network)
4 장 신호(Signals) 4.1 아날로그와 디지털(Analog and Digital)
컴퓨터 프로그래밍 기초 - 10th : 포인터 및 구조체 -
20장. 객체지향 프로그래밍 01_ 객체지향 프로그래밍의 시작.
이산수학(Discrete Mathematics)  명제의 동치 (Propositional Equivalence)
데이터 마이닝 - 강의 개요 년 가을학기 강원대학교 컴퓨터과학전공 문양세.
Clustering Algorithm KUT Youn-Hee Han.
Choi Seong Yun 컴퓨터 프로그래밍 기초 #03 : 변수와 자료형 Choi Seong Yun
CHAP 21. 전화, SMS, 주소록.
Web & Internet [01] 인터넷 기술의 개요
Word2Vec.
Part 2 개념적 데이터 모델 Copyright © 2006 by Ehan Publishing Co. All rights reserved.
멀티미디어시스템 제 5 장. 멀티미디어 데이터베이스 개념 IT응용시스템공학과 김 형 진 교수.
발표자 : 이지연 Programming Systems Lab.
9 브라우저 객체 모델.
ER-관계 사상에 의한 관계데이터베이스 설계 충북대학교 구조시스템공학과 시스템공학연구실
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
텍스트 분석 ㈜ 퀀트랩.
이산수학(Discrete Mathematics)  술어와 한정기호 (Predicates and Quantifiers)
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
I. 수와 식 1. 유리수와 순환소수.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
07. DB 설계 명지대학교 ICT 융합대학 김정호.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 행렬과 배열 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
Chapter 2: Intro to Relational Model
ER-관계 사상에 의한 관계 데이터베이스 설계
Introduction to Wavelets - G.E. Peckham
 6장. SQL 쿼리.
(Permutations and Combinations)
7 생성자 함수.
6 객체.
Presentation transcript:

데이터 종류와 전처리 (Data Types and Preprocessing) 2016년 가을학기 강원대학교 컴퓨터과학전공 문양세

강의 내용 데이터(Data) 데이터 타입 데이터 품질과 전처리 유사도와 거리

데이터란 무엇인가? 데이터(Data) 데이터 집합이란? 속성들(attributes) 로 구성된 데이터 객체들(data objects)의 모임 (Collection of data objects and their attributes) 객체는 레코드, 점, 엔티티, 인스턴스 등으로 불리기도 함 속성은 변수(variable), 필드, 특성, 특징 등으로 불리기도 함 속성이란? 어떤 객체의 성질/특징(property or characteristic)을 나타냄 속성의 예: 사람의 경우 이름, 눈 색깔 등, 나라의 경우 언어, 종교, 평균 기온 등 Attributes Objects

이산 및 연속 속성 이산 속성 (Discrete Attribute) 연속 속성 (Continuous Attribute) 데이터(Data) 이산 속성 (Discrete Attribute) 셀 수 있는 값들의 유한 또는 무한 집합 예: 우편번호, 카운트, 문서 집합에 포함된 단어들의 집합 주로 정수 변수로 표현함 이진 속성(binary attribute)은 이산 속성의 특수한 형태임 연속 속성 (Continuous Attribute) 속성 값으로 실수를 가짐 예: 온도, 키, 무게 연속 속성은 일반적으로 부동소숫점 변수로 표현됨 (그러나, 엄밀하게 말해서 부동소수점 변수도 이산 속성임)

데이터 집합의 타입 (Types of Data Sets) 레코드 기반 데이터 데이터 행렬 (Data Matrix) 문서 데이터 (Document Data) 트랜잭션 데이터 (Transaction Data) 그래프 기반 데이터 World Wide Web Molecular Structures 서열형 데이터 (Ordered Data) 공간 데이터 (Spatial Data) 시간 데이터 (Temporal Data) 순차 데이터 (Sequential Data) 유전자 시퀀스 데이터 (Genetic Sequence Data)

레코드 데이터 데이터(Data) 레코드들의 모임으로 구성된 데이터를 의미하며, 각 레코드는 고정된 수의 속성들로 구성되어 있다. (Data that consists of a collection of records, each of which consists of a fixed set of attributes.)

데이터 행렬 (Data Matrix) 데이터(Data) 고정된 수의 수치 속성들로 구성된 경우, 하나의 객체(레코드)는 다차원 공간의 하나의 점으로 볼 수 있다. 이 같은 데이터는 m x n 행렬로 표현되며, m개의 행(row)은 각각 객체를, n개의 열(column)은 각각 속성을 나타낸다.

문서 데이터 (Document Data) 각 문서는 용어 벡터(term vector)로 표현할 수 있다. 각 용어는 벡터의 컴포넌트(혹은 속성)에 해당한다. 각 컴포넌트의 값은 해당 용어가 문서에 몇 번 나타났는지의 숫자에 해당한다.

트랜잭션 데이터 (Transaction Data) 특별한 타입의 레코드로서, 각 레코드(트랜잭션)는 아이템들의 집합이다. 연관규칙 분석에서는 장바구니 데이터(market basket data)로 불린다. 예: 식품점에서 한 명의 고객이 한 번에 구매한 제품들의 목록

그래프 데이터 (Graph Data) (1/3) Graph G = (V, E) V = 정점(노드)의 집합 (set of vertices, set of nodes) E = 에지(아크, 링크)의 집합 (set of edges, set of arcs, set of links)

그래프 데이터 (Graph Data) (2/3) HTML 문서 집합  그래프 표현 가능

그래프 데이터 (Graph Data) (3/3) 화합물 데이터 (Chemical Data) 소셜 네트워크 데이터

서열(순서) 데이터 (Ordered Data) (1/4) 트랜잭션들의 시퀀스 (sequences of transactions)

서열(순서) 데이터 (Ordered Data) (2/4) 유전자 시퀀스 (genome sequences)

서열(순서) 데이터 (Ordered Data) (3/4) 시계열 데이터 (time-series data)

서열(순서) 데이터 (Ordered Data) (4/4) 시공간 데이터 (Spatio-Temporal Data)

강의 내용 데이터(Data) 데이터 타입 데이터 품질과 전처리 유사도와 거리

데이터 품질 문제 노이즈 (noise) 이상치 (outliers) 누락 값 (missing values) 데이터(Data) 노이즈 (noise) 이상치 (outliers) 누락 값 (missing values) 중복 데이터 (duplicate data)

노이즈 (잡음) 데이터(Data) 노이즈는 원본 값을 변경시키는 것을 의미한다. (Noise refers to modification of original values.) 노이즈 예: 음성의 왜곡, TV스크린의 흔들림

이상치 (Outliers) 데이터(Data) 데이터 집합 내의 다른 객체들과는 (상당히, considerably) 다른 특징을 갖는 객체를 의미한다.

누락 값 (Missing Values) 누락 값이 발생하는 원인 누락 값의 처리 데이터(Data) 누락 값이 발생하는 원인 정보 수집이 이뤄지지 않음 (예: 신체 검사에서 어떤 사람이 몸무게 측정을 거부함) 일부 속성이 모든 경우에 적용되지 않음 (예: 연소득 속성은 아이들에게 적용되지 못함) 누락 값의 처리 해당 데이터 객체를 제거한다. 누락 값을 추정한다. (회귀분석 등을 통해 값을 추정하여 이용한다.) 분석 과정에서 누락 값은 무시한다. 모든 가능한 값으로 대치한다.

중복 데이터 (Duplicate Data) 데이터 집합은 중복되거나 거의 중복된 데이터 객체를 포함할 수 있다. (Data set may include data objects that are duplicates, or almost duplicates of one another.) 특히, 이종의 출처(heterogeneous sources)로 부터 데이터를 수집할 때 주로 발생하는 이슈이다. 예: 한 사람이 복수의 이메일 주소를 가지는 경우 데이터 정제 (data cleaning) 중복 데이터 문제를 다루는 과정을 의미한다.

데이터 전처리(Data Preprocessing)의 종류 집계 (aggregation) 샘플링 (sampling) 차원 축소 (dimensionality reduction) 특징 선택 vs. 특징 추출 (feature selection vs. feature extraction) ...

강의 내용 데이터(Data) 데이터 타입 데이터 품질과 전처리 유사도와 거리

유사도와 비유사도 유사도(Similarity) 비유사도(Dissimilarity) 데이터(Data) 유사도(Similarity) 두 객체가 얼마나 닮았는지를 나타내는 수치(측정) 값 두 객체의 닮은 정도가 높을수록 높은 유사도를 가짐 비유사도(Dissimilarity) 두 객체가 얼마나 다른지를 나타내는 수치(측정) 값 두 객체의 닮은 정도가 높을수록 낮은 비유사도를 가짐

단순 속성에 대한 유사도/비유사도 데이터(Data)

유클리디안(Euclidean) 거리 유클리디안 거리의 정의 n = number of dimensions (attributes) 데이터(Data) 유클리디안 거리의 정의 n = number of dimensions (attributes) pk, qk = value of the k-th dimension

코사인 유사도 (Cosine Similarity) 데이터(Data)

상관관계 (Correlation) 상관관계는 두 객체간의 선형 관계(linear relationship)을 나타낸다. 데이터(Data) 상관관계는 두 객체간의 선형 관계(linear relationship)을 나타낸다. 상관관계는 (1) 데이터를 정규화한 후, (2) 내적으로 구한다.

상관관계의 시각화 데이터(Data)

강의 내용 데이터(Data) 데이터 타입 데이터 품질과 전처리 유사도와 거리