데이터 종류와 전처리 (Data Types and Preprocessing) 2016년 가을학기 강원대학교 컴퓨터과학전공 문양세
강의 내용 데이터(Data) 데이터 타입 데이터 품질과 전처리 유사도와 거리
데이터란 무엇인가? 데이터(Data) 데이터 집합이란? 속성들(attributes) 로 구성된 데이터 객체들(data objects)의 모임 (Collection of data objects and their attributes) 객체는 레코드, 점, 엔티티, 인스턴스 등으로 불리기도 함 속성은 변수(variable), 필드, 특성, 특징 등으로 불리기도 함 속성이란? 어떤 객체의 성질/특징(property or characteristic)을 나타냄 속성의 예: 사람의 경우 이름, 눈 색깔 등, 나라의 경우 언어, 종교, 평균 기온 등 Attributes Objects
이산 및 연속 속성 이산 속성 (Discrete Attribute) 연속 속성 (Continuous Attribute) 데이터(Data) 이산 속성 (Discrete Attribute) 셀 수 있는 값들의 유한 또는 무한 집합 예: 우편번호, 카운트, 문서 집합에 포함된 단어들의 집합 주로 정수 변수로 표현함 이진 속성(binary attribute)은 이산 속성의 특수한 형태임 연속 속성 (Continuous Attribute) 속성 값으로 실수를 가짐 예: 온도, 키, 무게 연속 속성은 일반적으로 부동소숫점 변수로 표현됨 (그러나, 엄밀하게 말해서 부동소수점 변수도 이산 속성임)
데이터 집합의 타입 (Types of Data Sets) 레코드 기반 데이터 데이터 행렬 (Data Matrix) 문서 데이터 (Document Data) 트랜잭션 데이터 (Transaction Data) 그래프 기반 데이터 World Wide Web Molecular Structures 서열형 데이터 (Ordered Data) 공간 데이터 (Spatial Data) 시간 데이터 (Temporal Data) 순차 데이터 (Sequential Data) 유전자 시퀀스 데이터 (Genetic Sequence Data)
레코드 데이터 데이터(Data) 레코드들의 모임으로 구성된 데이터를 의미하며, 각 레코드는 고정된 수의 속성들로 구성되어 있다. (Data that consists of a collection of records, each of which consists of a fixed set of attributes.)
데이터 행렬 (Data Matrix) 데이터(Data) 고정된 수의 수치 속성들로 구성된 경우, 하나의 객체(레코드)는 다차원 공간의 하나의 점으로 볼 수 있다. 이 같은 데이터는 m x n 행렬로 표현되며, m개의 행(row)은 각각 객체를, n개의 열(column)은 각각 속성을 나타낸다.
문서 데이터 (Document Data) 각 문서는 용어 벡터(term vector)로 표현할 수 있다. 각 용어는 벡터의 컴포넌트(혹은 속성)에 해당한다. 각 컴포넌트의 값은 해당 용어가 문서에 몇 번 나타났는지의 숫자에 해당한다.
트랜잭션 데이터 (Transaction Data) 특별한 타입의 레코드로서, 각 레코드(트랜잭션)는 아이템들의 집합이다. 연관규칙 분석에서는 장바구니 데이터(market basket data)로 불린다. 예: 식품점에서 한 명의 고객이 한 번에 구매한 제품들의 목록
그래프 데이터 (Graph Data) (1/3) Graph G = (V, E) V = 정점(노드)의 집합 (set of vertices, set of nodes) E = 에지(아크, 링크)의 집합 (set of edges, set of arcs, set of links)
그래프 데이터 (Graph Data) (2/3) HTML 문서 집합 그래프 표현 가능
그래프 데이터 (Graph Data) (3/3) 화합물 데이터 (Chemical Data) 소셜 네트워크 데이터
서열(순서) 데이터 (Ordered Data) (1/4) 트랜잭션들의 시퀀스 (sequences of transactions)
서열(순서) 데이터 (Ordered Data) (2/4) 유전자 시퀀스 (genome sequences)
서열(순서) 데이터 (Ordered Data) (3/4) 시계열 데이터 (time-series data)
서열(순서) 데이터 (Ordered Data) (4/4) 시공간 데이터 (Spatio-Temporal Data)
강의 내용 데이터(Data) 데이터 타입 데이터 품질과 전처리 유사도와 거리
데이터 품질 문제 노이즈 (noise) 이상치 (outliers) 누락 값 (missing values) 데이터(Data) 노이즈 (noise) 이상치 (outliers) 누락 값 (missing values) 중복 데이터 (duplicate data)
노이즈 (잡음) 데이터(Data) 노이즈는 원본 값을 변경시키는 것을 의미한다. (Noise refers to modification of original values.) 노이즈 예: 음성의 왜곡, TV스크린의 흔들림
이상치 (Outliers) 데이터(Data) 데이터 집합 내의 다른 객체들과는 (상당히, considerably) 다른 특징을 갖는 객체를 의미한다.
누락 값 (Missing Values) 누락 값이 발생하는 원인 누락 값의 처리 데이터(Data) 누락 값이 발생하는 원인 정보 수집이 이뤄지지 않음 (예: 신체 검사에서 어떤 사람이 몸무게 측정을 거부함) 일부 속성이 모든 경우에 적용되지 않음 (예: 연소득 속성은 아이들에게 적용되지 못함) 누락 값의 처리 해당 데이터 객체를 제거한다. 누락 값을 추정한다. (회귀분석 등을 통해 값을 추정하여 이용한다.) 분석 과정에서 누락 값은 무시한다. 모든 가능한 값으로 대치한다.
중복 데이터 (Duplicate Data) 데이터 집합은 중복되거나 거의 중복된 데이터 객체를 포함할 수 있다. (Data set may include data objects that are duplicates, or almost duplicates of one another.) 특히, 이종의 출처(heterogeneous sources)로 부터 데이터를 수집할 때 주로 발생하는 이슈이다. 예: 한 사람이 복수의 이메일 주소를 가지는 경우 데이터 정제 (data cleaning) 중복 데이터 문제를 다루는 과정을 의미한다.
데이터 전처리(Data Preprocessing)의 종류 집계 (aggregation) 샘플링 (sampling) 차원 축소 (dimensionality reduction) 특징 선택 vs. 특징 추출 (feature selection vs. feature extraction) ...
강의 내용 데이터(Data) 데이터 타입 데이터 품질과 전처리 유사도와 거리
유사도와 비유사도 유사도(Similarity) 비유사도(Dissimilarity) 데이터(Data) 유사도(Similarity) 두 객체가 얼마나 닮았는지를 나타내는 수치(측정) 값 두 객체의 닮은 정도가 높을수록 높은 유사도를 가짐 비유사도(Dissimilarity) 두 객체가 얼마나 다른지를 나타내는 수치(측정) 값 두 객체의 닮은 정도가 높을수록 낮은 비유사도를 가짐
단순 속성에 대한 유사도/비유사도 데이터(Data)
유클리디안(Euclidean) 거리 유클리디안 거리의 정의 n = number of dimensions (attributes) 데이터(Data) 유클리디안 거리의 정의 n = number of dimensions (attributes) pk, qk = value of the k-th dimension
코사인 유사도 (Cosine Similarity) 데이터(Data)
상관관계 (Correlation) 상관관계는 두 객체간의 선형 관계(linear relationship)을 나타낸다. 데이터(Data) 상관관계는 두 객체간의 선형 관계(linear relationship)을 나타낸다. 상관관계는 (1) 데이터를 정규화한 후, (2) 내적으로 구한다.
상관관계의 시각화 데이터(Data)
강의 내용 데이터(Data) 데이터 타입 데이터 품질과 전처리 유사도와 거리