Presentation is loading. Please wait.

Presentation is loading. Please wait.

1. 비정형 데이터마이닝의 이해.

Similar presentations


Presentation on theme: "1. 비정형 데이터마이닝의 이해."— Presentation transcript:

1 1. 비정형 데이터마이닝의 이해

2 비정형 데이터 1. 비정형 데이터의 이해 정형화 되지 않은 데이터 미리 정의된 데이터 모델(구조)을 가지고 있지 않은 데이터
! 정형화 되지 않은 데이터 미리 정의된 데이터 모델(구조)을 가지고 있지 않은 데이터 아주 많은 양의 데이터를 가지고 있으면서 구조와 형태가 다르고 정형화 되지 않은 문서, 영상, 음성 책, 저널, 문서, 메타데이터, 건강 기록, 오디오, 비디오, 아날로그 데이터, 이미지, 파일 뿐만 아니라 이메일 메시지나 웹페이지, 워드프로세스 문서 등의 내용에 해당되는 비정형 텍스트

3 반정형 데이터의 개념 1. 비정형 데이터의 이해 비정형 데이터는 불규칙 정도에 따라 반정형 데이터로 구분
! 비정형 데이터는 불규칙 정도에 따라 반정형 데이터로 구분 관계형 데이터베이스나 다른 형태의 데이터 테이블로 조직된 데이터 모델의 정형적 구조를 따르지 않지만 어의적 요소를 분리시키고 데이터 내의 레코드와 필드의 계층 구조가 있게 하는 태그나 다른 마커를 포함하고 있는 정형 데이터 마크업 언어(XML), 이메일, EDI

4 XML(eXtensible Markup Language)의 개념
1. 비정형 데이터의 이해 XML(eXtensible Markup Language)의 개념 ! 웹 상에서 공유될 데이터를 정의하는 방법에 관한 일련의 구조화된 규칙을 가진 마크 업 언어 기능적 수준에서 구조적 엄격함이 못 미처 이전에는 비정형 형태로 보았지만, XML 스키마를 따르고 상업 또는 고객 프로그램 둘 다에 의해 처리되는 데이터베이스 스키마에 따라 설계될 수 있으므로 내재적으로 반정형 데이터 형태로 봄

5 비정형 데이터 분석 2. 비정형 데이터의 분석과 마이닝 비정형 데이터 속의 패턴 발견 비정형 데이터 번역
! 비정형 데이터 속의 패턴 발견 비정형 데이터 번역 데이터 마이닝, 텍스트 분석, 비표준 텍스트 분석을 이용

6 비정형 데이터 분석 2. 비정형 데이터의 분석과 마이닝 텍스트를 정형화 메타데이터로 태그를 직접 입력
! 텍스트를 정형화 메타데이터로 태그를 직접 입력 고도의 텍스트 마이닝 기반 정형화 태그를 텍스트 속의 단어와 스피치의 한 부분이 대응되게 붙이는 방법을 이용

7 비정형 데이터 분석 2. 비정형 데이터의 분석과 마이닝 텍스트를 정형화 메타데이터로 태그를 직접 입력
! 텍스트를 정형화 메타데이터로 태그를 직접 입력 고도의 텍스트 마이닝 기반 정형화 태그를 텍스트 속의 단어와 스피치의 한 부분이 대응되게 붙이는 방법을 이용 기계로 처리할 수 있는 구조를 만드는 소프트웨어를 이용 언어적, 청각적, 시각적 구조가 인간 커뮤니케이션의 모슨 형태로 내재 알고리즘을 이용하여 내재된 구조를 단어 형태로 검사하는 방법을 적용하여 텍스트나 문장 구문, 다른 소규모 및 대규모 패턴으로부터 의미 추론이 가능하게 하는 분석

8 비정형 데이터마이닝 2. 비정형 데이터의 분석과 마이닝 빅데이터 환경 (80% 이상 비정형 데이터)
! 빅데이터 환경 (80% 이상 비정형 데이터) 빅데이터에서의 데이터마이닝은 비정형 데이터마이닝에 초점

9 비정형 데이터마이닝 2. 비정형 데이터의 분석과 마이닝
! 통계 기반의 데이터 분석 도구를 사용하거나 OLAP 분석을 통해 데이터를 다양한 각도의 관점으로 조명하여 의미 있는 것으로 해석하는 것에 덧붙여 데이터 사이의 숨겨진 관계와 패턴, 경향 등을 추출

10 비정형 데이터마이닝 2. 비정형 데이터의 분석과 마이닝
! 통계 기반의 데이터 분석 도구를 사용하거나 OLAP 분석을 통해 데이터를 다양한 각도의 관점으로 조명하여 의미 있는 것으로 해석하는 것에 덧붙여 데이터 사이의 숨겨진 관계와 패턴, 경향 등을 추출 비정형 데이터를 일단 정련 과정을 통해 정형 데이터로 만든 뒤 일반적인 데이터마이닝 작업인 분류, 군집화, 회귀분석, 요약, 이상감지 등에 적용하여 의미 있는 정보를 발굴

11 비정형 데이터마이닝 과정 2. 비정형 데이터의 분석과 마이닝 탐색 과정 질의, 집합연산, 재귀 및 팽창 등의 작업을 수행
! 탐색 과정 질의, 집합연산, 재귀 및 팽창 등의 작업을 수행 이해 과정 통계, 분배, 특징 선택, 군집화, 분류 편집, 시각화 등의 작업을 수행 분석 과정 경향, 상관관계, 분류 등의 작업을 수행

12 비정형 데이터마이닝 기법 2. 비정형 데이터의 분석과 마이닝 텍스트 마이닝 웹 마이닝 오피니언 마이닝 소셜 네트워크 분석
! 정제된 데이터베이스를 기반으로 일정한 기준이 적용된 상식적인 범위에서 부분적인 데이터를 다루는 정형 데이터마이닝의 한계를 뛰어넘는 기법들을 의미 텍스트 마이닝 웹 마이닝 오피니언 마이닝 소셜 네트워크 분석

13 2. 비정형 데이터마이닝 기법

14 대규모의 텍스트에서 고품질의 정보를 도출하는 과정
1. 텍스트 마이닝의 이해 텍스트 마이닝 ! 대규모의 텍스트에서 고품질의 정보를 도출하는 과정

15 대규모의 텍스트에서 고품질의 정보를 도출하는 과정
1. 텍스트 마이닝의 이해 텍스트 마이닝 ! 새롭고 적절하며 관심을 끄는 데이터들의 집합으로 일반적으로 통계적인 패턴 학습 등의 수단을 통해 패턴과 추세를 파악함으로써 도출 대규모의 텍스트에서 고품질의 정보를 도출하는 과정

16 텍스트 마이닝 1. 텍스트 마이닝의 이해 텍스트 데이터마이닝 또는 텍스트 분석
! 텍스트 데이터마이닝 또는 텍스트 분석 정보 검색, 단어 빈도 분포를 연구하는 어휘 분석, 패턴 인식, 태그 및 주석, 정보 추출, 링크 및 연결 분석을 내포하는 데이터마이닝, 시각화, 예측 분석 등이 필요

17 1. 텍스트 마이닝의 이해 텍스트 마이닝 기술 ! 비정형 텍스트 데이터로부터 자연어처리 기술에 기반을 두고 의미 있는 정보를 추출하거나 가공하는 정보 발견 기술 자연어 처리 기술을 적용하여 텍스트에서 의미있는 숫자나 단어 인덱스를 추출하고, 텍스트에 포함된 데이터를 통계 및 기계 학습과 같은 다양한 데이터마이닝 알고리즘에 의해 접근할 수 있도록 만들어 의미있는 정보를 추출 텍스트 요약과 분류를 위한 도서 분류체계, 일반적인 정보 과학 기술 등이 필요

18 1. 텍스트 마이닝의 이해 텍스트 마이닝 기술 ! 비정형 텍스트 데이터로부터 자연어처리 기술에 기반을 두고 의미 있는 정보를 추출하거나 가공하는 정보 발견 기술 자연어 처리 기술을 적용하여 텍스트에서 의미있는 숫자나 단어 인덱스를 추출하고, 텍스트에 포함된 데이터를 통계 및 기계 학습과 같은 다양한 데이터마이닝 알고리즘에 의해 접근할 수 있도록 만들어 의미있는 정보를 추출 텍스트 요약과 분류를 위한 도서 분류체계, 일반적인 정보 과학 기술 등이 필요 웹 마이닝, 오피니언 마이닝, 소셜 네트워크 분석 등과 같은 다른 비정형 데이터마이닝 기법의 근간이 되는 기술

19 여러 가지 종류의 텍스트 데이터로부터 지식을 발견하는 과정
1. 텍스트 마이닝의 이해 텍스트 마이닝 처리과정 ! 여러 가지 종류의 텍스트 데이터로부터 지식을 발견하는 과정

20 여러 가지 종류의 텍스트 데이터로부터 지식을 발견하는 과정
1. 텍스트 마이닝의 이해 텍스트 마이닝 처리과정 ! 텍스트 마이닝의 목적은 비정형 데이터나 정형 데이터, 반정형 데이터를 처리하여 의사결정을 위해 필요한 고차원적이고 의미 있는 정보나 지식을 추출하는 것 여러 가지 종류의 텍스트 데이터로부터 지식을 발견하는 과정

21 1. 텍스트 마이닝의 이해 텍스트 마이닝 처리과정 ! 거시적 측면 미시적 측면 입력 준비 처리 전처리 출력 지식 추출

22 텍스트 마이닝 처리과정 1. 텍스트 마이닝의 이해 입력 처리 출력 준비
! 입력 처리 출력 준비 입력되는 여러 가지 텍스트 문서의 데이터들을 문제 범위에 적절한 것으로 확립

23 텍스트 마이닝 처리과정 1. 텍스트 마이닝의 이해 입력 처리 출력 준비
! 입력 처리 출력 준비 입력되는 여러 가지 텍스트 문서의 데이터들을 문제 범위에 적절한 것으로 확립 전처리 조직화된 텍스트들을 정형화된 표현 양식으로 만듦

24 텍스트 마이닝 처리과정 1. 텍스트 마이닝의 이해 입력 처리 출력 준비
! 입력 처리 출력 준비 입력되는 여러 가지 텍스트 문서의 데이터들을 문제 범위에 적절한 것으로 확립 전처리 조직화된 텍스트들을 정형화된 표현 양식으로 만듦 지식추출 정형 데이터에서 의미 있는 패턴이나 관계와 같은 지식을 발견 분류, 클러스터링, 개념 및 개체 추출, 세분화된 분류 체계의 생간, 심리 분석, 문서 요약, 개체 관계 모델링

25 데이터마이닝 기술의 응용분야로서 인터넷을 통해 웹 서비스를 이용하면서 웹에서 패턴을 발견 하는 것
2. 웹 마이닝의 이해 웹 마이닝 개념 ! 데이터마이닝 기술의 응용분야로서 인터넷을 통해 웹 서비스를 이용하면서 웹에서 패턴을 발견 하는 것 데이터의 속성이 반정형 이거나 비정형이고, 링크(Link) 구조를 가지고 있기 때문에 전통적인 데이터마이닝 기술에 추가적인 분석기법이 필요

26 2. 웹 마이닝의 이해 웹 마이닝 ! 분석 대상에 따라 웹 마이닝의 구분 웹 구조 마이닝 웹 사용 마이닝 웹 콘텐츠 마이닝

27 웹 마이닝 웹 사용 마이닝 웹 콘텐츠 마이닝 웹 구조 마이닝 2. 웹 마이닝의 이해 분석 대상에 따라 웹 마이닝의 구분
! 분석 대상에 따라 웹 마이닝의 구분 웹 구조 마이닝 웹 사용 마이닝 웹 콘텐츠 마이닝 로그 분석 웹 상에서 사용자가 찾고자 했던 것을 기록하고 있는 웹 서버 로그에서 유용한 정보를 추출하는 과정

28 웹 마이닝 웹 사용 마이닝 웹 콘텐츠 마이닝 웹 구조 마이닝 2. 웹 마이닝의 이해 분석 대상에 따라 웹 마이닝의 구분
! 분석 대상에 따라 웹 마이닝의 구분 웹 구조 마이닝 웹 사용 마이닝 웹 콘텐츠 마이닝 웹 사이의 연결 분석 웹 사이트의 노드와 연결 구조를 분석하기 위해 그래프 이론을 사용하는 과정

29 웹 마이닝 웹 사용 마이닝 웹 콘텐츠 마이닝 웹 구조 마이닝 2. 웹 마이닝의 이해 분석 대상에 따라 웹 마이닝의 구분
! 분석 대상에 따라 웹 마이닝의 구분 웹 구조 마이닝 웹 사용 마이닝 웹 콘텐츠 마이닝 웹 페이지에서 유용한 데이터, 정보, 지식을 마이닝하고 추출하고 통합하는 것

30 어떤 사안이나 인물, 이슈, 이벤트 등과 관련 원천 데이터에서 의견이나 평가, 태도, 감정 등과
3. 오피니언 마이닝의 이해 오피니언 마이닝 ! 어떤 사안이나 인물, 이슈, 이벤트 등과 관련 원천 데이터에서 의견이나 평가, 태도, 감정 등과 같은 주관적인 정보를 식별하고 추출하는 것

31 오피니언 마이닝 3. 오피니언 마이닝의 이해 오피니언 분석, 평판 분석, 정서 분석 오피니언 분석의 기본적인 작업
! 오피니언 분석, 평판 분석, 정서 분석 오피니언 분석의 기본적인 작업 문서, 문장, 특징, 관점 수준에서 표현된 견해가 긍정적인지, 부정적인지, 중립적인지, 진보적인지 주어진 텍스트의 특성을 분류하는 것

32 3. 오피니언 마이닝의 이해 오피니언 마이닝 방법 ! 컴퓨터를 통한 기계학습에 포함되는 어의 분석과 같은 기능을 사용하여 텍스트에 대한 자동화된 오피니언 분석을 수행할 수 있으며, 오피니언의 소유자와 그 대상을 발견하는데 보다 세련된 방법을 사용

33 3. 오피니언 마이닝의 이해 오피니언 마이닝 방법 ! 컴퓨터를 통한 기계학습에 포함되는 어의 분석과 같은 기능을 사용하여 텍스트에 대한 자동화된 오피니언 분석을 수행할 수 있으며, 오피니언의 소유자와 그 대상을 발견하는데 보다 세련된 방법을 사용 구문에서 의견을 뽑아내서 오피니언이 만들어진 특징을 파악 단어들의 문법적인 관계가 사용되고, 문법적 의존 관계는 텍스트에 대한 깊이 있는 문장 분석을 통해서 구성 사람에 의한 수작업 정서 분석과 기계에 의한 자동화된 정서 분석이 있음

34 노드와 링크로 구성되는 네트워크 이론에 의해 사회적(연결) 관계를 보여주는 것
4. 소셜 네트워크 분석 노드와 링크로 구성되는 네트워크 이론에 의해 사회적(연결) 관계를 보여주는 것

35 노드와 링크로 구성되는 네트워크 이론에 의해 사회적(연결) 관계를 보여주는 것
4. 소셜 네트워크 분석 점으로 표현 행위자를 의미 노드와 링크로 구성되는 네트워크 이론에 의해 사회적(연결) 관계를 보여주는 것 선으로 표현 각 노드들의 관계(우정, 연대감, 조직력, 성향)

36 4. 소셜 네트워크 분석 소셜 네트워크 분석 특성 ! 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 노드의 복잡도를 측정하여, 소셜 네트워크 상에서 연결의 중심 역할을 하는 영향력이 있는 행위자를 파악 파악하고 관리하는 것이 마케팅 관점에서 매우 중요!

37 4. 소셜 네트워크 분석 소셜 네트워크 분석 특성 ! 소셜 네트워크 연결구조 및 연결강도 등을 바탕으로 노드의 복잡도를 측정하여, 소셜 네트워크 상에서 연결의 중심 역할을 하는 영향력이 있는 행위자를 파악 파악하고 관리하는 것이 마케팅 관점에서 매우 중요! 현대 사회에서 하나의 핵심기술로 출현하여 인류학, 생물학, 의사소통 연구, 경제, 지리학, 역사, 정보과학 조직연구, 정치, 사회심리학 등 다방면에 걸쳐 중요한 영향을 미치고 있으며 현재 고객 분석 도구로서 널리 이용

38 4. 소셜 네트워크 분석 소셜 네트워크 분석 기법 ! 사회적 관계를 나타내는 네트워크를 모델화하고 시각화하는 것은 네트워크 데이터를 이해하고 분석결과를 전달하는데 있어서 중요한 기법

39 4. 소셜 네트워크 분석 소셜 네트워크 분석 기법 ! 사회적 관계를 나타내는 네트워크를 모델화하고 시각화하는 것은 네트워크 데이터를 이해하고 분석결과를 전달하는데 있어서 중요한 기법 데이터를 탐색 다양한 레이아웃으로 노드와 링크를 표시하고, 색깔과 크기와 다른 진보된 속성 등을 노드에 덧붙임으로써 구별되게 하는 것

40 4. 소셜 네트워크 분석 소셜 네트워크 분석 기법 ! 사회적 관계를 나타내는 네트워크를 모델화하고 시각화하는 것은 네트워크 데이터를 이해하고 분석결과를 전달하는데 있어서 중요한 기법 소셜 네트워크를 모델화하고 시각화하는 도구 협동그래프: 두 노드들 사이의 긍정 링크, 부정 링크 표식 표식 사회적 관계망 그래프: 그래프의 미래 진화 예측에 사용, 균형 그래프는 그룹에서 다른 사람들에 대한 그들의 의견을 바꾸는 것을 좋아하지 않는 사람들의 집단이고, 불균형 그래프는 다른 사람들에 대한 그들의 의견을 바꾸는 것을 아주 좋아하는 사람들의 집단


Download ppt "1. 비정형 데이터마이닝의 이해."

Similar presentations


Ads by Google