제 1 장 서 론 1. 탐색적 자료분석 - EDA- 1 ◈ EDA(Exploratory Data Analysis) 란?

Slides:



Advertisements
Similar presentations
신진영 현지 조사 방법 및 보고서 작성법 제 7 강 - 자료 수집과 설문지 작성 -
Advertisements

빅 데이터의 정의와 특징 빅 데이터의 이용사례 빅 데이터의 문제점 or 한계점 빅 데이터의 전망.
6σ 관련 기초 통계 (1) -. 통계적사고 -. 모집단과 표본. 통계적 사고 모든 작업은 상호연관된 프로세스의 시스템 예 ) 열처리 작업 공정 원료 투입 공정가열 공정 냉각 공정 모든 프로세스에는 산포가 존재 가피원인 불가피원인 동일 원료동일 생산공정 동일 작업자동일.
품질개선활동 본 강의 자료는 2003학년도 교육인적자원부·한국교육학술정보원의 지원에 의하여 개발된 것임.
재료수치해석 HW # 박재혁.
제6장 가치평가.
3일차 - 가설검정.
각 행 (row) 에서 같은 첨자가 있는 곳은 비워두고, 그 밖에 cell에 수준수 (level) 또는 반복수를 기입
밥 파이크의 창의적 교수법.
Ⅱ. 측정(Measure) (2) Gage R&R (Crossed) – ANOVA 방법 [1] Data 입력
수치해석 6장 예제문제 환경공학과 천대길.
10장 랜덤 디지털 신호처리 1.
제12주 회귀분석 Regression Analysis
경영통계학 통계학은 어떤 학문인가? What is Statistics? 1.1.
윤성우의 열혈 C 프로그래밍 윤성우 저 열혈강의 C 프로그래밍 개정판 Chapter 12. 포인터의 이해.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사.
제 3장. 수치를 통한 연속형 자료의 요약.
22장 통계적 품질관리(SQC) 1. 품질의 통계적 관리 2. 통계적 공정관리 3. 샘플링검사
Graph 개론 통계분석을 위한 Excel Chart 기초.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
1. 현대 생활과 응용 윤리의 필요성 2. 윤리 문제의 탐구와 실천 3. 윤리 문제에 대한 다양한 접근
컴퓨터 프로그래밍 : 실습3 2장 데이터와 식.
상관분석 (p , p ).
11장. 1차원 배열.
제1장 통계학이란 무엇인가 제2장 자료와 수집 제3장 자료 분석 방법
C 프로그래밍 C언어 (CSE2035) (Chap11. Derived types-enumerated, structure, and union) (1-1) Sungwook Kim Sogang University Seoul, Korea Tel:
7가지 방법 PowerPoint에서 공동 작업하는 다른 사용자와 함께 편집 작업 중인 사용자 보기
군집 분석.
27장. 모듈화 프로그래밍.
Linear Mixed Model을 이용한 분석 결과
SAS Statistical Analysis System 통계패키지 실습 (2011년 1학기)
(independent variable)
제 15 장 직무설계 15.1 노동인력관리 목적 최대의 성과 만족스러운 성과 의사결정 직무설계 충원수준 선발 훈련과 경력개발
부서 QI 및 지표 담당자 모임 2012년 8월 2차 QI 활동 방법 지표 관리 회의록 작성법
FileMaker를 이용한 데이터 관리 옥현진(KICE).
BIC 사례 1 연관규칙과 분류모형을 결합한 상품 추천 시스템: G 인터넷 쇼핑몰 사례
8장. spss statistics 20의 데이터 변환
Frequency distributions and Graphic presentation of data
단순회귀분석 (Simple Linear Regression Analysis)
Decision Tree & Ensemble methods
제 11장 인자분석(Factor Analysis)
논문작성을 위한 연구모형 설정 양동훈.
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
수학10-나 1학년 2학기 Ⅱ.부등식의 영역 1. 부등식의 영역(2/5) 부등식 영역 수업계획 수업활동.
P 직선상에서 속력이 일정한 운동.
Intelligent Systems and Control Lab. Dept. of EE, Yeungnam Univ.
김정숙 (고려대학교 2014년) 국어국문학과 한국어학 석사 1기 이 드미뜨리
주요 프로그램 고객 요청에 의거 품질/개발 분야 각 3개 과정으로 구분하여 교육 계획을 수립 하였으며,
4장. 데이터 표현 방식의 이해. 4장. 데이터 표현 방식의 이해 4-1 컴퓨터의 데이터 표현 진법에 대한 이해 n 진수 표현 방식 : n개의 문자를 이용해서 데이터를 표현 그림 4-1.
신문에서의 그래프 사용 이상미 김정석 김종찬 임성규.
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 12장  원가추정 강사: 정재을 과목: 원가회계.
알기쉬운 사회복지조사방법론 제11장 2차적 자료 수집과 내용 분석 경북대학교 황성동 C.
텍스트 분석 ㈜ 퀀트랩.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
실험의 목적 저울 사용법의 익힘 무게법 분석의 기초 일정무게로 건조하기. BaCl2 • 2H2O 의 수분함량 측정Determination of water in Barium Chloride Dihydrate.
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
CH4. 반복이 없는 이원배치법 ( Two-way ANOVA)
문제의 답안 잘 생각해 보시기 바랍니다..
Report #2 (기한: 3/16) 데이터 구조 과목의 수강생이 50명이라고 가정한다. 이 학생(학번은 2016????으로 표현됨)들의 중간 시험(0~100), 기말 시험(0~100) 성적을 성적 파일에 작성하라(프로그램을 통해서 또는 수작업으로). 성적 파일을 읽어들여서.
방송에서 사용되는 그래프의 오,남용 사례 -i TV-
6 객체.
Survey Sampling Sangji University.
Presentation transcript:

제 1 장 서 론 1. 탐색적 자료분석 - EDA- 1 ◈ EDA(Exploratory Data Analysis) 란? 제 1 장 서 론 1. 탐색적 자료분석 - EDA- ◈ EDA(Exploratory Data Analysis) 란? 데이터의 특징과 내재하는 구조적관계를 알아내기 위한 기법들을 총칭 ◈ 자료분석의 제단계 자료분석 탐색단계와 확증단계로 구분 탐색적 자료분석(EDA) 데이터의 구조와 특징을 파악하며 여기서 얻은 정보를 바탕으로 통계모형을 만드는 단계 확증적 자료분석(CDA : Confirmatory Data Analysis) 관측된 형태나 효과의 재현성 평가, 유의성 검정, 신뢰구간 추정 등 통계적 추론을 하는 단계 (1) 관련된 다른 자료분석에서 얻어진 정보를 적절히 배려하는 일 (2) 새로 수집된 자료가 앞서의 분석결과에 의한 예측과 얼마나 일치하는가를 평가하는 일

통계자료의 탐색적 분석(EDA) 2 죤 튜키(John W. Tukey : 1977년) 의 첫 저서 “탐색적 자료분석(EDA)” 자료가 무엇을 말하려 하는가를 보기 위한 것 단순한 계산과 그리기 쉬운 그림에 집중 추론통계학이 아닌 기술통계학(descriptive statistics)의 중요성을 강조 EDA의 역사 2. 탐색적 자료분석의 네 가지 주제 EDA의 네가지 주제 1. 저항성(resistance) 의 강조 2. 잔차(residual) 계산 3. 자료변수의 재표현(변수변환 : re-expression)을 통한 다각적 시도 4. 그래프를 통한 현시성(revelation)

*** EDA의 관점에서는 평균보다는 일부자료의 파손(변형)에 3 1) 저항성의 강조 탐색적 자료분석은 일부자료의 파손에 관한 저항성을 가져야 한다. 산술평균 (Mean) = 15.8 중위수(median) = 15 # 자료의 마지막 값 31이 310으로 변경된 경우 산술평균 (Mean) = 41.2 중위수(median) = 15 # 문제의 관측값 31을 x로 대체되는 경우 산술평균(x) (Mean(x)) = (143+x)/11 = 13+(1/11)x 중위수(x) (Median(x)) = 11 , x≦ 11인 경우 x , 11<x≦15인 경우 15 , x>15인 경우 *** EDA의 관점에서는 평균보다는 일부자료의 파손(변형)에 저항적인 중위수가 바람직한 대표값의 측도로 선호된다. 05, 08, 09, 10, 11, 15, 16, 19, 21, 29, 31

잔차는 각 개별 관측값이 자료의 주경향(main trend)으로 부터 얼마나 벗어났는지를 나타냄 통계자료의 탐색적 분석(EDA) 4 2) 잔차 계산 잔차는 각 개별 관측값이 자료의 주경향(main trend)으로 부터 얼마나 벗어났는지를 나타냄 중위수 15로부터의 잔차 왜 이렇게 큰 잔차 295가 주어졌는가 의문을 풀어보자 (EDA의 입장) 3) 자료변수의 재표현(변수변환) 자료의 변환으로(측정측도를 적당히 다른 척도로 재표현) 분포의 대칭성, 관계의 선형성(직선화), 분산의 균일성, 관련변수의 가법성등에 도움이 된다. 4) 그래프를 이용한 현시성(revelation) 그래프 표현이 자료안에 숨겨진 정보를 보여주는 효율적인 수단이 된다. 탐색적 자료분석에서는 다양한 그래프 작성 기법들이 사용된다. 05, 08, 09, 10, 11, 15, 16, 19, 21, 29, 310 -10, -7, -6, -5, -4, 0, 1, 4, 6, 14, 295

5 3. 그래프의 유용성 수치 데이터 추상적인 개념 구상화 각종 그래프 도표1 수리통계학 점수 자료 중위수=42 50점대와 통계자료의 탐색적 분석(EDA) 5 3. 그래프의 유용성 수치 데이터 추상적인 개념 구상화 각종 그래프 도표1 수리통계학 점수 자료 과제 미제출그룹(A=0) 2 0 00 4 1 05 12 2 13334589 16 3 0355 (5) 4 13378 13 5 122333446 4 6 4 3 7 3 2 8 29 중위수=42 50점대와 20점대의 혼합모형 과제 제출그룹(A=1) 1 1 8 3 2 88 6 3 789 12 4 114566 (8) 5 11245688 11 6 17779 6 7 3478 2 8 2 9 09 중위수=54 중위수54

과학발전에 있어서 통계학(또는 통계 전문가)의 역할은 무엇인가? 1) 모형-데이터의 사이클 통계자료의 탐색적 분석(EDA) 6 4. 데이터 분석의 기본철학 과학발전에 있어서 통계학(또는 통계 전문가)의 역할은 무엇인가? 1) 모형-데이터의 사이클 전통적인 통계학 모형이 주어진 데이터의 분석 (추정 또는 가설검정) 실제적인 연구시 2) 진실로서의 모형, 대표적 경우로서의 모형 통계적 모형은 진실로서가 아니라 대표적인 경우로서 의의가 있을 뿐이다 (예 : 회귀분석에서 오차항의 정규성 가정) 3) 데이터에 대한 올바른 이해 데 이 터 모 형 분 석 데 이 터

1973년 미국 뉴저지 주의 주지사는 주정부 환경보호과로부터 대기 중의 오존 수준을 통계자료의 탐색적 분석(EDA) 7 5. 탐색적 데이터 분석의 성공사례 사례) 1973년 미국 뉴저지 주의 주지사는 주정부 환경보호과로부터 대기 중의 오존 수준을 안전 수준으로 낮추어야 하며 그러기 위해서는 자동차 배출가스의 총량을 3분의 2로 줄여야 한다는 내용의 건의 문제점) 1) 일요일에 교통량이 적음에도 불구하고 오존수준은 요일별로 차이가 없다 2) 가장 높은 오존수준을 나타내는 곳은 농촌지역인 앙코라였다 측정장치의 소홀한 관리와 엉성한 보정이 원인 연구에 중요한 요소 1) 자료를 수집하고 분석에 임하는 열의 2) 기대하지 않았던 사실을 발견하기 위한 진단기법의 활용 3) 놀라운 사실을 인지 할 수 있는 능력과 노력 4) 해당분야에 대한 충분한 이해와 해당분야 전문가와의 커뮤니케이션 5) 자료의 효과적인 요약과 그래프의 작성 6) 연구의 실마리에 대한 끊임없는 추적