소프트웨어시스템실습 4강: 데이터 시각화 (그래프)

Slides:



Advertisements
Similar presentations
Chapter 12 Spectroscopy 1 : Rotational & Vibrational Spectra. -- Vacuum wavelength [ cm ] -- Vacuum wavenumber [ cm -1 ]
Advertisements

CJPOS for Android 사용자설명서 작성자 : CJSystem 작성일 : 개정일 :
3 학년 -54 명 4 학년 -53 명 3.4 학년 총인원 -107 명 교사 -21 명 초 등 부 총인원 -128 명 2008 년 1 월 인원보고.
R 을 활용하여 실전 분석하기  Review- 비정형데이터 분석 / 그래프 그리기  비정형 데이터로 그래프 그리기 예제 ) 제주도 여행 코스  정형 데이터로 그래프 그리기 예제 1) 라면가격 상승률과 물가상승률 비교 예제 2) 2 호선 역별 승하차인원수 1.
직무에 대한 이해 및 직무정보 탐색 임영찬 취업강사 ‘ 이공계성공취업스토리 ’ 운영자, ‘ 뽑히는이공계취업 ’ 저자.
한울농원.  1. 암 수 다른 나무이다.  2. 병충해가 없다.  3. 수명이 길다.  4. 체질이 강건하여 잘 자란다.  5. 가시가 길고 크다.  6. 가을에 붉은 열매를 수확한다.  7. 나무가 단단하고 잘 부러지지 않는 다.
EMLAB Modeling of Digital Communication Systems using Simulink Chap2. Sinusoidal Simulink Model Chap3. Digital Communications BER Performance in AWGN (BPSK.
2014년도 주요법령 개정사항 (월) ~ (금) 대한전문건설협회 강원도회.
Auger Electron Spectroscopy (AES)
7차시: 현수준 분석을 위한 데이터 수집 학 습 목 표 학 습 내 용 1. 현수준 확인 단계 개념 이해
2. 문학의 활동 방법 [1] 문학의 수용 01 소설가 구보 씨의 일일 작가 소개 작품 정리 읽기 중 활동 학습 활동.
1. 던전 디자인 개요_1 1. ‘던전’ 룬스톤은 던전 한 층에도 여러 개가 존재하며, 각 룬스톤 마다 영향을 미치는 범위가 설정되어 있다. 룬스톤이 영향을 주는 범위에 일정시간 사용자가 위치해 있게 되면 사용자 캐릭터는 ‘유령화’ 되어 버리기 때문에, 사용자는.
기 본 원 칙 1 가. 실행가능한 적정예산 편성 나. 포괄적인 예산편성 지양
강의 4 R Graphics _2.
표 및 그래프 작성.
01. 과업의 개요 공간적ㆍ시간적 범위 내용적 범위 과업의 기대효과
Development and Initial Validation of Quality-of-Life Questionnaires for Intermittent Exotropia Ophthalmology 2010;117:163–168 Pf. 임혜빈 / R2 정병주.
기업경영분석기법 해설 및 2005년 기업경영분석 결과
한국어 정보의 전산 처리 강좌 소개 박진호 (서울대 국문과 교수).
2장. 데이터의 시각적 묘사.
R 기초 2 데이터 시각화 한국어 정보의 전산 처리
제 12 장 감성적 품질을 창조하는 품질경영 [전사적 품질경영 : TQM].
의료의 질 평가 분석 기법 김 민 경.
4-4 Comparison of Standard Deviations with the F test
일시 : , (PM) 6:30-10:30 장소 : 삼성암센터 (지하1층 세미나실2)
(Statistical Modeling)
엑셀을 이용한 테이블 자료 분석 한국어 정보의 전산 처리
통계자료의 탐색적 분석(EDA) 84 제 6 장 확률모형과의 비교 1. 그룹 데이터, 도수 자료
Lab Assignment 2 Neural Network & Ensemble Data Mining 2016 Fall 1 1.
Ch.3 그래프 속성의 설정과 2차원 그래프.
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
건설환경GIS Instructor : Youngmin Seo
7. 자극과 반응 7-2. 신경계 3. 여러 가지 반응.
머신 러닝 2 ㈜ 퀀트랩.
임베디드 소프트웨어 설계.
제 4주 2014년 1학기 강원대학교 컴퓨터학부 담당교수: 정충교
MINITAB for Six Sigma.
SQL Server 7.0 세미나 (Performance Tuning)
기업지원 제도 주요 내용 안산고용센터 기업지원팀.
2014년 가을학기 손시운 지도 교수: 문양세 교수님 군집 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
소프트웨어시스템실습 3강: R 프로그래밍 및 데이터 조작
Ch.2. 기권: 지구를 둘러싼 가스 시스템 많은 환경 문제들이 일어나는 곳
4. 도표 다루기.
(Data Exploration & Analysis)
2014년 가을학기 손시운 지도 교수: 문양세 교수님 분류 2014년 가을학기 손시운 지도 교수: 문양세 교수님.
CJPOS for Android 사용자설명서
제1장 자료구조를 배우기 위한 준비.
Keller: Stats for Mgmt & Econ, 7th Ed
Power Point 2007년 정보화교육 원미구청 총무과 통신전산팀.
Statistical inference I (통계적 추론)
한국어 정보의 전산 처리 강좌 소개 박진호 (서울대 국문과 교수).
Machine Learning using Neural Networks
The normal distribution (정규분포)
Arial fett 18pt 마케팅 기획서 작성 방법 ㈜아르바이트천국 마케팅팀 서 지 현 과장
Morale 훈련1 Morale : 사기, 의욕, 하고자 하는 마음 - 전원참가 / 일체감과 공동의 목표의식, Mind변화
직장생활 예절 ① - 인사 1.내가 먼저 [인사의 5point] 2.상대방의 눈을 보고 미소지으며 3.상대방에 맞춰서
켈러의 경영경제통계학 제11장 모집단에 관한 추론.
서울, 1964년 겨울 -김승옥.
서울, 1964년 겨울 -김승옥.
서울, 1964년 겨울 -김승옥.
국어지도 유아교육과 권수연 김아람 중등특수교육과 박수진 양한솔
▶서류관리 프로그램 1. 로그인….2 2. 서류등록 … 서류도착 서류스티커발행
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
산점도 (Scatter Diagram) (1) 개요
Excel 2007을 이용한 통계학 제 2 장 자료의 정리.
R 기초 2 데이터 시각화 한국어 정보의 전산 처리
전향력(코리올리힘) 발표자 : 정웅현.
에서 트리니티 아이디와 패스워드 치기 Download, Packages CRAN
1. 단순한 차트의 종류 < 차트 > 데이터의 분포 파악 데이터 분석 결과의 효과적인 전달 graphics 패키지
교통운영 및 실습 - 데이터 분석 무엇이 문제인가? 왜 그런가? (예) - 버스 승객이 왜 줄어드는가?
Presentation transcript:

소프트웨어시스템실습 4강: 데이터 시각화 (그래프)

산점도(scatter plot) plot(x, y) 예) Mlbench패키지에 저장된 Ozone데이터 loading 각각 캘리포니아 Sandburg와 El Monte에서 매일 측정한 온도

그래픽 옵션 축 이름(xlab, ylab)

그래픽 옵션 그래프 제목(main)

그래프 옵션 점의 종류(pch) 숫자를 지정하면 미리 지정된 심볼 (구글에서 ‘r pch symbols’ 로 검색) 문자(예를들어 ‘+’)를 지정하면 그 문자를 사용

그래프 옵션 점의 크기(cex)

그래프 옵션 색상(col) col=“#FF0000” 또는 col=“red 목록은 colors()로 확인

그래프 옵션 좌표축 값의 범위(xlim, ylim)

그래프 옵션 type 예) cars 데이터: 속도에서 브레이크를 잡았을 때 제동거리를 측정

그래프 옵션

그래프 옵션 주행거리별 평균 제동거리

그래프 옵션 선유형(lty) 예) plot(card, type=“l”, lty=“dashed”)

그래프 옵션(그래프의 배열(mfrow)) 한 창에 여러 개의 그래프를 나열 par(mfrow = c(nr, nc)) #행과 열의 개수 지정 Par를 호출하면 이전 설정을 반환함. 이를 기억했다가 나중에 돌려놈

그래픽 옵션 지터(jitter) – 중복 표현 방지를 위해 약간의 노이즈 추가 예) Ozone데이터의 V6와 V7은 각각 LAX에서의 풍속과 습도 많은 중복

그래픽 옵션

기본 그래프 점(points) point() : 이미 생성된 plot에 점을 추가

기본 그래프 빈 그래프 먼저 그리고 나중에 추가하기 (type = n) xlim과 ylim을 생략하면 초기 빈 그래프가 만들어지지 않음

기본 그래프 선(lines) 예) [0, 2π]까지 sin 그래프

기본 그래프 회귀 분석(추세선 구하기) 회귀분석(x에 대항하는 y값 추정) plot(lowess(cars)) 실행해볼 것

기본 그래프 직선(abline) y = a + bx, y = h, x = v 형태의 직성 그리기 예) cars 데이터에서 dist = −5 + 3.5 × speed와 같은 직선 그리기

기본 그래프 그래프에 speed와 dist의 평균 직선 그리기 a, b, h, v는 고정

기본 그래프 곡선(curve) curve(expr, from, to)

범례(legend) 벡터형태이므로 자료형을 통일 x, y좌표를 지정해도 됨

상자 그림(boxplot) 제1사분위수, 중앙값, 제3사분위수를 보여준다. upper whisker 중앙값 + 1.5 * IQR 보다 작은 데이터 중 가장 큰 값(IQR = 제3사분위수 - 제1사분위수) 제3사분위수 중앙값 제1사분위수 lower whisker 중앙값 + 1.5 * IQR 보다 작은 데이터 중 가장 큰 값(IQR = 제3사분위수 - 제1사분위수) Outlier(이상치)

상자 그림(boxplot) 신뢰구간

상자 그림(boxplot) iris의 setosa종과 versicolor종의 Sepal.Width에 대한 상자 그림을 그린 뒤 이 두 종의 중앙 값이 다른지 비교 ||가 아니라 | (벡터간 비교) 원래 factor형 이지만 3개중 setosa와 versicolor만 남겨놓기 위해 다시 지정 신뢰구간이 오목하게 그려짐 Sepal.Width를 Species 마다 그리기 setosa와 versicolor의 신뢰구간이 겹치지 않으므로 이 두 그룹의 중앙값은 서로 다르다

히스토그램(hist) hist( x, # 벡터 데이터 breaks=“Struge”, #막대 너비. 기본값은 Struge로 n개일 때 ⌈log2(n) + 1⌉ #또는 데이터를 나눌 구분 값이 저장된 벡터 또는 함수 freq=NULL, # 기본은 빈도수, FALSE면 확률밀도 )

히스토그램(hist) 넓이가 1인 확률밀도

히스토그램(hist)

밀도 그림(density) 막대의 너비를 가정하지 않음 모든 점에서 밀도를 추정: 커널밀도추정방식 모든 점에서 밀도를 추정: 커널밀도추정방식 밀도그림과 히스토그램을 동시 표출

막대 그래프(barplot) 예) > > x <- c(2,5,8,5,7,10,11,3,4,7,12,15)

막대 그래프(barplot)

파이(pie) 그래프

모자이크 플롯(mosaicplot) 범주형 다변량 데이터를 표현(table형태의 분할표를 표현) 분할표 명목형, 순서형 데이터의 돗수 표현 예) 예) Titanic data 테스트-양성 테스트-음성 실제 –양성 92 5 (위음성) 실제- 음성 7 (위양성) 42

모자이크 플롯(mosaicplot)

ggplot2 패키지 Elegant Graphics Tool for Data Analysis

qplot() 함수 x축 y축 Clarity가 좋을 수록, Carat에 대한 price가 크게 반응함

qplot() 함수

ggplot() 함수 미적매핑 이후에 필요한 레이어 계속 추가 aesthetic mapping x축에 length 컬럼, y축에 width 컬럼을 매핑 미적매핑 이후에 필요한 레이어 계속 추가 처음에 aes 매핑한 후 geom_point() 함수만 그 매핑정보를 승계하여 coloring geom_smooth() 함수는 초기 aes 매핑한 것에 대하여 회귀선을 그림

ggplot() 함수 앞의 예와 비교 초기에 aes 매핑할 때 colour 옵션까지 넣었으므로, geom_smooth()함수는 각 colour값에 대한 8가지 회귀선을 그리게 됨

ggplot() 함수: geom_smooth

ggplot() 함수: geom_bar count: 각 빈(bin)에 해당하는 관측값의 개수 density: 각 빈(bin)의 밀도 (전체의 합이 1) ncount: count와 같으나 [0,1]로 스케일링 ndensity: density와 같으나 [0,1]로 스케일링

ggplot() 함수: geom_histogram

ggplot() 함수: geom_histogram

ggplot() 함수: geom_boxplot

ggplot() 함수: geom_density

ggplot() 함수: geom_density