-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원

Slides:



Advertisements
Similar presentations
10-7 부동소수점 (Floating-Point) 계산  컴퓨터에서 숫자를 표기하는 방법  가수 (Fraction) : 부호화된 고정소수점 숫자 지수 (Exponent) : 소수점의 위치를 표시 ( 예 )10 진수 를 표기하면 Fraction Exponent.
Advertisements

2. 속력이 일정하게 증가하는 운동 Ⅲ.힘과 운동 2.여러 가지 운동. 도입 Ⅲ.힘과 운동 2. 여러 가지 운동 2. 속력이 일정하게 증가하는 운동.
제 7 장 표본분포. 표본분포 통계량의 확률분포 표본분포 (sampling distribution) 통계량 (statistic) 표본자료의 함수 즉 모집단 … … 표본 표본추출 … … 통계량 계산.
제3장제3장 제3장제3장 이산균등분포  확률질량함수 :  평균 :  분산 : 공정한 주사위를 한 번 던지는 경우 나온 눈의 수를 확률변수 : X 확률질량함수 : 평균 : 분산 :
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
제13장 로지스틱회귀분석.
제14장 요인분석.
DMAIC 기본 Tools A-6. 상관분석 및 회귀 분석.
표본분포 Sampling Distribution
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
3일차 - 가설검정.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
Machine Learning & Data Mining
회귀분석(Regression).
통계분석 특강(속성) 서구원 한양사이버대학교 미디어MBA.
제12주 회귀분석 Regression Analysis
비모수 분석 및 복습.
제 13 장 정규분포곡선과 확률히스토그램 동전던지기와 정규분포 개념이 다른 두 히스토그램 : 경험적 히스토그램과 확률히스토그램
Chapter 11 위험과 수익률, 기회자본비용의 개요.
Missing Value.
Tail-recursive Function, High-order Function
CH 4. 확률변수와 확률분포 4.1 확률 확률실험 (Random Experiment, 시행, Trial) : 결과를 확률적으로 예측 가능, 똑 같은 조건에서 반복 근원사상 (Elementary Event, e) : 시행 때 마다 나타날 수 있는 결과 표본공간.
ANOVA.
상관분석 (p , p ).
제 7장 연관성분석 화장품과학과 홍보람.
일차방정식의 풀이 일차방정식의 풀이 순서 ① 괄호가 있으면 괄호를 먼저 푼다.
제4장 제어 시스템의 성능.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
Keller: Stats for Mgmt & Econ, 7th Ed
Linear Mixed Model을 이용한 분석 결과
(independent variable)
1. 비모수 검정 모수 통계학과 비모수 통계학 모수통계학 (Parametric Statistics) 에서는 표본이 추출된 모집단의 분포에 대한 가정이 꼭 필요 하지만 질적자료나 모집단의 분포에 대한 가정이 필요 없는 양적 자료의 경우에는 모수통계학을 적용할 수 없음 이때는.
회귀분석(Regression).
자료의 표현.
두 모집단에 대한 검정.
단순회귀분석 (Simple Linear Regression Analysis)
Decision Tree & Ensemble methods
Multiple regression analysis
⊙ 이차방정식의 활용 이차방정식의 활용 문제 풀이 순서 (1)문제 해결을 위해 구하고자 하는 것을 미지수 로 정한다.
논문작성을 위한 연구모형 설정 양동훈.
제 5 장 두 변수의 관계 직선화의 방법 두 변수사이에 어떤 관계가 있는가?
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
제3장 함수와 배열수식 전진환
01 로그의 정의 ⑴ 일 때, 양수 에 대하여 을 만족시키는 실수 는 오직 하나 존재한다. 이때 를
Sampling Distributions
Excel 일차 강사 : 박영민.
기초 통계학 지도위원 이광희.
통계해석 및 오차의 제거.
자녀의 심리적 안정도에 미치는 부모요인 분석.
2장 PHP 기초 PHP의 시작과 끝을 이해한다. 주석문에 대하여 이해한다. echo 문을 이용하여 화면에 출력하
제 5장 제어 시스템의 성능 피드백 제어 시스템 과도 성능 (Transient Performance)
계량경제학 1.관광수요의 결정요인 2.관광수입과 환율의 상관 관계..
최소의 실험 횟수에서 최대의 정보를 얻기 위한 계획방법 분석방법: 분산분석(Analysis of Variance, ANOVA)
비교분석 보고서 Template 2015.
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
2015년도 2학기 제 10 장 기술통계와 도수분포 마케팅조사.
통계학 R을 이용한 분석 제 2 장 자료의 정리.
제 12장  원가추정 강사: 정재을 과목: 원가회계.
텍스트 분석 ㈜ 퀀트랩.
제 8장 일반화 선형모형 회귀분석, 분산분석, 다변량분산분석 및 부분 상관분석이 가능 GLM 절차
제 16장 비율의 정확성 머리말 신뢰구간 신뢰구간의 해석.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
수치해석 ch3 환경공학과 김지숙.
CH3. 데이터의 기초적 정리방법 모집단과 표본 모집단 (Population) , 표본 (Sample, 시료) 그림 3.1
제4장 다중회귀분석 1절 다중회귀모형과 기본가정 다중회귀모형 기본가정 2절 추정방법 최소제곱추정량과 가우스-마르코프 정리
문제의 답안 잘 생각해 보시기 바랍니다..
Survey Sampling Sangji University.
Presentation transcript:

-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원

-2- “ 위치 ” 는 중요하다 = 픽셀개수 RGB 값 히스토그램

-3- “ 위치 ” 는 중요하다 A = B = C (?)  평균 (A) = 평균 (B) = 평균 (C)  표준편차 (A) = 표준편차 (B) = 표준편차 (C)

지리정보의 다기준 분석 - AHP -

-5- 다기준 분석 MCA (multi-criteria analysis) 어떤 문제에 연관된 기준이 다수 존재할 때, 그 기준들을 종합하여 현상을 분석하는 방법 기준들의 가중치 설정이 중요 예 ) 탄소저감 : 자동차, 화석연료, 공장, 산림, … AHP (Analytic Hierarchical Process) 쌍대비교를 이용하여 다수 기준의 가중치를 설 정하는 계층적 방법

-6- AHP 계산 순서 쌍대비교 행렬 가중치 벡터 일관성 비율 람다맥스, CI, RI  CR 행렬통합 CR < 0.1 기하평균

-7- 쌍대 비교 무엇은 무엇보다 몇 배 중요하다 건강은 사랑보다 ( 2 ) 배 중요하다 ? 건강은 돈보다 ( 5 ) 배 중요하다 ? 사랑은 돈보다 ( 2 ) 배 중요하다 ? 쌍대비교 행렬  2.5 배이어야 일관성 있지만 … 건강사랑돈 건강 125 사랑 돈 무엇이무엇이 무엇이무엇이 무엇보다

-8- 가중치 벡터 구하기 세로 합 각 요소를 세로 합으로 나누기 건강사랑돈 건강 1/1.72/3.55/8 사랑 0.5/1.71/3.52/8 돈 0.2/1.70.5/3.51/8 건강사랑돈 건강 125 사랑 돈 Sum

-9- 가중치 벡터 구하기 가로 합을 항목 개수로 나누기 건강 사랑 돈 가중치 벡터

-10- 일관성 비율 (Consistency Ratio) λmax 각 항목에 대한 [ 세로합 * 가중치 ] 의 합 특징 : 반드시 항목 수 (n) 보다 크거나 같음 (1.7*0.5949) + (3.5*0.2766) + (8*0.1285)= CI (Consistency Index: 일관성 지수 ) (λmax – n) / (n – 1) ( – 3) / (3 – 1) = RI (Random Index: 랜덤 지수 ) “CI 는 보통 이 정도 ” 라고 가정하는 비교 기준 항목 수에 따라 기준치가 주어짐 n RI

-11- 일관성 비율 (Consistency Ratio) CR (consistency ratio) CR = CI / RI CR = / 0.58 = CR 이 0.1 미만인 쌍대비교 행렬 : 일관성 있는 쌍대비교 행렬이라고 간주하여 채택 CR 이 0.1 이상인 쌍대비교 행렬 : 일관성 없는 쌍대비교 행렬이라고 간주하여 버림

-12- 행렬 통합 보다 합리적인 가중치 적용을 위해서 여러 사람의 쌍대비교 행렬을 이용 쌍대비교 행렬은 사람에 따라 다르다 여러 사람의 쌍대비교 행렬을 통합하려면 일관성이 있는 행렬들만 채택한 후 ( 일반적으로 ) 기하평균을 적용하여 통합

-13- 행렬 통합 예 ) 3 개의 쌍대비교 행렬을 통합할 때 행렬 1 ABC A12.55 B0.412 C 행렬 2 ABC A124 B0.512 C 행렬 3 ABC A1410 B C

-14- 통합 가중치 벡터 계산하면 세로 합 통합 ABC A B C 통합 ABC A B C Sum

-15- 통합 가중치 벡터 각 요소를 세로 합으로 나누기 가로 합을 항목 개수로 나누기 통합 ABC A1/ / / B0.3684/ / / C0.1710/ / / 건강 사랑 돈

-16- 계층적 ?! 건강 0.6 신체 0.4 정신 0.6 사랑 0.3 가족 0.4 애인 0.5 인류애 0.1 돈 0.1 급여 0.5 예금 0.3 부동산 0.2  건강 — 신체 0.24  건강 — 정신 0.36  사랑 — 가족 0.12  사랑 — 애인 0.15  사랑 — 인류애 0.03  돈 — 급여 0.05  돈 — 예금 0.03  돈 — 부동산 0.02

지리정보의 회귀분석

-18- 回歸分析 Regression analysis 독립변수 (X) 가 종속변수 (Y) 에 어떠한 영향을 미치는지 분석하기 위하여 X 와 Y 가 어떠한 관계에 있는지, 관계식을 도출 그 관계식을 회귀식이라고 함 회귀식을 통해, 어떤 X 값이 주어졌을 때 이에 따른 Y 값을 추정할 수 있음 (X  Y) X 는 설명변수, Y 는 반응변수라고도 함 ( 예 ) 강수  토양수분 고도  기온

-19- 선형 회귀 모형 Linear regression model 회귀식 ( 독립변수와 이에 영향을 받는 종속변 수의 관계 ) 을 선형 함수로 일반화하여 나타냄 예 ) Y = a + bX

-20- 선형 회귀 모형 고도 (X)  기온 (Y) 고도가 상승함에 따라 기온은 하강

-21- 선형 회귀 모형 가장 적합한 回歸線 X 변수와 Y 변수의 관계를 가장 잘 설명하는 最 適線 (best-fitting line) 회귀선이 실제 관측치 분포에 최대한 가까이 그려지도록 함 즉, 관측치 ( ) 와 추정치 ( ) 의 차이인 잔차 ( 殘差 ) 제곱의 합을 최소화하는 회귀선 도출 최소제곱법

-22- 선형 회귀 모형 잔차 제곱의 합이 최소화되도록 최적의 회귀선을 찾음 ? ?

-23- 선형 회귀 모형 잔차 제곱의 합이 최소화되도록 Y = a + bX 의 a 와 b 를 구함 관측치 추정치 ( 잔차 = 관측치 - 추정치 )

-24-

-25- 회귀계수 산출 Y = a + bX Y = – X

-26- 추정치와 잔차 Y( 추정치 ) = – X 고도 (X) 가 350 미터라면 기온 (Y) 은 몇 도로 추 정되는가 ?

-27- 결정계수 R 2 (R-squared) 회귀모형의 설명력 (0 ≤ R 2 ≤ 1) 구해진 회귀식이 “ 얼마나 납득할 수 있는가 ” 를 말함 [ 추정치 SS / 관측치 SS] 로 계산 SS( 관측치 minus 평균 ) SS( 추정치 minus 평균 ) Sum of Square ( 제곱합 )

-28- 결정계수 R 2 (R-squared) R 2 이 클수록 설명력이 큰 모형

-29- 단순회귀 vs. 다중회귀 단순회귀 1 개의 설명변수 y = ß 0 + ß 1 x 1 다중회귀 복수의 설명변수 y = ß 0 + ß 1 x 1 + ß 2 x 2 + … + ß k x k y x1x1 x2x2

-30- R 을 이용한 회귀분석 FOSS (Free and Open Source Software) Windows – base – Download R

-31- R 을 이용한 회귀분석 단순 회귀 temp <- c(17.5, 17.3, 14.6, 17.8, 17.5, 14.4, 16.6, 16.9, 16.4, 15.5) alt <- c(10, 33, 508, 52, 109, 427, 236, 187, 126, 297) plot(alt, temp) simp.reg <- lm(temp ~ alt) summary(simp.reg) 우측 값을 좌측 변수에 대입 c( 값, 값, 값, …) --- 배열 linear model(regression) lm( 반응변수 ~ 설명변수 ) R 은 대소문자 구분 plot( 가로축, 세로축 )

-32- R 을 이용한 회귀분석 결과의 해석 호출된 linear model 의 공식 잔차의 분포 ( 최소, ¼ 선, ½ 선, ¾ 선, 최대 ) 잔차의 표준오차 자유도 R-squared ( 계수 ) (값)(값) β0β1β0β1

-33- 결과의 해석 회귀계수 β 0 ( 절편 ): β 1 ( 기울기 ): x 가 1 만큼 증가하면 y 는 만큼 증가 x 가 y 에 미치는 영향의 방향 (-) 과 크기 (0.0069)

-34- 잔차의 표준오차 회귀계수 β 0 ( 절편 ) 의 표준오차 회귀계수 β 1 ( 기울기 ) 의 표준오차 ☞ df (degrees of freedom, 자유도 ): 주어진 조건 하 에서 자유롭게 변화할 수 있는 정보량. 회귀분석에서 df 는 [ 샘플 개수 – 설명변수 개수 – 1] 로 계산. ☞ n 개의 샘플 ( 표본 ) 로 회귀분석을 수행할 때, 샘플의 구성이 달라지면 잔차와 회귀계수도 달라진다. 즉, 샘플의 구성에 따라 잔차와 회귀계수 가 조금씩 달라질 수 있는데, 이러한 변이 ( 가변성 ) 를 표준오차라 한다.

회귀계수가 얼마나 믿을만한가 ? t-value t-value = 회귀계수 / 표준오차 “ 회귀계수 ” 의 신빙성을 나타냄 회귀계수의 부호와 동일한 부호를 가짐 ±1.96 (95% 신뢰도 ), ±2.58 (99% 신뢰도 ), …… Pr(>|t|) p-value 라고도 함 “ 회귀계수 ” 의 유의수준을 나타냄 정규분포에서 |t| 보다 클 확률 t=1.96 일 때 0.05, t=2.58 일 때 0.01, ……  맞을 가능성  틀릴 가능성  정규분포의 원리 ☞ 참고로, R 2 는 “ 회귀식 ” 의 신빙성

-36- R 을 이용한 회귀분석 다중회귀 rad <- c(10, 11, 8, 10, 9, 9, 9, 12, 9, 10) mult.reg <- lm(temp ~ alt + rad) summary(mult.reg) lm(y ~ x1 + x2 + x3 + …)

-37- R 2 ( 결정계수 ) 와 R( 상관계수 ) 공분산 (covariance) 두 변수가 같이 움직이는 ( 같은 경향을 가지는 ) 정도 상관계수 두 변수의 상관성을 나타냄 결정계수 = 상관계수의 제곱 ☞ 평균, 분산 등을 구할 때 모집단은 n 으로 나누고 표본집단 ( 샘플 ) 은 n-1 로 나눔 -1 에서 1 사이의 값을 가짐 1 에 가까울수록 강한 양의 상관관계 -1 에 가까울수록 강한 음의 상관관계 참고

-38- 공분산과 상관계수 계산 eng 와 math 의 공분산 eng <- c(83, 42, 68, 92, 100) math <- c(73, 56, 72, 89, 84) cov(eng, math) eng 와 math 의 상관계수 cov(eng, math) / (sd(eng) * sd(math)) cor(eng, math) 참고

-39- Y : 암환자의 생존 / 사망 X : 흡연량, 음주량, 나이, 성별 0 ≤ y ≤ 1 로지스틱 (logistic) 회귀분석 반응변수가 논리형 변수 (0 또는 1) 일 때, 설 명변수에 따른 반응변수의 확률값 추정 z y 2.718… 오일러 상수 자연로그의 밑 설명변수 반응변수 승 / 패, 생존 / 사망 등 이진값

-40- 최우법 (Maximum Likelihood Method) 우도함수 (likelihood function) 경우의 수가 발생하는 정도 ( 확률 ) 를 함수로 표현 모집단의 승률을 p 라고 할 때, [ 승 - 패 - 승 - 승 - 승 - 패 - 승 - 패 - 승 - 승 ] 이라는 경우의 수가 발생할 확률은 ? 최우법 모집단의 발생확률 p 를 구하려면  표본집단의 우도함수를 최대화하여 p 를 구함 p × (1-p) × p × p × p × (1-p) × p × (1-p) × p × p 승 패 승 승 승 패 승 패 승 승 우선 알아둘 것 전체 (total) 일부로부터 전체를 짐작

-41- 설명변수를 통하여 승률 추정 설명변수 X 팀타율 홈 / 원정 반응변수 Y 승리 / 패배 ☞ 로지스틱 회귀분석의 반응변수는 반드시 논리형 변수 ( 이진값 : 0/1) 과거 20 경기의 샘플  앞으로 있을 경기의 승률을 추정 ( 승 : 1, 패 : 0) ( 홈 : 1, 원정 : 0) ☞ 로지스틱 회귀분석의 설명변수는 수치형, 논리형 변수 모두 가능

-42- 최우법을 이용한 로지스틱 회귀 우도함수 로그 우도함수의 최대화 승 패 …… 승 p (1-p) p 승/패승/패 X1: 팀타율 X2: 홈 / 원정 ☞ 로그 우도함수 최대화  β 0, β 1, β 2 를 구함 ( 통계패키지 R 이용 )

-43- R 에서 로지스틱 회귀분석 팀타율, 홈 / 원정  승률 win <- c(1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1) hit <- c(0.283, 0.242, 0.261, 0.244, 0.238, 0.281, 0.247, 0.268, 0.251, 0.281, 0.219, 0.223, 0.271, 0.262, 0.263, 0.218, 0.217, 0.271, 0.236, 0.228) home <- c(0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1) my.logit <- glm(win ~ hit+home, binomial(logit)) summary(my.logit) Y X1 X2 로지스틱 회귀임을 나타내는 옵션

-44- 로지스틱 회귀분석 결과 결과 해석 β0β1β2β0β1β2

-45- 설명변수를 통하여 승률 추정 팀타율 0.255, 홈경기일 때 이길 확률은 ? ☞ e 는 엑셀에서 exp 명령 이용