-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원
-2- “ 위치 ” 는 중요하다 = 픽셀개수 RGB 값 히스토그램
-3- “ 위치 ” 는 중요하다 A = B = C (?) 평균 (A) = 평균 (B) = 평균 (C) 표준편차 (A) = 표준편차 (B) = 표준편차 (C)
지리정보의 다기준 분석 - AHP -
-5- 다기준 분석 MCA (multi-criteria analysis) 어떤 문제에 연관된 기준이 다수 존재할 때, 그 기준들을 종합하여 현상을 분석하는 방법 기준들의 가중치 설정이 중요 예 ) 탄소저감 : 자동차, 화석연료, 공장, 산림, … AHP (Analytic Hierarchical Process) 쌍대비교를 이용하여 다수 기준의 가중치를 설 정하는 계층적 방법
-6- AHP 계산 순서 쌍대비교 행렬 가중치 벡터 일관성 비율 람다맥스, CI, RI CR 행렬통합 CR < 0.1 기하평균
-7- 쌍대 비교 무엇은 무엇보다 몇 배 중요하다 건강은 사랑보다 ( 2 ) 배 중요하다 ? 건강은 돈보다 ( 5 ) 배 중요하다 ? 사랑은 돈보다 ( 2 ) 배 중요하다 ? 쌍대비교 행렬 2.5 배이어야 일관성 있지만 … 건강사랑돈 건강 125 사랑 돈 무엇이무엇이 무엇이무엇이 무엇보다
-8- 가중치 벡터 구하기 세로 합 각 요소를 세로 합으로 나누기 건강사랑돈 건강 1/1.72/3.55/8 사랑 0.5/1.71/3.52/8 돈 0.2/1.70.5/3.51/8 건강사랑돈 건강 125 사랑 돈 Sum
-9- 가중치 벡터 구하기 가로 합을 항목 개수로 나누기 건강 사랑 돈 가중치 벡터
-10- 일관성 비율 (Consistency Ratio) λmax 각 항목에 대한 [ 세로합 * 가중치 ] 의 합 특징 : 반드시 항목 수 (n) 보다 크거나 같음 (1.7*0.5949) + (3.5*0.2766) + (8*0.1285)= CI (Consistency Index: 일관성 지수 ) (λmax – n) / (n – 1) ( – 3) / (3 – 1) = RI (Random Index: 랜덤 지수 ) “CI 는 보통 이 정도 ” 라고 가정하는 비교 기준 항목 수에 따라 기준치가 주어짐 n RI
-11- 일관성 비율 (Consistency Ratio) CR (consistency ratio) CR = CI / RI CR = / 0.58 = CR 이 0.1 미만인 쌍대비교 행렬 : 일관성 있는 쌍대비교 행렬이라고 간주하여 채택 CR 이 0.1 이상인 쌍대비교 행렬 : 일관성 없는 쌍대비교 행렬이라고 간주하여 버림
-12- 행렬 통합 보다 합리적인 가중치 적용을 위해서 여러 사람의 쌍대비교 행렬을 이용 쌍대비교 행렬은 사람에 따라 다르다 여러 사람의 쌍대비교 행렬을 통합하려면 일관성이 있는 행렬들만 채택한 후 ( 일반적으로 ) 기하평균을 적용하여 통합
-13- 행렬 통합 예 ) 3 개의 쌍대비교 행렬을 통합할 때 행렬 1 ABC A12.55 B0.412 C 행렬 2 ABC A124 B0.512 C 행렬 3 ABC A1410 B C
-14- 통합 가중치 벡터 계산하면 세로 합 통합 ABC A B C 통합 ABC A B C Sum
-15- 통합 가중치 벡터 각 요소를 세로 합으로 나누기 가로 합을 항목 개수로 나누기 통합 ABC A1/ / / B0.3684/ / / C0.1710/ / / 건강 사랑 돈
-16- 계층적 ?! 건강 0.6 신체 0.4 정신 0.6 사랑 0.3 가족 0.4 애인 0.5 인류애 0.1 돈 0.1 급여 0.5 예금 0.3 부동산 0.2 건강 — 신체 0.24 건강 — 정신 0.36 사랑 — 가족 0.12 사랑 — 애인 0.15 사랑 — 인류애 0.03 돈 — 급여 0.05 돈 — 예금 0.03 돈 — 부동산 0.02
지리정보의 회귀분석
-18- 回歸分析 Regression analysis 독립변수 (X) 가 종속변수 (Y) 에 어떠한 영향을 미치는지 분석하기 위하여 X 와 Y 가 어떠한 관계에 있는지, 관계식을 도출 그 관계식을 회귀식이라고 함 회귀식을 통해, 어떤 X 값이 주어졌을 때 이에 따른 Y 값을 추정할 수 있음 (X Y) X 는 설명변수, Y 는 반응변수라고도 함 ( 예 ) 강수 토양수분 고도 기온
-19- 선형 회귀 모형 Linear regression model 회귀식 ( 독립변수와 이에 영향을 받는 종속변 수의 관계 ) 을 선형 함수로 일반화하여 나타냄 예 ) Y = a + bX
-20- 선형 회귀 모형 고도 (X) 기온 (Y) 고도가 상승함에 따라 기온은 하강
-21- 선형 회귀 모형 가장 적합한 回歸線 X 변수와 Y 변수의 관계를 가장 잘 설명하는 最 適線 (best-fitting line) 회귀선이 실제 관측치 분포에 최대한 가까이 그려지도록 함 즉, 관측치 ( ) 와 추정치 ( ) 의 차이인 잔차 ( 殘差 ) 제곱의 합을 최소화하는 회귀선 도출 최소제곱법
-22- 선형 회귀 모형 잔차 제곱의 합이 최소화되도록 최적의 회귀선을 찾음 ? ?
-23- 선형 회귀 모형 잔차 제곱의 합이 최소화되도록 Y = a + bX 의 a 와 b 를 구함 관측치 추정치 ( 잔차 = 관측치 - 추정치 )
-24-
-25- 회귀계수 산출 Y = a + bX Y = – X
-26- 추정치와 잔차 Y( 추정치 ) = – X 고도 (X) 가 350 미터라면 기온 (Y) 은 몇 도로 추 정되는가 ?
-27- 결정계수 R 2 (R-squared) 회귀모형의 설명력 (0 ≤ R 2 ≤ 1) 구해진 회귀식이 “ 얼마나 납득할 수 있는가 ” 를 말함 [ 추정치 SS / 관측치 SS] 로 계산 SS( 관측치 minus 평균 ) SS( 추정치 minus 평균 ) Sum of Square ( 제곱합 )
-28- 결정계수 R 2 (R-squared) R 2 이 클수록 설명력이 큰 모형
-29- 단순회귀 vs. 다중회귀 단순회귀 1 개의 설명변수 y = ß 0 + ß 1 x 1 다중회귀 복수의 설명변수 y = ß 0 + ß 1 x 1 + ß 2 x 2 + … + ß k x k y x1x1 x2x2
-30- R 을 이용한 회귀분석 FOSS (Free and Open Source Software) Windows – base – Download R
-31- R 을 이용한 회귀분석 단순 회귀 temp <- c(17.5, 17.3, 14.6, 17.8, 17.5, 14.4, 16.6, 16.9, 16.4, 15.5) alt <- c(10, 33, 508, 52, 109, 427, 236, 187, 126, 297) plot(alt, temp) simp.reg <- lm(temp ~ alt) summary(simp.reg) 우측 값을 좌측 변수에 대입 c( 값, 값, 값, …) --- 배열 linear model(regression) lm( 반응변수 ~ 설명변수 ) R 은 대소문자 구분 plot( 가로축, 세로축 )
-32- R 을 이용한 회귀분석 결과의 해석 호출된 linear model 의 공식 잔차의 분포 ( 최소, ¼ 선, ½ 선, ¾ 선, 최대 ) 잔차의 표준오차 자유도 R-squared ( 계수 ) (값)(값) β0β1β0β1
-33- 결과의 해석 회귀계수 β 0 ( 절편 ): β 1 ( 기울기 ): x 가 1 만큼 증가하면 y 는 만큼 증가 x 가 y 에 미치는 영향의 방향 (-) 과 크기 (0.0069)
-34- 잔차의 표준오차 회귀계수 β 0 ( 절편 ) 의 표준오차 회귀계수 β 1 ( 기울기 ) 의 표준오차 ☞ df (degrees of freedom, 자유도 ): 주어진 조건 하 에서 자유롭게 변화할 수 있는 정보량. 회귀분석에서 df 는 [ 샘플 개수 – 설명변수 개수 – 1] 로 계산. ☞ n 개의 샘플 ( 표본 ) 로 회귀분석을 수행할 때, 샘플의 구성이 달라지면 잔차와 회귀계수도 달라진다. 즉, 샘플의 구성에 따라 잔차와 회귀계수 가 조금씩 달라질 수 있는데, 이러한 변이 ( 가변성 ) 를 표준오차라 한다.
회귀계수가 얼마나 믿을만한가 ? t-value t-value = 회귀계수 / 표준오차 “ 회귀계수 ” 의 신빙성을 나타냄 회귀계수의 부호와 동일한 부호를 가짐 ±1.96 (95% 신뢰도 ), ±2.58 (99% 신뢰도 ), …… Pr(>|t|) p-value 라고도 함 “ 회귀계수 ” 의 유의수준을 나타냄 정규분포에서 |t| 보다 클 확률 t=1.96 일 때 0.05, t=2.58 일 때 0.01, …… 맞을 가능성 틀릴 가능성 정규분포의 원리 ☞ 참고로, R 2 는 “ 회귀식 ” 의 신빙성
-36- R 을 이용한 회귀분석 다중회귀 rad <- c(10, 11, 8, 10, 9, 9, 9, 12, 9, 10) mult.reg <- lm(temp ~ alt + rad) summary(mult.reg) lm(y ~ x1 + x2 + x3 + …)
-37- R 2 ( 결정계수 ) 와 R( 상관계수 ) 공분산 (covariance) 두 변수가 같이 움직이는 ( 같은 경향을 가지는 ) 정도 상관계수 두 변수의 상관성을 나타냄 결정계수 = 상관계수의 제곱 ☞ 평균, 분산 등을 구할 때 모집단은 n 으로 나누고 표본집단 ( 샘플 ) 은 n-1 로 나눔 -1 에서 1 사이의 값을 가짐 1 에 가까울수록 강한 양의 상관관계 -1 에 가까울수록 강한 음의 상관관계 참고
-38- 공분산과 상관계수 계산 eng 와 math 의 공분산 eng <- c(83, 42, 68, 92, 100) math <- c(73, 56, 72, 89, 84) cov(eng, math) eng 와 math 의 상관계수 cov(eng, math) / (sd(eng) * sd(math)) cor(eng, math) 참고
-39- Y : 암환자의 생존 / 사망 X : 흡연량, 음주량, 나이, 성별 0 ≤ y ≤ 1 로지스틱 (logistic) 회귀분석 반응변수가 논리형 변수 (0 또는 1) 일 때, 설 명변수에 따른 반응변수의 확률값 추정 z y 2.718… 오일러 상수 자연로그의 밑 설명변수 반응변수 승 / 패, 생존 / 사망 등 이진값
-40- 최우법 (Maximum Likelihood Method) 우도함수 (likelihood function) 경우의 수가 발생하는 정도 ( 확률 ) 를 함수로 표현 모집단의 승률을 p 라고 할 때, [ 승 - 패 - 승 - 승 - 승 - 패 - 승 - 패 - 승 - 승 ] 이라는 경우의 수가 발생할 확률은 ? 최우법 모집단의 발생확률 p 를 구하려면 표본집단의 우도함수를 최대화하여 p 를 구함 p × (1-p) × p × p × p × (1-p) × p × (1-p) × p × p 승 패 승 승 승 패 승 패 승 승 우선 알아둘 것 전체 (total) 일부로부터 전체를 짐작
-41- 설명변수를 통하여 승률 추정 설명변수 X 팀타율 홈 / 원정 반응변수 Y 승리 / 패배 ☞ 로지스틱 회귀분석의 반응변수는 반드시 논리형 변수 ( 이진값 : 0/1) 과거 20 경기의 샘플 앞으로 있을 경기의 승률을 추정 ( 승 : 1, 패 : 0) ( 홈 : 1, 원정 : 0) ☞ 로지스틱 회귀분석의 설명변수는 수치형, 논리형 변수 모두 가능
-42- 최우법을 이용한 로지스틱 회귀 우도함수 로그 우도함수의 최대화 승 패 …… 승 p (1-p) p 승/패승/패 X1: 팀타율 X2: 홈 / 원정 ☞ 로그 우도함수 최대화 β 0, β 1, β 2 를 구함 ( 통계패키지 R 이용 )
-43- R 에서 로지스틱 회귀분석 팀타율, 홈 / 원정 승률 win <- c(1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1) hit <- c(0.283, 0.242, 0.261, 0.244, 0.238, 0.281, 0.247, 0.268, 0.251, 0.281, 0.219, 0.223, 0.271, 0.262, 0.263, 0.218, 0.217, 0.271, 0.236, 0.228) home <- c(0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1) my.logit <- glm(win ~ hit+home, binomial(logit)) summary(my.logit) Y X1 X2 로지스틱 회귀임을 나타내는 옵션
-44- 로지스틱 회귀분석 결과 결과 해석 β0β1β2β0β1β2
-45- 설명변수를 통하여 승률 추정 팀타율 0.255, 홈경기일 때 이길 확률은 ? ☞ e 는 엑셀에서 exp 명령 이용