Presentation is loading. Please wait.

Presentation is loading. Please wait.

-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원

Similar presentations


Presentation on theme: "-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원"— Presentation transcript:

1 -1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원 modconfi@pknu.ac.kr

2 -2- “ 위치 ” 는 중요하다 = 픽셀개수 RGB 값 히스토그램

3 -3- “ 위치 ” 는 중요하다 A = B = C (?)  평균 (A) = 평균 (B) = 평균 (C)  표준편차 (A) = 표준편차 (B) = 표준편차 (C)

4 -4- 1. 지리정보의 다기준 분석 - AHP -

5 -5- 다기준 분석 MCA (multi-criteria analysis) 어떤 문제에 연관된 기준이 다수 존재할 때, 그 기준들을 종합하여 현상을 분석하는 방법 기준들의 가중치 설정이 중요 예 ) 탄소저감 : 자동차, 화석연료, 공장, 산림, … AHP (Analytic Hierarchical Process) 쌍대비교를 이용하여 다수 기준의 가중치를 설 정하는 계층적 방법

6 -6- AHP 계산 순서 쌍대비교 행렬 가중치 벡터 일관성 비율 람다맥스, CI, RI  CR 행렬통합 CR < 0.1 기하평균

7 -7- 쌍대 비교 무엇은 무엇보다 몇 배 중요하다 건강은 사랑보다 ( 2 ) 배 중요하다 ? 건강은 돈보다 ( 5 ) 배 중요하다 ? 사랑은 돈보다 ( 2 ) 배 중요하다 ? 쌍대비교 행렬  2.5 배이어야 일관성 있지만 … 건강사랑돈 건강 125 사랑 0.512 돈 0.20.51 무엇이무엇이 무엇이무엇이 무엇보다

8 -8- 가중치 벡터 구하기 세로 합 각 요소를 세로 합으로 나누기 건강사랑돈 건강 1/1.72/3.55/8 사랑 0.5/1.71/3.52/8 돈 0.2/1.70.5/3.51/8 건강사랑돈 건강 125 사랑 0.512 돈 0.20.51 Sum1.73.58

9 -9- 가중치 벡터 구하기 가로 합을 항목 개수로 나누기 건강 사랑 돈 가중치 벡터

10 -10- 일관성 비율 (Consistency Ratio) λmax 각 항목에 대한 [ 세로합 * 가중치 ] 의 합 특징 : 반드시 항목 수 (n) 보다 크거나 같음 (1.7*0.5949) + (3.5*0.2766) + (8*0.1285)=3.0075 CI (Consistency Index: 일관성 지수 ) (λmax – n) / (n – 1) (3.0075 – 3) / (3 – 1) = 0.0037 RI (Random Index: 랜덤 지수 ) “CI 는 보통 이 정도 ” 라고 가정하는 비교 기준 항목 수에 따라 기준치가 주어짐 n12345678910 RI000.580.91.121.241.321.411.451.49

11 -11- 일관성 비율 (Consistency Ratio) CR (consistency ratio) CR = CI / RI CR = 0.0037 / 0.58 = 0.0064 CR 이 0.1 미만인 쌍대비교 행렬 : 일관성 있는 쌍대비교 행렬이라고 간주하여 채택 CR 이 0.1 이상인 쌍대비교 행렬 : 일관성 없는 쌍대비교 행렬이라고 간주하여 버림

12 -12- 행렬 통합 보다 합리적인 가중치 적용을 위해서 여러 사람의 쌍대비교 행렬을 이용 쌍대비교 행렬은 사람에 따라 다르다 여러 사람의 쌍대비교 행렬을 통합하려면 일관성이 있는 행렬들만 채택한 후 ( 일반적으로 ) 기하평균을 적용하여 통합

13 -13- 행렬 통합 예 ) 3 개의 쌍대비교 행렬을 통합할 때 행렬 1 ABC A12.55 B0.412 C0.20.51 행렬 2 ABC A124 B0.512 C0.250.51 행렬 3 ABC A1410 B0.2512.5 C0.10.41

14 -14- 통합 가중치 벡터 계산하면 세로 합 통합 ABC A12.71445.8480 B0.368412.1544 C0.17100.46421 통합 ABC A12.71445.8480 B0.368412.1544 C0.17100.46421 Sum1.53944.17869.0024

15 -15- 통합 가중치 벡터 각 요소를 세로 합으로 나누기 가로 합을 항목 개수로 나누기 통합 ABC A1/1.53942.7144/4.17865.8480/9.0024 B0.3684/1.53941/4.17862.1544/9.0024 C0.1710/1.53940.4642/4.17861/9.0024 건강 사랑 돈

16 -16- 계층적 ?! 건강 0.6 신체 0.4 정신 0.6 사랑 0.3 가족 0.4 애인 0.5 인류애 0.1 돈 0.1 급여 0.5 예금 0.3 부동산 0.2  건강 — 신체 0.24  건강 — 정신 0.36  사랑 — 가족 0.12  사랑 — 애인 0.15  사랑 — 인류애 0.03  돈 — 급여 0.05  돈 — 예금 0.03  돈 — 부동산 0.02

17 -17- 2. 지리정보의 회귀분석

18 -18- 回歸分析 Regression analysis 독립변수 (X) 가 종속변수 (Y) 에 어떠한 영향을 미치는지 분석하기 위하여 X 와 Y 가 어떠한 관계에 있는지, 관계식을 도출 그 관계식을 회귀식이라고 함 회귀식을 통해, 어떤 X 값이 주어졌을 때 이에 따른 Y 값을 추정할 수 있음 (X  Y) X 는 설명변수, Y 는 반응변수라고도 함 ( 예 ) 강수  토양수분 고도  기온

19 -19- 선형 회귀 모형 Linear regression model 회귀식 ( 독립변수와 이에 영향을 받는 종속변 수의 관계 ) 을 선형 함수로 일반화하여 나타냄 예 ) Y = a + bX

20 -20- 선형 회귀 모형 고도 (X)  기온 (Y) 고도가 상승함에 따라 기온은 하강

21 -21- 선형 회귀 모형 가장 적합한 回歸線 X 변수와 Y 변수의 관계를 가장 잘 설명하는 最 適線 (best-fitting line) 회귀선이 실제 관측치 분포에 최대한 가까이 그려지도록 함 즉, 관측치 ( ) 와 추정치 ( ) 의 차이인 잔차 ( 殘差 ) 제곱의 합을 최소화하는 회귀선 도출 최소제곱법

22 -22- 선형 회귀 모형 잔차 제곱의 합이 최소화되도록 최적의 회귀선을 찾음 ? ?

23 -23- 선형 회귀 모형 잔차 제곱의 합이 최소화되도록 Y = a + bX 의 a 와 b 를 구함 관측치 추정치 ( 잔차 = 관측치 - 추정치 )

24 -24-

25 -25- 회귀계수 산출 Y = a + bX Y = 17.8106 – 0.0069X

26 -26- 추정치와 잔차 Y( 추정치 ) = 17.8106 – 0.0069X 고도 (X) 가 350 미터라면 기온 (Y) 은 몇 도로 추 정되는가 ?

27 -27- 결정계수 R 2 (R-squared) 회귀모형의 설명력 (0 ≤ R 2 ≤ 1) 구해진 회귀식이 “ 얼마나 납득할 수 있는가 ” 를 말함 [ 추정치 SS / 관측치 SS] 로 계산 SS( 관측치 minus 평균 ) SS( 추정치 minus 평균 ) Sum of Square ( 제곱합 )

28 -28- 결정계수 R 2 (R-squared) R 2 이 클수록 설명력이 큰 모형

29 -29- 단순회귀 vs. 다중회귀 단순회귀 1 개의 설명변수 y = ß 0 + ß 1 x 1 다중회귀 복수의 설명변수 y = ß 0 + ß 1 x 1 + ß 2 x 2 + … + ß k x k y x1x1 x2x2

30 -30- R 을 이용한 회귀분석 FOSS (Free and Open Source Software) http://cran.nexr.com/ Windows – base – Download R

31 -31- R 을 이용한 회귀분석 단순 회귀 temp <- c(17.5, 17.3, 14.6, 17.8, 17.5, 14.4, 16.6, 16.9, 16.4, 15.5) alt <- c(10, 33, 508, 52, 109, 427, 236, 187, 126, 297) plot(alt, temp) simp.reg <- lm(temp ~ alt) summary(simp.reg) 우측 값을 좌측 변수에 대입 c( 값, 값, 값, …) --- 배열 linear model(regression) lm( 반응변수 ~ 설명변수 ) R 은 대소문자 구분 plot( 가로축, 세로축 )

32 -32- R 을 이용한 회귀분석 결과의 해석 호출된 linear model 의 공식 잔차의 분포 ( 최소, ¼ 선, ½ 선, ¾ 선, 최대 ) 잔차의 표준오차 자유도 R-squared ( 계수 ) (값)(값) β0β1β0β1

33 -33- 결과의 해석 회귀계수 β 0 ( 절편 ): 17.8105 β 1 ( 기울기 ): -0.0069 x 가 1 만큼 증가하면 y 는 -0.0069 만큼 증가 x 가 y 에 미치는 영향의 방향 (-) 과 크기 (0.0069)

34 -34- 잔차의 표준오차 회귀계수 β 0 ( 절편 ) 의 표준오차 회귀계수 β 1 ( 기울기 ) 의 표준오차 ☞ df (degrees of freedom, 자유도 ): 주어진 조건 하 에서 자유롭게 변화할 수 있는 정보량. 회귀분석에서 df 는 [ 샘플 개수 – 설명변수 개수 – 1] 로 계산. ☞ n 개의 샘플 ( 표본 ) 로 회귀분석을 수행할 때, 샘플의 구성이 달라지면 잔차와 회귀계수도 달라진다. 즉, 샘플의 구성에 따라 잔차와 회귀계수 가 조금씩 달라질 수 있는데, 이러한 변이 ( 가변성 ) 를 표준오차라 한다.

35 -35- 0 회귀계수가 얼마나 믿을만한가 ? t-value t-value = 회귀계수 / 표준오차 “ 회귀계수 ” 의 신빙성을 나타냄 회귀계수의 부호와 동일한 부호를 가짐 ±1.96 (95% 신뢰도 ), ±2.58 (99% 신뢰도 ), …… Pr(>|t|) p-value 라고도 함 “ 회귀계수 ” 의 유의수준을 나타냄 정규분포에서 |t| 보다 클 확률 t=1.96 일 때 0.05, t=2.58 일 때 0.01, ……  맞을 가능성  틀릴 가능성  정규분포의 원리 ☞ 참고로, R 2 는 “ 회귀식 ” 의 신빙성

36 -36- R 을 이용한 회귀분석 다중회귀 rad <- c(10, 11, 8, 10, 9, 9, 9, 12, 9, 10) mult.reg <- lm(temp ~ alt + rad) summary(mult.reg) lm(y ~ x1 + x2 + x3 + …)

37 -37- R 2 ( 결정계수 ) 와 R( 상관계수 ) 공분산 (covariance) 두 변수가 같이 움직이는 ( 같은 경향을 가지는 ) 정도 상관계수 두 변수의 상관성을 나타냄 결정계수 = 상관계수의 제곱 ☞ 평균, 분산 등을 구할 때 모집단은 n 으로 나누고 표본집단 ( 샘플 ) 은 n-1 로 나눔 -1 에서 1 사이의 값을 가짐 1 에 가까울수록 강한 양의 상관관계 -1 에 가까울수록 강한 음의 상관관계 참고

38 -38- 공분산과 상관계수 계산 eng 와 math 의 공분산 eng <- c(83, 42, 68, 92, 100) math <- c(73, 56, 72, 89, 84) cov(eng, math) eng 와 math 의 상관계수 cov(eng, math) / (sd(eng) * sd(math)) cor(eng, math) 참고

39 -39- Y : 암환자의 생존 / 사망 X : 흡연량, 음주량, 나이, 성별 0 ≤ y ≤ 1 로지스틱 (logistic) 회귀분석 반응변수가 논리형 변수 (0 또는 1) 일 때, 설 명변수에 따른 반응변수의 확률값 추정 z y 2.718… 오일러 상수 자연로그의 밑 설명변수 반응변수 승 / 패, 생존 / 사망 등 이진값

40 -40- 최우법 (Maximum Likelihood Method) 우도함수 (likelihood function) 경우의 수가 발생하는 정도 ( 확률 ) 를 함수로 표현 모집단의 승률을 p 라고 할 때, [ 승 - 패 - 승 - 승 - 승 - 패 - 승 - 패 - 승 - 승 ] 이라는 경우의 수가 발생할 확률은 ? 최우법 모집단의 발생확률 p 를 구하려면  표본집단의 우도함수를 최대화하여 p 를 구함 p × (1-p) × p × p × p × (1-p) × p × (1-p) × p × p 승 패 승 승 승 패 승 패 승 승 우선 알아둘 것 전체 (total) 일부로부터 전체를 짐작

41 -41- 설명변수를 통하여 승률 추정 설명변수 X 팀타율 홈 / 원정 반응변수 Y 승리 / 패배 ☞ 로지스틱 회귀분석의 반응변수는 반드시 논리형 변수 ( 이진값 : 0/1) 과거 20 경기의 샘플  앞으로 있을 경기의 승률을 추정 ( 승 : 1, 패 : 0) ( 홈 : 1, 원정 : 0) ☞ 로지스틱 회귀분석의 설명변수는 수치형, 논리형 변수 모두 가능

42 -42- 최우법을 이용한 로지스틱 회귀 우도함수 로그 우도함수의 최대화 승 패 …… 승 p (1-p) p 승/패승/패 X1: 팀타율 X2: 홈 / 원정 ☞ 로그 우도함수 최대화  β 0, β 1, β 2 를 구함 ( 통계패키지 R 이용 )

43 -43- R 에서 로지스틱 회귀분석 팀타율, 홈 / 원정  승률 win <- c(1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1) hit <- c(0.283, 0.242, 0.261, 0.244, 0.238, 0.281, 0.247, 0.268, 0.251, 0.281, 0.219, 0.223, 0.271, 0.262, 0.263, 0.218, 0.217, 0.271, 0.236, 0.228) home <- c(0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1) my.logit <- glm(win ~ hit+home, binomial(logit)) summary(my.logit) Y X1 X2 로지스틱 회귀임을 나타내는 옵션

44 -44- 로지스틱 회귀분석 결과 결과 해석 β0β1β2β0β1β2

45 -45- 설명변수를 통하여 승률 추정 팀타율 0.255, 홈경기일 때 이길 확률은 ? ☞ e 는 엑셀에서 exp 명령 이용


Download ppt "-1- 공간통계학 및 실습 공간정보시스템공학과 이 양 원"

Similar presentations


Ads by Google