Presentation is loading. Please wait.

Presentation is loading. Please wait.

8. 시계열 자료 분석 기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라. 환경공학과 20060153 정호준.

Similar presentations


Presentation on theme: "8. 시계열 자료 분석 기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라. 환경공학과 20060153 정호준."— Presentation transcript:

1 8. 시계열 자료 분석 기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라.
환경공학과 정호준

2 1.1 절 예측 어떤 자료에 대해 장래의 값을 예측한다는 것은 간단한 일이 아니고, 또 정확히 예측을 하기도 어렵다. 그러나, 현재까지의 자료를 가지고 합리적인 근거에 따른 예측의 필요성은 여러 분야에서 요구되고 있는 실정이다.

3 판매량, 재고량, 인력 또는 중요한 경제 및 경영 자료들에 대해 예측함으로써 사업의 전망에 대한 의사결정을 할 수 있기 때문이다.

4 예측의 방법은 여러 가지가 있을 수 있겠지만 여기서는 과거의 시점들에서 관찰된 값들(시계열)로써 예측하는 기법(시계열 분석)을 중심으로 예측의 방법들을 설명해 나가고자 한다.

5 1.2 시계열 자료 분석 시계열 자료를 분석한다는 것은 어떤 자료가 과거 관찰값들의 변화패턴과 비슷하게 현재 시점이후에도 변화될 것이라는 전제하에서 향후 시점의 값을 예측하는 기법이다.

6 정확한 예측을 위하여 보다 중요한 것은 시계열 자료의 성격과 특징을 파악하고, 그 자료와 관련된 주변 환경 변수들은 어떤 것들이 있는지, 그 자료 자체를 분석할 것인지 변환 또는 조정이 필요한지 등을 고려해 보아야만 할 것이다.

7 여기서, 주변 환경 변수들이란 인구통계변수, 경제지표변수, 경쟁관계변수, 정부정책, 기술변화 등을 말한다.
시계열 자료는 크게 두 가지로 나눌 수 있다. 정상적시계열과 비정상적시계열이 그 두 가지인데 우리들이 접하게 되는 시계열은 대부분 비정상적시계열이지만 정상적시계열로부터 시계열의 모습을 파악하는 것이 필요하다.

8 정상적 시계열과 비정상적 시계열 어떤 시계열 자료의 변화 패턴이 일정한 평균값을 중심으로 일정한 변동폭을 갖는 시계열일 때 그 자료를 정상적(비이동적, stationary) 시계열 자료라고 하며, 그 외의 시계열 자료들은 비정상적(이동적, non-stationary)이라고 부른다. 우리 주변의 많은 시계열 자료들이 비정상적임은 물론이다.

9 <그림 1.2-1>은 정상적 시계열이며 <그림 1.2-2>에는 여러 가지 비정상적 시계열의 예들이 있다.

10 <그림 1.2-1> 정상적시계열

11 <그림 1.2-2> 비정상적시계열

12 1.3 예측의 정확도 측정 시계열자료를 표현하는 방법은 로서 는 시점을 나타내고 는 그 시계열자료를 나타내는 변수이다. 즉, 등으로 시계열자료를 표현한다면 은 시점 1에서의 값, 는 시점 2에서의 값을 나타내는 것이다.

13 예측은 과거 시점들에서 얻어진 시계열자료들을 이용하여 장래시점에서의 그 시계열 변수 값들을 알아내는 것인데, 그 예측값들이 얼마나 정확하다고 할 수 있는가를 측정해야만 할 것이다.

14 더욱이, 앞으로 설명하겠지만, 어느 시계열자료에 대해 예측을 하는 방법으로 여러 가지 방법들이 가능한 데 어느 방법으로 예측한 결과가 가장 적당한가를 알기 위해서는 예측값들의 정확도를 측정하여 비교해 볼 수 있을 것이다. 먼저, 현재 시점(t)에서 n개의 시계열자료를 갖고 있다고 하자. 현재 시점의 자료를Yt 라고 표현하면 이 자료들을 다음과 같이 표현할 수 있을 것이다.

15 그러면, 시계열자료들을 가지고 예측을 수행하게 된다는 것이다
그러면, 시계열자료들을 가지고 예측을 수행하게 된다는 것이다. 그리고 n개의 시계열자료들로써 어떤 예측모형을 사용하여 향후 m개 시점들에 대한 예측값들을 얻는다면, 그 예측값들은 으로 표현될 것이다.

16 또한 이 예측모형에 의하여 현시점부터 과거 n개의 자료들이 계산될 수 있는데 그 값들은 로 표현한다. 즉,
이다.

17 따라서, 현재 얻어진 시계열자료 와 예측모형을 통하여 계산된 시계열 값들, 간의 차이는 (예측모형에 의하여 얻어지는) 오차들이 되는데, 이 오차들로써 그 예측모형이 적절한 예측 방법인가를 판단하는 기준을 얻어야 할 것이다. 즉,

18 위의식들을 오차라고 부르며, 이들 오차들을 가지고 예측 방법의 정확도를 측정해야 할 것이다.
또한, 향후 m시점에 걸쳐 시계열의 관찰치, 가 얻어진다면 계산될 수 있을 것이고, 이 값들을 예측오차라고 부른다. 위에서 설명한 오차들로써 예측방법의 정확도를 측정하는 방법들은 다음과 같다.

19 정확도 측정방법

20

21

22

23 1.4 평활법 (Smoothing Method)
다시 말하면, 어떤 부드러운 곡선을 기준으로 임의로(Random) 이탈하여 시계열자료 값들이 얻어진 것이라는 전제하에서 그 부드러운 곡선의 패턴을 찾아내자는 방법이다.

24 따라서, Smoothing 방법은 과거 시계열자료들에 어떤 방법으로 가중치를 부여하여 예측하느냐에 따라 크게 이동평균(Moving Average)방법과 지수평활법(Exponential Smoothing) 방법의 두 가지로 나누어 생각할 수 있다.

25 1.4.1 이동평균방법 이동평균방법이란 어느 시계열 자료가 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있을 경우에 적용시킬 수 있는 방법이다. 주기가 길어질수록 직선에 가까운 부드러운 선이 얻어질 것임을 쉽게 알 수 있다.

26 1) 평균 (Average) 평균을 사용하여 예측을 한다는 것은 매우 직관적인 방법이다. 왜냐하면, 평균이란 누구나 알고 있는 개념이어서 쉽고 간단하게 사용할 수 있기 때문이다. 시계열 자료, 가 있다고 하자.

27

28 평균을 예측의 방법으로 적용시킬 수 있는 시계열자료는 추세(Trend)도 없고 계절성(Seasonality)도 없는 시계열자료이다. 이러한 시계열자료에 대해서라면 평균에 사용되는 자료의 수가 많으면 많을수록 안정적(Stable)인 평균값이 얻어지기 때문에 평균을 이용할 경우 좋은 예측값이 될 것이다. 그러나, 시계열자료가 추세나 계절성이 있을 경우, 또는 어느 시점에서 급격히 변화하는 모습을 나타낸다면 평균의 방법으로 좋은 예측값을 기대할 수는 없을 것이다.

29 2) 단순이동평균 (Simple Moving Average)
시계열자료가 충분히 확보되어 있을 경우, 평균의 방법을 개선하여 일정한 개수의 자료들을 평균하여 예측값으로 사용하는 방법이다. 예측하고자 하는 시점 (T)를 기준으로 과거 몇 개의 자료로써 평균을 얻을 것인가 하는 주기 (N)가 결정되면, 다음과 같은 방법으로 이동평균(moving average)을 얻을 수 있다. 시계열 자료, 가 있다고 하자. 그리고 주기를 N이라고 하면, <표 >와 같이 시점 (T+1, T+2, T+3)에서의 예측값, 을 얻는다.

30 <표 1.4.1-2> 단순이동평균방법에 있어서의 예측시점별 예측값

31 그러나, 단순 이동평균방법은 시계열자료가 추세를 갖고 있을 경우에는 부적절하다.
이동평균방법을 사용함에 있어서 주기 (N)를 얼마로 해야 하는가 하는 문제가 있는데 (a) MA(1)은 현재 시점 (T)의 시계열 값으로 다음 시점 (T+1)의 시계열자료를 예측한다는 것이다.

32 (b) MA(4)는 분기별 자료에 대해 사용할 수 있는 데, 4개의 자료들 평균을 얻으면 계절 효과를 제거하는 데 도움이 되지만, 그 평균값을 다음 시점의 예측값으로 한다는 것은 추세나 계절효과를 나타내기에 바람직하지 않다. 다음에 설명되겠지만, 4개의 자료들 평균을 4개 자료들의 가운데 위치시킨다면 시계열자료들의 요소들을 파악하는데 도움이 될 것이다.

33 (c) 이동평균방법에서 주기를 크게 하면 할수록 시계열자료를 부드럽게 하는 효과는 있다

34 3) 선형이동평균방법 (Linear Moving Average Method)
앞에서 설명한 평균이나 이동평균의 방법은 시계열자료가 어떤 추세를 보이고 있을 경우 적당한 예측방법이 될 수가 없다. 추세가 있는 시계열자료에 대해서는 단순히 이동평균방법을 사용할 경우, 체계적 오차가 발생하기 때문에 선형 이동평균방법(linear moving average method)를 소개한다.

35 선형 이동평균방법은 이동평균 값들을 다시 이동평균하여 얻어진 값들을 이용하여 예측하는 방법이다
선형 이동평균방법은 이동평균 값들을 다시 이동평균하여 얻어진 값들을 이용하여 예측하는 방법이다. 주기가 N인 이동평균을 주기 N으로 반복 이동평균한 결과를 MA(NxN)으로 표현하기로 하자.

36 선형이동평균방법에서는 단순 이동평균방법에서와는 달리 MA(3)의 값을 t=3에 위치시킨다
선형이동평균방법에서는 단순 이동평균방법에서와는 달리 MA(3)의 값을 t=3에 위치시킨다. 그리고 반복이동평균값인 MA(3x3)도 3개의 이동평균값들 (4, 6, 8)로부터 얻은 후, 단순 이동평균값을 [MA(3) - MA(3x3)]만큼 조정하고 시점간의 추세를 반영하여 예측하는 방법이다.

37 이제, 이동평균과 반복이동평균을 정리하여 선형이동평균방법에 의한 예측값을 일반화시켜보기로 하자
이제, 이동평균과 반복이동평균을 정리하여 선형이동평균방법에 의한 예측값을 일반화시켜보기로 하자. 단순이동평균과 반복이동평균 으로 표현하면

38

39 식(1. 4-1)는 단순이동평균으로 얻어진 값을 만큼 조정한 결과를 나타내고, 식(1
식(1.4-1)는 단순이동평균으로 얻어진 값을 만큼 조정한 결과를 나타내고, 식(1.4-2)은 단위기간 동안의 추세 추정치를 나타낸다. 식(1.4-2)의 2/(N-1)은 뒤에서도 나오는 값이므로 여기서 간단히 설명하고 넘어가기로 하자.

40 먼저, 주기 N의 이동평균은 기간 동안의 시계열 값들 평균이기 때문에 시점 (N+1)/2에 위치시키는 것이 원칙이다
먼저, 주기 N의 이동평균은 기간 동안의 시계열 값들 평균이기 때문에 시점 (N+1)/2에 위치시키는 것이 원칙이다. 그러나, 주기 N의 이동평균값을 시점 N에 위치시키기 때문에 N-(N+1)/2=(N-1)/2 기간의 차이가 나게 된다. 반복이동평균의 값도 이와 마찬가지로 (N-1)/2 기간의 차이가 나며 이 기간동안의 추세 변동폭은 이기 때문에 단위 기간(시점과 시점간의 기간)에 대한 추세는 을 (N-1)/2로 나눈, 식(1.4-2)과 같이 된다.

41 1.5 시계열 요소 분해법 시계열 요소분해법이란 시계열자료는 변동들의 혼합(결합)으로 이루어지는 것이므로 시계열자료를 형성하고 있는 변동요소를 찾아내고 시계열자료를 그 요소들로 표현하여 예측해 보자는 것이다.

42 실제로, 우리가 분석하고자 하는 많은 경영, 경제 시계열자료들은 대체로 추세(Trend), 계절변동(Seasonal Fluctuation), 순환변동(Cyclical Movement)으로 이루어지며, 기타 불규칙변동(Irregular/Random Fluctuation)이 추가되어 변화하는 모습을 갖게 된다. 따라서, 시계열자료에 내포되어 있는 이 변동들을 각각 분리시켜 찾아보고, 이 변동들의 조합으로 예측을 하는 것도 바람직한 예측방법 중의 하나일 것이다.

43 1.5.1 시계열요소 (The Component of Time Series Data)
시계열자료를 구성하고 있는 세 가지 변동을 설명해 보면 다음과 같다. 1) 추세 (Trend) 추세란 자료가 장기적으로 변화해 가는 큰 흐름을 나타내는 것이다. 자료가 장기적으로(Long-run) 커지는지, 작아지는지, 변화가 없는지를 나타내 주는 요소를 추세라고 한다. 보다 구체적으로는 장기적으로 커지는 모습일 때 그것이 선형인지, 지수적으로(Exponentially) 증가하는 것인지를 함수관계로 나타내 줄 수도 있을 것이다.

44 2) 순환변동 (Cyclical Movement)
순환변동은 경제전반의 또는 특정 산업의 부침(Ups and Downs)를 나타내 주는 것을 말한다. 예를 들면, GNP(국민총생산), 산업생산지수, 주택수요, 자동차 판매대수, 주식가격, 통화공급량, 이자율 등도 순환변동

45 3) 계절변동 (Seasonal Fluctuation)
계절변동은 일정한 주기를 갖고 반복적으로 같은 패턴으로 변화하는 것을 말한다. 예를 들면, 온도(1일 주기), 강우량(1년 주기), 전력소비량(1일 주기) 등 순환변동과 계절변동의 차이점은 계절변동은 주기가 일정(1년, 1달, 1주 등)하게 정해진 반면 순환변동은 정해지지 않은 기간 동안에 사이클(Cycle)을 보여주는 것이라 할 수 있다.

46 이상과 같이 시계열자료는 세 가지 변동을 내포하면서 불규칙하게 변화하는 것이므로 시계열자료( )는
로 표현할 수 있다. 여기서 오차(Error/Randomness)란 불규칙 변동으로 설명되는 항인데 실제 시계열자료 값과 추세, 순환, 계절 변동의 조합에 따른 패턴, 간의 차이라고 보면 된다.

47 그러므로, 시계열자료는 실제로 위에서 설명한 네 가지 요소가 뒤섞여 있는 것으로 간주하여
( ) 로 표현한다. 여기서, 시점에서의 시계열 값, 시점에서의 추세요소, 순환요소, 계절요소, 불규칙요소를 나타낸다.

48 그리고 대체로 다음과 같은 과정을 거쳐 요소들을 분해하게 된다.
(1) 계절변동 주기를 파악한 후 기의 이동평균을 구하여 계절성과 불규칙성(임의성)을 제거시킬 수 있다. 즉 계절변동의 주기가 12개월이든, 4분기든, 7일이든 간에 시계열 자료의 기 이동평균을 얻으면 계절성으로 인한 높은 값과 낮은 값들을 평균하는 것이 되어 계절성이 제거되고, 또 평균값을 얻음으로써 임의의 어떤 이유 때문에 생기는 작은 변동인 불규칙 변동도 제거하는 효과를 얻을 수 있다.

49 (2) 시계열자료()로 부터 (1)에서 구한 이동평균 값들은 분리시키게 되면 추세변동과 순환변동만 남게 된다.
(3) 그러면 시계열자료의 추세가 어떤 형태로 이루어져 있는지를 알 수 있게 되고, 그 추세의 형태를 구할 수 있다. (4) (2)에서 얻어진 추세변동과 순환변동만 남아 있는 시계열에서 (3)에서 구한 추세변동을 제거하면 순환변동이 얻어지고 (5) 위의 과정에서 얻어진 것을 모두 제거할 때 남는 것이 불규칙변동이다.

50 1.5.2 추세변동 시계열자료가 장기적으로(Log-run) 어떤 경향을 나타내고 있는가를 추세(Trend)라고 한다. 시계열자료가 증가하는 경향이 있는지 또는 감소하는 경향이 있는지를 알아보고, 증가나 감소의 경향이 선형(Linear)인지 어떤 함수관계로 나타낼 수 있는지를 찾는 것이다. 시계열자료가 갖는 추세는 일반적으로 <그림 1.5-2>와 같다.

51 <그림 1.5.2-1> 시계열 자료의 일반적 추세

52

53 <그림 1.5.2-1> (c)와 (d)는 각각
의 관계를 나타낸 것이다.

54 그리고 <그림 > (e)는 성장곡선을 나타내는 그래프로서 초기에는 서서히 증가하다가, 일정 시점 이후에는 성장의 속도가 빠르게 되고 또 성장의 둔화하는 모습을 나타내는 시계열에 적합하다. 이와 같은 성장곡선은

55 로 관계식이 얻어지게 된다. 위의 관계식을 로 바꾸어 와 를 구할 수 있게 된다.

56 (1) 선형추세의 예 시간의 흐름에 따라 일정한 비율로 증가하는 시계열자료의 패턴을 Yt와t가 의 관계에 있음을 뜻한다. 실제로 자료가 n개 있을 경우 회귀분석의 최소자승법에 따라 기울기 와 절편 의 값을 구할 수 있다. 예를 들어, <표 >와 같은 판매액 자료가 있을 때

57 <표 1.5.2-1> 실제 판매액과 물가지수를 반영한 판매액 (단위:백만원)

58

59 <그림 1.5.2-2> 자료의 흩어진 정도와 추세선

60 (2) 비선형추세의 형태 시계열자료가시점에 따라 직선의 관계에 있지 않고 <그림 1.5-2>의 (b), (c), (d)와 같이 비선형의 관계에 있을 경우는 와 등의 관계로 표현될 수 있는데, 이모형들은 대수(Logarithm)를 취함으로써 선형의 관계로 바뀌어 진다.

61 (3) 추세패턴을 찾는 방법 시계열 자료의 Scatter Plot을 얻어 그림 상에 나타난 추세를 적당한 모형식에 적용시키는 것이 가장 기본적인 방법일 것이다. 그러나, 보다 객관적인 근거를 얻기 위해서는 시계열 자료를 차분(Differencing)시키거나, 시계열 자료의 자기상관(Autocorrelation)을 얻어 볼 필요가 있다.

62 시계열의 추세를 찾아낸 후에는 원 시계열에서 추세를 제거시킴으로써 추세가 없는 (Detrending)시계열의 형태를 얻게 되는 데, 그 형태는 정상적시계열(Stationary Time-series)이 될 것이고 이 정상적시계열에 나타나는 다른 변동 요소들을 찾는 일이 남게 된다.

63 1.5.3 순환변동 순환변동(Cyclical Fluctuation)은 추세변동을 제거시킨 시계열로부터 찾아낼 수 있는데 비교적 장기간의 시계열일 경우, 일정한 기간을 갖지는 않더라도 침체기와 활황기가 반복적으로 나타나는 일정의 경기변동을 말한다.

64 1.5.4 계절변동 계절변동(Seasonal Variation)이란 1년 이내의 주기를 갖고 반복적으로 나타나는 변동을 말한다. 주기는 1일, 1주, 1년 등이 될 수 있으며, 시계열 자료가 한 주기 내에서 반복적으로 비슷한 형태의 패턴을 보일 경우 계절변동을 찾을 수 있다. 예측에 있어서 계절변동을 찾는 것이 중요한 이유는 다음과 같다.

65 첫째, 많은 시계열자료에서 추세변동 다음으로 뚜렷하게 나타나는 것이 계절변동인데, 예측을 함에 있어 이 계절성을 고려해야만 보다 정확한 예측이 가능하다. 즉, 계절변동을 찾아내 원 시계열자료에서 계절성을 제거할 때 예측모형의 틀이 짜여 지고 정확한 예측을 할 수 있는 것이다. 계절변동을 찾아야 되는 이유는 또한 장기간의 계획을 수립함에 있어 계절적 변동을 파악해야만 생산량과 재고량을 조절하여 수급을 원할히 할 수 있기 때문이다.

66 1.6 Box-Jenkins 모형 소위 ARIMA(Auto Regressive Integrated Moving Average) 모형으로 일컬어지는 Box-Jenkis 모형은 시계열자료의 예측에 널리 사용되고 있다. Box-Jenkins 모형에 의하여 시계열자료를 다루고자 할 때는 다음의 세 가지 단계, 즉, (1) 모형식별 (model identification) (2) 식별된 모형의 파라미터 추정 및 진단 (testing) (3) 예측 (forecasting) 를 거치게 된다.

67 1.6.1 Box-Jenkins 모형 일단 시계열자료가 정상적인 경우, Box-Jenkins 모형은 다음의 세 가지로 나누어진다. 즉, (1) 자기회귀모형 (2) 이동평균모형 (3) 자기회귀이동평균모형

68 (1) 자기회귀모형 (Autoregressive Model)
자기회귀모형이란 시계열자료()가 과거 값들로써 설명된다는 모형이다. 다시 말하면, 회귀모형과 같이 과거 p까지의 값들이 영향을 준다고 할 경우의 식( )을 p차 자기회귀모형이라고 부르며 AR(p)라고 표현한다. 물론, 바로 전기의 값이 현재의 값에 중요하게 영향을 주는 경우, AR(1) 모형이 되며

69 으로 표현된다. 여기서 는 오차를 나타내며 시점에 관계없이 독립적이고 정규분포 한다는 가정을 하게 된다.

70 (2) 이동평균모형 (Moving Average Model)

71 (3) 자기회귀이동평균모형 (Autoregressive Moving Average Model)
앞에서의 두 가지 모형은 시계열자료가 과거의 시계열자료 값들로 표현될 수 있다는 것과 과거의 오차값들로 표현될 수 있다는 것을 나타내고 있는데, 경우에 따라서는 과거의 시계열자료 값들과 과거의 오차값들 모두의 영향을 받는다고 할 수도 있을 것이다. 그러므로 AR과 MA가 혼합된 자기회귀이동평균모형을 다음과 같이 나타낼 수 있다.

72 1.6.2 모형의 규명 정상적시계열에 대한 AR, MA, ARMA 모형은 세 가지가 있다는 설명을 하였다. 물론 차수(order)를 고려할 때 그 종류는 훨씬 많아지는 것을 알 수 있다. 그러면, 주어진 시계열을 어떤 모형에 적합시키는 것이 바람직한가를 찾아야 하는데 이를 규명(identification)이라고 한다. 즉, 주어진 시계열자료로 부터 얻어지는 정보를 수단으로 하여 주어진 시계열은 어떤 모형일 것이라는 규명을 하게 되는데, 규명의 중요 수단으로 자기상관계수(autocorrelation : AC)와 부분자기상관계수(partial autocorrelation : PAC)가 있다.

73 1) 자기상관계수 (Autocorrelation Coefficient)
자기상관계수란 시계열자료()에서 시차 (lag)를 일정하게 줄 경우의 상관계수이다. 예를 들면, 시차1의 자기상관계수란 와 간의 상관계수를 말하는데, 이웃 시점 간에 상관계수가 얼마나 되는가를 찾고자 하는 것이다. 시차1의 자기상관계수를 계산하려면

74

75 2) 자기상관계수의 분포 시계열자료로부터 계산된 자기상관계수가 유의적인가를 알기 위해서는 자기상관계수들의 분포를 알아야 한다. 즉,가설검증하여 를 기각하면, 얻어진 k차 자기상관계수가 유효한 것이라는 것이다. 이 때, 계산된 k차 자 기상관계수 의 분포는 정규분포로서 로 얻어지기 때문에, 의 표준오차 를 이용하여 의 95% 신뢰수준의 신뢰구간을 얻을 수 있다.

76 3) 부분자기상관계수 (Partial Autocorrelation Coefficient)
회귀분석에서 반응변수 를 과 에 회귀시킬 경우, 즉, 의 모형에서, 가 에 미치는 영향을 제외시킨 후 이 에 미치는 영향을 얻고자 할 때 부분결정계수라는 개념을 이용하는데 시계열분석에서도 이와 같은 개념에서 부분자기상관계수를 이해하면 된다.

77 앞에서 언급한 바와 마찬가지로 Box-Jenkins 모형을 규명하는 수단으로 자기상관계수(AC)와 부분자기상관계수(PAC)가 사용되는데 자기회귀모형(AR), 이동평균모형(MA), 자기회귀이동평균모형(ARMA)의 자기상관계수와 부분자기상관계수의 형태를 몇 가지로 정리함으로써 모형 규명의 가이드라인을 얻을 수 있다.

78 O MA 모형 AC가 돌출적인 값들을 갖고 PAC는 순차적으로 작아지는 모습을 나타내는데, 유의적인 AC의 돌출부의 수로 차수를 결정한다. O AR 모형 PAC가 돌출적인 값들을 갖고, AC는 순차적으로 작아지는 모습을 나타낼 경우 모형으로 판단되며 유의적인 PAC의 돌출부의 수로 차수를 결정한다. O ARMA 모형 AC와 PAC 모두 순차적으로 작아지는 경우 모형으로 식별되며 차수는 를 넘지 않는다.

79 1.6.3 MA모형, AR모형, ARMA모형의 AC와 PAC

80 1) MA모형

81 그러므로, MA(1)모형은 시차 1의 AC만이 유효하며 2이상의 시차에서는 AC값들이 0이 되고 PAC는 점진적으로 소멸되어 가는 형태를 갖게 된다. <그림 >에서는 MA(1)의 여러 가지 AC와 PAC그래프를 보여주고 있다.

82 <그림 1.6.3-1> MA(1)의 AC와 PAC 형태

83 <그림 1.6.3-2> MA(2)의 AC와 PAC의 형태

84 2) AR모형 먼저, 가장 단순한 AR(1)모형에 대한 자기상관계수 (AC)는 다음과 같이 구해진다. 에 대한
그러므로 AC는 시차 k가 커질수록 점진적으로 감소하는 모양을 갖게 된다.

85 <그림 1.6.3-3>은 AR(1)모형의 AC와 PAC 이다.

86

87 <그림 1.6.3-4> AR(2)의 AC와 PAC

88 3) ARMA모형 AR과 MA모형의 혼합 형태인 ARMA모형에 대해서는 자기상관계수 (AC)나 부분자기상관계수 (PAC) 모두 점진적으로 작아지는 형태를 갖는다. 이 경우에는 AC, PAC 모두 특별한 특징을 보이지 않기 때문에 AR이 아니고, MA도 아닌 경우라고 판단될 때 ARMA모형으로 식별할 수밖에 없다. ARMA(1,1) 모형에 대한 몇 가지 AC와PAC 패턴을 소개하면 <그림 >와 같다.

89 <그림 1.6.3-5> ARMA(1,1)의 AC와 PAC 형태

90 1.6.4 비정상적 시계열 앞에서도 언급한 바와 같이 대부분의 시계열자료는 비정상적시계열이다. 비정상적시계열이라 함은 일정기간 동안의 시계열자료들의 평균이 같지 않거나, 분산이 같지 않은 경우로서 비정상적시계열을 정상적시계열로 전환시켜 놓아야 모형을 식별할 수 있게 된다. 비정상적시계열을 정상적시계열로 바꾸는 방법은 주로 차분(differencing)으로 해결한다.

91 1.6.5 식별된 모형의 파라미터 추정과 진단 앞절 1.6.3에서는 간단한 MA모형과 AR모형 그리고 ARMA 모형의 AC와 PAC 형태를 살펴봄으로써 어떤 시계열자료가 주어졌을 때, 이 자료의 AC와 PAC로써 그 자료는 어떤 모형으로 식별할 수 있는가를 알아보았다. 물론, 실제 시계열자료의 AC와PAC 는 이론적으로 얻어진 AC와 PAC의 형태보다 훨씬 복잡하게 얻어질 것이다.

92 이제 주어진 시계열자료의 AC와 PAC를 보고 어떤 모형이라고 식별한 후에는 그 모형의 파라미터 값들을 추정해야 한다
o 조건 최소자승법 o 비조건 최소자승법 o 최우추정법 등이 있는데, 그 추정하는 이론적 계산식은 여기서 설명할 수가 없다.

93 따라서 우리는 통계 패키지(SAS, SPSS, RATS, Minitab 등)로써 얻어진 결과만을 살펴보기로 하자.
모형의 파라미터 값들이 추정되면, 시계열자료가 그 모형에 얼마나 잘 적합되는지를 진단해야 하는데, 그 적합도로서 AIC(Akaike Information Criterion) 또는 SBC(Schwartz Bayesian Criterion)를 사용하는 것이 일반적이다. 즉, ARMA(p,q)모형에 대해

94 로 정의되는바, AIC(또는 SBC) 값이 가장 작은 (p,q)가 가장 근사한 모형이라고 판단할 수 있다

95 Box-Pierce 통계량 잔차들이 서로 상관되어 있다면 그 모형으로는 시계열자료를 잘 적합시키지 못하고 있다는 것을 시사하는 것이다. 잔차들의 자기상관(autocorrelation of residuals)을 검색하는 도구로 Box-Pierce(Portmanteu) Q통계량을 사용하는데 시차(lag) 묶음별로 자기상관이 존재하는가를 검증할 수 있다. 즉, Q통계량은

96 로 정의되는데, T는 잔차의 수(자료의 수), ri는 i번째 (lag) 시차의 자기상관계수, m은 시차 1에서 시차 m까지의 시차 묶음을 나타낸다. 즉, 을 가설검증하기 위한 검증통계량으로 Q통계량을 사용하는데 M을 6, 12, 18 등으로 하여 잔차들의 자기상관계수 묶음들에 대한 가설을 검증한다.

97 추정된 파라미터들의 상관계수 파라미터의 수가 2개 이상인 모형에 대해서 추정된 파라미터들 간의 상관계수를 살펴보아야 한다. 만일, 두 개의 파라미터들 간에 높은 상관관계가 존재한다면 둘 중 하나의 파라미터는 제외시켜 모형을 간결하게 하는 것이 바람직하기 때문이다. 예를 들어, 다음과 같이 파라미터들 간에 상관계수가 얻어졌다면 파라미터 3은 불필요하다고 간주할 수 있다.

98 파라미터들의 상관계수

99 왜냐하면, 파라미터 2와 파라미터 3의 상관계수가 0.856이어서 둘 중의 하나가 필요 없다고 한다면, 파라미터 2 보다는 파라미터 3이 파라미터 1과 높은 상관계수를 갖기 때문이다. 그러면, 파라미터 3이 없는 모형에 대해 추정을 다시하고 모형에 대한 적합성 검진을 해야 할 것이다.


Download ppt "8. 시계열 자료 분석 기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라. 환경공학과 20060153 정호준."

Similar presentations


Ads by Google