Download presentation
Presentation is loading. Please wait.
Published by옥담 수 Modified 6년 전
1
8. 시계열 자료 분석기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라.
환경공학과 임건섭
2
1. 시계열 자료 분석- 1.1 예측 어떤 자료에 대해 장래의 값을 예측한다는 것은 간단한 일이 아니고, 또 정확히 예측을 하기도 어렵다. 그러나, 현재까지의 자료를 가지고 합리적인 근거에 따른 예측의 필요성은 여러 분야에서 요구되고 있는 실정이다. 판매량, 재고량, 인력 또는 중요한 경제 및 경영 자료들에 대해 예측함으로써 사업의 전망에 대한 의사결정을 할 수 있기 때문이다. 예측의 방법은 여러 가지가 있을 수 있겠지만 여기서는 과거의 시점들에서 관찰된 값들(시계열)로써 예측하는 기법(시계열 분석)을 중심으로 예측의 방법들을 설명해 나가고자 한다.
3
1.2 시계열 자료 분석 시계열 자료를 분석한다는 것은 어떤 자료가 과거 관찰값들의 변화패턴과 비슷하게 현재 시점이후에도 변화될 것이라는 전제하에서 향후 시점의 값을 예측하는 기법이다. 정확한 예측을 위하여 보다 중요한 것은 시계열 자료의 성격과 특징을 파악하고, 그 자료와 관련된 주변 환경 변수들은 어떤 것들이 있는지, 그 자료 자체를 분석할 것인지 변환 또는 조정이 필요한지 등을 고려해 보아야만 할 것이다. 여기서, 주변 환경 변수들이란 인구통계변수, 경제지표변수, 경쟁관계변수, 정부정책, 기술변화 등을 말한다. 시계열 자료는 크게 두 가지로 나눌 수 있다. 정상적시계열과 비정상적시계열이 그 두 가지인데 우리들이 접하게 되는 시계열은 대부분 비정상적시계열이지만 정상적시계열로부터 시계열의 모습을 파악하는 것이 필요하다.
4
정상적 시계열과 비정상적 시계열 어떤 시계열 자료의 변화 패턴이 일정한 평균값을 중심으로 일정한 변동폭을 갖는 시계열일 때 그 자료를 정상적(비이동적, stationary) 시계열 자료라고 하며, 그 외의 시계열 자료들은 비정상적(이동적, non-stationary)이라고 부른다. 우리 주변의 많은 시계열 자료들이 비정상적임은 물론이다. <그림 1.2-1>은 정상적 시계열이며 <그림 1.2-2>에는 여러 가지 비정상적 시계열의 예들이 있다.
5
<그림 1.2-1> 정상적시계열
6
<그림 1.2-2> 비정상적시계열
7
1.3 예측의 정확도 측정 시계열자료를 표현하는 방법은 로서 는 시점을 나타내고 는 그 시계열자료를 나타내는 변수이다. 즉, 등으로 시계열자료를 표현한다면 은 시점 1에서의 값, 는 시점 2에서의 값을 나타내는 것이다. 예측은 과거 시점들에서 얻어진 시계열자료들을 이용하여 장래시점에서의 그 시계열 변수 값들을 알아내는 것인데, 그 예측값들이 얼마나 정확하다고 할 수 있는가를 측정해야만 할 것이다. 더욱이, 앞으로 설명하겠지만, 어느 시계열자료에 대해 예측을 하는 방법으로 여러 가지 방법들이 가능한 데 어느 방법으로 예측한 결과가 가장 적당한가를 알기 위해서는 예측값들의 정확도를 측정하여 비교해 볼 수 있을 것이다. 먼저, 현재 시점(t)에서 n개의 시계열자료를 갖고 있다고 하자. 현재 시점의 자료를 라고 표현하면 이 자료들을 다음과 같이 표현할 수 있을 것이다.
8
그러면, 의 시계열자료들을 가지고 예측을 수행하게 된다는 것이다. 그리고 n개의 시계열자료들로써 어떤 예측모형을 사용하여 향후 m개 시점들에 대한 예측값들을 얻는다면, 그 예측값들은 으로 표현될 것이다.
9
또한 이 예측모형에 의하여 현시점부터 과거 n개의 자료들이 계산될 수 있는데 그 값들은 로 표현한다. 즉,
이다. 따라서, 현재 얻어진 시계열자료 와 예측모형을 통하여 계산된 시계열 값들, 간의 차이는 (예측모형에 의하여 얻어지는) 오차들이 되는데, 이 오차들로써 그 예측모형이 적절한 예측 방법인가를 판단하는 기준을 얻어야 할 것이다.
10
즉, 들을 오차라고 부르며, 이들 오차들을 가지고 예측 방법의 정확도를 측정해야 할 것이다. 또한, 향후 m시점에 걸쳐 시계열의 관찰치, 가 얻어진다면 도 계산될 수 있을 것이고,
11
이 값들을 예측오차라고 부른다. 위에서 설명한 오차들로써 예측방법의 정확도를 측정하는 방법들은 다음과 같다.
1) Mean Error : (오차평균) 2) Mean Absolute Error : (절대평균오차) 3) Mean Squared Error : (자승오차의 평균) 4) Standard Deviation of Errors : (오차의 표준편차) 5) Percentage Error : (오차의 백분율)
12
6) Mean percentage Error : (오차백분율의 평균)
7) Mean Absolute Percentage Error : (오차백분율 절대값의 평균) 8) Theil's U-Statistic (Theil의 U 통계량) 여기서 , (예측된 변화비율) (관찰된 변화비율) 9) Durbin-Watson Statistic (Durbin-Watson의 통계량)
13
1.4 평활법 (Smoothing Method)
다시 말하면, 어떤 부드러운 곡선을 기준으로 임의로(Random) 이탈하여 시계열자료 값들이 얻어진 것이라는 전제하에서 그 부드러운 곡선의 패턴을 찾아내자는 방법이다. 따라서, Smoothing 방법은 과거 시계열자료들에 어떤 방법으로 가중치를 부여하여 예측하느냐에 따라 크게 이동평균(Moving Average)방법과 지수평활법(Exponential Smoothing) 방법의 두 가지로 나누어 생각할 수 있다.
14
1.4.1 이동평균방법 이동평균방법이란 어느 시계열 자료가 일정한 주기를 갖고 비슷한 패턴으로 움직이고 있을 경우에 적용시킬 수 있는 방법이다. 주기가 길어질수록 직선에 가까운 부드러운 선이 얻어질 것임을 쉽게 알 수 있다. 1) 평균 (Average) 평균을 사용하여 예측을 한다는 것은 매우 직관적인 방법이다. 왜냐하면, 평균이란 누구나 알고 있는 개념이어서 쉽고 간단하게 사용할 수 있기 때문이다. 시계열 자료, 가 있다고 하자.
15
그러면 (T+1) 시점에서의 예측값 을 로 하자는 것이다. 만일 (T+1) 시점의 실제 시계열 값이 얻어진다면 예측오차는 로 계산되어 진다. 마찬가지로 시점 (T+2)에서의 예측값, 는 로 계산될 것이다.
16
평균을 예측의 방법으로 적용시킬 수 있는 시계열자료는 추세(Trend)도 없고 계절성(Seasonality)도 없는 시계열자료이다. 이러한 시계열자료에 대해서라면 평균에 사용되는 자료의 수가 많으면 많을수록 안정적(Stable)인 평균값이 얻어지기 때문에 평균을 이용할 경우 좋은 예측값이 될 것이다. 그러나, 시계열자료가 추세나 계절성이 있을 경우, 또는 어느 시점에서 급격히 변화하는 모습을 나타낸다면 평균의 방법으로 좋은 예측값을 기대할 수는 없을 것이다.
17
2) 단순이동평균 (Simple Moving Average)
시계열자료가 충분히 확보되어 있을 경우, 평균의 방법을 개선하여 일정한 개수의 자료들을 평균하여 예측값으로 사용하는 방법이다. 예측하고자 하는 시점 (T)를 기준으로 과거 몇 개의 자료로써 평균을 얻을 것인가 하는 주기 (N)가 결정되면, 다음과 같은 방법으로 이동평균(moving average)을 얻을 수 있다. 시계열 자료, 가 있다고 하자. 그리고 주기를 N이라고 하면, <표 >와 같이 시점 (T+1, T+2, T+3)에서의 예측값, 을 얻는다.
18
예측시점 이동평균 (MA(N)) 예측값 T T+1 T+2
<표 > 단순이동평균방법에 있어서의 예측시점별 예측값 예측시점 이동평균 (MA(N)) 예측값 T T+1 T+2
19
그러나, 단순 이동평균방법은 시계열자료가 추세를 갖고 있을 경우에는 부적절하다.
이동평균방법을 사용함에 있어서 주기 (N)를 얼마로 해야 하는가 하는 문제가 있는데 (a) MA(1)은 현재 시점 (T)의 시계열 값으로 다음 시점 (T+1)의 시계열자료를 예측한다는 것이다. (b) MA(4)는 분기별 자료에 대해 사용할 수 있는 데, 4개의 자료들 평균을 얻으면 계절 효과를 제거하는 데 도움이 되지만, 그 평균값을 다음 시점의 예측값으로 한다는 것은 추세나 계절효과를 나타내기에 바람직하지 않다. 다음에 설명되겠지만, 4개의 자료들 평균을 4개 자료들의 가운데 위치시킨다면 시계열자료들의 요소들을 파악하는데 도움이 될 것이다. (c) 이동평균방법에서 주기를 크게 하면 할수록 시계열자료를 부드럽게 하는 효과는 있다. 왜냐하면 많은 자료들의 평균을 내어서 예측값으로 사용한다는 것은 그 기간내의 들쭉날쭉 함을 고려하지 않는다는 것이기 때문이다.
20
3) 선형이동평균방법 (Linear Moving Average Method)
앞에서 설명한 평균이나 이동평균의 방법은 시계열자료가 어떤 추세를 보이고 있을 경우 적당한 예측방법이 될 수가 없다. 추세가 있는 시계열자료에 대해서는 단순히 이동평균방법을 사용할 경우, 체계적 오차가 발생하기 때문에 선형 이동평균방법(linear moving average method)를 소개한다. 선형 이동평균방법은 이동평균 값들을 다시 이동평균하여 얻어진 값들을 이용하여 예측하는 방법이다. 주기가 N인 이동평균을 주기 N으로 반복 이동평균한 결과를 MA(NxN)으로 표현하기로 하자. 선형이동평균방법에서는 단순 이동평균방법에서와는 달리 MA(3)의 값을 t=3에 위치시킨다. 그리고 반복이동평균값인 MA(3x3)도 3개의 이동평균값들 (4, 6, 8)로부터 얻은 후, 단순 이동평균값을 [MA(3) - MA(3x3)]만큼 조정하고 시점간의 추세를 반영하여 예측하는 방법이다.
21
이제, 이동평균과 반복이동평균을 정리하여 선형이동평균방법에 의한 예측값을 일반화시켜보기로 하자
이제, 이동평균과 반복이동평균을 정리하여 선형이동평균방법에 의한 예측값을 일반화시켜보기로 하자. 단순이동평균은 으로 반복이동평균은 으로 표현하면 이 되고, : MA(3) + (MA(3)-MA(3*3)) ( ) : 추세 (Trend) ( ) 으로 할 때 선형이동평균방법으로 시점(T+m)의 예측값을 얻으면 ( ) 이다. 물론 시점 (T+1)에서의 예측값은 이다.
22
1.5 시계열 요소 분해법 식(1.4-1)는 단순이동평균으로 얻어진 값을 만큼 조정한 결과를 나타내고, 식(1.4-2)은 단위기간 동안의 추세 추정치를 나타낸다. 식(1.4-2)의 2/(N-1)은 뒤에서도 나오는 값이므로 여기서 간단히 설명하고 넘어가기로 하자. 먼저, 주기 N의 이동평균은 기간 동안의 시계열 값들 평균이기 때문에 시점 (N+1)/2에 위치시키는 것이 원칙이다. 그러나, 주기 N의 이동평균값을 시점 N에 위치시키기 때문에 N-(N+1)/2=(N-1)/2 기간의 차이가 나게 된다. 반복이동평균의 값도 이와 마찬가지로 (N-1)/2 기간의 차이가 나며 이 기간동안의 추세 변동폭은 이기 때문에 단위 기간(시점과 시점간의 기간)에 대한 추세는 을 (N-1)/2로 나눈, 식(1.4-2)과 같이 된다.
23
1.5.1 시계열요소 (The Component of Time Series Data)
시계열자료를 구성하고 있는 세 가지 변동을 설명해 보면 다음과 같다. 1) 추세 (Trend) 추세란 자료가 장기적으로 변화해 가는 큰 흐름을 나타내는 것이다. 자료가 장기적으로(Long-run) 커지는지, 작아지는지, 변화가 없는지를 나타내 주는 요소를 추세라고 한다. 보다 구체적으로는 장기적으로 커지는 모습일 때 그것이 선형인지, 지수적으로(Exponentially) 증가하는 것인지를 함수관계로 나타내 줄 수도 있을
24
2) 순환변동 (Cyclical Movement)
순환변동은 경제전반의 또는 특정 산업의 부침(Ups and Downs)를 나타내 주는 것을 말한다. 예를 들면, GNP(국민총생산), 산업생산지수, 주택수요, 자동차 판매대수, 주식가격, 통화공급량, 이자율 등도 순환변동 3) 계절변동 (Seasonal Fluctuation) 계절변동은 일정한 주기를 갖고 반복적으로 같은 패턴으로 변화하는 것을 말한다. 예를 들면, 온도(1일 주기), 강우량(1년 주기), 전력소비량(1일 주기) 등 순환변동과 계절변동의 차이점은 계절변동은 주기가 일정(1년, 1달, 1주 등)하게 정해진 반면 순환변동은 정해지지 않은 기간 동안에 사이클(Cycle)을 보여주는 것이라 할 수 있다.
25
이상과 같이 시계열자료는 세 가지 변동을 내포하면서 불규칙하게 변화하는 것이므로 시계열자료( )는
로 표현할 수 있다. 여기서 오차(Error/Randomness)란 불규칙 변동으로 설명되는 항인데 실제 시계열자료 값과 추세, 순환, 계절 변동의 조합에 따른 패턴, 간의 차이라고 보면 된다. 그러므로, 시계열자료는 실제로 위에서 설명한 네 가지 요소가 뒤섞여 있는 것으로 간주하여 ( ) 로 표현한다. 여기서, 는 시점에서의 시계열 값, 는 시점에서의 추세요소, 는 순환요소, 는 계절요소, 는 불규칙요소를 나타낸다.
26
그리고 대체로 다음과 같은 과정을 거쳐 요소들을 분해하게 된다.
(1) 계절변동 주기(N)를 파악한 후 N기의 이동평균을 구하여 계절성과 불규칙성(임의성)을 제거시킬 수 있다. 즉 계절변동의 주기(N)가 12개월이든, 4분기든, 7일이든 간에 시계열 자료의 N기 이동평균을 얻으면 계절성으로 인한 높은 값과 낮은 값들을 평균하는 것이 되어 계절성이 제거되고, 또 평균값을 얻음으로써 임의의 어떤 이유 때문에 생기는 작은 변동인 불규칙 변동도 제거하는 효과를 얻을 수 있다. (2) 시계열자료( )로 부터 (1)에서 구한 이동평균 값들은 분리시키게 되면 추세변동과 순환변동만 남게 된다. (3) 그러면 시계열자료의 추세가 어떤 형태로 이루어져 있는지를 알 수 있게 되고, 그 추세의 형태( )를 구할 수 있다. (4) (2)에서 얻어진 추세변동과 순환변동만 남아 있는 시계열에서 (3)에서 구한 추세변동을 제거하면 순환변동( )이 얻어지고 (5) 위의 과정에서 얻어진 , , 를 모두 제거할 때 남는 것이 불규칙변동( )이다.
27
1.5.2 추세변동 시계열자료가 장기적으로(Log-run) 어떤 경향을 나타내고 있는가를 추세(Trend)라고 한다. 시계열자료가 증가하는 경향이 있는지 또는 감소하는 경향이 있는지를 알아보고, 증가나 감소의 경향이 선형(Linear)인지 어떤 함수관계로 나타낼 수 있는지를 찾는 것이다. 시계열자료가 갖는 추세는 일반적으로 <그림 1.5-2>와 같다.
28
<그림 1.5.2-1> 시계열 자료의 일반적 추세
29
먼저 <그림 1. 5. 2-1>(a)는 시간의 변화에 따라 직선으로 증가하는 시계열의 형태이다
의 관계식을 찾으면 될 것이다. <그림 >(b)는 의 관계를 나타내는 것으로서 시계열의 값들이 초기에는 급격히 작아지다가 차차 점진적으로 작아지는 형태를 나타낸다. 비록 그 관계가 비선형(Non-linear)이지만, 대수를 취하여 로부터 과 을 구할 수 있다.
30
<그림 1.5.2-1> (c)와 (d)는 각각
의 관계를 나타낸 것이다. 그리고 <그림 > (e)는 성장곡선을 나타내는 그래프로서 초기에는 서서히 증가하다가, 일정 시점 이후에는 성장의 속도가 빠르게 되고 또 성장의 둔화하는 모습을 나타내는 시계열에 적합하다. 이와 같은 성장곡선은 로 관계식이 얻어지게 된다. 위의 관계식을 로 바꾸어 a와 b를 구할 수 있게 된다.
31
(1) 선형추세의 예 시간의 흐름에 따라 일정한 비율로 증가하는 시계열자료의 패턴을 와 t가 의 관계에 있음을 뜻한다. 실제로 ( ,t)에 대한 자료가 n개 있을 경우 회귀분석의 최소자승법에 따라 기울기 b와 절편 a의 값을 구할 수 있다. 예를 들어, <표 >와 같은 판매액 자료가 있을 때 물가지수를 반영한 판매액( ) 시계열 자료에 대한 a와 b의 값들은 각각, a= 이고 선형의 추세선은 b=166.0 이다.
32
<표 1.5.2-1> 실제 판매액과 물가지수를 반영한 판매액 (단위:백만원)
33
<그림 1.5.2-2> 자료의 흩어진 정도와 추세선
이 자료에 대한 흩어진 정도(scatter plot)과 추세선은 <그림 >과 같다. <그림 > 자료의 흩어진 정도와 추세선
34
(2) 비선형추세의 형태 시계열자료( )가 시점에 따라 직선의 관계에 있지 않고 <그림 1.5-2>의 (b), (c), (d)와 같이 비선형의 관계에 있을 경우는 등의 관계로 표현될 수 있는데, 이모형들은 대수(Logarithm)를 취함으로써 선형의 관계로 바뀌어 진다.
35
시계열 자료의 Scatter Plot을 얻어 그림 상에 나타난 추세를 적당한 모형식에 적용시키는 것이 가장 기본적인 방법일 것이다. 그러나, 보다 객관적인 근거를 얻기 위해서는 시계열 자료를 차분(Differencing)시키거나, 시계열 자료의 자기상관(Autocorrelation)을 얻어 볼 필요가 있다. 시계열을 차분한다는 것은 을 구하는 것을 의미하는 데, 이 차분들이 대체로 일정한(Constant) 값으로 얻어진다면 선형의 추세를 갖는다는 판단을 할 수 있을 것이다. 만약, 차분된 것을 다시 차분했을 때에야 비로써 일정한 값들을 보인다면 그 시계열 자료는 2차식의 추세를 갖는다고 판단할 수 있을 것이다.
36
즉, 으로 2차 차분한 결과가 대체로 일정한 값을 갖으며 2차식의 추세를 보이는 시계열 자료이다. 또, 어떤 시계열은 대수를 취한 값들( )의 1차 차분이 일정한 값을 갖는 경우도 있는데, 이런 경우는 성장곡선의 패턴을 갖는 시계열이라고 판단할 수 있다. 시계열의 추세를 찾아낸 후에는 원 시계열에서 추세를 제거시킴으로써 추세가 없는 (Detrending)시계열의 형태를 얻게 되는 데, 그 형태는 정상적시계열(Stationary Time-series)이 될 것이고 이 정상적시계열에 나타나는 다른 변동 요소들을 찾는 일이 남게 된다.
37
1.5.3 순환변동 순환변동(Cyclical Fluctuation)은 추세변동을 제거시킨 시계열로부터 찾아낼 수 있는데 비교적 장기간의 시계열일 경우, 일정한 기간을 갖지는 않더라도 침체기와 활황기가 반복적으로 나타나는 일정의 경기변동을 말한다.
38
1.5.4 계절변동 계절변동(Seasonal Variation)이란 1년 이내의 주기를 갖고 반복적으로 나타나는 변동을 말한다. 주기는 1일, 1주, 1년 등이 될 수 있으며, 시계열 자료가 한 주기 내에서 반복적으로 비슷한 형태의 패턴을 보일 경우 계절변동을 찾을 수 있다. 예측에 있어서 계절변동을 찾는 것이 중요한 이유는 다음과 같다. 첫째, 많은 시계열자료에서 추세변동 다음으로 뚜렷하게 나타나는 것이 계절변동인데, 예측을 함에 있어 이 계절성을 고려해야만 보다 정확한 예측이 가능하다. 즉, 계절변동을 찾아내 원 시계열자료에서 계절성을 제거할 때 예측모형의 틀이 짜여 지고 정확한 예측을 할 수 있는 것이다. 계절변동을 찾아야 되는 이유는 또한 장기간의 계획을 수립함에 있어 계절적 변동을 파악해야만 생산량과 재고량을 조절하여 수급을 원할히 할 수 있기 때문이다.
39
1.6 Box-Jenkins 모형 소위 ARIMA(Auto Regressive Integrated Moving Average) 모형으로 일컬어지는 Box-Jenkis 모형은 시계열자료의 예측에 널리 사용되고 있다. Box-Jenkins 모형에 의하여 시계열자료를 다루고자 할 때는 다음의 세 가지 단계, 즉, (1) 모형식별 (model identification) (2) 식별된 모형의 파라미터 추정 및 진단 (testing) (3) 예측 (forecasting) 를 거치게 된다.
40
1.6.1 Box-Jenkins 모형 일단 시계열자료가 정상적인 경우, Box-Jenkins 모형은 다음의 세 가지로 나누어진다. 즉, (1) 자기회귀모형 (2) 이동평균모형 (3) 자기회귀이동평균모형 (1) 자기회귀모형 (Autoregressive Model) 자기회귀모형이란 시계열자료( )가 과거 값들로써 설명된다는 모형이다. 다시 말하면, 회귀모형과 같이 ( ) 라고 할 때, 현재(t) 시점의 시계열 값( )은 바로 전기 (t-1)값으로부터 만큼, 2기전 (t-2)의 값으로부터 만큼 등으로 영향을 받는다고 할 수 있을 것이다.
41
그러므로 과거 p까지의 값들이 에 영향을 준다고 할 경우의 식(1. 6
그러므로 과거 p까지의 값들이 에 영향을 준다고 할 경우의 식( )을 p차 자기회귀모형이라고 부르며 AR(p)라고 표현한다. 물론, 바로 전기의 값이 현재의 값에 중요하게 영향을 주는 경우, AR(1) 모형이 되며 ( ) 으로 표현된다. 여기서 는 오차를 나타내며 시점에 관계없이 독립적이고 정규분포 한다는 가정을 하게 된다. 즉, 이다.
42
(2) 이동평균모형 (Moving Average Model)
이동평균모형이란 시계열자료가 연속적인 오차항 들의 영향을 받는다는 것으로서 ( ) 으로 표현되는데 식(6-3)을 q차 이동평균모형이라고 부르며, MA(q)로 나타낸다. 물론, 바로 이전 시점 (t-1)의 오차항만이 포함되는 경우라면 1차 이동평균모형이 되며, ( ) 으로 표현된다.
43
(3) 자기회귀이동평균모형 (Autoregressive Moving Average Model)
앞에서의 두 가지 모형은 시계열자료가 과거의 시계열자료 값들로 표현될 수 있다는 것과 과거의 오차값들로 표현될 수 있다는 것을 나타내고 있는데, 경우에 따라서는 과거의 시계열자료 값들과 과거의 오차값들 모두의 영향을 받는다고 할 수도 있을 것이다. 그러므로 AR과 MA가 혼합된 자기회귀이동평균모형을 다음과 같이 나타낼 수 있다. 즉, ( ) 이다.
44
이러한 자기회귀이동평균모형은 ARMA(p,q)로 표현될 수 있다. 가장 단순한 ARMA모형은
( ) 으로서 ARMA(1,1)으로 표현하면 된다. ARMA모형은 AR모형과 MA모형의 혼합모형으로서, AR이나 MA모형을 ARMA모형 표현방법으로 나타내기도 한다. 즉, 예를 들면, AR(1)은 ARMA(1,0)으로 MA(1)은 ARMA(0,1)등으로 표현해도 무방하다.
45
시계열자료 ( )의 평균을 나타내는 방법은 예를 들면, 식(1. 6
시계열자료 ( )의 평균을 나타내는 방법은 예를 들면, 식( )는 를 에 회귀시킨 회귀모형인데 와 의 평균이 모두 로 같기 때문에(정상적시계열), AR(1)모형은 원칙적으로 ( ) 로 표현되는 것이 타당하다. 그리고 식( )을 약간 수정하면 ( ) 가 된다. 또, 식( )의 MA(1)모형은 의 평균이 일 때, 원칙적으로 ( ) 으로 표현되어야 할 것이다. 그러나, 대부분의 경우 편의를 위하여 의 평균을 0으로 간주하고 모형들을 설명하게 된다.
46
1.6.2 모형의 규명 정상적시계열에 대한 AR, MA, ARMA 모형은 세 가지가 있다는 설명을 하였다. 물론 차수(order)를 고려할 때 그 종류는 훨씬 많아지는 것을 알 수 있다. 그러면, 주어진 시계열을 어떤 모형에 적합시키는 것이 바람직한가를 찾아야 하는데 이를 규명(identification)이라고 한다. 즉, 주어진 시계열자료로 부터 얻어지는 정보를 수단으로 하여 주어진 시계열은 어떤 모형일 것이라는 규명을 하게 되는데, 규명의 중요 수단으로 자기상관계수(autocorrelation : AC)와 부분자기상관계수(partial autocorrelation : PAC)가 있다.
47
Box-Jenkins 모형을 규명하는 수단으로 자기상관계수(AC)와 부분자기상관계수(PAC)가 사용되는데 자기회귀모형(AR), 이동평균모형(MA), 자기회귀이동평균모형(ARMA)의 자기상관계수와 부분자기상관계수의 형태를 몇 가지로 정리함으로써 모형 규명의 가이드라인을 얻을 수 있다. O MA 모형 AC가 돌출적인 값들을 갖고 PAC는 순차적으로 작아지는 모습을 나타내는데, 유의적인 AC의 돌출부의 수로 차수를 결정한다. O AR 모형 PAC가 돌출적인 값들을 갖고, AC는 순차적으로 작아지는 모습을 나타낼 경우 모형으로 판단되며 유의적인 PAC의 돌출부의 수로 차수를 결정한다. O ARMA 모형 AC와 PAC 모두 순차적으로 작아지는 경우 모형으로 식별되며 차수는 를 넘지 않는다.
48
1.6.3 MA모형, AR모형, ARMA모형의 AC와 PAC
49
1) MA모형 먼저 MA(1)모형, 에 대한 자기상관계수 (AC)는 다음과 같이 계산된다. 즉, 시차 (lag) 1의 자기상관계수는 ( ) 이다. 시차 2이상에서는 분자가 0이 되므로 ( ) 이다.
50
그러므로, MA(1)모형은 시차 1의 AC만이 유효하며 2이상의 시차에서는 AC값들이 0이 되고 PAC는 점진적으로 소멸되어 가는 형태를 갖게 된다. <그림 >에서는 MA(1)의 여러 가지 AC와 PAC그래프를 보여주고 있다.
51
<그림 1.6.3-1> MA(1)의 AC와 PAC 형태
52
MA(2)모형에 대한 자기상관계수는 다음과 같이 얻어진다. 즉, MA(2)모형은
이므로, 시차 1의 자기상관계수 ( ) 이고, 시차 2의 자기상관계수는 ( ) 으로 얻어지며, 시차 3이상에서는 0이다.
53
<그림 1.6.3-2> MA(2)의 AC와 PAC의 형태
54
이제 모형을 좀 더 간결하고 효과적으로 표현하기 위하여 후방연산자(backward operator) "B"를 소개하기로 하자
이제 모형을 좀 더 간결하고 효과적으로 표현하기 위하여 후방연산자(backward operator) "B"를 소개하기로 하자. 즉, B는 ( ) 로 정의하기로 하면 MA(1)모형은 ( ) 로, MA(2)모형은 ( ) 로 표현할 수 있다는 것이다. 이러한 표현은 앞으로 계절성과 비정상적시계열을 나타내는 데에 필요하고 시계열분석에서의 파라미터 값 제약조건을 나타내는 데도 필요하기 때문이다.
55
2) AR모형 먼저, 가장 단순한 AR(1)모형에 대한 자기상관계수 (AC)는 다음과 같이 구해진다. 에 대한 ( ) 그러므로 AC는 시차 k가 커질수록 점진적으로 감소하는 모양을 갖게 된다. <그림 >은 AR(1)모형의 AC와 PAC 이다.
56
<그림 1.6.3-3> AR(1)의 AC와 PAC 형태
57
AR(2)모형에 대해서는 ( ) 으로 얻어지게 되고, <그림 1.6-3>는 AR(2)모형의 전형적인 AC, PAC가 나타나 있다. 특히, AR모형에 대해서는 PAC가 일정한 값으로 얻어지게 되므로 PAC에서는 유의적인 값들이 얻어지고, AC는 점차(빠르게) 작아지는 값들로 나타난다.
58
<그림 1.6.3-4> AR(2)의 AC와 PAC
59
3) ARMA모형 AR과 MA모형의 혼합 형태인 ARMA모형에 대해서는 자기상관계수 (AC)나 부분자기상관계수 (PAC) 모두 점진적으로 작아지는 형태를 갖는다. 이 경우에는 AC, PAC 모두 특별한 특징을 보이지 않기 때문에 AR이 아니고, MA도 아닌 경우라고 판단될 때 ARMA모형으로 식별할 수밖에 없다. ARMA(1,1) 모형에 대한 몇 가지 AC와PAC 패턴을 소개하면 <그림 >와 같다.
60
<그림 1.6.3-5> ARMA(1,1)의 AC와 PAC 형태
61
1.6.4 비정상적 시계열 앞에서도 언급한 바와 같이 대부분의 시계열자료는 비정상적시계열이다. 비정상적시계열이라 함은 일정기간 동안의 시계열자료들의 평균이 같지 않거나, 분산이 같지 않은 경우로서 비정상적시계열을 정상적시계열로 전환시켜 놓아야 모형을 식별할 수 있게 된다. 비정상적시계열을 정상적시계열로 바꾸는 방법은 주로 차분(differencing)으로 해결한다. 시계열, { }가 있을 때 1차 차분(first difference)은 으로 표현되는데, 1차 차분의 결과인 가 정상적시계열이 아니라면 를 다시 한번 차분하는 2차 차분을 수행할 수 있다. 즉, 2차 차분은 으로 표현된다. 대개의 비정상적시계열은 2차 차분으로 정상적시계열이 되는데, 2차 차분으로도 정상적시계열이 되지 않는 경우라면, 를 변수 변환시켜 다른 함수로 바꾼 후에 차분을 하는 것이 필요하다.
62
1.6.5 식별된 모형의 파라미터 추정과 진단 앞절 1.6.3에서는 간단한 MA모형과 AR모형 그리고 ARMA 모형의 AC와 PAC 형태를 살펴봄으로써 어떤 시계열자료가 주어졌을 때, 이 자료의 AC와 PAC로써 그 자료는 어떤 모형으로 식별할 수 있는가를 알아보았다. 물론, 실제 시계열자료의 AC와PAC 는 이론적으로 얻어진 AC와 PAC의 형태보다 훨씬 복잡하게 얻어질 것이다. 이제 주어진 시계열자료의 AC와 PAC를 보고 어떤 모형이라고 식별한 후에는 그 모형의 파라미터 값들을 추정해야 한다. 추정의 방법으로는 o 조건 최소자승법 o 비조건 최소자승법 o 최우추정법 등이 있는데, 그 추정하는 이론적 계산식은 여기서 설명할 수가 없다. 따라서 우리는 통계 패키지(SAS, SPSS, RATS, Minitab 등)로써 얻어진 결과만을 살펴보기로 하자.
63
모형의 파라미터 값들이 추정되면, 시계열자료가 그 모형에 얼마나 잘 적합되는지를 진단해야 하는데, 그 적합도로서 AIC(Akaike Information Criterion) 또는 SBC(Schwartz Bayesian Criterion)를 사용하는 것이 일반적이다. 즉, ARMA(p,q)모형에 대해 로 정의되는바, AIC(또는 SBC) 값이 가장 작은 (p,q)가 가장 근사한 모형이라고 판단할 수 있다. 또한, 시계열분석에서도(회귀분석에서와 마찬가지로) 잔차들을 분석해야 하는데 잔차들은 아무런 패턴을 갖지 않고 임의로 퍼져있는 것이 바람직하다.
64
Box-Pierce 통계량 잔차들이 서로 상관되어 있다면 그 모형으로는 시계열자료를 잘 적합시키지 못하고 있다는 것을 시사하는 것이다. 잔차들의 자기상관(autocorrelation of residuals)을 검색하는 도구로 Box-Pierce(Portmanteu) Q통계량을 사용하는데 시차(lag) 묶음별로 자기상관이 존재하는가를 검증할 수 있다. 즉, Q통계량은 로 정의되는데, T는 잔차의 수(자료의 수), 는 번째 (lag) 시차의 자기상관계수, m은 시차 1에서 시차 m까지의 시차 묶음을 나타낸다. 즉, 을 가설검증하기 위한 검증통계량으로 Q통계량을 사용하는데 M을 6, 12, 18 등으로 하여 잔차들의 자기상관계수 묶음들에 대한 가설을 검증한다.
65
추정된 파라미터들의 상관계수 파라미터의 수가 2개 이상인 모형에 대해서 추정된 파라미터들 간의 상관계수를 살펴보아야 한다. 만일, 두 개의 파라미터들 간에 높은 상관관계가 존재한다면 둘 중 하나의 파라미터는 제외시켜 모형을 간결하게 하는 것이 바람직하기 때문이다. 예를 들어, 다음과 같이 파라미터들 간에 상관계수가 얻어졌다면 파라미터 3은 불필요하다고 간주할 수 있다. 왜냐하면, 파라미터 2와 파라미터 3의 상관계수가 0.856이어서 둘 중의 하나가 필요 없다고 한다면, 파라미터 2 보다는 파라미터 3이 파라미터 1과 높은 상관계수를 갖기 때문이다. 그러면, 파라미터 3이 없는 모형에 대해 추정을 다시하고 모형에 대한 적합성 검진을 해야 할 것이다.
Similar presentations