환경시스템기말고사 8.시계열 자료 분석 기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라 2004162이승윤.

Slides:



Advertisements
Similar presentations
2. 속력이 일정하게 증가하는 운동 Ⅲ.힘과 운동 2.여러 가지 운동. 도입 Ⅲ.힘과 운동 2. 여러 가지 운동 2. 속력이 일정하게 증가하는 운동.
Advertisements

Matlab 조별 과제(360º 단진자) 2 조 작성자 : 문수민 프로그램 : 송진영, 나정민 발표자 : 백선미, 김준오.
출석수업 과제 – 총 5문제, 10월 25일 제출 정보통계학과 장영재 교수.
재료수치해석 HW # 박재혁.
적분방법의 연속방정식으로부터 Q=AV 방정식을 도출하라.
2장. 프로그램의 기본 구성. 2장. 프로그램의 기본 구성 2-1"Hello, World!" 들여다 보기 /* Hello.c */ #include int main(void) { printf("Hello, World! \n"); return 0;
구간추정 (Interval Estimation)
4.3.3 초기하분포 (Hypergeometric distribution)
8. 시계열 자료 분석기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라. 환경공학과 임건섭.
8. 시계열 자료 분석 기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라. 환경공학과 정호준.
고장률 failure rate 어떤 시점까지 동작하여 온 품목이 계속되는 단위기간내에 고장을 일으키는 비율(횟수). 고장률은 확률이 아니며 따라서 1 보다 커도 상관없다. 고장이 발생하기 쉬운 정도를 표시하는 척도. 일반으로 고장률은 순간고장률과 평균고장률을 사용하고 있지만.
원자 스펙트럼 1조 서우석 김도현 김종태.
공차 및 끼워맞춤.
제 12 장 직교배열표에 의한 실험계획(1).
수치해석 6장 예제문제 환경공학과 천대길.
제12주 회귀분석 Regression Analysis
 8. 시계열 자료 분석 기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라. 환경공학과 정 윤 혜.
전기에 대해 알아보자 영화초등학교 조원석.
질의 사항 Yield Criteria (1) 소재가 평면응력상태에 놓였을 때(σ3=0), 최대전단응력조건과 전단변형에너지 조건은σ1 – σ2 평면에서 각각 어떤 식으로 표시되는가? (2) σ1 =σ2인 등이축인장에서 σ = Kεn로 주어지는 재료의 네킹시 변형율을 구하라.
11장. 포인터 01_ 포인터의 기본 02_ 포인터와 Const.
Multimedia Programming 10: Point Processing 5
제 11 장 서비스 수요 예측.
상관함수 correlation function
상관분석 (p , p ).
제4장 제어 시스템의 성능.
별의 밝기와 거리[2] 밝다고 가까운 별은 아니야! 빛의 밝기와 거리와의 관계 별의 밝기 결정.
Ⅲ. 이 차 방 정 식 1. 이차방정식과 그 풀이 2. 근 의 공 식.
Keller: Stats for Mgmt & Econ, 7th Ed
프로그래밍 개요
군집 분석.
Linear Mixed Model을 이용한 분석 결과
(independent variable)
2조 식품생명공학과 조광국 배석재 윤성수 우홍배
Term Projects 다음에 주어진 2개중에서 한 개를 선택하여 문제를 해결하시오. 기한: 중간 보고서: 5/30 (5)
정다면체, 다면체와 정다각형, 다각형의 관계 한림초등 학교 영제 6학년 5반 송명훈.
두 모집단에 대한 검정.
Frequency distributions and Graphic presentation of data
P 등속 직선 운동 생각열기 – 자동차를 타고 고속도로를 달릴 때, 속력계 바늘이 일정한 눈금을 가리키며 움직이지 않을 때가 있다. 이 때 자동차의 속력은 어떠할까? ( 속력이 일정하다 .)
학과 : 국제개발 협력 대학원 과목명 : 국제 경영학과 담당 교수 : 백종희 학번 : 성명 : 샤르마 샤르원 발표 일 : 제 2 장 경제학 연구의 방법 경제학 들어가기
보고서 #7 (기한: 6/2) 2개의 스택, stk1, stk2를 이용하여 큐를 구현하라.
논문작성을 위한 연구모형 설정 양동훈.
끓는점을 이용한 물질의 분리 (1) 열 받으면 누가 먼저 나올까? 증류.
미분방정식.
Keller: Stats for Mgmt & Econ, 7th Ed 회귀모형의 정형화 Model Building
Week 3-2: 데이터분포 3_2장_1(백분율:Percentile)에서 동영상 1,2
약식 진리표를 이용한 타당성 증명 진리표 그리기 방법의 한계
에어 PHP 입문.
바넘효과 [Barnum effect] 사람들이 보편적으로 가지고 있는 성격이나 심리적 특징을 자신만의 특성으로 여기는 심리적 경향. 19세기 말 곡예단에서 사람들의 성격과 특징 등을 알아 내는 일을 하던 바넘(P.T. Barnum)에서 유래하였다. 1940년대 말 심리학자인.
홍수추적 담당교수명 : 서 영 민 연 락 처 :
Chapter 1 단위, 물리량, 벡터.
(생각열기) 요리를 할 때 뚝배기로 하면 식탁에 올라온 후에도 오랫동 안 음식이 뜨거운 상태를 유지하게 된다. 그 이유는?
비열.
Support Vector Machine
Chapter 1 단위, 물리량, 벡터.
광합성에 영향을 미치는 환경 요인 - 생각열기 – 지구 온난화 해결의 열쇠가 식물에 있다고 하는 이유는 무엇인가?
쉽게 배우는 알고리즘 2장. 점화식과 점근적 복잡도 분석
11장 배열 1. 배열이란? 1.1 배열의 개요 1.2 배열의 선언과 사용.
Chapter 7 – Curves Part - I
상관계수.
Week 4: 다변수(2변수) 데이터분석 5장_1(산포도: scatter plot) 동영상 1,2,3,4,5
통계학 R을 이용한 분석 제 2 장 자료의 정리.
정삼각형을 정사각형으로 바꾸는 원리 탐구 하귀초등학교 6학년 고지상.
수치해석 ch3 환경공학과 김지숙.
어서와 C언어는 처음이지 제21장.
전류의 세기와 거리에 따른 도선 주변 자기장 세기 변화에 대한 실험적 고찰
X-13-ARIMA 프로그램 사용법.
문제의 답안 잘 생각해 보시기 바랍니다..
6 객체.
알렌 인지 수준 판별검사와 한국판 간이 정신상태 판별검사의 상관관계
Survey Sampling Sangji University.
Presentation transcript:

환경시스템기말고사 8.시계열 자료 분석 기법의 1장의 1절부터 6절에 대한 내용을 요약하고, 예제 및 표에 대한 문제를 Excel을 이용하여 풀어서 제출하라 2004162이승윤

1. 시계열 자료 분석 1.1 예측 어떤 자료에 대해 장래의 값을 예측한다는 것은 간단한 일이 아니고, 또 정확히 예측을 하기도 어렵다. 그러나, 현재까지의 자료를 가지고 합리적인 근거에 따른 예측의 필요 성은 여러 분야에서 요구되고 있는 실정이다. 판매량, 재고량, 인력 또 는 중요한 경제 및 경영 자료들에 대해 예측함으로써 사업의 전망에 대한 의사결정을 할 수 있기 때문이다. 예측의 방법은 여러 가지가 있을 수 있겠지만 여기서는 과거의 시점들 에서 관찰된 값들(시계열)로써 예측하는 기법(시계열 분석)을 중심으 로 예측의 방법들을 설명해 나가고자 한다.

1.2 시계열 자료 분석 시계열 자료를 분석한다는 것은 어떤 자료가 과거 관찰값들의 변화패 턴과 비슷하게 현재 시점이후에도 변화될 것이라는 전제하에서 향후 시점의 값을 예측하는 기법이다. 정확한 예측을 위하여 보다 중요한 것은 시계열 자료의 성격과 특징을 파악하고, 그 자료와 관련된 주변 환경 변수들은 어떤 것들이 있는지, 그 자료 자체를 분석할 것인지 변환 또는 조정이 필요한지 등을 고려 해 보아야만 할 것이다. 여기서, 주변 환경 변수들이란 인구통계변수, 경제지표변수, 경쟁관계 변수, 정부정책, 기술변화 등을 말한다. 시계열 자료는 크게 두 가지로 나눌 수 있다. 정상적시계열과 비정상 적시계열이 그 두 가지인데 우리들이 접하게 되는 시계열은 대부분 비 정상적시계열이지만 정상적시계열로부터 시계열의 모습을 파악하는 것이 필요하다.

1.2 시계열 자료 분석 정상적 시계열과 비정상적 시계열 어떤 시계열 자료의 변화 패턴이 일정한 평균값을 중심으로 일정한 변 동폭을 갖는 시계열일 때 그 자료를 정상적(비이동적, stationary) 시 계열 자료라고 하며, 그 외의 시계열 자료들은 비정상적(이동적, non- stationary)이라고 부른다. 우리 주변의 많은 시계열 자료들이 비정상 적임은 물론이다. <그림 1.2-1>은 정상적 시계열이며 <그림 1.2-2>에는 여러 가지 비정 상적 시계열의 예들이 있다. <그림 1.2-1> 정상적시계열

1.2 시계열 자료 분석 <그림 1.2-2> 비정상적시계열

1.3 예측의 정확도 측정 시계열자료를 표현하는 방법은 로서 는 시점을 나타내고 는 그 시계열 자료를 나타내는 변수이다. 즉, 등으로 시계열자료를 표현한다면 은 시점 1에서의 값, 는 시점 2에서의 값을 나타내는 것이다. 예측은 과거 시점들에서 얻어진 시계열자료들을 이용하여 장래시점 에서의 그 시계열 변수 값들을 알아내는 것인데, 그 예측값들이 얼마 나 정확하다고 할 수 있는가를 측정해야만 할 것이다. 더욱이, 앞으로 설명하겠지만, 어느 시계열자료에 대해 예측을 하는 방법으로 여러 가지 방법들이 가능한 데 어느 방법으로 예측한 결과가 가장 적당한가를 알기 위해서는 예측값들의 정확도를 측정하여 비교 해 볼 수 있을 것이다. 먼저, 현재 시점()에서 n개의 시계열자료를 갖고 있다고 하자. 현재 시점의 자료를 라고 표현하면 이 자료들을 다음과 같이 표현할 수 있을 것이다.

1.3 예측의 정확도 측정 그러면, 의 시계열자료들을 가지고 예측을 수행하게 된다는 것이다. 그리고 n개의 시계열자료들로써 어떤 예측모형을 사용 하여 향후 m개 시점들에 대한 예측값들을 얻는다면, 그 예측값 들은 으로 표현될 것이다. 또한 이 예측모형에 의하여 현시점부터 과거 n개의 자료들이 계산될 수 있는데 그 값들은 로 표현한다. 즉,

1.3 예측의 정확도 측정 따라서, 현재 얻어진 시계열자료 와 예측모형을 통하여 계산된 시계열 값들, 간의 차이는 (예측모형에 의하여 얻어지는) 오차 들이 되는데, 이 오차들로써 그 예측모형이 적절한 예측 방법인 가를 판단하는 기준을 얻어야 할 것이다. 즉, 들을 오차라고 부르며, 이들 오차들을 가지고 예측 방법의 정 확도를 측정해야 할 것이다. 또한, 향후 m시점에 걸쳐 시계열의 관찰치, 가 얻 어진다면 도 계산될 수 있을 것이고, 이 값들을 예측오차라고 부른다. 위에서 설명한 오차들로써 예측 방법의 정확도를 측정하는 방법들은 다음과 같다.

1.3 예측의 정확도 측정 1) Mean Error : (오차평균) 2) Mean Absolute Error : (절대평균오차) 3) Mean Squared Error : (자승오차의 평균) 4) Standard Deviation of Errors : (오차의 표준편차) 5) Percentage Error : (오차의 백분율) 6) Mean percentage Error : (오차백분율의 평균)

1.3 예측의 정확도 측정 7) Mean Absolute Percentage Error : 8) Theil's U-Statistic (Theil의 U 통계량) 여기서, (예측된 변화비율) (관찰된 변화비율) (오차백분율 절대값의 평균)

1.3 예측의 정확도 측정 9) Durbin-Watson Statistic (Durbin-Watson의 통계량)

1.4 평활법 (SMOOTHING METHOD) 다시 말하면, 어떤 부드러운 곡선을 기준으로 임의로(Random) 이탈 하여 시계열자료 값들이 얻어진 것이라는 전제하에서 그 부드러운 곡 선의 패턴을 찾아내자는 방법이다. 따라서, Smoothing 방법은 과거 시계열자료들에 어떤 방법으로 가중 치를 부여하여 예측하느냐에 따라 크게 이동평균(Moving Average)방 법과 지수평활법(Exponential Smoothing) 방법의 두 가지로 나누어 생각할 수 있다.

1.4.1 이동평균방법 이동평균방법이란 어느 시계열 자료가 일정한 주기를 갖고 비슷한 패 턴으로 움직이고 있을 경우에 적용시킬 수 있는 방법이다. 주기가 길 어질수록 직선에 가까운 부드러운 선이 얻어질 것임을 쉽게 알 수 있 다. 1) 평균 (Average) 평균을 사용하여 예측을 한다는 것은 매우 직관적인 방법이다. 왜냐하 면, 평균이란 누구나 알고 있는 개념이어서 쉽고 간단하게 사용할 수 있기 때문이다. 시계열 자료, 가 있다고 하자. 그러면 (T+1) 시점에서의 예측값 을 로 하자는 것이다. 만일 (T+1) 시점의 실제 시계열 값이 얻어진다면 예 측오차는

1.4.1 이동평균방법 로 계산되어 진다. 마찬가지로 시점 (T+2)에서의 예측값, 는 로 계산될 것이다. 평균을 예측의 방법으로 적용시킬 수 있는 시계열자료는 추세 (Trend)도 없고 계절성(Seasonality)도 없는 시계열자료이다. 이러한 시계열자료에 대해서라면 평균에 사용되는 자료의 수가 많 으면 많을수록 안정적(Stable)인 평균값이 얻어지기 때문에 평균을 이 용할 경우 좋은 예측값이 될 것이다. 그러나, 시계열자료가 추세나 계 절성이 있을 경우, 또는 어느 시점에서 급격히 변화하는 모습을 나타 낸다면 평균의 방법으로 좋은 예측값을 기대할 수는 없을 것이다.

1.4.1 이동평균방법 2) 단순이동평균 (Simple Moving Average) 시계열자료가 충분히 확보되어 있을 경우, 평균의 방법을 개선하여 일 정한 개수의 자료들을 평균하여 예측값으로 사용하는 방법이다. 예측하고자 하는 시점 (T)를 기준으로 과거 몇 개의 자료로써 평균을 얻을 것인가 하는 주기 (N)가 결정되면, 다음과 같은 방법으로 이동평 균(moving average)을 얻을 수 있다. 시계열 자료, 가 있다 고 하자. 그리고 주기를 N이라고 하면, <표 1.4.1-2>와 같이 시점 (T+1, T+2, T+3)에서의 예측값, 을 얻는다.

1.4.1 이동평균방법 그러나, 단순 이동평균방법은 시계열자료가 추세를 갖고 있을 경우에는 부 적절하다. <표 1.4.1-2> 단순이동평균방법에 있어서의 예측시점별 예측값 그러나, 단순 이동평균방법은 시계열자료가 추세를 갖고 있을 경우에는 부 적절하다. 이동평균방법을 사용함에 있어서 주기 (N)를 얼마로 해야 하는가 하는 문제 가 있는데 (a) MA(1)은 현재 시점 (T)의 시계열 값으로 다음 시점 (T+1)의 시계열자료 를 예측한다는 것이다. .

1.4.1 이동평균방법 (b) MA(4)는 분기별 자료에 대해 사용할 수 있는 데, 4개의 자료들 평 균을 얻으면 계절 효과를 제거하는 데 도움이 되지만, 그 평균값을 다 음 시점의 예측값으로 한다는 것은 추세나 계절효과를 나타내기에 바 람직하지 않다. 다음에 설명되겠지만, 4개의 자료들 평균을 4개 자료들의 가운데 위치 시킨다면 시계열자료들의 요소들을 파악하는데 도움이 될 것이다. (c) 이동평균방법에서 주기를 크게 하면 할수록 시계열자료를 부드럽 게 하는 효과는 있다. 왜냐하면 많은 자료들의 평균을 내어서 예측값 으로 사용한다는 것은 그 기간내의 들쭉날쭉 함을 고려하지 않는다는 것이기 때문이다.

1.4.1 이동평균방법 3) 선형이동평균방법 (Linear Moving Average Method) 앞에서 설명한 평균이나 이동평균의 방법은 시계열자료가 어떤 추세를 보이고 있 을 경우 적당한 예측방법이 될 수가 없다. 추세가 있는 시계열자료에 대해서는 단순히 이동평균방법을 사용할 경우, 체계적 오차가 발생하기 때문에 선형 이동평균방법(linear moving average method)를 소개한다. 선형 이동평균방법은 이동평균 값들을 다시 이동평균하여 얻어진 값들을 이용하 여 예측하는 방법이다. 주기가 N인 이동평균을 주기 N으로 반복 이동평균한 결과 를 MA(NxN)으로 표현하기로 하자. 선형이동평균방법에서는 단순 이동평균방법에서와는 달리 MA(3)의 값을 t=3에 위치시킨다. 그리고 반복이동평균값인 MA(3x3)도 3개의 이동평균값들 (4, 6, 8)로 부터 얻은 후, 단순 이동평균값을 [MA(3) - MA(3x3)]만큼 조정하고 시점간의 추세 를 반영하여 예측하는 방법이다.

1.4.1 이동평균방법 이제, 이동평균과 반복이동평균을 정리하여 선형이동평균방법에 의 한 예측값을 일반화시켜보기로 하자. 단순이동평균은 으로 반복이 동평균은 으로 표현하면 이 되고, : MA(3) + (MA(3)-MA(3*3)) (1.4.1-1) : 추세 (Trend) (1.4.1-2) 으로 할 때 선형이동평균방법으로 시점 (T+m)의 예측값을 얻는다면 (1.4.1-3) 이다. 물론 시점 (T+1)에서의 예측값은 이다.

1.4.1 이동평균방법 식(1.4-1)는 단순이동평균으로 얻어진 값을 만큼 조정 한 결과를 나타내고, 식(1.4-2)은 단위기간 동안의 추세 추정치를 나타 낸다. 식(1.4-2)의 2/(N-1)은 뒤에서도 나오는 값이므로 여기서 간단히 설명하고 넘어가기로 하자. 먼저, 주기 N의 이동평균은 기간 동안의 시계열 값들 평균이기 때문에 시점 (N+1)/2에 위치시키는 것이 원칙이다. 그러나, 주기 N의 이동평 균값을 시점 N에 위치시키기 때문에 N-(N+1)/2=(N-1)/2 기간의 차이 가 나게 된다. 반복이동평균의 값도 이와 마찬가지로 (N-1)/2 기간의 차이가 나며 이 기간동안의 추세 변동폭은 이기 때문에 단위 기간(시점과 시 점간의 기간)에 대한 추세는 을 (N-1)/2로 나눈, 식(1.4-2)과 같이 된다.

1.5 시계열 요소 분해법 시계열 요소분해법이란 시계열자료는 변동들의 혼합(결합)으로 이루 어지는 것이므로 시계열자료를 형성하고 있는 변동요소를 찾아내고 시계열자료를 그 요소들로 표현하여 예측해 보자는 것이다. 실제로, 우리가 분석하고자 하는 많은 경영, 경제 시계열자료들은 대 체로 추세(Trend), 계절변동(Seasonal Fluctuation), 순환변동 (Cyclical Movement)으로 이루어지며, 기타 불규칙변동 (Irregular/Random Fluctuation)이 추가되어 변화하는 모습을 갖게 된다. 따라서, 시계열자료에 내포되어 있는 이 변동들을 각각 분리시켜 찾아 보고, 이 변동들의 조합으로 예측을 하는 것도 바람직한 예측방법 중 의 하나일 것이다.

1.5.1 시계열요소 (THE COMPONENT OF TIME SERIES DATA) 시계열자료를 구성하고 있는 세 가지 변동을 설명해 보면 다음과 같다. 1) 추세 (Trend) 추세란 자료가 장기적으로 변화해 가는 큰 흐름을 나타내는 것이다. 자료가 장기적으로(Long-run) 커지는지, 작아지는지, 변화가 없는지 를 나타내 주는 요소를 추세라고 한다. 보다 구체적으로는 장기적으로 커지는 모습일 때 그것이 선형인지, 지수적으로(Exponentially) 증가 하는 것인지를 함수관계로 나타내 줄 수도 있을 것이다. 2) 순환변동 (Cyclical Movement) 순환변동은 경제전반의 또는 특정 산업의 부침(Ups and Downs)를 나 타내 주는 것을 말한다. 예를 들면, GNP(국민총생산), 산업생산지수, 주택수요, 자동차 판매대수, 주식가격, 통화공급량, 이자율 등도 순환 변동

1.5.1 시계열요소 3) 계절변동 (Seasonal Fluctuation) 계절변동은 일정한 주기를 갖고 반복적으로 같은 패턴으로 변화하는 것을 말한다. 예를 들면, 온도(1일 주기), 강우량(1년 주기), 전력소비 량(1일 주기) 등 순환변동과 계절변동의 차이점은 계절변동은 주기가 일정(1년, 1달, 1주 등)하게 정해진 반면 순환변동은 정해지지 않은 기 간 동안에 사이클(Cycle)을 보여주는 것이라 할 수 있다. 이상과 같이 시계열자료는 세 가지 변동을 내포하면서 불규칙하게 변 화하는 것이므로 시계열자료( )는 로 표현할 수 있다. 여기서 오차(Error/Randomness)란 불규칙 변동으 로 설명되는 항인데 실제 시계열자료 값과 추세, 순환, 계절 변동의 조 합에 따른 패턴, 간의 차이라고 보면 된다.

1.5.1 시계열요소 그러므로, 시계열자료는 실제로 위에서 설명한 네 가지 요소가 뒤섞여 있는 것으로 간주하여 그러므로, 시계열자료는 실제로 위에서 설명한 네 가지 요소가 뒤섞여 있는 것으로 간주하여 (1.5.1-1) 로 표현한다. 여기서, 는 t시점에서의 시계열 값, 는 t시점에서 의 추세요소, 는 순환요소, 는 계절요소, 는 불규칙요소를 나타낸 다. 그리고 대체로 다음과 같은 과정을 거쳐 요소들을 분해하게 된다. 1) 계절변동 주기( )를 파악한 후 기의 이동평균을 구하여 계절성 과 불규칙성(임의성)을 제거시킬 수 있다. 즉 계절변동의 주기( ) 가 12개월이든, 4분기든, 7일이든 간에 시계열 자료의 기 이동평균 을 얻으면 계절성으로 인한 높은 값과 낮은 값들을 평균하는 것이 되 어 계절성이 제거되고, 또 평균값을 얻음으로써 임의의 어떤 이유 때 문에 생기는 작은 변동인 불규칙 변동도 제거하는 효과를 얻을 수 있 다.

1.5.1 시계열요소 (2) 시계열자료( )로 부터 (1)에서 구한 이동평균 값들은 분리시키게 되면 추세변동과 순환변동만 남게 된다. (3) 그러면 시계열자료의 추세가 어떤 형태로 이루어져 있는지를 알 수 있게 되고, 그 추세의 형태( )를 구할 수 있다. (4) (2)에서 얻어진 추세변동과 순환변동만 남아 있는 시계열에서 (3) 에서 구한 추세변동을 제거하면 순환변동( )이 얻어지고 (5) 위의 과정에서 얻어진 를 모두 제거할 때 남는 것이 불규칙 변동()이다.

1.5.2 추세변동 시계열자료가 장기적으로(Log-run) 어떤 경향을 나타내고 있는가를 추세(Trend)라고 한다. 시계열자료가 증가하는 경향이 있는지 또는 감소하는 경향이 있는지 를 알아보고, 증가나 감소의 경향이 선형(Linear)인지 어떤 함수관계 로 나타낼 수 있는지를 찾는 것이다. 시계열자료가 갖는 추세는 일반 적으로 <그림 1.5-2>와 같다. <그림 1.5.2-1> 시계열 자료의 일반적 추세

1.5.2 추세변동 먼저 <그림 1.5.2-1>( )는 시간의 변화에 따라 직선으로 증가하는 시 계열의 형태이다. 이와 같은, 선형의 관계는 가장 단순한 추세를 나타 내는 것으로서 의 관계식을 찾으면 될 것이다. <그림 1.5.2-1>( )는 의 관계를 나타내는 것으로서 시계열의 값들이 초기에는 급격히 작아 지다가 차차 점진적으로 작아지는 형태를 나타낸다. 비록 그 관계가 비선형(Non-linear)이지만, 대수를 취하여 로부터 과 을구할 수 있다.

1.5.2 추세변동 <그림 1.5.2-1> (c)와 (d)는 각각 의 관계를 나타낸 것이다. 그리고 <그림 1.5.2-1> (e)는 성장곡선을 나타내는 그래프로서 초기에는 서서히 증가하다가, 일정 시점 이후에는 성장의 속도가 빠르게 되고 또 성 장의 둔화하는 모습을 나타내는 시계열에 적합하다. 이와 같은 성장곡선 은 로 관계식이 얻어지게 된다. 위의 관계식을 로 바꾸어a 와 b를 구할 수 있게 된다.

1.5.2 추세변동 (1) 선형추세의 예 시간의 흐름에 따라 일정한 비율로 증가하는 시계열자료의 패턴을 와 가 시간의 흐름에 따라 일정한 비율로 증가하는 시계열자료의 패턴을 와 가 의 관계에 있음을 뜻한다. 실제로 에 대한 자료가 n개 있을 경 우 회귀분석의 최소자승법에 따라 기울기 b와 절편a 의 값을 구할 수 있다. (2) 비선형추세의 형태 시계열자료( )가 시점에 따라 직선의 관계에 있지 않고 <그림 1.5-2> 의 (b), (c), (d)와 같이 비선형의 관계에 있을 경우는

1.5.2 추세변동 등의 관계로 표현될 수 있는데, 이모형들은 대수(Logarithm)를 취함으로 써 선형의 관계로 바뀌어 진다. (3) 추세패턴을 찾는 방법 시계열 자료의 Scatter Plot을 얻어 그림 상에 나타난 추세를 적당한 모형 식에 적용시키는 것이 가장 기본적인 방법일 것이다. 그러나, 보다 객관적 인 근거를 얻기 위해서는 시계열 자료를 차분(Differencing)시키거나, 시 계열 자료의 자기상관(Autocorrelation)을 얻어 볼 필요가 있다.

1.5.2 추세변동 시계열을 차분한다는 것은 을 구하는 것을 의미하는 데, 이 차분들이 대체로 일정한(Constant) 값으 로 얻어진다면 선형의 추세를 갖는다는 판단을 할 수 있을 것이다. 만약, 차분된 것을 다시 차분했을 때에야 비로써 일정한 값들을 보인다면 그 시 계열 자료는 2차식의 추세를 갖는다고 판단할 수 있을 것이다. 즉, 으로 2차 차분한 결과가 대체로 일정한 값을 갖으며 2차식의 추세를 보이 는 시계열 자료이다. 또, 어떤 시계열은 대수를 취한 값들( )의 1차 차 분이 일정한 값을 갖는 경우도 있는데, 이런 경우는 성장곡선의 패턴을 갖 는 시계열이라고 판단할 수 있다. 시계열의 추세를 찾아낸 후에는 원 시계열에서 추세를 제거시킴으로써 추 세가 없는 (Detrending)시계열의 형태를 얻게 되는 데, 그 형태는 정상적 시계열(Stationary Time-series)이 될 것이고 이 정상적시계열에 나타나 는 다른 변동 요소들을 찾는 일이 남게 된다.

1.5.3 순환변동 순환변동(Cyclical Fluctuation)은 추세변동을 제거시킨 시계열로부 터 찾아낼 수 있는데 비교적 장기간의 시계열일 경우, 일정한 기간을 갖지는 않더라도 침체기와 활황기가 반복적으로 나타나는 일정의 경 기변동을 말한다.

1.5.4 계절변동 계절변동(Seasonal Variation)이란 1년 이내의 주기를 갖고 반복적으 로 나타나는 변동을 말한다. 주기는 1일, 1주, 1년 등이 될 수 있으며, 시계열 자료가 한 주기 내에 서 반복적으로 비슷한 형태의 패턴을 보일 경우 계절변동을 찾을 수 있다. 예측에 있어서 계절변동을 찾는 것이 중요한 이유는 다음과 같 다. 첫째, 많은 시계열자료에서 추세변동 다음으로 뚜렷하게 나타나는 것 이 계절변동인데, 예측을 함에 있어 이 계절성을 고려해야만 보다 정 확한 예측이 가능하다. 즉, 계절변동을 찾아내 원 시계열자료에서 계 절성을 제거할 때 예측모형의 틀이 짜여 지고 정확한 예측을 할 수 있 는 것이다. 계절변동을 찾아야 되는 이유는 또한 장기간의 계획을 수 립함에 있어 계절적 변동을 파악해야만 생산량과 재고량을 조절하여 수급을 원할히 할 수 있기 때문이다.

1.6 BOX-JENKINS 모형 소위 ARIMA(Auto Regressive Integrated Moving Average) 모형으 로 일컬어지는 Box-Jenkis 모형은 시계열자료의 예측에 널리 사용되 고 있다. Box-Jenkins 모형에 의하여 시계열자료를 다루고자 할 때는 다음의 세 가지 단계, 즉, (1) 모형식별 (model identification) (2) 식별된 모형의 파라미터 추정 및 진단 (testing) (3) 예측 (forecasting) 를 거치게된다.

1.6.1 BOX-JENKINS 모형 일단 시계열자료가 정상적인 경우, Box-Jenkins 모형은 다음의 세 가 지로 나누어진다. 즉, (1) 자기회귀모형 (2) 이동평균모형 (3) 자기회귀이동평균모형 (1) 자기회귀모형 (Autoregressive Model) 자기회귀모형이란 시계열자료()가 과거 값들로써 설명된다는 모형이 다. 다시 말하면, 회귀모형과 같이 라고 할 때, 현재(t) 시점의 시계열 값( )은 바로 전기 (t-1)값으로부 터 만큼, 2기전 (t-2)의 값으로부터 만큼 등으로 영향을 받는다고 할 수 있을 것이다.

1.6.1 BOX-JENKINS 모형 그러므로 과거 p까지의 값들이 에 영향을 준다고 할 경우의 식 (1.6.1-1)을 p차 자기회귀모형이라고 부르며 AR(p)라고 표현한다. 물 론, 바로 전기의 값이 현재의 값에 중요하게 영향을 주는 경우, AR(1) 모형이 되며 으로 표현된다. 여기서 는 오차를 나타내며 시점에 관계없이 독립 적이고 정규분포 한다는 가정을 하게 된다. 즉, 이다.

1.6.1 BOX-JENKINS 모형 (2) 이동평균모형 (Moving Average Model) 이동평균모형이란 시계열자료가 연속적인 오차항 들의 영향을 받는다는 것으로서 으로 표현되는데 식(6-3)을 q차 이동평균모형이라고 부르며, MA(q)로 나타낸다. 물론, 바로 이전 시점 (t-1)의 오차항만이 포함되는 경우라면 1 차 이동평균모형이 되며, 으로 표현된다. (3) 자기회귀이동평균모형 (Autoregressive Moving Average Model) 앞에서의 두 가지 모형은 시계열자료가 과거의 시계열자료 값들로 표현 될 수 있다는 것과 과거의 오차값들로 표현될 수 있다는 것을 나타내고 있 는데, 경우에 따라서는 과거의 시계열자료 값들과 과거의 오차값들 모두 의 영향을 받는다고 할 수도 있을 것이다.

1.6.1 BOX-JENKINS 모형 그러므로 AR과 MA가 혼합된 자기회귀이동평균모형을 다음과 같이 나타낼 수 있다. 즉, 이다. 이러한 자기회귀이동평균모형은 ARMA(p,q)로 표현될 수 있다. 가장 단순한 ARMA모형은 으로서 ARMA(1,1)으로 표현하면 된다. ARMA모형은 AR모형과 MA모형의 혼합모형으로서, AR이나 MA모 형을 ARMA모형 표현방법으로 나타내기도 한다. 즉, 예를 들면, AR(1) 은 ARMA(1,0)으로 MA(1)은 ARMA(0,1)등으로 표현해도 무방하다.

1.6.1 BOX-JENKINS 모형 시계열자료 ( )의 평균을 나타내는 방법은 예를 들면, 식(1.6.1-2)는 를 에 회귀시킨 회귀모형인데 와 의 평균이 모두 로 같기 때문 에(정상적시계열), AR(1)모형은 원칙적으로 로 표현되는 것이 타당하다. 그리고 식(1.6.1-7)을 약간 수정하면 가 된다. 또, 식(1.6.1-4)의 MA(1)모형은 의 평균이 일 때, 원칙적으로 으로 표현되어야 할 것이다. 그러나, 대부분의 경우 편의를 위하여 의 평균을 0으로 간주하고 모형들을 설명하게 된다.

1.6.2 모형의 규명 정상적시계열에 대한 AR, MA, ARMA 모형은 세 가지가 있다는 설명 을 하였다. 물론 차수(order)를 고려할 때 그 종류는 훨씬 많아지는 것 을 알 수 있다. 그러면, 주어진 시계열을 어떤 모형에 적합시키는 것이 바람직한가를 찾아야 하는데 이를 규명(identification)이라고 한다. 즉, 주어진 시계열자료로 부터 얻어지는 정보를 수단으로 하여 주어진 시계열은 어떤 모형일 것이라는 규명을 하게 되는데, 규명의 중요 수 단으로 자기상관계수(autocorrelation : AC)와 부분자기상관계수 (partial autocorrelation : PAC)가 있다.

1.6.2 모형의 규명 여기서, 시계열자료가 정상적인 경우, 이므로 식(1.6.2-1) 은 와 같다. 2) 자기상관계수의 분포 여기서, 시계열자료가 정상적인 경우, 이므로 식(1.6.2-1) 은 와 같다. 2) 자기상관계수의 분포 시계열자료, 로부터 계산된 자기상관계수가 유의적인가를 알기 위해서는 자기상관계수들의 분포를 알아야 한다. 즉, 를 가설검증하여 를 기각하면, 얻어진 k차 자기상 관계수가 유효한 것이라는 것이다. 이 때, 계산된 k차 자 기상관계수 의 분포는 정규분포로서

1.6.2 모형의 규명 로 얻어지기 때문에, 의 표준오차 를 이용하여 의 95% 신뢰 수준의 신뢰구간을 얻을 수 있다. 로 얻어지기 때문에, 의 표준오차 를 이용하여 의 95% 신뢰 수준의 신뢰구간을 얻을 수 있다. 또한, 시차 (lag) 1에서 m까지의 모든 자기상관계수들이 0인가를 판단 하는 통계량으로 Box-Pierce Q통계량이라는 것이 있는데, ARMA(p,q) 모형일 경우, 로 얻어진다. 따라서, Q통계량은 의 가설을 검증하는데 사용된다.

1.6.2 모형의 규명 3) 부분자기상관계수 (Partial Autocorrelation Coefficient) 회귀분석에서 반응변수 X를 과 에 회귀시킬 경우, 즉, 의 모형에서, 가 Y 에 미치는 영향을 제외시킨 후 이 Y 에 미치 는 영향을 얻고자 할 때 부분결정계수라는 개념을 이용하는데 시계열 분석에서도 이와 같은 개념에서 부분자기상관계수를 이해하면 된다. 즉, 시차 (lag)가 주어져 있을 때, 주어진 시차에 대한 시계열간의 상 관계수를 얻음에 있어, 먼저 다른 시차들의 시계열자료 값들이 미치는 영향을 제거한 후에 주어진 시차에 대한 시계열간의 상관계수를 부분 자기상관계수(Partial Autocorrelation : PAC)라고 한다.

1.6.2 모형의 규명 부분자기상관계수를 얻는 방법이나 의미를 이해하기보다는 모형을 식별하는 보조적 수단으로 부분자기상관계수가 사용된다는 점을 알 면 될 것이다. 특히, AR 모형에서는 부분자기상관계수가 뚜렷하게 나타나기 때문에 AR 모형으로 식별되는 시계열 자료에 대해서는 부분자기상관계수 값 들이 필요하다. 앞에서 언급한 바와 마찬가지로 Box-Jenkins 모형을 규명하는 수단 으로 자기상관계수(AC)와 부분자기상관계수(PAC)가 사용되는데 자 기회귀모형(AR), 이동평균모형(MA), 자기회귀이동평균모형(ARMA) 의 자기상관계수와 부분자기상관계수의 형태를 몇 가지로 정리함으 로써 모형 규명의 가이드라인을 얻을 수 있다. -O MA 모형 AC가 돌출적인 값들을 갖고 PAC는 순차적으로 작아지는 모습을 나 타내는데, 유의적인 AC의 돌출부의 수로 차수를 결정한다.

1.6.2 모형의 규명 -O AR 모형 PAC가 돌출적인 값들을 갖고, AC는 순차적으로 작아지는 모습을 나타낼 경우 모형으로 판단되며 유의적인 PAC의 돌출부의 수로 차수 를 결정한다. -O ARMA 모형 AC와 PAC 모두 순차적으로 작아지는 경우 모형으로 식별되며 차수 는 를 넘지 않는다.

1.6.3 MA모형, AR모형, ARMA모형의 AC와 PAC 에 대한 자기상관계수 (AC)는 다음과 같이 계산된다. 즉, 시차 (lag) 1의 자기상관계수는

1.6.3 MA모형, AR모형, ARMA모형의 AC와 PAC 이다. 시차 2이상에서는 분자가 0이 되므로 이다. 2) AR모형 먼저, 가장 단순한 AR(1)모형에 대한 자기상관계수 (AC)는 다음과 같 이 구해진다. 에 대한 그러므로 AC는 시차 k가 커질수록 점진적으로 감소하는 모양을 갖게 된다.

1.6.3 MA모형, AR모형, ARMA모형의 AC와 PAC AR과 MA모형의 혼합 형태인 ARMA모형에 대해서는 자기상관계수 (AC)나 부분자기상관계수 (PAC) 모두 점진적으로 작아지는 형태를 갖는다. 이 경우에는 AC, PAC 모두 특별한 특징을 보이지 않기 때문 에 AR이 아니고, MA도 아닌 경우라고 판단될 때 ARMA모형으로 식 별할 수밖에 없다. ARMA(1,1) 모형에 대한 몇 가지 AC와PAC 패턴을 소개하면 <그림 1.6.3-5>와 같다.

1.6.3 MA모형, AR모형, ARMA모형의 AC와 PAC

1.6.4 비정상적 시계열 앞에서도 언급한 바와 같이 대부분의 시계열자료는 비정상적시계열이다. 비정상적시계열이라 함은 일정기간 동안의 시계열자료들의 평균이 같지 않거나, 분산이 같지 않은 경우로서 비정상적시계열을 정상적시계열로 전 환시켜 놓아야 모형을 식별할 수 있게 된다. 비정상적시계열을 정상적시 계열로 바꾸는 방법은 주로 차분(differencing)으로 해결한다. 시계열, { }가 있을 때 1차 차분(first difference)은 으로 표현되는데, 1차 차분의 결과인 가 정상적시계열이 아니라면 를 다시 한번 차분하는 2차 차분을 수행할 수 있다. 즉, 2차 차분은 으로 표현된다.

1.6.4 비정상적 시계열 대개의 비정상적시계열은 2차 차분으로 정상적시계열이 되는데, 2차 차분으로도 정상적시계열이 되지 않는 경우라면, 를 변수 변환시켜 다른 함수로 바꾼 후에 차분을 하는 것이 필요하다.

1.6.5 식별된 모형의 파라미터 추정과 진단 앞절 1.6.3에서는 간단한 MA모형과 AR모형 그리고 ARMA 모형의 AC와 PAC 형태를 살펴봄으로써 어떤 시계열자료가 주어졌을 때, 이 자료의 AC와 PAC로써 그 자료는 어떤 모형으로 식별할 수 있는가를 알아보았다. 물론, 실제 시계열자료의 AC와PAC 는 이론적으로 얻어 진 AC와 PAC의 형태보다 훨씬 복잡하게 얻어질 것이다. 이제 주어진 시계열자료의 AC와 PAC를 보고 어떤 모형이라고 식별 한 후에는 그 모형의 파라미터 값들을 추정해야 한다. 추정의 방법으 로는 o 조건 최소자승법 o 비조건 최소자승법 o 최우추정법

4)QUALKO 등이 있는데, 그 추정하는 이론적 계산식은 여기서 설명할 수가 없다. 따라서 우리는 통계 패키지(SAS, SPSS, RATS, Minitab 등)로써 얻 어진 결과만을 살펴보기로 하자. 모형의 파라미터 값들이 추정되면, 시계열자료가 그 모형에 얼마나 잘 적합되는지를 진단해야 하는데, 그 적합도로서 AIC(Akaike Information Criterion) 또는 SBC(Schwartz Bayesian Criterion)를 사용하는 것이 일반적이다. 즉, ARMA(p,q)모형에 대해 로 정의되는바, AIC(또는 SBC) 값이 가장 작은 (p,q)가 가장 근사한 모형이라고 판단할 수 있다. 또한, 시계열분석에서도(회귀분석에서와 마찬가지로) 잔차들을 분석해야 하는데 잔차들은 아무런 패턴을 갖지 않고 임의로 퍼져있는 것이 바람직하다.

1.6.5 식별된 모형의 파라미터 추정과 진단 Box-Pierce 통계량 잔차들이 서로 상관되어 있다면 그 모형으로는 시계열자료를 잘 적합 시키지 못하고 있다는 것을 시사하는 것이다. 잔차들의 자기상관 (autocorrelation of residuals)을 검색하는 도구로 Box- Pierce(Portmanteu) Q통계량을 사용하는데 시차(lag) 묶음별로 자기 상관이 존재하는가를 검증할 수 있다. 즉, Q통계량은 로 정의되는데, T는 잔차의 수(자료의 수), 는 번째 (lag) 시차의 자기 상관계수, m은 시차 1에서 시차 m까지의 시차 묶음을 나타낸다. 즉, 을 가설검증하기 위한 검증통계량으로 Q통계량을 사용하는데 M을 6, 12, 18 등으로 하여 잔차들의 자기상관계수 묶음들에 대한 가설을 검증한다.

1.6.5 식별된 모형의 파라미터 추정과 진단 추정된 파라미터들의 상관계수 파라미터의 수가 2개 이상인 모형에 대해서 추정된 파라미터들 간의 상관계수를 살펴보아야 한다. 만일, 두 개의 파라미터들 간에 높은 상 관관계가 존재한다면 둘 중 하나의 파라미터는 제외시켜 모형을 간결 하게 하는 것이 바람직하기 때문이다. 예를 들어, 다음과 같이 파라미터들 간에 상관계수가 얻어졌다면 파 라미터 3은 불필요하다고 간주할 수 있다.

1.6.5 식별된 모형의 파라미터 추정과 진단 왜냐하면, 파라미터 2와 파라미터 3의 상관계수가 0.856이어서 둘 중 의 하나가 필요 없다고 한다면, 파라미터 2 보다는 파라미터 3이 파라 미터 1과 높은 상관계수를 갖기 때문이다. 그러면, 파라미터 3이 없는 모형에 대해 추정을 다시하고 모형에 대한 적합성 검진을 해야 할 것이다.