Presentation is loading. Please wait.

Presentation is loading. Please wait.

마케팅 조사론 1학년 A반 차진우( ) 허성원( ) 김혜진( )

Similar presentations


Presentation on theme: "마케팅 조사론 1학년 A반 차진우( ) 허성원( ) 김혜진( )"— Presentation transcript:

1 마케팅 조사론 1학년 A반 차진우(20112018) 허성원(20112024) 김혜진(20112040)
10. 다중 회귀분석 마케팅 조사론 1학년 A반 차진우( ) 허성원( ) 김혜진( )

2 목차 [제1절] 다중 회귀분석의 개요 [제2절] 다중 회귀분석의 적용 [제3절] 범주변수를 포함하는 회귀분석

3 [제1절] 다중 회귀분석의 개요 (1)다중 회귀분석의 특성 다중 회귀분석(multiple regression analysis)이란 하나의 종속변수(기준변수)와 두 개 이상의 독립변수(예측변수) 사이에 존재하는 통계적 관계를 분석하기 위한 기법중의 하나이다. 마케팅 현상에서는 - 단순 회귀분석에서처럼 - 하나의 종속변수가 단 하나의 독립변수에 관련되기 보다는 오히려 두 개 이상의 독립변수와 동시에 관련되는 일이 보편적 이다. ex) 청량음료의 매출액 -> 독립변수들(가격,광고예산,시장 모집단의 크기등) 이 상이한 값들로 조합되면 매출액도 다를 것이며, 많은 독립변수들이 중요하다면 매출액 분석에서 하나의 독립변수만 고려하는 단순 회귀분 석은 중요하지 않다.

4 단순 회귀분석에 비해 다중 회귀분석이 갖는 유용성은 ceteris paribus ( other things being equal, 다른 조건이 불변이라면) 라는 정보활용 상의 제약을 감소시킨다는 점 이다. 즉 종속변수의 추정된 값은 회귀식에 포함되지 않은 다양한 요인들과도 관련될 수 있지만 그러한 요인들의 영향은 일정하다고 가정하고 회귀식이 포함하고 있는 변수들만의 조합으로 종속변수를 추정한다. 따라서 회귀식으로 추정된 종속변수의 값은 실제값과 대단히 다를 수 있다. ex) 광고예산의 증대는 분명히 매출액의 증대와 관련될 것이지만, 경쟁자의 가격인하( ceteris paribus에서의 가격이 일정하다는 조건이 깨짐 ) 광고 예산의 증대에도 매출액이 감소할 수 있다. 따라서 다중회귀분석의 가장 큰 유용성은 종속변수와 관련된 보다 많은 요인을 포함시킴으로써 무모한 ceteris paribus라는 단서의 필요성을 감소시킨다.

5 다중 회귀분석은 함수적 분석방법이기 때문에 하나의 종속변수와 두 개 이상의
독립변수로 분리할 수 있으며, 모든 변수가 계량적이어야 한다.(물론 가변수를 사용하여 범주적 독립변수를 분석에 포함시킬 수도 있다.) 종속변수와 독립변수(들) 사이에서 도출된 관계는 함수적(functional)이 아니라 통계적(statistical)이다. ex)변동원가가 단위당 2만원이고 고정원가가 5000만원 일 때 100단위를 생산 하기 위한 전체원가는 정확하게 5200만원이 될 것인데, 5200만원이 아니 라면 그것은 원가계산을 잘못했기 때문으로 간주된다. - 함수적 관계 - 그러나 마케팅 현상에서는 동일한 독립변수 값에 대해서도 종속변수의 값이 흔히 두 가지 이상으로 관찰될 수 있다. 이러한 경우 종속변수는 확률변수 (random variable)로 가정되는데, 조사자는 회귀분석을 통해 단지 독립변수 의 특정한 값과 관련된 종속변수의 평균값을 추정할 수 있을 뿐이다. - 통계적 관계 -

6 (2) 다중 회귀분석의 수행 목적 1. 종속변수의 값을 독립변수(들)의 값으로부터 추정한다
(2) 다중 회귀분석의 수행 목적 1. 종속변수의 값을 독립변수(들)의 값으로부터 추정한다. 즉 회귀모델은 독립변수들의 특정한 값에 대해 종속변수를 예측해 준다. ex)상권내 세대수와 경쟁사표의 수에서 점포 매출액을 추정 2. 종속변수와 독립변수(들) 사이에 존재하는 관계를 검토 즉 독립변수간 다중공선성(collinearity)dl 대단히 적거나 없다면 각 독립변수가 종속변수에 연관되는 정도를 알 수 있다. ex)화장품 소비량을 예측하는데 구매자 연령과 소득중 어느 독립변수가 더 중요한지 결정할 수 있다. 3. 회귀분석을 이용한 추정,예측의 통계적 유의성을 밝혀준다. ex)소비자들의 소독, 가족수, 교육수준의 자료로 부터 월간 외식비를 예측 하였을 때 그러한 예측이 직관적 예측애 비해 얼마나 나은지를 밝혀준다.

7 (3) 다중 회귀분석의 주요 가정과 제한점 첫 번째 가정은 조사자가 선정한 독립변수들이 실제로 종속변수를 설명(예측)
하며, 중요한 변수들이 누락되지 않았다는 점이다. 따라서 회귀모델을 평가할 때 조사자는 "이러한 독립변수들이 종속변수에 영향을 미치는가", "모델 속에 어떤 변수를 포함시키는 일이 논리적으로 정당화될 수 있는가?", "논리적으로 모델 속에 포함되어야 하는 변수가 누락되는 않았는가?" 등의 문제를 고려한다. 두 번째 가정은 독립변수들과 종속변수 사이의 관계가 선형적이며 가법적(linear and additive)이라는 점이다. 즉 각 독립변수 값의 단위변화는 그 변순의 계수만큼 종속변수 값에 변화를 야기한다. 셋째, 독립변수의 모든 값에서 종속변수의 분산이 동일하다. 회귀분석에 의한 예측은 독립변수의 모든 값에서 종속변수의 값들이 동일한 분산 을 갖는다고 가정한다. 넷째, 다중 회귀분석에 있어서 독립변수들 사이에 상호작용이나 상관관계가 없다. 즉 한 독립변수 값의 단위변화는 다른 독립변수들의 값에 돤계없이 일정한 변화를 종속변수에 야기해야 한다. 그러나 만일 한 독립변수 값의 단위변화에 연관되는 종속변수 값의 변화가 다른 독립변수들이 취하는 값에 따라 다르다면 독립변수들 사이에 상호작용이 있는 것이며, 종속변수와의 상관관계보다 다른 독립변수와의 상관관계가 큰 독립 변수들은 분석에서 제외해야 한다.

8 변수의 변이를 설명하는 데 유의적으로 기여하지 않는다고 판단될 때 회귀분석은 끝난다.
(4) 다중 회귀분석의 접근방법 동시적 방법(simultaneous or direct method)은 모든 독립변수들을 동시에 함께 고려하는 것으로서, 종속변수의 변이에 대한 각 독립변수의 설명력을 고려하지 않고 독립변수들의 전체집합으로부터 회귀모델을 도출한 것 이다. 이러한 접근방법은 조사자가 의도적으로 모든 독립변수들을 회귀모델에 포함시키려고 하거나, 설명력이 큰 독립변수들만을 선택하여 단계적으로 분석된 중간결과에 관심을 갖지 않을 때 적합하다. 단계적 방법(stepwise method)은 종속변수에 대한 설명력이 큰 순서대로 독립변수를 하나씩 순차적으로 회귀모델에 포함시키는 것인데, 첫 단계에서는 최대의 설명력을 갖는 변수를 선택하여 단순 회귀모델을 도출한다. 그 다음 첫 번째 독립변수와 결합하여 종속변수의 변이를 가장 많이 설명하는 변수가 두 번째 독립변수로 선정되는 방식으로 분석단계마다 독립변수들이 추가 되는데, 물론 이러한 과정에서 이미 회귀모델에 포함되었던 변수라 할지라도 그들이 설명하는 종속변수의 변이가 이미 다른 독립변수들의 결함으로도 설명될 수 있다면 제거될 수도 있다. 결국 모든 독립변수들이 회귀모델에 포함되거나 배제된 변수들이 더 이상 종속 변수의 변이를 설명하는 데 유의적으로 기여하지 않는다고 판단될 때 회귀분석은 끝난다.

9 (5) 다중 회귀분석의 준비 근복적으로 단순 회귀분석의 모든 원리들은 다중 회귀분석에도 적용되는데,
다중 회귀분석은 하나의 종속변수 값을 결정하는 데 있어서 두 개 이상의 독립 변수들이 갖는 관계를 분석하고, 도출된 회귀모델의 유의성을 평가한다. 1. 분석에 포함할 변수의 선정 종속변수 값은 회귀모델에 포함되지 않은 요인(독립변수)들과도 관련될 것이 므로 회귀모델을 이용하여 추정한 종속변수의 추정치는 대체로 실제값과 같이 않다. 따라서 조사자는 종속변수에 관련될 것으로 여겨지는 변수들을 보다 많이 포함시킴으로써 회귀모델의 설명력(예측력)을 개선할 수 있을 것이다. 그러나 지나치게 많은 변수를 포함시키는 일은 분석을 번거롭게 만들며, 독립 변수의 수를 늘려감에 따라 개선되는 설명력(예측력)도 체감적으로 증가할 뿐 이다. 그러므로 조사자는 유사한 선행연구를 검토하거나 탐색적 조사를 실시하여 적절한 변수를 발견해야 하며, 여건에 따라서는 단순히 자신의 직관만을 근 거로 변수를 선정할 수 있다. 단지 조사자는 충분하면서도 최소한의 수만큼 조사먹적에 적합한 변수를 선정해야 한다.

10 2. 일반적인 모델의 상술 종속변수를 포함하여 세 개 이상의 변수를 포함하는 회귀식을 'multvariate', 또는 'multivariant', 'multivariable', 'multiple' regression model이라고 하는데, 다중(선형) 회귀모델의 일반형태는 다음과 같다. 종속변수의 추정치 = 상수항의 추정치 + (회귀계수의 추정치1 * 독립변수의 관찰치1) + (회귀계수의 추정치2 * 독립변수의 관찰치2 ) (회귀계수의 추정치n * 독립변수의 관찰치n) 이 식은 하나의 종속변수와 두 개의 독립변수 사이의 관계를 나타내며, 종속변수를 3차원 공간에 비행체로 나타내준다. 비록 계산의 원리는 단순 회귀모델의 경우와 유사하고 역시 '최소자승의 기준'을 채택하지만, 회귀모델에 포함되는 독립변수의 수가 두 개 이상으로 증가하면 수학적 조작이 훨씬 복잡해져 컴퓨터의 도움을 받는 편이 정확하고 시간과 노력을 절약할 수 있다.

11 3. 분석에 포함할 변수들에 관한 관찰자료의 수집 다중 회귀분석을 준비하기 위한 세 번째 단계는 분석에 포함시킬 변수들에 관한 관찰자료를 수집하는 일인데, 여기서는 외식빈도를 종속변수로 하고 그것이 보유카트 수 및 가계소득과 갖는 관계를 분석하기 위해 아래와 같은 자료를 수집했다고 가정하자. ( 실무에서는 이처럼 작은 표본에 대해 회귀분석을 적용하지 않으며, 대체로 변수 수의 10배 이상 관찰치를 가져야 한다. ) Y = 외식빈도 X2 = 보유 카드 수 X2 = 가계소득(10만원) ID Y X1 X2 1 2 3 4 5 6 7 8 10 14 16 17 18 21 25

12 [2절] 다중 회귀분석의 적용 (1) 회귀모델의 도출과 모델을 이용한 예측
5장에서는 외식빈도를 예측하기 위해 표본에 포함된 가계들의 외식빈도 산술평균을 이용하는 경우보다 하나의 독립변수(보유카드 수)를 포함하는 단순회귀모델을 이용하는 편이 더욱 정확함을 설명하였다. 가계소득이라는 독립변수를 추가로 포함한 다중 회귀모델은 그러한 예측을 더욱 개선할 것인데, 조사자는 표본 구성원 자체의 외식빈도를 추정하려는 것이 아니라 모든 가계에 대한 예측모델을 개발하기 위해 표본을 선정한 것이다. 즉 조사자는 회귀모델을 개발하기 위해 사용한 표본에 포함되지 않는 가계들에 대해 외식빈도를 얼마나 잘 예측하는지를 검토해야 하며, 또한 모든 가계의 모집단에서 외식빈도와 보유카드 수 및 가계소득 사이에 존재하는 관계를 규명해야 한다.

13 첫째, 표본이 추출된 시점에서의 여건과 측정된 관계가 예측의 시점에서도 크게 변하지 않아야 한다.
회귀모델을 이용한 예측이 유효하기 위해서는 다음의 두 가지 요건이 충족 되어야 하는데, 그렇지 못한 경우에는 새로운 관찰자료에 대해 회귀모델을 다시 도출해야 한다. 첫째, 표본이 추출된 시점에서의 여건과 측정된 관계가 예측의 시점에서도 크게 변하지 않아야 한다. EX) 교통체증이 더욱 심각해지거나 카드발행회사들이 갑자기 카드에 대해 보험료나 발급료 등을 요구하기 시작했다면 외식관행이 위축되거나 보유카드 수가 변할 것이기 때문에 예측이 부정확 둘째, 회귀모델을 이용하여 종속변수를 예측하고자 할 때에는 대체로 독립변수값들이 회귀식의 모수를 구하기 위해 사용한 표본자료의 독립변수 평균값의 근처에 있는경우에 국한해야 한다. 즉, 독립변수의 값들이 표본자료의 평균으로부터 상당히 떨어진 경우라면 그러한 모수를 이용하여 종속변수를 예측하는 일이 부정확할 수 있다. 따라서, 조사자는 예측을 위해 회귀모델에 대힙할 독립변수 값이 표본내 독립변수의 평균과 근접될 수 있도록 표본을 추출하여 회귀모델을 도출해야 한다.

14 (2) 모델의 통계적 유의성 검토 (2-1) 설명된 변이에 관한 검증 (F-검증)
조사자는 단 하나의 표본만을 취하여 회귀모델을 도출하므로 그러한 회귀모델이 모든 가계의 모집단을 잘 묘사하는지 아닌지 확인하기 위해서는 회귀모델에 관한 F-검증과 t-검증을 실시해야 한다. (2-1) 설명된 변이에 관한 검증 (F-검증) 설명된 변이에 관한 검증은 F-검증에 의존하는데, 이때의 귀무가설은 “산술평균이 설명하는 변이를 초과하여 회귀모델이 설명하는 변이의 양은 우연히 나타난 것이다.” 또는 “산술평균 대신에 회귀모델을 사용함으로써 얻어진 종속변수 추정치의 오차감소는 유의적이지 않다”는 명제이다. 따라서, 조사자는 자료로부터 도출한 회귀모델이 종속변수에 있어서 설명된 변이의 양을 유의적으로 개선하고 있다는 결론을 내리고 다음 단계의 분석에 들어간다.

15 (2-2)상수항과 회귀계수들에 관한 검증(t-검증)
특정한 독립변수(들)가 종속변수에 통계적으로 관련된다고 주장할 수 없을 경우라 할지라도 경제이론과 상식에 의해 타당성이 인정된다면 조사자는 그러한 변수의 약점을 인정하면서도 여전히 회귀모델 속에 남겨둘 수 있다. 한편 상수항을 포함한 회귀계수들에 대한 추정치는 표본으로부터 구해지기 때문에 조사자는 이러한 추정치들의 신뢰구간을 설정할 수 있다. 즉 추정치들에 대한 95%의 신뢰구간은 다음과 같이 계산한다. 상수항을 포함한 회귀계수 추정치 +- t95, n -2 여기서 t95는 양측검증에서 95%의 신뢰수준이 나타내는 표준오차의 배수이며 , n-2 는 사용할 t-분포의 자유도 이다.

16 Beta계수 : 회귀분석에 앞서서 각 독립변수에 관한 자료를 표준화한 후 분석결과로서 구한 회귀계수
(3) 독립변수들의 상대적 연관성 검토 조사자는 회귀분석 결과를 검토하여 각 독립변수(보유카드 수 또는 가계소득)가 종속변수(외식빈도)를 예측하는 데 상대적으로 기여하는 정도를 알고 싶어하지만 불행하게도 회귀계수들은 이러한 정보를 제공해 주지 않는다. 그렇기 때문에 조사자가 종속변수에 대한 각 독립변수의 상대적 여관성의 크기를 검토하기 위해서는 표준화된 회귀계수, 즉 Beta계수를 이용해야 한다. Beta계수 : 회귀분석에 앞서서 각 독립변수에 관한 자료를 표준화한 후 분석결과로서 구한 회귀계수 이러한 Beta계수는 각 독립변수에 있어서 한 표준편차(one standard deviation)만큼의 변화가 종속변수에 야기하는 변화의 크기를 나타내기 때문에 공통된 단위를 근거로 각 독립변수가 종속변수와 관련되는 상대적 크기를 나타내 준다.

17 Beta계수를 이용할 때에 유의점 Beta계수들은 다중공선성이 없거나 거의 없는 경우에 한해 각 독립변수들의 상대적 중요성을 반영하는 지표로 사용될 수 있다. Beta계수들은 한 회귀모델 내의 다른 변수들의 맥락에서만 해석될 수 있다. EX) 보유카드 수에 대한 Beta계수는 가계소득에 비해 보유카드 수가 갖는 상대적 중요성을 반영할 뿐, 절대적인 의미를 갖지 않는다. 만일 다른 독립변수를 회귀모델에 추가한다면 보유카드 수의 Beta계수는 – 보유카드 수와 새로운 독립변수 사이에 어떤 관계가 있다면 – 바뀔 것이다. 독립변수들이 취하는 값의 범위가 달라진다면 당연히 Beta계수들도 변할 것이므로, 표본자료내 독립변수 값의 범위에서만 이용되어야 한다.

18 [3절] 범주 변수를 포함하는 회귀분석 마케팅에서는 단지 수개의 범주만을 갖는 독립변수들도 회귀분석에 포함시켜야 할 경우가 빈번히 발생하는데, 이러한 변수들은 성별, 거주형태, 사회계층, 날씨, 계절 등을 포함하여 명목척도로 측정되는 모든 점주 변수이다. 범주변수를 회귀분석에 포함시키기 위해서는 단지 0과 1의 값만 취하는 가변수(dummy variable)를 이용하는데, 아파트, 단독주택, 상가주택이라는 세 개의 값만을 갖는 범주변수(주거형태)를 가변수로 나타내면 다음과 같다. 일반적으로 K개의 범주를 갖는 범주변수의 값들을 나타내기 위하여 필요한 가변수의 수는 (K-1)개이다. 범주 변수 명 범주 가변수(D1) 가변수(D2) 주거형태 아파트 1 단독주택 상가주택

19 감사합니다


Download ppt "마케팅 조사론 1학년 A반 차진우( ) 허성원( ) 김혜진( )"

Similar presentations


Ads by Google