Presentation is loading. Please wait.

Presentation is loading. Please wait.

논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.

Similar presentations


Presentation on theme: "논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원."— Presentation transcript:

1 논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원

2 논문이란? I 논문이란? 주장 (argument) 새로운 (new) New Argument with Evidence
근거가 있는 새로운 주장 주장 (argument) 독립 (Independence) : X ⊥ Y 연관 (association) : X ∝ Y 인과적 관계 (causal relationship) : X → Y 새로운 (new) Based on the academic literature 기존의 해당 학문분야의 문헌을 기준으로 볼 때, c.f. 연구문제의 가치 New, Significant, Feasible (Measurable)

3 논문이란? II 근거 (evidence) 논리적 근거 (logical evidence)
문헌조사 (literature review): 기존 문헌들의 논리들을 종합하여 가설을 도출 e.g. Review paper 실증적 근거 (empirical evidence) 정성적 근거 (qualitative evidence): e.g. Case study (e.g. 특정 기업의 사례) 정량적 근거 (quantitative evidence): e.g. Survey research

4 논문이란? III 과학철학 반증주의 (falsificationism) 가설 검증의 방향
문제해결을 위해 제시된 이론 (theory)에 대해 엄격한 경험적 검증을 하며, 이러한 검증의 목적은 가설의 논박에 있으며, 이론에 의한 결과가 반박되는 경우 그 이론은 기각되고, 반증과정을 거쳐 남게 되는 이론이 채택된다. 가설 검증의 방향 이론 (theory)에 따른 가설 (hypothesis) 제시 => 경험적 검증 => 이론 잔류 실증적 검증은 하나의 근거일 뿐이고, 이론이 부정되지 않은 것일 뿐임 (다른 실증적 검증에 의해 기각될 수 있음) 이러한 예외가 다른 이론 (alternative theory)에 의해 더 잘 검증되면 대체됨: e.g. 뉴튼 이론 => 아이슈타인 이론 엄밀한 이론적 바탕이 없는 경험적 검증은 이론 개발에 별로 도움이 되지 않을 수 있음

5 논문이란? IV 근거가 있는 새로운 주장으로서 한계점 논의
e.g. 혈액형 (blood type)과 인성 (personality) New Argument Evidence logical evidence empirical evidence

6 동전 던지기 I 내기 게임: 동전 던지기 앞면(H, head)이 나오면 1만원을 잃고, 뒷면(T, tail)이 나오면 1만원을 얻는 게임을 제안 받았다. 제안을 받아들여 게임을 했는데 연속해서 4번 앞면이 나와서 4만원을 잃었다. 나는 어떻게 결정을 내려 행동해야 하나? (1) 조작된 동전을 사용하는 사기꾼에 당한 것이기 때문에 이에 상응하는 보복행동을 해야 한다. (2) 정상적인 동전에서도 나타날 수 있는 현상이기 때문에 문제가 없고 운이 좀 나쁜 것으로 생각해야 한다.

7 동전 던지기 II 동전 던지기 게임의 분석 돈 잃은 사람의 주장(Ha): Prob(앞면[H]) ≠ ½
일반적인 경우 라면(H0): Prob(앞면[H]) = ½ 확률변수 Xn : n회 시행 시 앞면(H)이 나온 경우의 횟수 X1 Prob (X1 = 0) = 1/2 Prob (X1 = 1) = 1/2 X2 Prob (X2 = 0) = 1/4 Prob (X2 = 1) = 2/4 Prob (X2 = 2) = 1/4

8 동전 던지기 III X3 X4 Prob (X3 = 0) = 1/8 Prob (X3 = 1) = 3/8

9 동전 던지기 IV 확률 1 ….. n-1 n Xn Xn 의 확률분포 nCc pc x [1-p]n-c
nC1 p1 x [1-p]n-1 nC0 p0 x [1-p]n-0 1 ….. n-1 n Xn

10 동전 던지기 V 의사결정 [즉, 통계적 추론(statistical inference)]
4회 시행 시, 앞면이 4번 나올 확률이 6.25%로 작기는 하지만 가능성이 존재함 (1) 동전이 조작되었다고 주장한다면 (Ha), 판단이 틀릴 확률이 6.25%라고 할 수 있음 (2) 운이 나쁘다고 생각(H0)하기에는 억울함 한 번 더 내기게임을 해서 또 앞면(H)이 나오더라도 확률이 줄어들기는 하지만 3.125%의 가능성은 존재함 따라서 의사결정 기준이 되는 확률(즉, 틀려도 좋다고 허용하는 정도, 유의수준)을 정해서 판단함. 유의수준은 H0가 맞지만 Ha를 주장해서 틀리는 것을 허용하는 type I error (α) 로 정함 대개 유의수준으로 5%(즉, 20번에 한 번 정도는 틀리는 것으로 허용함)를 많이 사용함 통계적 추론의 결론: 4번 연속 앞면(H)일 때 까지는 참고 있다가, 5번 연속 앞면(H)이 나오면 참지 말고 보복행동을 하라.

11 통계, 통계량, 통계학 I Statistics: 통계, 통계표, 통계자료를 의미 통계량(statistic)
수량적 사실이나 수량적 관찰 혹은 수량적 자료의 수집 수량적 자료를 수집, 분석, 해석하고 이를 이론화하는 도구 통계량(statistic) 표본 (sample)에서 계산된 수량적 값 e.g. 평균, 분산, 표준편차 등 c.f. 모집단 (population)에서 표본 (sample)이 나옴 통계학(statistics, the singular) 집단현상을 수량적으로 관찰하고, 분석하는 방법을 연구하는 학문

12 통계, 통계량, 통계학 II 통계의 기능 √ 수량적 자료의 기술 (description)
많은 수량적 자료를 처리하고 쉽게 이해할 수 있는 형태로 축소시키는 일 e.g. 한 학급 100명의 성적들을 나열할 것이 아니라 => 평균(= x = ∑i=1nxi / n), 표준편차(= s = )로 요약할 수 있음 c.f. 최소충분통계량(minimum sufficient statistic) 수량적 자료의 추론 (inference) ∑i=1n (xi - )2 x n-1

13 통계, 통계량, 통계학 III ‘통계의 기능’에 따른 통계의 유형
기술통계 또는 서술통계 (descriptive statistics) 관찰된 통계집단의 성질을 기술하는 것을 목적으로 통계 데이터를 정리·요약하는 방법 e.g. 빈도 (frequency), 백분율 (percentage), 평균 (mean), 표준편차 (standard deviation), 상관관계 (correlation) 등 추론통계 (inferential statistics) 모집단 (population)에서 추출한 표본(sample)의 자료를 통하여 모집단의 특성, 모수치 (parameter; e.g. μ, σ) 등을 추론하거나 가설을 검증하는 방법 모수통계 (parametric statistics)와 비모수통계 (nonparametric statistics)로 구분 e.g. t-test, 분산분석 (ANOVA), 회귀분석 (regression) 등

14 평균, 분산과 표준화 I (1) x의 평균(μx) = (2) x의 분산(σx2) = (3) x의 표준편차 (σx) = √
∑i=1n xi n x의 평균(μx) = (2) ∑i=1n (xi - )2 x n-1 x의 분산(σx2) = (3) ∑i=1n (xi - )2 x n-1 x의 표준편차 (σx) = √ (4) ( xi – μx ) σx x의 표준화(zx) =

15 평균, 분산과 표준화 II (xi - ) x -3 8 5 -1 -0 -5 -6 3 편차(deviation) 9 64 25 1
36 편차2 (deviation) (xi )2 x 응답자(i) 친절(xi) 1 7 2 18 3 15 4 9 5 10 6 8 13 합계 100 230 평균( x ) 10.0 x의 분산 (variance of x) 25.556

16 통계적 추론의 기초 개념 I 표본과 통계적 추론 (statistical inference) 모집단(population)
유의도 수준 (i.e. α level) 표본오류 (sample error) - Random sampling - 표본의 수 (n) 비표본오류 (non-sample error) - 불포함오류 (e.g. 전화번호부) - 무응답오류 - 조사현장오류 (e.g. 친분왜곡) - 기록 및 처리오류 μ (평균, mean) 모집단(population) σ (표준편차, STD standard deviation) X ~ D (μ, σ) 표본 (sample) X (평균, mean) S (표준편차, STD standard deviation)

17 통계적 추론의 기초 개념 II 가설 (hypothesis)
일반적으로 두 개 이상의 변수들간의 관계를 검증 가능한 형태로 서술해 놓은 문장 e.g. ‘최고경영자의 의지는 경영혁신에 중요하다.’ (가설이 아님) e.g. ‘최고경영자의 의지는 경영혁신 성과와 정(+)의 관계를 가진다.’ 아직 경험적으로 검증되지 않은 일종의 예비적 이론

18 통계적 추론의 기초 개념 III 귀무가설 (H0 : null hypothesis)
연구자가 주장하고 싶은 것에 반대되는 주장, 기존의 상식 두 변수들이 관련성이 없다는 관계 지식이 없는 상태에서 두 변수들간의 관계는 독립(X⊥Y)이라고 설정함 c.f. ‘재판’에서 피의자가 범죄를 저질렀을 가능성이 매우 높지만, 판사는 중립적으로 무죄 추정의 원칙을 기반으로 재판을 시작해서 관련 증거들에 따라 피의자를 판단해야 함 대립가설 (Ha : alternative hypothesis) 연구자는 두 변수들이 관련성이 있다는 관계(X∝Y or X→Y)를 주장하고 싶음 c.f. ‘재판’에서 검사는 증거들에 기반해서 피의자의 유죄를 입증하고자 함

19 통계적 추론의 기초 개념 IV 유의도 수준 (significance level, 유의수준)
의사결정의 기준으로 사전적으로 정해지는 수준 통계적 추론이 통계적으로 의미 있는 수준 작을수록 의미가 큼 대립가설(Ha)을 주장하는 주장의 강도: 즉, 나의 주장이 틀려도 좋다고 허용하는 정도 e.g. 5% 유의수준: 20번에 1번 틀리는 정도 e.g. 1% 유의수준: 100번에 1번 틀리는 정도 e.g. 0.1% 유의수준: 1000번에 1번 틀리는 정도 유의수준은 H0가 맞지만 Ha를 주장해서 틀리는 것을 허용하는 정도 즉, 허용되는 type I error (α)로 정해짐 e.g. α=0.05 or 5%, 95% 신뢰도

20 통계적 추론의 기초 개념 V p-value 귀무가설 (H0) 하에서 표본과 같은 (예외적인) 현상이 나타날 확률
대립가설(Ha)이 맞다고 주장했을 때, 나의 주장이 틀릴 확률 표본에서 분석한 결과로 귀무가설 (H0)을 기각할 수 있는 최소한의 Type I error (α) 값 e.g. * : p<0.05 기호(e.g. *)는 p-value<α level 라는 것을 나타냄 e.g. + : p<0.1; * : p<0.05; ** : p<0.01; *** : p<0.001

21 통계적 추론의 기초 개념 VI 통계적 추론의 오류들 Alpha (α) error: Type I error (1종 오류)
Error (reject H0 | H0 is true) 사전에 정함 Beta (β) error: Type II error (2종 오류) Error (accept H0 | Ha is true) 표본의 수와 α 수준에 따라 결정됨 숨겨진 진실, 실제 값, 모집단 True H0 False H0 (True Ha) 판단 관찰 값 표본 True H0 정확한 결론 (1- α) Type II error (β) False H0 Type I error (α) 정확한 결론 (1- β)

22 통계적 추론의 기초 개념 VII α = 5% e.g. 동전 10회 던지기 1 2 3 4 5 6 7 8 9 10
1 2 3 4 5 6 7 8 9 10 Ho: p(H)=1/2 0.1% 1.0% 4.4% 11.7% 20.5% 24.6%

23 통계적 추론의 기초 개념 VIII α = 5% α 를 5%로 정하면 β가 26%임 α 를 10%로 증가하면 β가 7%로 감소함
β = 26% 1 2 3 4 5 6 7 8 9 10 Ho: p(H)=1/2 0.1% 1.0% 4.4% 11.7% 20.5% 24.6% Ha: p(H)=0.9 0.00% 0.01% 0.15% 1.12% 5.74% 19.37% 38.74% 34.87%

24 통계적 추론의 기초 개념 IX Trade-off between α and β H0 Ha μ0 μa

25 통계적 추론의 기초 개념 X 표본 수를 증가(n=20)시키면, α 오류와 β 오류를 동시에 줄일 수 있어서, 더 정확한 판단이 가능함 α = 5% β = 1.1% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ho: p(H)=1/2 0% 1% 4% 7% 12% 16% 18% Ha: p(H)=0.9 3% 9% 19% 29% 27%

26 통계적 추론의 기초 개념 XI 검정력 (statistical power)
대립가설 (Ha)로 정확한 결론을 내릴 가능성 (i.e. 1 – β) 표본의 수에 의해 크게 영향을 받음 c.f. ‘재판’에서 검사가 피의자의 범죄 혐의를 입증하지 못해 석방시키는 오류 (i.e. β) c.f. ‘재판’에서 검사가 피의자의 범죄 혐의를 입증해서 단죄하는 능력 (i.e. 1- β)

27 (probability density function)
대표적 확률분포: 정규분포 (normal distribution) 확률밀도함수 (probability density function) σ 34.13% 15.87% 47.72% 2.28% 49.86% 0.14% μ

28 정규분포와 모수 통계 II 정규분포 (normal distribution) i.e. X ~ N (μ, σ)
평균 (mean), 중앙값 (median), 최빈값 (mode) 일치 i.e. 첨도 (kurtosis) = 0, ; 왜도 (skewness) = 0 K > 0, 뽀족; S > 0, 왼쪽 K < 0, 뭉뚝; S < 0, 오른쪽 표준화된 (standardized) 정규분포 평균 = 0, 표준편차 = 1 i.e. Z = ( X - μ ) / σ Z ~ N (0, 1)

29 정규분포와 모수 통계 III Central limit theorem (중심극한정리) 표본 평균 ( )의 분포 x x
표본 평균 ( )의 분포 모집단의 분포가 정규분포이면 [ i.e. x ~ N(μ, σ) ], 표본 평균의 분포도 정규분포 [ i.e. ~ N( , ) ] 임 모집단의 분포가 정규분포가 아니어도 [ i.e. x ~ D(μ, σ) ], 표본의 크기가 커짐에 따라 (대개 n ≥ 30) 표본 평균의 분포도 정규분포 [ i.e. ~ N( , ) ] 임 표본 평균의 분포는 평균 값이 모집단 평균임 [ E( ) = μ ] 표본 평균의 분포는 표준편차가 모집단 표준편차를 제곱근으로 나눈 값임 ~ N (μ, σ/√n ), where we know σ ~ N (μ, S/√n ), where we don’t know σ x x x x x x

30 정규분포와 모수 통계 IV 모집단 분포에 대한 가정 모수통계 (parametric statistics)
모수 (parameter; e.g. μ, σ)에 대한 일정한 가정을 전제로 함 모집단 특성의 정규분포 가정 등간측정, 비율측정에 적용 가능함 비모수통계 (nonparametric statistics) 모수 (parameter; e.g. μ, σ)에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법 분포자유검정 (distribution-free tests): 모집단 특성의 분포 가정 없음 명목측정, 서열측정에서도 적용 가능함 표본 수가 작아도 적용 가능함 검정력 (statistical power)이 약한 한계점이 있음

31 Summary 논문이란? 통계적 추론(statistical inference) 가설, 귀무가설 (H0)과 대립가설 (Ha)
기술통계 (descriptive statistics)와 추론통계 (inferential statistics) 가설, 귀무가설 (H0)과 대립가설 (Ha) 유의도 수준 (significance level) 표본(sample)에서 계산되는 p-value α error (type I)와 β error (type II) 표본 수와 검정력 (statistical power) 정규분포 (normal distribution) 중심극한정리 (central limit theorem) 모수통계 (parametric statistics)와 비모수통계 (nonparametric statistics)


Download ppt "논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원."

Similar presentations


Ads by Google