논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.

Slides:



Advertisements
Similar presentations
사회적기업 프로잭트 사회적기업 프로잭트 ( 일하는 기쁨과 함께 나누는 행복한 기업 ) 2008 년 10 월 ( 사단법인 ) 사회적기업 청람 Co. social enterprise cheong ram 영광종합병원 · 공립영광노인전문요양병원 의료법인 호연재단.
Advertisements

신진영 현지 조사 방법 및 보고서 작성법 제 10 강 - 측정 및 척도 - - 통계적 추론 원리 -
20... ㅇㅇ동 ㅇㅇㅇ시설 신축공사 - 안산시 단원구 ㅇㅇ동 번지 - 부 서 명부 서 명 2012 년도 제 회 안산시경관위원회 2012 년도 제 회 안산시경관위원회 심의일자 (HY 중고딕 20) 사업명 (HY 중고딕 20) 사업위치 (HY 중고딕 20) 민간건축물 미작성.
서울혁신기획관 익명성과 인간소외 심화, 공동체 해체 … 시민의 행복지수와 삶의 질 하락 … 2 I. 왜 … 마을공동체인가 ! 1.
융합형 전문가, 기술경영자 한성대학교 경영학부 하성욱 교수 2014 년 10 월 29 일 2014 년 한성여고 방과후 특강.
회계학과 김영록 회계학과 곽웅섭 회계학과 정찬규 경영학부 황 현.
1 통계를 왜 공부해야 하나 ? Dept. of Public Administration Chungnam National University.
1월 월간업무보고 경 리 부.
목 차 ❖ 1 장. 서 론 ❖ 2 장. 표와 그림을 통한 자료의 요약 ❖ 3 장. 수치를 통한 연속형 자료의 요약
제6장. 현금예금, 대여금, 차입금 대구대학교 회계세무학부 이장형 교수.
목 차 I 퇴직연금의 필요성 II 퇴직급여제도 종류 퇴직연금제도 도입배경 III IV 과학기술인 퇴직연금 개요 V
홍보출판 위원회 출판국 2010년 사역 계획서 발표자 : 출판국 국장 / 박수만권사 일시: 2010년 01월 17일(일) 1.
Keller: Stats for Mgmt & Econ, 7th Ed
인적자원관리론 5장 종업원 선발 하성욱 사회과학대학 경영학부.
5.1 모수 (parameter) vs 통계량 (statistics)
역대 정부개편의 교훈과 새로운 정부조직개편의 방향
논문제목 : 확률론적 방법에 의한 건축 개발사업의 재무적 타당성 분석 모델 구축
김종찬 김정석 이상미 임성규 담당 교수님 최병수 교수님
기술 통계학 (Descriptive Statistics)
체위변경과 이동 요양보호 강사 : 이윤희.
다가구 신축공사 사업계획서 대전광역시 서구 도마동 49-15번지
Excel과 통계학.
의료의 질 평가 분석 기법 김 민 경.
논문을 위한 통계 집단간 평균 차이: t-test, ANOVA 하성욱 한성대학교 대학원.
9.확률 분포 정규 분포 형태 : 평균을 중심으로 좌우대칭의 종 모양을 가진 분포이다.
CHAPTER 21 UNIVARIATE STATISTICS
Z-test -Z 검증은 추리 통계의 여러 가지 검증 기법들 가운데 가장 기본적인 형태의 검증방식이다.
게시판이용자의 본인확인 - 제한적 본인확인제
패턴인식 개론 Ch.5 확률 변수와 확률 분포.
지역맞춤형 일자리창출 사업 기관 평가
MINITAB for Six Sigma.
제7장 추정과 가설 검정.
4-1 Gaussian Distribution
Hypothesis Testing 가설 검정
Week 10:확률변수(Random Variable)
카드 고객 서비스 관리기본 제안서
대촌중 최영미.
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
신 윤 호 ㈜엘림에듀 초등사업본부장, 중앙대학교 체육학박사
경제통계학 개요 사공 용 서강대학교 경제학과.
Inferences concerning two populations and paired comparisons
Association between two measurement variables Correlation
: Two Sample Test - paired t-test - t-test - modified t-test
Chapter 04. 인터넷조사.
지방공무원 임용시험 위탁 및 공동추진 충청북도교육청 (목) 총무과 교육행정 6급 안 병 대
Statistical inference I (통계적 추론)
-여러나라의 숫자와 수에 대해- 제주북초등학교 영재반 5학년 안희주
The normal distribution (정규분포)
사용자 경험 측정 (Measuring User Experience)
Chapter Ⅱ. 연구 설계.
타워크레인 설치 · 해체시 작업안전 한국산업안전공단.
통계방법의 이해.
Chapter 4: 통계적 추정과 검정 Pilsung Kang
제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
Week 13:가설검정(Hypothesis Testing)
Definitions (정의) Statistics란?
제3장 사회조사방법의 기본개념 변수(variable): 사람, 물건, 사건 등의 특성이나 속성이 두 가지 이상의 가치(value)를 가질 때 변수라고 함. 즉 상호배타적인 속성들의 집합 1) 속성에 따른 분류 -. 명목변수(Nominal Variable): 분류에 기초를.
존 듀이의 경험교육론에 기초한 초등학교 체험활동 특징에 관한 연구
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
Weekly Learning Course
가설검정의 기본원리 Introduction to Hypothesis Testing
양초 한 자루의 과학 과학영재교육 전공 김 연 주 류 은 희 이 상 희.
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
카드 고객 서비스 관리기본 제안서
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
표본분포 개요 랜덤추출법 표본분포 모양과 CLT.
2019년 헤럴드경제 자본시장대상(안) 2019년 3월 헤럴드경제 IB금융섹션.
국제금융의 이해 I. 경제와 금융 II. 국제금융과 무역 III. 글로벌화와 국제금융 IV. 국제금융의 형태
히브리서 믿음으로 사는 삶 존 옥스, 한국 서울 2018년 1월.
Presentation transcript:

논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원

논문이란? I 논문이란? 주장 (argument) 새로운 (new) New Argument with Evidence 근거가 있는 새로운 주장 주장 (argument) 독립 (Independence) : X ⊥ Y 연관 (association) : X ∝ Y 인과적 관계 (causal relationship) : X → Y 새로운 (new) Based on the academic literature 기존의 해당 학문분야의 문헌을 기준으로 볼 때, c.f. 연구문제의 가치 New, Significant, Feasible (Measurable)

논문이란? II 근거 (evidence) 논리적 근거 (logical evidence) 문헌조사 (literature review): 기존 문헌들의 논리들을 종합하여 가설을 도출 e.g. Review paper 실증적 근거 (empirical evidence) 정성적 근거 (qualitative evidence): e.g. Case study (e.g. 특정 기업의 사례) 정량적 근거 (quantitative evidence): e.g. Survey research

논문이란? III 과학철학 반증주의 (falsificationism) 가설 검증의 방향 문제해결을 위해 제시된 이론 (theory)에 대해 엄격한 경험적 검증을 하며, 이러한 검증의 목적은 가설의 논박에 있으며, 이론에 의한 결과가 반박되는 경우 그 이론은 기각되고, 반증과정을 거쳐 남게 되는 이론이 채택된다. 가설 검증의 방향 이론 (theory)에 따른 가설 (hypothesis) 제시 => 경험적 검증 => 이론 잔류 실증적 검증은 하나의 근거일 뿐이고, 이론이 부정되지 않은 것일 뿐임 (다른 실증적 검증에 의해 기각될 수 있음) 이러한 예외가 다른 이론 (alternative theory)에 의해 더 잘 검증되면 대체됨: e.g. 뉴튼 이론 => 아이슈타인 이론 엄밀한 이론적 바탕이 없는 경험적 검증은 이론 개발에 별로 도움이 되지 않을 수 있음

논문이란? IV 근거가 있는 새로운 주장으로서 한계점 논의 e.g. 혈액형 (blood type)과 인성 (personality) New Argument Evidence logical evidence empirical evidence

동전 던지기 I 내기 게임: 동전 던지기 앞면(H, head)이 나오면 1만원을 잃고, 뒷면(T, tail)이 나오면 1만원을 얻는 게임을 제안 받았다. 제안을 받아들여 게임을 했는데 연속해서 4번 앞면이 나와서 4만원을 잃었다. 나는 어떻게 결정을 내려 행동해야 하나? (1) 조작된 동전을 사용하는 사기꾼에 당한 것이기 때문에 이에 상응하는 보복행동을 해야 한다. (2) 정상적인 동전에서도 나타날 수 있는 현상이기 때문에 문제가 없고 운이 좀 나쁜 것으로 생각해야 한다.

동전 던지기 II 동전 던지기 게임의 분석 돈 잃은 사람의 주장(Ha): Prob(앞면[H]) ≠ ½ 일반적인 경우 라면(H0): Prob(앞면[H]) = ½ 확률변수 Xn : n회 시행 시 앞면(H)이 나온 경우의 횟수 X1 Prob (X1 = 0) = 1/2 Prob (X1 = 1) = 1/2 X2 Prob (X2 = 0) = 1/4 Prob (X2 = 1) = 2/4 Prob (X2 = 2) = 1/4

동전 던지기 III X3 X4 Prob (X3 = 0) = 1/8 Prob (X3 = 1) = 3/8

동전 던지기 IV 확률 1 ….. n-1 n Xn Xn 의 확률분포 nCc pc x [1-p]n-c nC1 p1 x [1-p]n-1 nC0 p0 x [1-p]n-0 1 ….. n-1 n Xn

동전 던지기 V 의사결정 [즉, 통계적 추론(statistical inference)] 4회 시행 시, 앞면이 4번 나올 확률이 6.25%로 작기는 하지만 가능성이 존재함 (1) 동전이 조작되었다고 주장한다면 (Ha), 판단이 틀릴 확률이 6.25%라고 할 수 있음 (2) 운이 나쁘다고 생각(H0)하기에는 억울함 한 번 더 내기게임을 해서 또 앞면(H)이 나오더라도 확률이 줄어들기는 하지만 3.125%의 가능성은 존재함 따라서 의사결정 기준이 되는 확률(즉, 틀려도 좋다고 허용하는 정도, 유의수준)을 정해서 판단함. 유의수준은 H0가 맞지만 Ha를 주장해서 틀리는 것을 허용하는 type I error (α) 로 정함 대개 유의수준으로 5%(즉, 20번에 한 번 정도는 틀리는 것으로 허용함)를 많이 사용함 통계적 추론의 결론: 4번 연속 앞면(H)일 때 까지는 참고 있다가, 5번 연속 앞면(H)이 나오면 참지 말고 보복행동을 하라.

통계, 통계량, 통계학 I Statistics: 통계, 통계표, 통계자료를 의미 통계량(statistic) 수량적 사실이나 수량적 관찰 혹은 수량적 자료의 수집 수량적 자료를 수집, 분석, 해석하고 이를 이론화하는 도구 통계량(statistic) 표본 (sample)에서 계산된 수량적 값 e.g. 평균, 분산, 표준편차 등 c.f. 모집단 (population)에서 표본 (sample)이 나옴 통계학(statistics, the singular) 집단현상을 수량적으로 관찰하고, 분석하는 방법을 연구하는 학문

통계, 통계량, 통계학 II 통계의 기능 √ 수량적 자료의 기술 (description) 많은 수량적 자료를 처리하고 쉽게 이해할 수 있는 형태로 축소시키는 일 e.g. 한 학급 100명의 성적들을 나열할 것이 아니라 => 평균(= x = ∑i=1nxi / n), 표준편차(= s = )로 요약할 수 있음 c.f. 최소충분통계량(minimum sufficient statistic) 수량적 자료의 추론 (inference) ∑i=1n (xi - )2 x n-1 √

통계, 통계량, 통계학 III ‘통계의 기능’에 따른 통계의 유형 기술통계 또는 서술통계 (descriptive statistics) 관찰된 통계집단의 성질을 기술하는 것을 목적으로 통계 데이터를 정리·요약하는 방법 e.g. 빈도 (frequency), 백분율 (percentage), 평균 (mean), 표준편차 (standard deviation), 상관관계 (correlation) 등 추론통계 (inferential statistics) 모집단 (population)에서 추출한 표본(sample)의 자료를 통하여 모집단의 특성, 모수치 (parameter; e.g. μ, σ) 등을 추론하거나 가설을 검증하는 방법 모수통계 (parametric statistics)와 비모수통계 (nonparametric statistics)로 구분 e.g. t-test, 분산분석 (ANOVA), 회귀분석 (regression) 등

평균, 분산과 표준화 I (1) x의 평균(μx) = (2) x의 분산(σx2) = (3) x의 표준편차 (σx) = √ ∑i=1n xi n x의 평균(μx) = (2) ∑i=1n (xi - )2 x n-1 x의 분산(σx2) = (3) ∑i=1n (xi - )2 x n-1 x의 표준편차 (σx) = √ (4) ( xi – μx ) σx x의 표준화(zx) =

평균, 분산과 표준화 II (xi - ) x -3 8 5 -1 -0 -5 -6 3 편차(deviation) 9 64 25 1 36 편차2 (deviation) (xi - )2 x 응답자(i) 친절(xi) 1 7 2 18 3 15 4 9 5 10 6 8 13 합계 100 230 평균( x ) 10.0 x의 분산 (variance of x) 25.556

통계적 추론의 기초 개념 I 표본과 통계적 추론 (statistical inference) 모집단(population) 유의도 수준 (i.e. α level) 표본오류 (sample error) - Random sampling - 표본의 수 (n) 비표본오류 (non-sample error) - 불포함오류 (e.g. 전화번호부) - 무응답오류 - 조사현장오류 (e.g. 친분왜곡) - 기록 및 처리오류 μ (평균, mean) 모집단(population) σ (표준편차, STD standard deviation) … X ~ D (μ, σ) 표본 (sample) X (평균, mean) S (표준편차, STD standard deviation) …

통계적 추론의 기초 개념 II 가설 (hypothesis) 일반적으로 두 개 이상의 변수들간의 관계를 검증 가능한 형태로 서술해 놓은 문장 e.g. ‘최고경영자의 의지는 경영혁신에 중요하다.’ (가설이 아님) e.g. ‘최고경영자의 의지는 경영혁신 성과와 정(+)의 관계를 가진다.’ 아직 경험적으로 검증되지 않은 일종의 예비적 이론

통계적 추론의 기초 개념 III 귀무가설 (H0 : null hypothesis) 연구자가 주장하고 싶은 것에 반대되는 주장, 기존의 상식 두 변수들이 관련성이 없다는 관계 지식이 없는 상태에서 두 변수들간의 관계는 독립(X⊥Y)이라고 설정함 c.f. ‘재판’에서 피의자가 범죄를 저질렀을 가능성이 매우 높지만, 판사는 중립적으로 무죄 추정의 원칙을 기반으로 재판을 시작해서 관련 증거들에 따라 피의자를 판단해야 함 대립가설 (Ha : alternative hypothesis) 연구자는 두 변수들이 관련성이 있다는 관계(X∝Y or X→Y)를 주장하고 싶음 c.f. ‘재판’에서 검사는 증거들에 기반해서 피의자의 유죄를 입증하고자 함

통계적 추론의 기초 개념 IV 유의도 수준 (significance level, 유의수준) 의사결정의 기준으로 사전적으로 정해지는 수준 통계적 추론이 통계적으로 의미 있는 수준 작을수록 의미가 큼 대립가설(Ha)을 주장하는 주장의 강도: 즉, 나의 주장이 틀려도 좋다고 허용하는 정도 e.g. 5% 유의수준: 20번에 1번 틀리는 정도 e.g. 1% 유의수준: 100번에 1번 틀리는 정도 e.g. 0.1% 유의수준: 1000번에 1번 틀리는 정도 유의수준은 H0가 맞지만 Ha를 주장해서 틀리는 것을 허용하는 정도 즉, 허용되는 type I error (α)로 정해짐 e.g. α=0.05 or 5%, 95% 신뢰도

통계적 추론의 기초 개념 V p-value 귀무가설 (H0) 하에서 표본과 같은 (예외적인) 현상이 나타날 확률 대립가설(Ha)이 맞다고 주장했을 때, 나의 주장이 틀릴 확률 표본에서 분석한 결과로 귀무가설 (H0)을 기각할 수 있는 최소한의 Type I error (α) 값 e.g. * : p<0.05 기호(e.g. *)는 p-value<α level 라는 것을 나타냄 e.g. + : p<0.1; * : p<0.05; ** : p<0.01; *** : p<0.001

통계적 추론의 기초 개념 VI 통계적 추론의 오류들 Alpha (α) error: Type I error (1종 오류) Error (reject H0 | H0 is true) 사전에 정함 Beta (β) error: Type II error (2종 오류) Error (accept H0 | Ha is true) 표본의 수와 α 수준에 따라 결정됨 숨겨진 진실, 실제 값, 모집단 True H0 False H0 (True Ha) 판단 관찰 값 표본 True H0 정확한 결론 (1- α) Type II error (β) False H0 Type I error (α) 정확한 결론 (1- β)

통계적 추론의 기초 개념 VII α = 5% e.g. 동전 10회 던지기 1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10 Ho: p(H)=1/2 0.1% 1.0% 4.4% 11.7% 20.5% 24.6%

통계적 추론의 기초 개념 VIII α = 5% α 를 5%로 정하면 β가 26%임 α 를 10%로 증가하면 β가 7%로 감소함 β = 26% 1 2 3 4 5 6 7 8 9 10 Ho: p(H)=1/2 0.1% 1.0% 4.4% 11.7% 20.5% 24.6% Ha: p(H)=0.9 0.00% 0.01% 0.15% 1.12% 5.74% 19.37% 38.74% 34.87%

통계적 추론의 기초 개념 IX Trade-off between α and β H0 Ha μ0 μa

통계적 추론의 기초 개념 X 표본 수를 증가(n=20)시키면, α 오류와 β 오류를 동시에 줄일 수 있어서, 더 정확한 판단이 가능함 α = 5% β = 1.1% 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Ho: p(H)=1/2 0% 1% 4% 7% 12% 16% 18% Ha: p(H)=0.9 3% 9% 19% 29% 27%

통계적 추론의 기초 개념 XI 검정력 (statistical power) 대립가설 (Ha)로 정확한 결론을 내릴 가능성 (i.e. 1 – β) 표본의 수에 의해 크게 영향을 받음 c.f. ‘재판’에서 검사가 피의자의 범죄 혐의를 입증하지 못해 석방시키는 오류 (i.e. β) c.f. ‘재판’에서 검사가 피의자의 범죄 혐의를 입증해서 단죄하는 능력 (i.e. 1- β)

(probability density function) 대표적 확률분포: 정규분포 (normal distribution) 확률밀도함수 (probability density function) σ 34.13% 15.87% 2σ 47.72% 2.28% 3σ 49.86% 0.14% μ

정규분포와 모수 통계 II 정규분포 (normal distribution) i.e. X ~ N (μ, σ) 평균 (mean), 중앙값 (median), 최빈값 (mode) 일치 i.e. 첨도 (kurtosis) = 0, ; 왜도 (skewness) = 0 K > 0, 뽀족; S > 0, 왼쪽 K < 0, 뭉뚝; S < 0, 오른쪽 표준화된 (standardized) 정규분포 평균 = 0, 표준편차 = 1 i.e. Z = ( X - μ ) / σ Z ~ N (0, 1)

정규분포와 모수 통계 III Central limit theorem (중심극한정리) 표본 평균 ( )의 분포 x x 표본 평균 ( )의 분포 모집단의 분포가 정규분포이면 [ i.e. x ~ N(μ, σ) ], 표본 평균의 분포도 정규분포 [ i.e. ~ N( , ) ] 임 모집단의 분포가 정규분포가 아니어도 [ i.e. x ~ D(μ, σ) ], 표본의 크기가 커짐에 따라 (대개 n ≥ 30) 표본 평균의 분포도 정규분포 [ i.e. ~ N( , ) ] 임 표본 평균의 분포는 평균 값이 모집단 평균임 [ E( ) = μ ] 표본 평균의 분포는 표준편차가 모집단 표준편차를 제곱근으로 나눈 값임 ~ N (μ, σ/√n ), where we know σ ~ N (μ, S/√n ), where we don’t know σ x x x x x x

정규분포와 모수 통계 IV 모집단 분포에 대한 가정 모수통계 (parametric statistics) 모수 (parameter; e.g. μ, σ)에 대한 일정한 가정을 전제로 함 모집단 특성의 정규분포 가정 등간측정, 비율측정에 적용 가능함 비모수통계 (nonparametric statistics) 모수 (parameter; e.g. μ, σ)에 대한 가정을 전제로 하지 않고 모집단의 형태에 관계없이 주어진 데이터에서 직접 확률을 계산하여 통계학적 검정을 하는 분석법 분포자유검정 (distribution-free tests): 모집단 특성의 분포 가정 없음 명목측정, 서열측정에서도 적용 가능함 표본 수가 작아도 적용 가능함 검정력 (statistical power)이 약한 한계점이 있음

Summary 논문이란? 통계적 추론(statistical inference) 가설, 귀무가설 (H0)과 대립가설 (Ha) 기술통계 (descriptive statistics)와 추론통계 (inferential statistics) 가설, 귀무가설 (H0)과 대립가설 (Ha) 유의도 수준 (significance level) 표본(sample)에서 계산되는 p-value α error (type I)와 β error (type II) 표본 수와 검정력 (statistical power) 정규분포 (normal distribution) 중심극한정리 (central limit theorem) 모수통계 (parametric statistics)와 비모수통계 (nonparametric statistics)