Definitions (정의) Statistics란?

Slides:



Advertisements
Similar presentations
3 장. 고기후. 지질연대표 : 지질시대를 구분하는 표 은생대 - 46 억년 전 시작  지구나이 시생대 - 38 억년 전 시작 선캄브리아기 원생대 - 25 억년 전 시작 고생대 - 5 억 7 천만년 전시작 중생대 - 2 억 5 천만년 전 시작 신생대 - 6 천 6 백만년.
Advertisements

전자통신연구실 1 확률과 랜덤 해석 잡음 분석 확률 - 실험 (experiment) - 결과 (outcome) - 사건 (event)
1 통계를 왜 공부해야 하나 ? Dept. of Public Administration Chungnam National University.
1 Differences between Men and Women in Periosteal Apposition and Bone Loss during Aging Seeman E. N Engl J Med. 2003;349:320.
2015년도 2학기 제 8 장 표본추출 마케팅조사.
Background  In the Helsinki policemen Study Hyperinsulinemia was associated with increased all-cause and CV mortality independent of other risk factors.
Eliminating noise and other sources of error
3과 4번 단어 cattle 2. feed 3. drought 4. send up 5. sweet 6. alternative
Lesson 8 Nature’s Gifts.
6.9 Redundant Structures and the Unit Load Method
Journals & Conferences
Keller: Stats for Mgmt & Econ, 7th Ed
기술 통계학 (Descriptive Statistics)
의료의 질 평가 분석 기법 김 민 경.
국민건강영양조사 한국보건의료연구원 이 자 연
실습 (using SPSS) Department of Biostatistics, Samsung Biomedical Research Institute Samsung Medical Center.
제1장 과학과 사회조사방법 과학적 지식(scientific knowledge): 과학적 방법에 의해 얻어진 지식, 즉 논리적, 체계적, 경험적, 객관적 절차를 통해 얻어진 지식 과학적 지식의 특성 1) 재생가능성(reproducibility) 2) 경험가능성(empiricism)
강의실 변경: 과 424  과 B101 교재 : Quantitative Chemical Analysis
강의실 변경: 과 424  과 B101 교재 : Quantitative Chemical Analysis 
English Communication 1
CHAPTER 21 UNIVARIATE STATISTICS
Chap 3. 표본조사 3.1 표본추출(Sampling)의 기초 3.2 단순임의표본추출 3.3 표본으로부터 모집단 추정
Genetic Algorithm 신희성.
1 도시차원의 쇠퇴실태와 경향 Trends and Features of Urban Decline in Korea
제6장 표본추출 전수조사와 표본조사 1) 전수조사: 모집단 전체를 모두 조사. 예) 인구센서스, 농산물 수확조사
Cluster Analysis (군집 분석)
숭실대학교 마이닝연구실 김완섭 2009년 2월 8일 아이디어  - 상관분석에 대한 연구
계수와 응용 (Counting and Its Applications)
논문을 위한 통계 논문과 통계의 기초 개념 하성욱 한성대학교 대학원.
Medical Instrumentation
4-1 Gaussian Distribution
제 15 장 거시경제의 측정 PowerPoint® Slides by Can Erbil
제 4 장. Regular Language의 특성
추정의 기본원리 Introduction to Estimation
Week 10:확률변수(Random Variable)
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
McGraw-Hill Technology Education
경제통계학 개요 사공 용 서강대학교 경제학과.
9. Do you have a scientific mind?
Inferences concerning two populations and paired comparisons
Association between two measurement variables Correlation
감마선스펙트럼 방사능측정 불확도 Environmental Metrology Center
: Two Sample Test - paired t-test - t-test - modified t-test
9. Do You Have a Scientific Mind?
수원대학교 응용통계학과 김 진 흠 표본추출의 이론과 실제 수원대학교 응용통계학과 김 진 흠
: 부정(negative)의 의미를 나타내는 접두사
Statistical inference I (통계적 추론)
Machine Learning using Neural Networks
The normal distribution (정규분포)
사용자 경험 측정 (Measuring User Experience)
Chapter Ⅱ. 연구 설계.
Welcome to Virus World 바이러스의 세계로 초대합니다.
What is statistics?.
Chapter 4: 통계적 추정과 검정 Pilsung Kang
제2장 통계학의 기초 1절 확률 기본정의 확률의 기본 공리와 법칙 2절 확률변수와 확률분포 3절 정규분포와 관련 분포 정규분포
Modeling one measurement variable against another Regression analysis (회귀분석) Chapter 12.
점화와 응용 (Recurrence and Its Applications)
현대 진화 생물학의 주요개념 (Key Concepts of Modern Evolutionary Biology)
물질(Matter)의 이론 (사물의 본질에 대한 의문)
창 병 모 숙명여대 전산학과 자바 언어를 위한 CFA 창 병 모 숙명여대 전산학과
1. 관계 데이터 모델 (1) 관계 데이터 모델 정의 ① 논리적인 데이터 모델에서 데이터간의 관계를 기본키(primary key) 와 이를 참조하는 외래키(foreign key)로 표현하는 데이터 모델 ② 개체 집합에 대한 속성 관계를 표현하기 위해 개체를 테이블(table)
사례 연구.
제3장 사회조사방법의 기본개념 변수(variable): 사람, 물건, 사건 등의 특성이나 속성이 두 가지 이상의 가치(value)를 가질 때 변수라고 함. 즉 상호배타적인 속성들의 집합 1) 속성에 따른 분류 -. 명목변수(Nominal Variable): 분류에 기초를.
의학자료분석론 교재: 강의록 Rosner B, Fundamentals of Biostatistics, 7th ed. Brooks/Cole Cengage Learning, Canada, 강의 평가: 출석 20% 숙제 30% 기말고사 50%
Statistics (First Term/2009)
기 술 통 계 학 6 1 기술통계학 2 자료의 정리 3 위치척도 4 산포의 척도.
경영통계학 제1장 통계학은 어떤 학문인가? What is Statistics? 1.1.
표본분포 개요 랜덤추출법 표본분포 모양과 CLT.
Chapter 4. Energy and Potential
영어문장구조의 이해 제출자: 영어영문학과 신진희.
Presentation transcript:

Definitions (정의) Statistics란? Natural variation에 의한 수치 자료 (data)의 과학적 연구 (scientific study) the scientific study of numerical data based on variation in nature Statistics는 populations (개체군; 모집단) or 개체들의 groups 을 다룸 따라서 single datum이 아니라 다량의 정보를 다룸 거의 모든 학문 분야에 적용됨

Definitions (정의) Statistics란? 모든 과학은 관찰된 자연현상을 설명하는 포괄적인 generalizations (일반화)의 발달로 진보한다 Generalization: theory (이론) Theory는 자연현상의 잠정적인 설명 (tentative explanation; hypothesis; 가설)의 반복적인 검정을 통해 발달 Weak ideas는 reject 되고 correct ideas는 supported 됨 통계학이 correct ideas를 구분해내는데 중요한 역할을 함

Definitions (정의) Biometry, Biological statistics, Biostatistics (생물측정학, 생물통계학) 생물학적 문제 (biological problem) 해결에 통계적 방법(statistical methods)의 적용 통계학이 molecular biology에서 ecology 까지 광범위하게 생물학에 사용됨 Cf. Statistics (통계학) and Statistic (통계치) Sample의 수치 평균값 (mean), 표준 편차 (standard deviation), 상관계수 (correlation coefficient)

Importance of statistical work in biological data The American Naturalist에 발표된 논문 -1890년: 통계가 거의 사용되지 않음 -1990년: 출판된 논문의 96%가 통계처리를 사용함

Statistics가 필요한 이유 1) 대부분의 생명현상은 많은 요인에 의해 영향을 받음 동일한 실험 처리 (treatment)에 대한 결과가 항상 동일하지 않음 따라서 변이를 보임 변이를 보이는 현상 (Variable phenomena)을 측정하기 위해서는 통계가 필요함 2) 분석의 대상이 되는 집단 (population)을 전부 조사하는 것이 불가능한 경우가 대부분 임. 통계학을 통하여 표본 (sample)의 특성으로부터 모집단의 특성을 추론

Basic concepts

Populations and samples Statistics는 population (모집단)의 일부분에서 추출한 자료를 바탕으로 모집단의 특성을 추론 (inference)함 (inference about population based on the data collected from only portion of the population) population: 관심, 조사의 대상이 되는 전체 대상체의 집합 All objects of a particular kind in the universe sample (표본): population에서 추출된 자료의 집합: data collected from only portion of the population 모집단의 특성을 정확히 추정하기 위해서는 모집단을 대표할 수 있는 표본의 추출이 중요함 randomness, independence

자료의 수집 1. 모집단을 구성하는 모든 값 (구성요소)이 동일한 확률로 표본에 포함될 수 있어야 한다 Each possible sample has a same probability of being drown Randomness (무작위성), random process (임의과정; 무작위과정)

Randomness Random이 casual (우연히), haphazard (되는 대로), unplanned (무계획적으로)를 의미하지 않음 모든 구성요소의 표본추출 확률을 동일하게 하는 것 Random sample이 아닌 경우 추론에 의미가 없음 Random sampling 방법 Random number table (난수표, table A.10) 사용 눈을 감고 연필로 시작점을 선택 어느 방향이나 가능 (아래위, 좌우) 6 digits은 의미가 없음 (3자리수가 필요한 경우 3자리씩 읽어 나가면 됨)

Randomness Ex 1. 우리나라 여대생의 키를 알아보기 위해 어느 한 대학의 학생기록부에서 50명의 여학생을 random하게 선택하여 키를 측정 To estimate the average height of female students in university, 50 female students were selected randomly from the student directory of a certain university 올바른 표본추출 방법인가? (Is this correct sampling method?) 모집단 특성 추론을 위한 올바른 표본 추출 방법이 아님 Random sample (임의표본; 무작위표본)이 아님, randomness에 대한 가정이 위배됨. Random sample이 아닌 경우를 Biased sample (편의표본)이라 함 어느 한 대학의 여학생 키에 관한 정보 만 제공

Randomness Ex. 2. 한 대학이 졸업생들의 성공여부를 알아보기 위해 졸업 후 10년이 지난 졸업생들의 평균 연봉을 조사 To estimate the average annual income of university graduates, they attempted to contact each individual by phone 전화로 각 졸업생들과 접촉 ; 모든 졸업생과 접촉 시도 졸업생의 20% 만 통화 가능 이들의 연봉 평균치로 이 대학의 졸업생들이 같이 나이의 일반인에 비해 2배의 연봉을 받고 있다고 홍보 이 대학은 이 20%의 표본을 random sample로 가정하고 있음 문제점??

Randomness Random sample이 아님 Biased sample 더 성공한 사람들이 더 쉽게 전화로 접촉될 가능성이 높음 People who have higher income could be easier to reach by phone

Randomness Ex. 3. Road survey로 뱀의 population 조사 Snake populations were estimated by road survey 봄에 대부분이 수컷으로 조사 됨 (nearly all snakes were male in spring) 봄에는 소수의 female이 존재한다고 결론 (They concluded that this population has very few females during spring.) 올바른 결론인가? (Is this a correct conclusion?) 그러나 봄에는 male만 mating을 위해 돌아 다님 In spring only adult males are actively searching for mates. 따라서 biased sample (sampling probability is not same!!) 위의 경우 올바른 sampling을 위하여 조사 생물들의 natural history를 알아야 한다.

자료의 수집-2 2. Each sample unit은 서로 독립적 (independent) 이어야 한다 Independence의 의미: 하나의 개체를 표본으로 선택하는 것이 다른 개체가 표본으로 선택될 확률에 영향을 미치지 않는다. No influence on the probability of choice 표본 내에서 어떤 사건이 일어나는 것이 그 표본 내에서 다른 사건이 일어나는 것에 영향을 미치지 않는다 . No influence on the outcome of subsequent events

Independence Ex 4. 1000명의 학생 중 50명을 추출하여 키를 조사 1000개의 번호를 자루에 넣고 하나씩 뽑아 50명 선택 위의 독립성이 만족되었는가? No!!! 첫 번째 번호가 뽑힐 확률: 1/1000, 2번째: 1/999, 3번째: 1/998…… 남아 있는 번호가 뽑힐 확률은 점점 증가함 따라서 독립적이지 못함. 뽑힌 번호를 다시 자루에 넣고 다음 번호를 뽑아야 함 같은 번호를 2번 sample할 수 는 없음 중복측정 (repeated measurement): sample size가 줄어듦 Population size에 비해 sample size가 매우 작을 경우 큰 문제가 되지 않음

Independence Ex 5. 조류학자가 goldfinches 들이 해바라기 씨와 엉겅퀴 씨 중 어느 것을 더 좋아하는지를 조사 If goldfinches prefer sunflower seeds or thistle seeds? 한 마리의 goldfinch가 해바라기 씨를 50번, 엉겅퀴 씨를 10번 먹음 One goldfinch visited the sunflower seeds 50 times and the thistle seeds 10 times Goldfinch들이 해바라기 씨를 더 좋아한다고 결론 내릴 수 있나? (Can we conclude that goldfinches prefer sunflower seeds?) Sample size: 60 or not? Sample size는 1이다. 한 마리의 새만 관찰되었으므로, 모든 관찰이 관련되어 있다 (dependent) 그 한 마리 새는 해바라기 씨를 더 좋아한다는 결론 만 내릴 수 있다

Independence Ex 5-1. 조류학자가 goldfinches 들이 해바라기 씨와 엉겅퀴 씨 중 어느 것을 더 좋아하는지를 조사 야외조사: 여러 마리의 goldfinches가 날아와 해바라기 씨를 50번, 엉겅퀴 씨를 10번 먹음 그러나 어떤 새가 왔는지 조사되지 않음 Goldfinch들이 해바라기 씨를 더 좋아한다고 결론 내릴 수 있나? Sample size: 60 or not? Sample size를 알 수 없다. 어떤 새는 여러 번 왔을 가능성이 있다. Independence 가정에 위배됨 일부 sample 들은 중복됨. 생물학 실험에서 쉽게 일어 날 수 있는 문제점

Exercises 1. Table A. 10의 random number를 이용하여 bluegill sunfish length (Table B.1)의 10, 20, 30 simple random samples를 측정하라. 1. take starting point 2. record three digits 3. skip any 3 digit numbers that are larger than 888