Definitions (정의) Statistics란? Natural variation에 의한 수치 자료 (data)의 과학적 연구 (scientific study) the scientific study of numerical data based on variation in nature Statistics는 populations (개체군; 모집단) or 개체들의 groups 을 다룸 따라서 single datum이 아니라 다량의 정보를 다룸 거의 모든 학문 분야에 적용됨
Definitions (정의) Statistics란? 모든 과학은 관찰된 자연현상을 설명하는 포괄적인 generalizations (일반화)의 발달로 진보한다 Generalization: theory (이론) Theory는 자연현상의 잠정적인 설명 (tentative explanation; hypothesis; 가설)의 반복적인 검정을 통해 발달 Weak ideas는 reject 되고 correct ideas는 supported 됨 통계학이 correct ideas를 구분해내는데 중요한 역할을 함
Definitions (정의) Biometry, Biological statistics, Biostatistics (생물측정학, 생물통계학) 생물학적 문제 (biological problem) 해결에 통계적 방법(statistical methods)의 적용 통계학이 molecular biology에서 ecology 까지 광범위하게 생물학에 사용됨 Cf. Statistics (통계학) and Statistic (통계치) Sample의 수치 평균값 (mean), 표준 편차 (standard deviation), 상관계수 (correlation coefficient)
Importance of statistical work in biological data The American Naturalist에 발표된 논문 -1890년: 통계가 거의 사용되지 않음 -1990년: 출판된 논문의 96%가 통계처리를 사용함
Statistics가 필요한 이유 1) 대부분의 생명현상은 많은 요인에 의해 영향을 받음 동일한 실험 처리 (treatment)에 대한 결과가 항상 동일하지 않음 따라서 변이를 보임 변이를 보이는 현상 (Variable phenomena)을 측정하기 위해서는 통계가 필요함 2) 분석의 대상이 되는 집단 (population)을 전부 조사하는 것이 불가능한 경우가 대부분 임. 통계학을 통하여 표본 (sample)의 특성으로부터 모집단의 특성을 추론
Basic concepts
Populations and samples Statistics는 population (모집단)의 일부분에서 추출한 자료를 바탕으로 모집단의 특성을 추론 (inference)함 (inference about population based on the data collected from only portion of the population) population: 관심, 조사의 대상이 되는 전체 대상체의 집합 All objects of a particular kind in the universe sample (표본): population에서 추출된 자료의 집합: data collected from only portion of the population 모집단의 특성을 정확히 추정하기 위해서는 모집단을 대표할 수 있는 표본의 추출이 중요함 randomness, independence
자료의 수집 1. 모집단을 구성하는 모든 값 (구성요소)이 동일한 확률로 표본에 포함될 수 있어야 한다 Each possible sample has a same probability of being drown Randomness (무작위성), random process (임의과정; 무작위과정)
Randomness Random이 casual (우연히), haphazard (되는 대로), unplanned (무계획적으로)를 의미하지 않음 모든 구성요소의 표본추출 확률을 동일하게 하는 것 Random sample이 아닌 경우 추론에 의미가 없음 Random sampling 방법 Random number table (난수표, table A.10) 사용 눈을 감고 연필로 시작점을 선택 어느 방향이나 가능 (아래위, 좌우) 6 digits은 의미가 없음 (3자리수가 필요한 경우 3자리씩 읽어 나가면 됨)
Randomness Ex 1. 우리나라 여대생의 키를 알아보기 위해 어느 한 대학의 학생기록부에서 50명의 여학생을 random하게 선택하여 키를 측정 To estimate the average height of female students in university, 50 female students were selected randomly from the student directory of a certain university 올바른 표본추출 방법인가? (Is this correct sampling method?) 모집단 특성 추론을 위한 올바른 표본 추출 방법이 아님 Random sample (임의표본; 무작위표본)이 아님, randomness에 대한 가정이 위배됨. Random sample이 아닌 경우를 Biased sample (편의표본)이라 함 어느 한 대학의 여학생 키에 관한 정보 만 제공
Randomness Ex. 2. 한 대학이 졸업생들의 성공여부를 알아보기 위해 졸업 후 10년이 지난 졸업생들의 평균 연봉을 조사 To estimate the average annual income of university graduates, they attempted to contact each individual by phone 전화로 각 졸업생들과 접촉 ; 모든 졸업생과 접촉 시도 졸업생의 20% 만 통화 가능 이들의 연봉 평균치로 이 대학의 졸업생들이 같이 나이의 일반인에 비해 2배의 연봉을 받고 있다고 홍보 이 대학은 이 20%의 표본을 random sample로 가정하고 있음 문제점??
Randomness Random sample이 아님 Biased sample 더 성공한 사람들이 더 쉽게 전화로 접촉될 가능성이 높음 People who have higher income could be easier to reach by phone
Randomness Ex. 3. Road survey로 뱀의 population 조사 Snake populations were estimated by road survey 봄에 대부분이 수컷으로 조사 됨 (nearly all snakes were male in spring) 봄에는 소수의 female이 존재한다고 결론 (They concluded that this population has very few females during spring.) 올바른 결론인가? (Is this a correct conclusion?) 그러나 봄에는 male만 mating을 위해 돌아 다님 In spring only adult males are actively searching for mates. 따라서 biased sample (sampling probability is not same!!) 위의 경우 올바른 sampling을 위하여 조사 생물들의 natural history를 알아야 한다.
자료의 수집-2 2. Each sample unit은 서로 독립적 (independent) 이어야 한다 Independence의 의미: 하나의 개체를 표본으로 선택하는 것이 다른 개체가 표본으로 선택될 확률에 영향을 미치지 않는다. No influence on the probability of choice 표본 내에서 어떤 사건이 일어나는 것이 그 표본 내에서 다른 사건이 일어나는 것에 영향을 미치지 않는다 . No influence on the outcome of subsequent events
Independence Ex 4. 1000명의 학생 중 50명을 추출하여 키를 조사 1000개의 번호를 자루에 넣고 하나씩 뽑아 50명 선택 위의 독립성이 만족되었는가? No!!! 첫 번째 번호가 뽑힐 확률: 1/1000, 2번째: 1/999, 3번째: 1/998…… 남아 있는 번호가 뽑힐 확률은 점점 증가함 따라서 독립적이지 못함. 뽑힌 번호를 다시 자루에 넣고 다음 번호를 뽑아야 함 같은 번호를 2번 sample할 수 는 없음 중복측정 (repeated measurement): sample size가 줄어듦 Population size에 비해 sample size가 매우 작을 경우 큰 문제가 되지 않음
Independence Ex 5. 조류학자가 goldfinches 들이 해바라기 씨와 엉겅퀴 씨 중 어느 것을 더 좋아하는지를 조사 If goldfinches prefer sunflower seeds or thistle seeds? 한 마리의 goldfinch가 해바라기 씨를 50번, 엉겅퀴 씨를 10번 먹음 One goldfinch visited the sunflower seeds 50 times and the thistle seeds 10 times Goldfinch들이 해바라기 씨를 더 좋아한다고 결론 내릴 수 있나? (Can we conclude that goldfinches prefer sunflower seeds?) Sample size: 60 or not? Sample size는 1이다. 한 마리의 새만 관찰되었으므로, 모든 관찰이 관련되어 있다 (dependent) 그 한 마리 새는 해바라기 씨를 더 좋아한다는 결론 만 내릴 수 있다
Independence Ex 5-1. 조류학자가 goldfinches 들이 해바라기 씨와 엉겅퀴 씨 중 어느 것을 더 좋아하는지를 조사 야외조사: 여러 마리의 goldfinches가 날아와 해바라기 씨를 50번, 엉겅퀴 씨를 10번 먹음 그러나 어떤 새가 왔는지 조사되지 않음 Goldfinch들이 해바라기 씨를 더 좋아한다고 결론 내릴 수 있나? Sample size: 60 or not? Sample size를 알 수 없다. 어떤 새는 여러 번 왔을 가능성이 있다. Independence 가정에 위배됨 일부 sample 들은 중복됨. 생물학 실험에서 쉽게 일어 날 수 있는 문제점
Exercises 1. Table A. 10의 random number를 이용하여 bluegill sunfish length (Table B.1)의 10, 20, 30 simple random samples를 측정하라. 1. take starting point 2. record three digits 3. skip any 3 digit numbers that are larger than 888