4-1 Gaussian Distribution Chapter 4 Statistics 4-1 Gaussian Distribution The Nature of Random Error ⇒ Random, or indeterminate, errors exist in every measurement. ⇒ can never be totally eliminate. ⇒ are often the major sources of uncertainty in a determination. ⇒ caused by uncontrollable variables ⇒ 원인을 확실하게 찾아내기 힘 듬 ⇒ Uncertainties의 원인을 확실하게 찾을 수 있을 경우에도, 대부분 너무 작아 개별적인 검출이 어려움 ⇒ 그러나 개개 uncertainties의 축적(accumulation)된 효과는 반복되는 측정값을 평균주위에 random 하게 분포하게 함
Statistical Treatment of Random Error ⇒ Random error들은 statistical method로 평가 할 수 있음 ⇒ 분석 결과를 통계적으로 분석할 경우, random error들은 Gaussian or normal distribution을 한다는 가정에 근거 함 ⇒ Analytical data can follow distribution other than the Gaussian distribution 예) • 성공하거나 실패한 실험 모두 binomial distribution을 따름 • Radioactive or photon-counting 실험들은 Poisson distribution을 나타냄 • 그러나, 이들 distribution 들을 approximation 하기 위해 Gaussian distribution을 자주 사용함 • 많은 수의 실험에서는 approximation이 더 좋다. • 따라서, 여기서의 논의는 전적으로 normally distributed random error 들에 근거함.
Mean Value and Standard Deviation The smallest the standard deviation, the more closely the data are clustered about mean (Figure 4-2) Population mean: µ Population standard deviation: σ
⇒ Parameters는 population또는 distribution를 정의하는 μ나 σ를 말함 Properties of Gaussian Curves μ: population mean, σ: population standard deviation ⇒ Parameters는 population또는 distribution를 정의하는 μ나 σ를 말함 ⇒ Statistics는 sample data로 부터 parameter를 예측하는 것을 말함 ⇒ Sample mean 과 sample deviation는 μ와 σ을 평가하는 statistics 의 예이다.
The Population Standard Deviation (σ) ⇒ σ • a measure of th precision of a population of data • random processes (ex. 결과에 미치는 불가측오차 효과)의 수학적 취급 ← 통계 → infinite number에 사용 • 화학에서는 실제 2∼5의 표본이므로 → Classical statistics를 modification 要. ⇒ z • the deviation of a data point from the mean relative to one standard deviation • x – μ = σ → z = 1, x – μ = 2σ → z = 2
The equation for the Gaussian error curve is σ2 : variance (6B-5) ⇒ General properties of a normal error curve (a) Zero indeterminate error의 발생 빈도 최고 (b) 최대치를 중심으로 “-”, “+”로 대칭 (c) error크기 증가 → 빈도는 지수함수로 감소 Areas under a Gaussian curve ± 1σ : 68.3% ± 2σ : 95.5% ± 3σ : 99.7%
Statistical calculation • 측정의 질에 대한 판단을 명확하게 하기 위해 사용 • 이장에서는 분석결과를 처리하는 statistical test의 가장 일반적인 응용을 배움 • 응용은 다음(1∼6)과 같음 1. Confidence limit (CI) 결정: 반복분석값의 평균을 중심으로 어떤 범위 안에 참 평균이 들어간 확률 2. 실험의 평균값이 참 평균을 중심으로 한 주어진 범위 내에 어떤 확률로 들어갈 수 있는 측정 횟수 결정 3. (a) 실험평균값과 참값 또는 (b) 두 실험평균값이 서로 다를 확률 추정 → 차이가 실제인지 또는 단순한 random error의 결과인지 검증 → 방법에서 오는 systematic error 찾거나 나 두 sample이 같은 source에서 왔는지를 결정하는데 특히 중요함 4. 주어진 probability level 에서 two sets of measurements의 precision 결정 5. 두 가지 이상의 시료의 평균비교 → 평균들의 difference가 실제인지 또는 random error의 결과인지를 판단 → 이 과정을 analysis of variance 라 함 6. 어떤 확률 하에서 반복측정값 중 Apparent outlier가 gross error의 결과인지? 버려도 되는지? 평균계산시 포함해야 되는지? 를 결정
4.2 Confidence Intervals (CI) ⇒ confidence limits에 의해 정의된 interval. ↳ 주어진 확률로 true value을 발견할 것으로 기대되어지는 범위 內에 실험치의 평균값이 들어갈 수 있는 한계 → 통계에 의한 참값이 어떤 확률로 어떤 범위 內에 들어 있을 가능성을 알 수 있다. → 이 범위를 : 신뢰범위 예) 여러 번 측정하여 얻은 potassium의 true population mean이 7.25% ± 0.15% 사이에 있을 확률이 99% → mean이 7.1 %에서 7.40% 사이일 확률이 99% ⇒ CI의 크기는 sample standard deviation에 의해 결정: s가 σ를 얼마나 잘 대표하느냐에 따라 다름 → s가 σ의 좋은 근사값이면, CI가 상당히 좁아짐
- Finding the Confidence Intervals when σ Is Known or s Is a Good Estimate of σ (b) 면적의 80% : -1.28σ ∼ +1.28σ (c) 면적의 90% : -1.64σ ∼ +1.64σ 예) 결과값 x와 표준편차 σ를 갖는 data (from Fig. c) →100번 중 90번의 확률로 x±1.64 σ 범위에 true mean μ이 존재 →confidence level = 90% →confidence interval = -1.64σ ∼ +1.64σ
x For a single measurement x For a the experimental mean with N measurements x ⇒ 4번 측정시 (N=4)→CI 반으로 줄어 듬 일반적으로 2 ∼ 4번 횟수 평균 함 ⇒ Bias가 없고, s →σ 일 때 적용
4.3 Comparison of Means with Student’s t
4-4 Comparison of Standard Deviations with the F test
4-6 Grubbs Test for an Outlier
4-7 The Method of Least Square
Assumption of the Least-Squares Method
1. The slope of the line, m : 2. The intercept, b : 3. The standard deviation about regression, sr : 4. The standard deviation of the slope, sm : 5. The standard deviation of the intercept, sb : 6. The standard deviation for results obtained from the calibration curve, sc :
8D-2 Linear Dynamic Range ⇒ upper limit: 직선성으로 부터 5%의 deviation이 시작되는 곳 ⇒ 선형이 단순하고, 비이상적인 신호 검출이 용이하기 때문에 유리 함 → 비선형이 사용될 수도 있음 ⇒ 선형 측정범위가 큰 것이 좋음