수문통계분석 담당교수명 : 서 영 민 연 락 처 : elofy@naver.com
확률분포
확률분포 확률분포 (probability distribution) - 확률변수의 거동 (분포)을 나타내는 함수 PMF PDF (2) 확률분포의 구분 - 자료가 이산형 또는 연속형인가에 따라 이산 또는 연속확률분포로 구분 - 이산확률분포함수 (probability mass function, PMF) - 연속확률밀도함수 (probability density function, PDF) PMF PDF CDF
확률분포 (3) 이산확률분포 (probability mass function, PMF) - 확률변수 X의 값 x가 a와 b 사이 (a, b 포함)에 있을 확률(의 합) - 누가확률분포함수 (cumulative probability distribution function, CDF) : 확률변수 X가 x보다 작거나 같을 확률의 합 [예제] P(75)=0.013, P(125)=0.173, P(175)=0.360, P(225)=0.267, P(275)=0.093, P(325)=0.080, P(375)=0.000, P(425)=0.013 X가 225보다 크지 않을 확률? P(X≤225)=F(225) =0.013+0.173+0.360+0.267=0.813 (81.3%)
확률분포 (4) 연속확률분포 (probability density function) - 확률변수 X의 값 x가 a와 b 사이 (a, b 포함)에 있을 확률 - 확률밀도함수 아래의 총면적 = 1 - 누가확률밀도함수 (cumulative probability density function, CDF) : 확률변수 X가 x보다 작거나 같은 확률밀도함수 아래의 면적 PMF CDF
확률분포 (5) PDF와 CDF 관계 f(x)는 F(x)의 도함수 (기울기) (여기서, dx: 계급구간 Δx 0) - 확률밀도함수에 계급구간을 곱한 f(x)Δx는 그 계급구간에 해당하는 확률 = 누가확률밀도함수에서 Δx 구간에 해당하는 누가확률의 변화 ΔF(x)와 같음
확률분포 [참고] 확률분포의 주요 성질 확률밀도함수 f(x) 아래의 총면적은 1이다. 확률변수의 값 x가 어떤 다른 두 값 x1, x2 사이에 있을 확률은 확률밀도함수를 이 두 값의 범위에 대하여 적분한 것과 같고, 이 두 값에 대한 누가확률을 뺀 것과 같다. 누가확률 F(x)는 0과 1사이의 값을 가진다. 누가확률 F(x)의 기울기는 확률밀도함수 f(x)와 같다.
확률분포의 특성
확률분포의 특성: 중앙집중성향 If (1) 중앙집중성향 (central tendency) - 표본자료가 가장 집중되어 있는 곳이 어딘가를 나타내는 것 - 산술평균 (arithmetic mean), 중앙값 (median), 최빈값 (mode) ① 산술평균 (arithmetic mean) - 관측자료의 합을 그 개수로 나누어 산정 where, : 모집단 (population)에 대한 평균 (모평균, population mean) : 표본집합 (sample set)에 대한 평균 (표본평균, sample mean) : 자료의 수 If - 모집단 (population) 확률변수의 관측 가능한 모든 값을 포함하는 집합 - 표본집합 (sample set) 모집단으로부터 선택된 부분집합
확률분포의 특성: 중앙집중성향 [참고] 모집단 (population)과 표본집단 (sample) Random Sampling Statistic (Sample mean) Parameter (Population mean) Inference Image source. https://s-media-cache-ak0.pinimg.com/236x/90/11/5a/90115a947e3729e702e4fcf1d2c195e6.jpg
확률분포의 특성: 중앙집중성향 ② 중앙값 (median) - 자료집단의 중간에 위치하는 관측치 - 관측자료를 크기 순으로 나열했을 때 중앙에 위치하고 있는 값 ③ 최빈값 (mode) - 관측치를 가장 많이 포함하고 있는 확률변수의 값 또는 계급구간값 [Ref.] http://www.geoib.com/uploads/7/6/3/9/7639044/9928670.jpg?396
확률분포의 특성: 중앙집중성향 중앙집중 성향을 나타내는 매개변수들의 위치 음의 왜곡 대칭 양의 왜곡
확률분포의 특성: 분산도 (1) 자료가 흩어져 있는 정도의 측정 ① 범위 (overall range) = 최대값 (maximum) – 최소값 (minimum) ② 사분위수 범위 (interquartile range) = 제3사분위수 (3rd quartile) – 제1사분위수 (1st quartile) ③ 분산 (variance) - 자료가 평균치 주위로 어떻게 분포하고 있는지 측정 (자료 퍼짐의 정도) (2) 분산 (variance) (모집단) 편차 제곱의 평균 (표본집단) n-1 : 표본평균을 사용함으로써 발생하는 왜곡의 보정
확률분포의 특성: 분산도 (3) 표준편차 (standard deviation) (모집단) 분산의 단위: 표본자료를 제곱한 단위 원래 자료의 단위로 표현을 위해 표준편차를 사용하기도 함. (표본집단) (4) 변동계수 (coefficient of variation) (모집단) 표준편차와 평균의 비 서로 다른 표본자료 (단위가 다른)의 퍼짐 정도를 비교 (예. 강우량과 유출량) (표본집단)
확률분포의 특성: 왜곡도와 첨예도 (1) 왜곡도 (skewness) - 자료의 평균에 대한 대칭 정도(왜곡된 정도)를 나타내는 매개변수 - 양의 왜곡 (positively skewed) · 분포의 중심이 좌측으로 치우쳐지고 분포의 꼬리가 우측으로 길게 늘어져 있는 상태 · 대부분의 수문자료는 양의 왜곡 (모집단) (표본집단)
확률분포의 특성: 왜곡도와 첨예도 (2) 왜곡도 계수 (coefficient of skewness) - 왜곡도를 표준편차의 3승으로 나눈 값 (모집단) 대칭 양의 왜곡 (표본집단) 음의 왜곡 Cs < 0 Cs = 0 Cs > 0 [Ref.] http://www.geoib.com/uploads/7/6/3/9/7639044/9928670.jpg?396
확률분포의 특성: 왜곡도와 첨예도 (3) 첨예도 (kurtosis) - 확률밀도함수의 첨두의 뾰족한 정도를 나타내는 매개변수 (모집단) (표본집단) (4) 첨예도 계수 (coefficient of kurtosis) - 첨예도를 표준편차의 4승으로 나눈 것 - 정규분포의 경우 첨예도 계수가 3 (Ck=3) (모집단) (표본집단)
예제 1925~1999년 사이의 유량자료가 다음과 같을 경우, 이 자료에 대한 산술평균, 중앙값, 최빈값, 기하평균, 조화평균, 범위, 사분위수 범위, 분산, 표준편차, 변동계수, 왜곡도, 왜곡도 계수, 첨예도를 구하라.
산술평균 기하평균 중앙값 조화평균 최빈값 [참고] =MODE.SNGL(D3:D77)
최소값 최대값 범위
제1사분위수 제3사분위수 사분위수 범위 [참고] =QUARTILE.EXC(D3:D77,1) 경계값 제외 =QUARTILE.INC(D3:D77,10) 경계값 포함 사분위수 범위
분산 변동계수 표준편차 [참고] =VAR.P(D3:D77) 모분산 =VAR.S(D3:D77) 표본분산 [참고] =STDEV.P(D3:D77) 모표준편차 =STDEV.S(D3:D77) 표본 표준편차
[주의] 엑셀의 KURT 함수 정의는 수업자료의 정의와 다름!! - 양의 값 정규분포와 비해 상대적으로 뾰족한 분포 왜곡도 계수 [참고] =SKEW.P(D3:D77) 첨예도 [주의] 엑셀의 KURT 함수 정의는 수업자료의 정의와 다름!! - 양의 값 정규분포와 비해 상대적으로 뾰족한 분포 - 음의 값 정규분포에 비해 상대적으로 평평한 분포
median 1st quartile 3rd quartile maximum 3rd quartile median 1st quartile minimum