기초통계
-2- 통계 통계학 (statistics) 국가산술 (state arithmetic) 불확실성이 내포된 자료의 수집, 분석, 추정, 검정을 통하여 의사결정에 필요한 정보의 획득과 처리방법을 연구하는 학문 (decision-making science) 어느 대상이나 집단에 속한 수량적 자료를 체계적으로 모은 것 수량적 자료의 수집, 도표화, 분석, 해석, 보고 등을 다루는 과학 모집단 표본의 선택의사결정 표본의 Data 정보의 획득 표본설계 : 실험을 통하여 표본의 Data 를 얻으려는 표본설계 ( 실험설계 ) 관찰 / 수집 통계적 분석 검토 조치와 행동
-3- 통계적 사고 모든 작업은 상호연관된 프로세스의 시스템 예 ) 열처리 작업 공정 원료 투입 공정가열 공정 냉각 공정 모든 프로세스에는 산포가 존재 가피원인 불가피원인 동일 원료동일 생산공정 동일 작업자동일 방법 산포발생 통계적 사고 (statistical thinking) 은 다음 네가지 근본 원칙에 근거하여 배우고 생각하며, 실천하는 하나의 철학임.
-4- 통계적 사고 산포 파악과 산포 감소 활동 프로세스 산포 감소 활동 제품 품질 산포 감소 고객 만족 비용 절감 잘못 판단하는 과오를 고려 표본 자료의 결과로 부터의 판단의 오류를 주의 프로세스산포 자료통계적 기법 통계적 사고 통계적 방법 통계적 사고란 단순한 숫자의 조합이나 계산이 아니라 품질 혁신을 위해 생각하는 방법이며, 사고의 과정임.
-5- 품질 (Quality) 통계 (Statistics) 의 역할 척 도 모집단 표본 데이터 수집 ; sampling 확률이론 확률 확률변수 확률분포 통계적 추론 가능성의 정량화, 표준화 데이터 처리 척도 계산, 분포 유추 모수 추정, 가설검정 기술 통계학 추측 통계학 기초 제공 수준의 파악 및 비교 불량률 p 평균 μ 산포 σ etc. Θ =μ,σ, ‥ p, ‥ : : 통계의 역할
-6- 예 접착제 모집단 접착제 강도 시료 추출 데이터 처리 강도의 분포 특정 화학 접착제의 공정 불량률 p 는 ? 불량 기준 : LSL = 69kg X 불량률에 대한 추정, 가설검정 Y : 계수치 데이터 ~ 이론적 확률분포 이항 분포 : 계량치 데이터 정규 분포검정 통계량 : ~ 이론적 확률분포 확률 이론 적용의 예 통계의 역할
-7- 통계의 역할 기타 CTQ 와 Indicator (input, process) 간의 관계 (relationship) 성능변수 (Y) 와 원인변수 (X) 간의 관계 통계적 모델링 (Modelling) 기법 : 회귀분석 (Regression) 예)예) 1 pound 15% 2 pounds 25% Reactant Catalyst 수율 (Yield) 을 최대화 시키는 공정조건 설정 통계적 최적화 (Optimization) 기법 : 실험계획 (DOE), 반응표면분석 (RSM), 다구치 방법 (Taguchi method), 모의실험 (Simulation) 예)예)
-8- 모집단과 표본 유권자 : 각 후보에게 몇 % 의 지지를 보낼까 ? TV : 불량비율은 얼마나 될까 ? 핫도그 : 평균길이는 얼마나 될까 ? 연구집단 = 모집단 유권자 집단 TV 핫도그 모집단 (Population) 조사나 분석의 대상이 되는 어떤 특성을 가진 것들의 전체 집단 모집단을 설명하는 수치 ( 평균, 표준편차 ) 를 모수 (Parameter) 라 한다.
-9- 모집단과 표본 좀 더 정확하게.. 내가 궁금한건 핫도그 그자체가 아니라 길이니까 …. 모집단 (population) 이란 ? 연구 대상이 되는 집단에 대한 모든 가능한 관측값이나 측정값의 집합 연구집단 = 모집단 특정 유권자 의 투표결과 특정 TV 의 양 & 불량 여부 특정 핫도그의 길이 ( 김대중, 김영삼, ‥ ) ( 양, 불량 ) (4cm, 4.5cm, ‥ )
-10- 모집단과 표본 연구집단 = 모집단 특정 유권자 의 투표결과 특정 TV 의 양 & 불량 여부특정 핫도그의 길이 ( 김대중, 김영삼, ‥ )( 양, 불량 )(4cm, 4.5cm, ‥ ) 표본 유권자 1 김대중 유권자 2 김대중 유권자 3 김영삼 TV1 양 TV2 불량 TV3 양 핫도그 1 3.2cm 핫도그 2 5.1cm 표본 추출 단위 (sampling unit) !! 표본 (Sample) 모집단의 특성을 파악하기 위하여 모집단으로부터 일부분을 추출한 것. 통계적 처리를 위해 모집단에서 실제로 추출한 관측값 또는 측정값의 집합 표본 (Sample; 시료 ) 을 관측하여 얻어진 데이터로부터 계산된 값을 통계량 (Statistic) 이라 한다.
-11- 표본 추출 단위 (sampling unit) !! 모집단과 표본 유권자 개개인 개개의 TV 개개의 핫도그
-12- 모집단과 표본의 관계 모집단 표본 Data 추정 모집단과 표본 記述統計學 통계자료를 적절하게 그림, 도 표 또는 수치로 요약하고 그 특성을 기술하는 方法論 推理統計學 모집단에서 뽑은 표본을 통 하여 모집단의 특성을 예측 또는 추측하는 方法論
-13- 모집단과 표본 우리나라 총 유권자는 과연 몇이나 될까 ? - 유한 모집단 (finite population) : 모집단이 유한 개의 추출단위를 갖는 경우 모집단의 분류 : 표본 추출 단위에 따라... - 무한 모집단 (infinite population) : 모집단이 무한 개의 추출단위를 갖는 경우
-14- 모집단과 표본 예 : 특정 공정에서 생산되는 MLB 박판의 두께를 측정하는 경우 추출단위 : 표본 : 모집단 : ⇒ 공정에서 생산되는 박판의 두께는 어떤 시점에서 볼 때에는 한계가 있는 것이 틀림없으나 박판을 장래에도 계속해서 무한히 생산해 낸다는 입장에서 볼 때, 보통 무한 모집단으로 취급. 하나 하나의 MLB 박판 두께를 측정하기 위해 추출된 일부 MLB 박판의 두께 공정에서 생산되는 모든 MLB 박판의 두께 ( 무한 모집단 ) 0.12mm, 0.61mm, ‥ 두께갯수 0.1mm 미만 0.1mm ~ 0.2mm 0.2mm ~ 0.3mm ::
-15- 데이터 현장의 관리, 개선을 추진하기 위해서는 관리 및 개선하고자 하는 것에 대한 상황을 알리 는 것이 필요하며 이와 같은 알림이 없으면 대책을 취할 방법이 없게 된다. 이러한 “ 어떤 사물에 대한 알림 ” 을 정보라고 하며, 특히 숫자로 나타낸 정보를 데이터라 고 한다. 데이터의 종류 계량치 데이터 (Variable Data) 길이, 무게, 온도, 시간 등과 같이 연속적으로 변화하는 값 계수치 데이터 (Attribute Data) 불량개수, 재해발생건수 등 세어서 얻을 수 있는 불연속적으로 변화하는 값 데이터의 정리 그래프화 : 도수분포, 히스토그램, 원그래프, 산점도, 피쉬본, dot plot, box plot 숫자화
-16- 모집단의 모습은 ? 중심위치 (Location) : 관찰된 자료들이 어느 위치에 집중되어 있는가를 나타내준다. 산포 (Spread) 형태 (Shape)
-17- 중심위치 산술평균 (Mean : ) Xi/n 중위수 (Median : ) 데이터를 대소의 순으로 배열하여 중앙에 위치한 값 최빈수 (Mode : Mo) 돗수표에 있어서 돗수가 최대인 값 대표값의 비교 분포모양과 대표값의 위치 (a) 대칭분포 : 평균 = 중위수 = 최빈수 (b) 왼쪽꼬리 분포 : 최빈수 > 중위수 > 평균 (c) 오른쪽꼬리 분포 : 평균 > 중위수 > 최빈수 평균은 한쪽꼬리에 있는 별개의 극단적인 값에 의하여 가장 큰 영향을 받는다. 중위수도 영향 을 받으나 그렇게 심하지 않다. 그러나 최빈수는 극단적인 값에 전혀 영향을 받지 않는다. 산술평균은 자료의 극단적인 값에 의하여 영향을 받지만, 중심부위을 측정하는 데 가장 공통적 으로 사용된다. 산술평균은 수학적 연산이 가능하며 加重平均에 의하여 전체집단의 평균을 구 할 수 있다. 그러나 중위수나 최빈수는 산술평균이 가지는 수학적 특성을 가지고 있지 못하다. 한편, 중위수는 극단적인 관찰치에 영향을 심하게 받지 않으므로 극단적인 비대칭분포에서는 다른 대표값보다 적절하게 이용될 수 있다. 최빈수는 대칭분포가 아닌 다른 분포에서는 그리 신 뢰할 만한 대표값이 되지 못한다. 그러나 신발이나 옷 같은 제품을 만들 때에는 최빈수가 산술평 균이나 중위수보다 더 유용한 대표값이 될 수 있다.
-18- 산포 변동 (Sum of Square : SS) 범위 (Range: R) 불편분산 (Mean Square: V) 표준편차 (Standard Deviation: s)
-19- 분포의 모양 비대칭도 (Skewness; 왜도 ) : 치우침. 0 보다 크면 왼쪽 첨도 (Kurtosis): 뾰족.
-20- 어떤 식료품검사자가 참치통조림깡통에 들어 있는 불순물의 비율 (%) 을 알아보기 위해서 7 개의 깡통 을 검사해 보았다. 그 결과 다음과 같은 자료를 얻었다. 1.8, 2.1, 1.7, 1.6, 0.9, 2.7, 1.8 중심위치와 산포의 측도들의 값을 구하라. 1) 평균 2) 중위수 3) 변동 ( 제곱합 )4) 불편분산 5) 표준편차 6) 범위 2) 데이터를 크기순으로 나열하면, 0.9, 1.6, 1.7, 1.8, 1.8, 2.1, 2.7 이고, 가운데 있는 데이터가 중위수가 된다. 여기서는 1.8 ( 데이터의 수가 짝수일 때는 가운데 있는 두수를 더하여 2 로 나눈다.) 통계량 계산
데이터 입력 2. 데이터 열 입력 3. OK 누름 미니탭을 이용한 기초통계량의 계산 Stat ▶ Basic Statistics ▶ Display Descriptive Statistics 통계량 계산
-22- Descriptive Statistics VariableN Mean Median TrMean StDev SE Mean C Variable Minimum Maximum Q1 Q3 C 미니탭 기초통계량 계산결과 설명 N : 시료수 Mean : 시료평균 Median : 중위수 TrMean : 상, 하의 각 5% 를 제외한 데이터의 평균 StDev : 표준편차 SE Mean : 표준편차 /√n Minimum : 최소값 Maximum: 최대값 Q1 : 1/4 분위수 Q3 : 3/4 분위수 통계량 계산