사용자 경험 측정 (Measuring User Experience) 2. Statistis Background 숙명여자대학교 임순범
목차 연구 계획하기 데이터 종류 기술통계 추론통계 데이터를 그래프로 나타내기 참가자 선택, 표본 크기, 대상 내/간 검증, 균형 맞추기, 독립/종속변수 데이터 종류 명목자료, 서열자료, 구간자료, 비율자료 메트릭스와 데이터 기술통계 중심경향측정, 변량측정, 신뢰구간 추론통계 평균비교: 독립표본, 짝지워진 표본, 두 표본 이상 비교 변수들간의 관계 : 상관관계(분산분석) 비모수검정 : 카이제곱검정 데이터를 그래프로 나타내기 컬럼그래프/막대그래프, 선그래프, 산점도, 파이차트, 누적막대그래프
2.1 연구계획하기 참가자 선택 표본 크기 대상 내 검증, 대상 간 검증 균형 맞추기 독립변수, 종속변수
참가자 선택시 고려사항 타겟 사용자를 잘 반영 여부 참가자의 구분(그룹핑) 여부 표집(샘플링) 전략 가능하면 타겟을 대표하는 사용자 모집, 피치 못하면 근접한 참여자 참가자의 구분(그룹핑) 여부 전문지식(초,중,전문), 사용빈도, 경험기간, 인구통계, 특정 기능의 사용 표집(샘플링) 전략 임의표집(random sampling) 모집단 모든 사람이 선택 가능성 동일할 때, 전체에 대한 무작위 추출 계통표집(systematic sampling) 미리 정한 기준(예, 리스트에서 각 10번째 줄에 있는 사람) 층화표집(stratified sampling) 전체 모집단의 subsample에 특정 크기 설정 (예, 50%남, 50%여, 지역별 비율) 편의표집(samples of convenience) : 임의의 표본 유저빌리티 연구에 흔함, 광고/방문자 등, 단, 특정 편향(bias) 여부 판단 필요
표본크기 고려사항 연구목적 오차범위 유저빌리티 이슈 확인에는 3~4 명도 가능 – 중대한 이슈 발견 디자인 완성 단계로 갈수록 많은 참여자 필요 (5장. 표본크기) 오차범위 표본크기에 따른 신뢰구간 차이 신뢰구간 신뢰하한, 신뢰상한 예, 10명중 8명 성공 => 실제는?
대상 내 검증, 대상 간 검증 대상 내 검증(Within-subjects Study), 반복측정 동일한 참여자로부터 수집 동일한 참여자들이 특정 상품의 사용성 측정에 주로 사용, 작은 표본 이월효과(carryover effects) : 미리 연습, 피곤 등에 따라 결과 증대/감소 대상 간 검증(Between-subjects Study) 서로 다른 참여자 간 수집 : 초보자-숙련자, 남-여, 등 참여자 그룹간 더 많은 변화가 있으므로 대규모 표본 필요 이월효과의 영향을 적게 받는다 혼합(Mixed) 대상 내 검증 요인 + 대상간 검증 요인 예, 남여가 + 각기 다른 태스크를 수행
균형맞추기(Counter-balancing) 균형맞추기(count balancing) 태스크 순서에 따른 영향을 제어 => 무작위 혹은 다양한 태스크 순서로 실험 태스크 간 전혀 관련 없거나, 자연스런 순서 존재할 때는 적용 안 함 사례,
독립변수/종속변수 독립변수(independent variables) 종속변수(dependent variables) 실험설계자가 조절하는 변수 리서치 질문에 기반하여 선택 (다루고자 하는 것) 예, 남성/여성 간, 초보자/숙련자 간, 두 가지 디자인 간 종속변수(dependent variables) 산출물/반응변수(측량할 것), 실험 결과 (독립변수에 따라 측정한 값) 예, 성공률, 에러 횟수, 만족도, 시간 등 대부분의 메트릭(측정값) 목표 ⇒독립변수⇒종속변수 간 논리적 관계 중요 예, 10시간 이상 수면시 평균수명 단축 되는가? 수면시간:독립변수, 평균수명:종속변수
2.2 데이터의 종류 명목자료(nominal data, category) 서열자료(ordinal data, ranks) 구간자료(interval data) 비율자료(ratio data)
명목자료(nominal data, category) 동일한 특성의 데이터가 순서없이 예, 남성/여성, 거주 지역(독립변수), 태스크 성공(종속변수) 분석 방법 => 개수(counts), 빈도(frequencies) 명목자료를 다룰 때는 코드화 할 것. 예, 성공 1, 실패 0 서열자료(ordinal data, ranks) 순서가 있는 데이터의 그룹 측정구간, 즉 순위간 거리는 의미가 없다. 등급의 순서만 중요 예, 설문지 자가 기록 데이터, 심각도 점수 분석 방법 => 빈도수(비율) 평균값은 통계적 의미 없음
구간자료(interval data) 비율자료(ratio data) 측정값 간의 차이점이 의미를 갖는 구간, 절대적인 영점은 없다. 예, 섭씨/화씨 온도, 유저빌리티 척도(SUS) 분석 방법 => 더 넓은 범위의 기술 통계 (평균, 표준편차 등) 서열자료와 구간자료의 구분 더 명백히 구간자료화 비율자료(ratio data) 구간자료와 동일, 단 절대 영점이 존재. 고유의 의미 예, 나이, 키, 몸무게, 완료시간 등. 0 및 배율이 유의미
2.3 메트릭과 데이터 데이터 타입 일반 메트릭 통계 처리 명목자료 이진 태스크 성공율, 에러, 상위 2그룹 점수 빈도, 교차분석(crosstabs), 카이제곱 서열자료 심각도 평가, 등급 빈도, 교차분석, 카이제곱, 순위합 검정, 순위상관검정 구간자료 리커트 척도, SUS 점수 모든 기술통계, t검정, ANOVA, 상관관계, 회귀분석 비율자료 완료시간, 시간, 평균 태스크 성공
2.4 기술통계 모집단 관계 중심경향측정(measures of central tendency) 기술(descriptive)통계 : 데이터로만 설명 추론(inferential)통계 : 결론 도출, 상/하 대규모 집단 혹은 모집단 언급 * 엑셀에서 처리 가능 (34쪽) 중심경향측정(measures of central tendency) 중앙(middle) 또는 중심(central)이 되는 것 평균(mean) : 가장 일반적인 통계값 중앙(median) : 분포에서 가운데, 이상값이 있는 경우, 예, 월급 최빈값(mode) : 가장 흔하게 발생된 값 * 데이터 자리수: 원본 데이터에서 유의미한 숫자 추가는 하나만
significance level(5% 유의수준), stdev, count
2.5 평균 비교하기 평균 비교시 고려사항 동일한 참가자 내? 다른 참가자들과 대조? 표본 크기 표본 비교 개수 다른 참가자 => 독립 표본(independent samples), 예,남/여 동일한 참가자 => 반복측정분석, 짝지워진 표본(paired samples) 표본 크기 30 이하 => t검정 30 이상 => z검정 표본 비교 개수 2개 => t검정 3개 이상 => 분산분석(ANOVA)
독립표본 비교되는 그룹이 상이한 경우 t-test 예제 예) 숙련가와 초보자간의 만족도 비교 분산이 같다는 가정 옵션 선택한 경우 (분산이 동일하다는 검증 필요) 영-가설(null hypothesis) : 양측검정(two-tailed test, two-sided test) :평균에 차이가 없다 단측검정(one-tailed test, one-sided test) : A가 B보다 크다 알파레벨 0.05 : 5% 오차 허용, 유의수준 (95% 신뢰도) p-value (측정치와 결론이 같을 확률값, 같은 확률)가 유의수준보다 커야 입증 예제 양측검정 p<0.05: => 차이가 있다
두 집단 비교 방법 (신뢰구간 해석) 두 신뢰구간 중첩 없으면 => 유의미하게 차이가 있다. 두 신뢰구간 약간 중첩, 두 평균이 상당히 차이 => t-test로 확인 두 신뢰구간 많이 중첩 => 심각한 차이는 없다. Two tailed, not paired
z-test (참고) 30개 이상 대량표본 예제 z 검정은 분산을 알고 있을 경우, t검정은 분산을 모를 경우 모 전구회사는 새로운 신형 형광등을 개발 하였다. 기존의 형광등과 평균수명에서 차이가 나는지 검정하기 위해 각각의 형광등에서 표본을 30개씩 추출하여 다음과 같은 자료를 얻었다. 각각의 분산은 12,960,000, 17,640,000이다. 평균수명에서 차이가 있는지 유의수준 5%에서 검정하라.
짝지워진 표본(Paired Sample) 동일한 참가자 내에서 평균을 비교할 때 예) 두 가지 프로토타입 간의 차이점 분석 짝지워진 표본 t-검정 짝지원진 표본에서는 반드시 비교값의 갯수가 동일하여야 한다. 예제 P < 0.05: 명백한 차이가 있다
Paired t-test 사례
두 표본 이상 비교 ANOVA(ANaysis Of VAriance) 3개 이상의 그룹간에 차이가 있는지를 비교 (평균이 같다고 볼 수 있는지) 엑셀=> 단일 요인 ANOVA F값 (F-value): 차이가 있다고 인정할 기준비율 F기각치(F critical value)가 F값보다 작으면 변수간에 유의미한 차이가 있다. (같지 않다. 기각) P값은 통계적으로 의미가 있음을 확인 제곱합, 자유도, 제곱평균, F비, P-값, F기각치(critical value)
2.6 변수들 간의 관계 상관관계(correlation) 산점도(scatterplot), 추세선(trend line) 상관계수(correlation coefficient) 또는 r값(r value) : -1~1 연관관계가 강할수록 1,-1에 근접, 약할수록 0에 근접
2.7 비모수검정(Non-parametric Test) 명목자료나 서열자료의 분석 변수간 의미를 비교, 모집단분포(분산)가 동일하지 않다. 카이제곱검정(chi-square test) 관찰값(observed value)과 기대값(expected value)의 차이가 우연인지? χ2 value : 같을 확률 엑셀, CHITEST(actual_range, expected_range) 예, 초급,중급,전문가 그룹간의 태스크 성공률에 차이가 있는지 검정 각 그룹간 20명씩, 총 60명 => 0.029 < 0.05 : 그룹간 차이가 있다 두가지 변수, A/B 테스트
2.8 그래프로 나타내기 5가지 기본적인 데이터 그래프 그래프 사용 팁 막대그래프, 선그래프, 산점도, 파이차트, 누적막대그래프 그래프 사용 팁 축과 단위에 라벨을 분명하게 (label the axis and unit) 필요 이상의 상세한 데이터 피할 것 정보전달을 위해 컬러만 단독 사용 말 것 가급적 라벨은 수평으로 가급적 신뢰구간 보여줄 것 그래프를 과도하게 쓰지 말 것 3D 그래프 사용에 주의할 것
컬럼그래프(수직)/막대그래프(수평) 기본 원칙 안 좋은 예 : 수직라벨 시작 위치, 라벨 표시값, 신뢰구간 분리된 항목/카테고리에 대한 연속적인 데이터 표현 연속변수의 축은 0에서 시작 (막대의 길이가 좌표값을 의미) 최대값보다 축이 높아지지 않도록 안 좋은 예 : 수직라벨 시작 위치, 라벨 표시값, 신뢰구간
선그래프 선그래프와 막대그래프 => 연속성 여부(선의 중간위치에도 의미 여부) 다른 연속변수에 따라 하나의 연속변수의 값을 표현할 때 데이터 지점을 보여준다. 선이 아니라 데이터 지점이 더 중요 적절한 두께의 선 사용, 하나 이상의 선의 경우 범례 사용 수직축이 중간 값에서 시작할 수도, 이 경우 적절한 표시 안 좋은 예: 데이터 지점, 범례, 가는 선, 신뢰구간
산점도(scatterplot) 안 좋은 예 : 수직축 척도, 추세선, 적합도 한 쌍의 값들, 적절한 척도 사용할 것 두 가지 변수 모두 연속적 두 변수간의 관계를 보여주기 : 추세선(trend line), R제곱근(적합도) 안 좋은 예 : 수직축 척도, 추세선, 적합도
파이차트(pie chart) 전체에서 차지하는 비율 안 좋은 예: 세그먼트 개수, 범례 조악, 비율 표시 더해서 100% 되도록 세그먼트 개수 최소화 (6개 이내) 각 세그먼트에 대한 비율과 라벨, 표시선 안 좋은 예: 세그먼트 개수, 범례 조악, 비율 표시
누적막대 그래프(stacked bar graph) 막대 형태 내에 파이차트 보여주기 연속된 항목의 합이 100% 일련의 항목은 카테고리 구성 세그먼트 개수 최소화 (3개 이내 적절) 친숙한 컬러 코드 사용 안 좋은 예 : 세그머트 개수, 컬러코딩, 수직축 라벨 없음