사용자 경험 측정 (Measuring User Experience) 4. Performance Metric 숙명여자대학교 임순범
목차 4장. 수행(Performance) 메트릭스 Task Success, Time-on-Task, Errors, Efficiency, Learnability
4장. 수행 메트릭스⇒성능척도, 실행척도 개요 상호작용의 모든 행위/행동들은 관찰 및 측정의 대상이 됨 모든 척도는 특정 사용자 행동에 기반하여 계산, 또한 시나리오와 태스크에 의존 예, 단순히 웹사이트 보기가 아니라 “CD가격 찾기”, “레포트 제출” 등 태스크 혹은 목표 유저빌리티 도구중 가장 중요 제품의 유효성(effectiveness)과 효율성(efficiency)을 평가하는 최선의 방법 특정 이슈의 중대성(magnitude) 추정이 가능 특정 이슈의 존재 이상으로, 얼마나 많은 사람 들의 동일 이슈에 접했는지 유저빌리티의 강력한 지표이자 생산성(비용,수익 등)을 향상시키는 도구 단, 무엇이 효과적인지 파악 가능, 그러나 왜 그런지는 언급 안함 추가로 관찰이나 자가 기록 데이터 보강 필요
대표적 수행 메트릭스 (수행/실행/성능 척도) 태스크 성공(task success) 얼마나 효과적으로 완료했는지 => 이진 성공, 성공 수위(levels of success) 태스크 시간(time-on-task) 태스크 완료에 필요한 시간 에러(errors) 사용자가 범한 실수 효율성(efficiency) 태스크 완료에 필요한 노력의 양, 예, 클릭 횟수, 버튼 누름 횟수 등 학습용이성(learnability) 시간 흐름에 따라 사용자 수행 능력의 변화
4.1 태스크 성공 가장 보편적인 측정방법 4.1.1성공 척도 수집하기 다양한 사물(thing)을 테스트하고 측정가능 태스크의 완료 시점이 있어야 함 예, 제품 구입, 특정 질문에 대한 대답, 온라인 양식 데이터 수집에 앞서 태스크 성공의 기준 정의해야 현재 구글의 주가 가격을 찾기 : 확실한 완료 퇴직대비 저축방법 연구 : 불확실한 완료 성공을 측정하는 일반적인 방법 랩 테스트에서 태스크 완료 말하기 – 확인 필요 객관식 설문에서 정답 고르기 대리(proxy) 성공 측정. 예, 잔액 페이지에서 해당 페이지 제목 확인을 요청
4.1.2 이진 성공(binary success) 가장 일반적이며 간단한 방법 : pass/fail(0/1) 성공 여부가 태스크 완료일 때 적절. 거의 완료는 실패인 경우 예, 심장 소생기의 사용성, 온라인 도서 구입 이진 성공 데이터의 수집/측정 1과 0의 평균을 계산 (성공, 실패 점수 할당이 쉬워야) 신뢰구간 포함하는 게 바람직 태스크1 성공율 67% => 67%±28% 즉, 39~95%
이진데이터의 분석 이진 성공에 대한 신뢰구간 개별 태스크의 이진 성공률 : 각 태스크를 성공적으로 완료한 참여자 비율 태스크간의 성공률 비교의 경우 : 앞 쪽 그림 태스크간 차이점이 있는지? : t검정 혹은 분산분석(ANOVA) 사용자 관점에서 이진 성공 데이터 분석 사용자 그룹별 성공률 분석 : 사용빈도, 사용경험, 전문가, 나이 등에 따라 빈도 분포(frequency distribution) => “도수 분포” 많은 수 참여 경우 (20명 이상, 최소 12명) 예제) 디자인 반복 후 개선이 효과가 극명 이진 성공에 대한 신뢰구간 상대적으로 적은 표본인 경우 신뢰 구간 선정이 매우 중요 : 99, 95, 90%
4.1.3 성공 수위(levels of success) 성공/실패 구분이 어려울 때 성공적으로 완료하는데 근접 => 실패 (예, 6X 광각 카메라 => 5X 카메라) 성공수위 데이터 수집 및 측정방법 성공 수위의 정의 방법 참여자가 태스크를 완료하는 범위, 정도에 기반 : 힌트, 도움의 횟수 등 태스크를 완료하는 경험에 기반 : 완료의 어려움 정도 태스크를 완료하는 방식에 기반 : 얼마나 최적화된 방법으로 완료 성공 수위의 정도/범위 : 3~6 단계 완료하는데 성공함 도움을 받음 도움을 받지 않음 부분적으로 성공함 완료하는데 실패함 참여자가 노력하였으나 완료실패 참여자가 포기함
성공수위 데이터 수집 및 측정방법 미리 수위를 확실하게 정의하는 것이 중요 성공수위 측정을 위해 참여자에게 어떻게 도움을 줄 것인지 결정 참여자를 태스크 시작 전의 초기형태로 원위치 참여자의 질문허용, 또는 태스크를 다시 언급 태스크 완료에 도움이 되는 질문에 대답하거나 정보를 제공 다른 소스에서 도움말을 찾을 수 있도록 함(매뉴얼, 전화, 온라인 도움말 등) 태스크 완료에 기반한 성공 수위의 조직화 : 숫자값 할당 성공 1.0/부분성공 0.5/포기 0 : 유저빌리티 성공점수(success score), 성공률X 사용자 경험에 기반한 성공 수위의 조직화 : 4점 척도 1 문제없음, 2 경미한 문제, 3 중대한 문제, 4 실패/포기 점수체계가 서열자료(ordinal) : 평균이 아니라 빈도수 계산 => 성공한 사람수 참여자 대답에 기반한 성공 수위의 조직화 : 점수 할당 최적의 대답 1.0, 차선 0.75 또는 0.5, 등
성공 수위 데이터의 분석 성공수위 누적막대그래프 성공 및 실패에 대한 누적그래프 성공률이 아니라 점수시스템으로 의사 소통 예, 평균 점수가 아니라 성공한 사람 비율
4.1.4 성공 측정의 이슈 성공적 완료의 정의 성공하지 못한 태스크의 중지규칙 태스크를 성공적으로 완료하는 것에 대한 기준을 확실히 정의 성공하지 못한 태스크의 중지규칙 시작전 태스크 종료, 포기, 개입 시점까지 무조건 태스크 진행할 것 3진아웃 제도 적용 지정 시간 초과 후 태스크 종료
4.2 시간 기반 태스크 4.2.1 개요 4.2.2 시간 기반 태스크의 수집/측정 가장 효율적인 유저빌러티 측정법: 태스크 완료시간, 태스크 시간 일반적으로 완료시간이 빠를수록 더 좋은 경험 예외: 게임은 그 자체를 즐김, 온라인 학습의 경우 느린 속도가 좋을때도 반복적으로 실행되는 타겟에서 중요 동일한 참여자가 빈번한 태스크를 발생할 경우 시간이 효율성에 영향 예, 전화예약 완료시간 효율성 증가와 ROI 계산으로 비용절약을 직접 계산 4.2.2 시간 기반 태스크의 수집/측정 태스크 시작과 완료과정의 전 시간 자동화 도구 : Ergo Browser, Data Logger 자동화 도구에서는 질문에 대하여 답변버튼을 누르면 자동으로 시간측정 수작업으로도 효과적으로 측정가능
4.2.3 시간 기반 태스크 데이터 분석 일반적: 특정 태스크 수행시간의 평균 범위(ranges) 신뢰구간 표기중요 중앙값(median) 및 기하평균(geomean) 산술평균 대신, 편향 가능성 감소 범위(ranges) 완료 시간의 범위에 따라 참여자 빈도 한계치(threshold) => “기준점” 특정 시간 이내에 태스크 완료한 비율 기준점 위나 아래의 사용자 비율 분포와 이상점 이상점은 제외 한계치를 설정 (최소, 최대 허용값)
4.2.4 시간 데이터 분석시 고려 사항 분석 대상 : 성공한 태스크만? 모든 태스크? 씽크 얼라우드 방식 성공한 태스크만을 고려 효율성을 보다 확실히 측정 실패한 태스크의 시간 측정은 어렵다 모든 태스크 시간 데이터 분석 전체의 경험을 모두 반영, 특정 그룹의 특성을 반영할 수 있음 포기 시점을 정해놓고 모든 시간 데이터 포함이 바람직 씽크 얼라우드 방식 코멘트 시간은 시계가 멈춘후 회고 탐색 기술(retrospect probing technique) 시간 측정에 대한 언급 노골적이지 않게
4.3 에러(error) 이슈와 에러 4.3.1 언제 에러를 측정할 것인가 에러측정 에러 측정 시기 유저빌러티 이슈는 잠재적인 문제의 원인, 에러는 그로 인한 잘못된 결과 4.3.1 언제 에러를 측정할 것인가 에러측정 태스크 실패를 일으키는 특정행동을 이해하고자 할 때 유용 사용자 수행능력 평가의 유용한 방법 에러 측정 시기 에러가 효율성에서 중대한 손실을 줄 때 에러가 많은 비용을 발생할 때 에러가 태스크 실패를 야기할 때
4.3.2 무엇이 에러를 일으키는가? 4.3.3 에러의 수집/측정 에러를 유발하는 행동 투표 용지 사례 입력 필드에 부정확한 데이터 입력 메뉴, 드롭다운 리스트에서 잘못 선택 잘못된 행동 취하기 핵심행동 취하기 실패 투표 용지 사례 왼쪽 두번째 후보는 가운데 세번째 구멍 4.3.3 에러의 수집/측정 정확한 행동의 기준을 정의해야 올바른 행동과 잘못된 행동의 정의 에러가능성 분류: 단일 에러, 다중 에러 우연히 실수를 유발할 가능성 다중 에러의 경우 점수 : 에러 없음 0, 에러 개수 N
4.3.4 에러의 분석 단일 에러 각 태스크의 에러 빈도 분석 방법 총체적 관점 태스크에 의한 에러 개수와 빈도 측정 신뢰구간 필요 없음 (개체수 추정 필요 없음) 각 태스크별 에러를 범한 참여자 비율 측정 참여자 숫자가 다를 때 유용 총체적 관점 각 태스크의 에러 평균 태스크의 평균 에러율 특정 개수의 에러를 가진 태스크의 평균 전체 태스크의 50%가 10% 이상의 에러율을 발생 각 태스크의 최대 에러율 설정 태스크의 25%가 수용가능한 에러율을 초과
다중 에러 가능성 태스크 분석 각 태스크에 대한 에러 빈도분석 태스크별 참여자들의 에러 평균개수 한계치 측정 에러 스코어: 가중치 부여 태스크별 평균 에러 스코어
4.4 효율성(efficiency) 효율성 측정 척도 4.4.1 효율성 수집 및 측정 태스크 시간 혹은 태스크 완료를 위한 노력의 양 참여자들의 행동 수, 단계 개수, 클릭 수, 이동 거리 등 인지적 노력: 링크의 위치 파악, 클릭 여부 선택, 해석 물리적 노력: 마우스 이동, 텍스트 입력, 스위치 ON 동작 4.4.1 효율성 수집 및 측정 주요 5가지 고려사항 측정되는 행동을 확인 : 타겟마다 특정 행동들이 발생 행동의 시작과 끝을 정의 : 마우스 클릭, 웹 페이지 보기 행동의 개수 count : 눈으로 확인 할 수 있는 속도 행동은 반드시 의미를 포함 : 액션이 많을수록 노력 증가 성공한 태스크만 타겟 선정
4.4.2 효율성 분석 및 표시 태스크를 완료하기 위하여 취한 행동의 개수 손실(looseness) 가장 노력이 많이 들어간 태스크 찾기 손실(looseness) 웹 행태 연구 사례 N: 태스크 수행동안 방문한 웹 페이지 개수 S: 방문한 전체 페이지 수(반복포함) R: 반드시 방문해야 하는 페이지의 최소 개수
4.4.3 태스크 성공과 태스크 시간의 결합 효율성 태스크 성공과 태스크 시간 척도의 결합 평균 손실값, 이상적인 행동 개수를 초과한 참여자의 수/비율 계산 태스크 성공과 태스크 시간 척도의 결합 효율성의 핵심 척도 태스크별 평균시간에 대한 태스크 완료율 완료된 태스크 개수/태스크 총 소요시간 “분(단위) 당 성공한 태스크의 개수 예, 효율성 메트릭스 계산 (119쪽) 웹 사이트의 4가지 내비게이션 비교 200명 참가자, 각 참여자 한 가지 프로토타입 이용 동일한 20개 태스크 수행 “분 당 성공적으로 완료한 태스크의 평균 수”
4.5 학습성(learnability) 학습 학습성의 요소 4.5.1 학습성 데이터의 수집 시간의 흐름에 따라 증가, 제품 사용 시간과 수행작업의 다양성에 기반 무엇인가에 익숙해지는데 필요한 시간과 노력의 정도 사용/수행 속도가 증가하는 것이 중요 학습성의 요소 짧은 기간 : 익숙해지는 전략이 중요 긴기간 : 기억력이 중요 4.5.1 학습성 데이터의 수집 데이터를 여러 번 수집 메트릭 종류 결정 수행시간, 단계의 개수, 분당 태스크 성공률 등 효율성 관점 시도 간격의 결정 동일 세션 내에서, 동일 세션 휴식시간 후, 섹션간 시도
4.5.2 학습성 데이터의 분석 일반적인 방법 학습곡선 4.5.3 고려 사항 수행시간, 단계의 개수, 성공률 등 척도 이용 기울기, 점근선(asymptote) 지점에 주목 기울기 사이에 유의미 => 분산분석 최대/최소값의 차이 최고 수준에 도달하기 위한 학습 4.5.3 고려 사항 무엇을 시도로 인정? 시도의 횟수