Usability testing Johan Åberg

advertisement
Usability testing
Johan Åberg
Usability testing
• Users carry out
realistic tasks
• Observations, thinkaloud, interviews,
questionnairs
Why test?
Usability testing vsheuristic evaluation
Usability
testing
Usability
testing
Usability
testing
Heuristic
evaluation
Heuristic
evaluation
Heuristic
evaluation
Heuristic
evaluation
Sketches
Paper
prototypes
HiFi
prototypes
Working
system
4
Usability testing vsheuristic evaluation
Effektivitet
100
90
80
70
60
50
40
30
20
10
0
Tillfredsställelse
Användbarhetstestning
Heuristiskutvärdering
Ändamålsenlighet
5
Questions
• Formative study
– The most important usability problems?
– Which aspects of the product works? Anything frustrating?
– The most common errors?
– Better product fro each iteration?
• Summative study
– Usabiilty goals reached?
– New product better than previsous version?
– Comparison with competing products?
Roles
User – försöker lösa en
given uppgift genom att
interagera med
prototypen
Computer – känner till
programlogiken och styr
gränssnittet. Simulerar
datorns respons utan
kommentarer
Testleader – styr
testsessionen, ger
instruktioner till
användaren och
efterfrågar åsikter
och tankar.
Observer –
antecknar under
tystnad
Task formulation
• A reasonable number
– Representing the expected usage
– Max 1 hour, including interviews etc
• Give the tasks to the user one at a time on
separate sheets of paper
• On the right level of detail
– Not too many clues
– Describe what the user must accomplish, not how
Think about
• Ethical issues
• Practical preparations
• Icebreaking
• Training when needed
• Never defend the design in front of the user
• Always do a pilot study with 2-3 persons
Selecting participants
• Self-repored expertise
– E.g. beginner, average, expert, …
• Usage frequency
– Visits per month…
• Experience
– Days, months, year
• Activities
– Used special function
Terminology 1
• Within-subjects
• Between-subject
• Balancing for learning between tasks
Fp
Uppg 1
Uppg 2
Uppg3
Uppg 4
Fp1
U1
U2
U3
U4
Fp2
U3
U1
U4
U2
Fp3
U2
U4
U1
U3
Fp4
U4
U3
U2
U1
Terminology 2
• Independent variable – that which is being
manipulated or controlled
• Characteristics with participants (age, geder, relevant
experience)
• Different designs or prototypes being tested
• Tasks
• Dependent variable – that which is measured
•
•
•
•
Task success
Time
SUS score
…
Usability measures
• Prestandamått
– Uppgiftsframgång, tid, fel…
• Problembaserade mått
– Antal problem, typ av problem…
• Beteende- och psykologiska mått
– Verbalt beteende, ansiktsuttryck…
• Självrapporterade mått
– Förväntningsmått, SUS…
How and when to use the
measures?
• Beror främst på användbarhetsmålen
• Men, ofta gäller:
– I en tidig fas är uppgiftsframgång viktigast
• Uppgiftsframgång kräver att allvarliga problem är undanröjda
(problembaserade mått)
– Upplevelsen viktig – vill användaren använda systemet?
• Fångas in via beteendemått och självrapporterade mått (korrelation dem
emellan?)
– Tid har ofta ett tröskelvärde (men vilket?)
• Blir därmed binärt (under eller över tröskelvärdet?)
Performance measures
• Task sucess
• Binäry or diferent levels
• Time
• Time on task
• Errors
• Which errors or amount of errors per task
• Efficciency
• Number of clicks
• Learnability
• How performance changes over time
Task success - binary
•Kräver väldefinierade uppgifter
med tydliga slutvillkor
•”Hitta priset för soffan Älmhult i
standardutförande.”
•OK?
•”Undersök olika sätt att
pensionspara.”
•OK?
Task success - example
Task success - example
Meauring time
Time-on-task
Mean time per task (seconds)
140
120
100
80
60
40
20
0
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
Task 7
Task 8
Measuring time
Time-on-task
Mean time per task (seconds)
140
Är det här ett
problem?
120
100
80
60
40
20
0
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
Task 7
Task 8
A better way?
% of users who completed the task in less than
threshold time
100%
90%
80%
70%
60%
50%
40%
30%
20%
10%
0%
Task 1
Task 2
Task 3
Task 4
Task 5
To think about
•
Reasonable threshold values?
– Start from expert time, double it
•
Handling outliers
– Discount unreasonable times (long or short)
•
Only successful tasks or all tasks?
– For failed tasks, if the user decided when to quit, use the time, otherwise don’t
•
Measuring time with think aloud?
– Postpone extensive discussions to after the task has been completed
•
Telling the user about the time measurement?
– Ask the user to carry out all tasks as quickly and carefully as possibe, without
telling about the time measurement. If they ask, tell them that the start time and
the end time is being noted.
Efficiency
Combine task completion and time
π‘ˆπ‘π‘π‘”π‘–π‘“π‘‘π‘ π‘“π‘Ÿπ‘Žπ‘šπ‘”å𝑛𝑔
π‘ˆπ‘π‘π‘”π‘–π‘“π‘‘π‘ π‘“π‘Ÿπ‘Žπ‘šπ‘”å𝑛𝑔
Effektivitet
Effektivitet ==
𝑇𝑖𝑑𝑇𝑖𝑑
0.65
0.65 = 0.4333 …
Exempel:
Exempel: 1.5 =
0.4333 …
1.5
Uppgiftsframgång
Tid (medel, i
min)
Effektivitet (%)
Task 1
65%
1.5
43
Task 2
67%
1.4
48
Task 3
40%
2.1
19
Task 4
74%
1.7
44
Task 5
85%
1.2
71
Task 6
90%
1.4
64
Task 7
49%
2.1
23
Task 8
33%
1.3
25
Example
Efficiency (Task success per minute)
80%
70%
60%
50%
40%
30%
20%
10%
0%
Task 1
Task 2
Task 3
Task 4
Task 5
Task 6
Task 7
Task 8
Average effeciency (Tasks successfully
completed per minute)
1,55
1,5
1,45
1,4
1,35
1,3
1,25
Prototype 1
Prototype 2
Prototype 3
Prototype 4
π΄π‘›π‘‘π‘Žπ‘™π‘‘π‘Žπ‘ π‘˜π‘ π‘šπ‘’π‘‘π‘’π‘π‘π‘”π‘–π‘“π‘‘π‘ π‘“π‘Ÿπ‘Žπ‘šπ‘”
𝐸𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑦𝑓öπ‘Ÿπ‘’π‘›π‘Žπ‘›π‘£äπ‘›π‘‘π‘Žπ‘Ÿπ‘’ =
π‘‡π‘œπ‘‘π‘Žπ‘™π‘‘π‘–π‘‘π‘“öπ‘Ÿπ‘Žπ‘™π‘™π‘Žπ‘’π‘π‘π‘”π‘–π‘“π‘‘π‘’π‘Ÿ
Funkar bäst om uppgifterna är ungefär likvärdiga i
Lostness
Produktsida
A1
• N: Antal olika webbsidor som
besöks under en uppgift
Kategori A
• S: Det totala antalet webbsidor
som besöks under en uppgift
• R: Det minimala antalet webbsidor
som måste besökas för att klara
en uppgift
Produktsida
A2
Produktsida
A3
Produktsida
B1
Home page
Kategori B
Produktsida
B2
Produktsida
B3
W
T
Z
W
T
Z− 1)W W
𝐿𝐿==π‘ π‘žπ‘Ÿπ‘‘[
−
1
+
(
π‘ π‘žπ‘Ÿπ‘‘[ U U − 1 + T(T − 1)] ]
Smith, 1996
Produktsida
C1
Kategori C
Produktsida
C2
Produktsida
C3
Exempel
En användare löser en uppgift
• N=6
2
• S=9
• R=3
– antal noder som måste besökas
Produktsida
A2
Kategori A
– antal olika noder som besökts
– totala antalet noder som besökts
Produktsida
A1
1
3
Home page
Produktsida
A3
4
Produktsida
B2
Kategori B
6
1 7
W
\
W ^^
W ] = 0.60
\
𝐿𝐿==π‘ π‘žπ‘Ÿπ‘‘[
−
1
+
(
−
1)
π‘ π‘žπ‘Ÿπ‘‘[] ] − 1 + \(\ − 1)W] = 0.60
Produktsida
B1
82
Kategori C
5
Produktsida
B3
Produktsida
C1
Produktsida
C2
Produktsida
C3
3
9
Problem-based measures – what’s
a problem?
• Allt som förhindrar måluppfyllelse
• Allt som för någon på fel spår
• Allt som skapar förvirring
• Allt som skapar ett fel
• Att inte se något som skulle uppmärksammats
• Att anta att något är rätt när det inte är det
• Att anta att en uppgift är klar när den inte är det
• Att utföra fel funktion
• Att missförstå något innehåll
• Att inte förstå navigeringen
Problembaserade mått - detaljer
• När börjar och slutar ett problem?
• Granularitet?
• Flera observatörer?
Allvarlighetsgrad
Få fp upplever ett
problem
Många fp upplever
ett problem
Liten påverkan på
användarupplevelse
n
Låg allvarlighetsgrad
Medel allvarlighetsgrad
Stor påverkan på
användarupplevelse
n
Medel allvarlighetsgrad
Hög allvarlighetsgrad
Resultat - exempel
Resultat – exempel
Resultat - exempel
Resultat - exempel
Resultat - exempel
Konsekvens i problemidentifiering
Bruskällor
•
•
•
•
•
•
Deltagare
Uppgifter
Metod
Artefakt
Omgivning
Moderatorer
Antal deltagare
Beteende och psykologiska mått
•
•
•
•
•
Verbalt beteende
Ansiktsuttryck
Eye-tracking
Pupillrespons
Hjärtfrekvens
Eye-tracking
Eye-tracking video 1
Eye-tracking video 2
Eye-tracking-analys 1
Eye-tracking-analys 2
Top banner
Get it Done Online
Tools
Main Body
News/
Features
Self reported measures
•
•
•
•
•
Förväntningsmått
SUS-skalan
CSUQ-skalan
QUIS-skalan
…
Expectancy measures
• Fråga fp om förväntad svårighetsgrad, innan de
utför uppgiften
• Fråga efteråt hur lätt/svårt det verkligen var,
omedelbart efter varje uppgift
• Använd 7-punkts skala i båda fallen
– Väldigt lätt till Väldigt svårt
• För varje uppgift, beräkna två medelvärden
• Medel för förväntningsvärdet
• Medel för upplevelsevärdet
• Visualisera datat som en scatterplot med två axlar
• Förväntningsvärde
• Upplevelsevärde
• De fyra kvadranterna är intressanta
SUS – system usability scale
• Utvecklat vid DEC
• Består av 10 frågor
• Kan byta ut ”website” mot ”system” mot
”produkt”…
SUS - sammanräkning
• SUS resulterar i ett helhetsvärde. Värden för
individuella frågor säger inget.
• Beräkning:
•
•
•
•
Varje frågas värde varierar mellan 0 och 4
Fråga 1, 3, 5, 7, och 9 bidrar med positionen minus 1
Fråga 2, 4, 6, 8 och 10 bidrar med 5 minus positionen
Multiplicera summan för alla 10 frågor med 2.5 för
helhetsvärdet.
• SUS värden varierar mellan 0 och 100
Beräkningsexempel
Why SUS?
Cont’d
• Upplägg
– 123 användare testade 2
system (alla testade båda)
– 5 olika enkäter
• Varje användare fyllde i
samma enkät för båda
systemen
• Ca 25 användare per
enkät
• Resultat
– Alla 5 enkäter visade att ett
av systemen var signifikant
bättre än det andra
– En mängd samples
slumpades ut från
enkätsvaren (6-14 personer
per enkät)
– Hur många % av respektive
enkäts sample visade att
”rätt” system var bättre än
det andra?
Why SUS?
Frequency Distribution of SUS Scores for 129 Conditions from 50 Studies
50
45
40
Frequency
35
30
25
20
15
10
5
0
<=40
41-50
51-60
61-70
Average SUS Scores
71-80
81-90
91-100
Download