Usability testing Johan Åberg Usability testing • Users carry out realistic tasks • Observations, thinkaloud, interviews, questionnairs Why test? Usability testing vsheuristic evaluation Usability testing Usability testing Usability testing Heuristic evaluation Heuristic evaluation Heuristic evaluation Heuristic evaluation Sketches Paper prototypes HiFi prototypes Working system 4 Usability testing vsheuristic evaluation Effektivitet 100 90 80 70 60 50 40 30 20 10 0 Tillfredsställelse Användbarhetstestning Heuristiskutvärdering Ändamålsenlighet 5 Questions • Formative study – The most important usability problems? – Which aspects of the product works? Anything frustrating? – The most common errors? – Better product fro each iteration? • Summative study – Usabiilty goals reached? – New product better than previsous version? – Comparison with competing products? Roles User – försöker lösa en given uppgift genom att interagera med prototypen Computer – känner till programlogiken och styr gränssnittet. Simulerar datorns respons utan kommentarer Testleader – styr testsessionen, ger instruktioner till användaren och efterfrågar åsikter och tankar. Observer – antecknar under tystnad Task formulation • A reasonable number – Representing the expected usage – Max 1 hour, including interviews etc • Give the tasks to the user one at a time on separate sheets of paper • On the right level of detail – Not too many clues – Describe what the user must accomplish, not how Think about • Ethical issues • Practical preparations • Icebreaking • Training when needed • Never defend the design in front of the user • Always do a pilot study with 2-3 persons Selecting participants • Self-repored expertise – E.g. beginner, average, expert, … • Usage frequency – Visits per month… • Experience – Days, months, year • Activities – Used special function Terminology 1 • Within-subjects • Between-subject • Balancing for learning between tasks Fp Uppg 1 Uppg 2 Uppg3 Uppg 4 Fp1 U1 U2 U3 U4 Fp2 U3 U1 U4 U2 Fp3 U2 U4 U1 U3 Fp4 U4 U3 U2 U1 Terminology 2 • Independent variable – that which is being manipulated or controlled • Characteristics with participants (age, geder, relevant experience) • Different designs or prototypes being tested • Tasks • Dependent variable – that which is measured • • • • Task success Time SUS score … Usability measures • Prestandamått – Uppgiftsframgång, tid, fel… • Problembaserade mått – Antal problem, typ av problem… • Beteende- och psykologiska mått – Verbalt beteende, ansiktsuttryck… • Självrapporterade mått – Förväntningsmått, SUS… How and when to use the measures? • Beror främst på användbarhetsmålen • Men, ofta gäller: – I en tidig fas är uppgiftsframgång viktigast • Uppgiftsframgång kräver att allvarliga problem är undanröjda (problembaserade mått) – Upplevelsen viktig – vill användaren använda systemet? • Fångas in via beteendemått och självrapporterade mått (korrelation dem emellan?) – Tid har ofta ett tröskelvärde (men vilket?) • Blir därmed binärt (under eller över tröskelvärdet?) Performance measures • Task sucess • Binäry or diferent levels • Time • Time on task • Errors • Which errors or amount of errors per task • Efficciency • Number of clicks • Learnability • How performance changes over time Task success - binary •Kräver väldefinierade uppgifter med tydliga slutvillkor •”Hitta priset för soffan Älmhult i standardutförande.” •OK? •”Undersök olika sätt att pensionspara.” •OK? Task success - example Task success - example Meauring time Time-on-task Mean time per task (seconds) 140 120 100 80 60 40 20 0 Task 1 Task 2 Task 3 Task 4 Task 5 Task 6 Task 7 Task 8 Measuring time Time-on-task Mean time per task (seconds) 140 Är det här ett problem? 120 100 80 60 40 20 0 Task 1 Task 2 Task 3 Task 4 Task 5 Task 6 Task 7 Task 8 A better way? % of users who completed the task in less than threshold time 100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Task 1 Task 2 Task 3 Task 4 Task 5 To think about • Reasonable threshold values? – Start from expert time, double it • Handling outliers – Discount unreasonable times (long or short) • Only successful tasks or all tasks? – For failed tasks, if the user decided when to quit, use the time, otherwise don’t • Measuring time with think aloud? – Postpone extensive discussions to after the task has been completed • Telling the user about the time measurement? – Ask the user to carry out all tasks as quickly and carefully as possibe, without telling about the time measurement. If they ask, tell them that the start time and the end time is being noted. Efficiency Combine task completion and time πππππππ‘π πππππåππ πππππππ‘π πππππåππ Effektivitet Effektivitet == ππππππ 0.65 0.65 = 0.4333 … Exempel: Exempel: 1.5 = 0.4333 … 1.5 Uppgiftsframgång Tid (medel, i min) Effektivitet (%) Task 1 65% 1.5 43 Task 2 67% 1.4 48 Task 3 40% 2.1 19 Task 4 74% 1.7 44 Task 5 85% 1.2 71 Task 6 90% 1.4 64 Task 7 49% 2.1 23 Task 8 33% 1.3 25 Example Efficiency (Task success per minute) 80% 70% 60% 50% 40% 30% 20% 10% 0% Task 1 Task 2 Task 3 Task 4 Task 5 Task 6 Task 7 Task 8 Average effeciency (Tasks successfully completed per minute) 1,55 1,5 1,45 1,4 1,35 1,3 1,25 Prototype 1 Prototype 2 Prototype 3 Prototype 4 π΄ππ‘πππ‘ππ ππ ππππ’ππππππ‘π πππππ πΈπππππππππ¦πöππππππ£äπππππ = πππ‘πππ‘πππöππππππ’ππππππ‘ππ Funkar bäst om uppgifterna är ungefär likvärdiga i Lostness Produktsida A1 • N: Antal olika webbsidor som besöks under en uppgift Kategori A • S: Det totala antalet webbsidor som besöks under en uppgift • R: Det minimala antalet webbsidor som måste besökas för att klara en uppgift Produktsida A2 Produktsida A3 Produktsida B1 Home page Kategori B Produktsida B2 Produktsida B3 W T Z W T Z− 1)W W πΏπΏ==π πππ‘[ − 1 + ( π πππ‘[ U U − 1 + T(T − 1)] ] Smith, 1996 Produktsida C1 Kategori C Produktsida C2 Produktsida C3 Exempel En användare löser en uppgift • N=6 2 • S=9 • R=3 – antal noder som måste besökas Produktsida A2 Kategori A – antal olika noder som besökts – totala antalet noder som besökts Produktsida A1 1 3 Home page Produktsida A3 4 Produktsida B2 Kategori B 6 1 7 W \ W ^^ W ] = 0.60 \ πΏπΏ==π πππ‘[ − 1 + ( − 1) π πππ‘[] ] − 1 + \(\ − 1)W] = 0.60 Produktsida B1 82 Kategori C 5 Produktsida B3 Produktsida C1 Produktsida C2 Produktsida C3 3 9 Problem-based measures – what’s a problem? • Allt som förhindrar måluppfyllelse • Allt som för någon på fel spår • Allt som skapar förvirring • Allt som skapar ett fel • Att inte se något som skulle uppmärksammats • Att anta att något är rätt när det inte är det • Att anta att en uppgift är klar när den inte är det • Att utföra fel funktion • Att missförstå något innehåll • Att inte förstå navigeringen Problembaserade mått - detaljer • När börjar och slutar ett problem? • Granularitet? • Flera observatörer? Allvarlighetsgrad Få fp upplever ett problem Många fp upplever ett problem Liten påverkan på användarupplevelse n Låg allvarlighetsgrad Medel allvarlighetsgrad Stor påverkan på användarupplevelse n Medel allvarlighetsgrad Hög allvarlighetsgrad Resultat - exempel Resultat – exempel Resultat - exempel Resultat - exempel Resultat - exempel Konsekvens i problemidentifiering Bruskällor • • • • • • Deltagare Uppgifter Metod Artefakt Omgivning Moderatorer Antal deltagare Beteende och psykologiska mått • • • • • Verbalt beteende Ansiktsuttryck Eye-tracking Pupillrespons Hjärtfrekvens Eye-tracking Eye-tracking video 1 Eye-tracking video 2 Eye-tracking-analys 1 Eye-tracking-analys 2 Top banner Get it Done Online Tools Main Body News/ Features Self reported measures • • • • • Förväntningsmått SUS-skalan CSUQ-skalan QUIS-skalan … Expectancy measures • Fråga fp om förväntad svårighetsgrad, innan de utför uppgiften • Fråga efteråt hur lätt/svårt det verkligen var, omedelbart efter varje uppgift • Använd 7-punkts skala i båda fallen – Väldigt lätt till Väldigt svårt • För varje uppgift, beräkna två medelvärden • Medel för förväntningsvärdet • Medel för upplevelsevärdet • Visualisera datat som en scatterplot med två axlar • Förväntningsvärde • Upplevelsevärde • De fyra kvadranterna är intressanta SUS – system usability scale • Utvecklat vid DEC • Består av 10 frågor • Kan byta ut ”website” mot ”system” mot ”produkt”… SUS - sammanräkning • SUS resulterar i ett helhetsvärde. Värden för individuella frågor säger inget. • Beräkning: • • • • Varje frågas värde varierar mellan 0 och 4 Fråga 1, 3, 5, 7, och 9 bidrar med positionen minus 1 Fråga 2, 4, 6, 8 och 10 bidrar med 5 minus positionen Multiplicera summan för alla 10 frågor med 2.5 för helhetsvärdet. • SUS värden varierar mellan 0 och 100 Beräkningsexempel Why SUS? Cont’d • Upplägg – 123 användare testade 2 system (alla testade båda) – 5 olika enkäter • Varje användare fyllde i samma enkät för båda systemen • Ca 25 användare per enkät • Resultat – Alla 5 enkäter visade att ett av systemen var signifikant bättre än det andra – En mängd samples slumpades ut från enkätsvaren (6-14 personer per enkät) – Hur många % av respektive enkäts sample visade att ”rätt” system var bättre än det andra? Why SUS? Frequency Distribution of SUS Scores for 129 Conditions from 50 Studies 50 45 40 Frequency 35 30 25 20 15 10 5 0 <=40 41-50 51-60 61-70 Average SUS Scores 71-80 81-90 91-100