Stwórz profil

Musisz wpisać swoje imię
Musisz wpisać swoje nazwisko
Musisz wpisać poprawny e-mail
Musisz wpisać hasło (min. 8 znaków)
Musisz zaakceptować regulamin

badania porównawcze

Wojciech KuśmierekUX i dobre pomysły.
Konsulting i
Szkolenia.

Temat: badania porównawcze

Witam,
Coraz częściej klienci stawiają nas przed zadaniem porównania różnych serwisów lub różnych wersji tego samego serwisu. Jak widzicie to od strony metodologicznej? Nie mam problemu, po zrobieniu analiz, ew. badań, ze wskazaniem najlepszej strony (lub najlepszych rozwiązań ze stron), ale nie dziwię się klientom, że chcieliby też "podkładkę" liczbową/ilościową. Jak sobie z tym radzicie? Bo wyjścia widzę takie:

[zakładamy, że mamy serwis A i serwis B, oba w identycznej tematyce, z identycznymi celami itd.]

1. Lista kontrolna (ekspercka)
ileś tam kryteriów do odhaczenia przez ekspertów na serwisie A i B.
Zalety: jednorodna skala, te same kryteria, powtarzalny pomiar - łatwo porówmać.
Wady: brak badań (eksperci wszystkiego nie wykryją; zwłaszcza, jeśli lista jest zamknięta, badania też są często bardziej przekonujące);

2. Badania z udziałem użytkowników - wersja "1 grupa, 1 interface"
Rekrutujemy dwie grupy o podobnej charakterystyce, powiedzmy 7-osobowe. Grupa 1 jest wpuszczana na serwis A, grupa 2 - na serwis B. Każda grupa wykonuje te same zadania. Dostajemy wyniki.
Oczywiście, zdaję sobie sprawę, że porównywanie wyników "czas wykonania", "ilość błędów", "ilość kliknięć" jest na wyrost - bo tu mamy zbyt małe liczby osób w grupach, aby wyniki były istotne statystycznie.

Ale zastanawiam się, czy gdyby porównać liczbę znalezionych problemów (potrzebna dobra definicja pojedynczego problemu, ale na
razie zostawmy to), to czy byłoby to takie złe? Opierając się na
słynnych danych Nielsena (bodaj 7 osób wykrywa 90% błędów do wykrycia, co daje dobrą pewność) można założyć, że ilość problemów można ze sobą porównać? Czy jednak fakt, że każdy iface jest badany przez różne osoby sprawia, że i do takiej miary
nie można mieć zaufania (w zakresie porównywania)?

Zalety: badania z prawdziwymi użytkownikami, jest miara (liczba
problemów=błędów w iface, które można porównać między interface'ami)
Wady: mogą wyjść różnice ze względu na różnych ludzi (a nie różnice w iface, co przy liczebności 7 osoób jest b. prawdopodobne), skalowanie metody w górę jest kosztowne (kolejne grupy)

3. Badania z udziałem użytkowników wersja "1 grupa - 2 interface'y"
Tu podobnie jak poprzednio, ale zakładamy, że każdy użytkownik przebada 2 interface'y. Z jednej strony - likwidujemy problem odmienności ludzi. Z drugiej strony wprowadzamy kolejne zakłócacze - efekt pierwszeństwa, uczenie się itd. Możemy je częściowo zlikwidować, poprzez losowanie kolejności interface'ów dla każdego badanego i zadanie rozprazające pomiędzy interface'ami.

Zalety: badania z prawdziwymi użytkownikami, większa pewność co do pierwszeństwa danego interface'u (możliwość porównań wewnątrz osób).
Wady: efekt pierwszeństwa, możliwy do ograniczenia, ale nie do końca. Trudność skalowania badania w górę - efekty uczenia się
stają się coraz mocniejsze.

4. Inne...

Ciekaw jest Waszych wypowiedzi:
1. Czy można porównywać liczbę znalezionych problemów między interface'ami, zakładając 7 osobową liczebność grup?
2. która ze wskazanych metod (lub zaproponowana przez Was ma największy sens?)Wojciech Kuśmierek edytował(a) ten post dnia 09.10.08 o godzinie 18:39
9.10.2008, 18:34

Wojciech KuśmierekUX i dobre pomysły.
Konsulting i
Szkolenia.

Temat: badania porównawcze

dodam jeszcze - wiem, że ostatecznym werfikatorem mogą być statystyki ruchu na działającym, ale:
1. w przypadku badania konkurencji nie mamy dostępu
2. klienci często mają opór przed powieszeniem dwóch wersji w necie.
3. Czasem badamy projekty na poziomie b. wczesnego prototypu.
9.10.2008, 18:56

Robert DrózdWebAudit / Świat
Czytników

Temat: badania porównawcze

W przypadku porównania konkurencji lista kontrolna wydaje mi się być oczywistym punktem wyjścia.

Jeśli chodzi o liczenie błędów z testów - jestem bardzo sceptyczny. Raz, że błąd błędowi nierówny i należałoby nadać im jakieś wagi. Dwa, że zupełny przypadek - dopasowanie zadań do serwisu czy użytkownika do serwisu, może sprawić że tych błędów będzie mniej lub więcej.

Nawet jeśli ten benchmarking zrobimy bardzo ścisły, to co nam ma wyjść? 502:411 dla klienta? Efektem każdych badań użyteczności ma być poprawienie serwisu, a w przypadku badań porównawczych mamy możliwość sprawdzenia czy te same błędy i w jakiej intensywności występują u konkurencji.

Raport z takiego badania dzieliłbym według błędów w różnych kategoriach: nawigacja, proces transakcji itd. - i w obrębie każdej kategorii można ew. wydzielić liczbę znalezionych błędów o różnym priorytecie. Da to jakieś porównanie liczbowe, jeśli stwierdzimy że np. co do strony głównej u nas były dwa błędy krytyczne (user zupełnie się pogubił) a u konkurencji żadnego. Większego uogólniania tych liczb lepiej się wystrzegać.
9.10.2008, 20:15

Iga MościchowskaWitFlow - ux &
usability studio

Temat: badania porównawcze

Jak powiedział Robert - błąd błędowi nie równy.

Ja bym raczej pokusiła się na miary czasowe - np. ilość czasu potrzebnego na znalezienie opisu danej karty kredytowej. Do tego skala satysfakcji i porównanie wyników. Choć przy tak małych próbach trudno o rzetelny wynik.
9.10.2008, 20:32

Eryk Orłowskiprojektowanie
interakcji

Temat: badania porównawcze

Iga Mościchowska:
Jak powiedział Robert - błąd błędowi nie równy.

Ja bym raczej pokusiła się na miary czasowe - np. ilość czasu potrzebnego na znalezienie opisu danej karty kredytowej. Do tego skala satysfakcji i porównanie wyników. Choć przy tak małych próbach trudno o rzetelny wynik.

IMHO akurat czasowe miary wydajności są rozsądne wyłącznie w przypadku, gdy mamy do czynienia z pojedynczą ścieżką dotarcia do danej informacji, co zdarza się dosyć rzadko.

Satysfakcja userstwa nie jest prostą funkcją czasu poświęconego na wykonanie zadania - tak bywa tylko w prostych zbiorach serwisach i mocno liniowych aplikacjach.

Wojtek, moja główna uwaga jest taka, że nie szedłbym w stronę dowodzenia na siłę, że użycie jakichkolwiek wskaźników ilościowych (zwłaszcza w testach behawioralnych) przydaje wiarygodności wynikom. Zwykle nie mam problemu w wytłumaczeniu klientowi (w tym w działach badań), że jakościowe testy użyteczności to nie gorszy brat ilościówki ;)

Miary wydajności są fajne jako narzędzie na przykład do stwierdzenia:
- który z obszarów problemów miał największy wpływ na popełnianie błędów przez użytkowników,
- który z problemów gui wpływa najbardziej negatywnie na czas wykonania zadania.
9.10.2008, 21:10

Iga MościchowskaWitFlow - ux &
usability studio

Temat: badania porównawcze

eryk orłowski:

IMHO akurat czasowe miary wydajności są rozsądne wyłącznie w przypadku, gdy mamy do czynienia z pojedynczą ścieżką dotarcia do danej informacji, co zdarza się dosyć rzadko (...)

Zgodzę się, że wszystko zależy od serwisów jakie badamy. Jednak porównanie czasu i efektywności wykonywania zadań wydaje mi się bardziej uzasadnione, niż porównywanie ilości odkrytych błędów.

Jeśli chodzi o ilościowe vs. jakościowe, to o ile uważam że badania użyteczności są i powinny być badaniami jakościowymi, o tyle z mojego doświadczenia wynika, że klienci tego nie rozumieją i rozumieć nie chcą :) Już tutaj dywagowałam kiedyś, że klienci na których ja trafiałam, nie przyjmują do wiadomości, że badania bez cyferek i procentów mogą być trafne i mogą dawać bardzo przydatne wyniki... Podobno mam pecha :) Ale rozumiem, dlaczego Wojciech poszukuje miar ilościowych.
9.10.2008, 21:19

Eryk Orłowskiprojektowanie
interakcji

Temat: badania porównawcze

Iga Mościchowska::) Ale rozumiem, dlaczego Wojciech poszukuje miar ilościowych.

ja nie twierdzę, że takowe są bezwzględnie be. Chodzi mi o to, żeby używać ich świadomie jako narzędzia. Czyli zamiast pisać w raporcie, że 30% wykonało, reszta nie, albo - że czasy wykonania na słupkach w powerpoincie wyglądają u nas ślicznie - osadzajmy to w konkretnym kontekście. Jak dla mnie zbyt łatwo pomylić przesłankę z wnioskiem. Jeżeli mamy 3 najważniejsze problemy, wykazane przez testy, i problem A ma największy wpływ na czas wykonania danego zadania, to nad nim być może warto się pochylić. Pod warunkiem jednakowoż, że w określonym przypadku dłuższy czas wykonania jest bezwzględnie złem. Tego nie powiedzą nam po prostu słupki z porównaniem czasów.eryk orłowski edytował(a) ten post dnia 09.10.08 o godzinie 23:33
9.10.2008, 23:33

Wojciech KuśmierekUX i dobre pomysły.
Konsulting i
Szkolenia.

Temat: badania porównawcze

Dziękuję wszystkim za wypowiedzi.

Ogólnie - tak, wiem, że nasze badania to głównie jakościówka, liczby są pewną wskazówką. Ale po prostu szukam :)

@Robert Drózd:
Jeżeli badamy analogiczne serwisy, to jest szansa, że wystąpią podobne błędy. Pytanie - czy w ogóle można to porównywać? (statystyka)

@Iga Mościchowska
Co do czasu - ja wiem, że to dobra miara, ale wpadamy cały czas na problem porównywania 7 osobowych grup - siłą rzeczy nierównych, niereprezentatywnych, nie podobnych sobie. Tak mało licznych, że jeden dewiant potrafi zrobić ostre zamieszanie w wynikach.

@Eryk Orłowski
Zwykle też nie mam problemu z tłumaczeniem tematu nt. jakościówek i ich charakteru, ale po prostu odczuwam presję rynku, i trzeba na tę presję jakoś odpowiedzieć - może jakąś zupełnie nową metodyką?

A w ramach poszukiwań trafiłem na site, który jakoś wcześniej przegapiłem. Sajt ma wielce adekwatną nazwę :)
http://www.measuringusability.com

Obecnie zgłębiam artykuł:
http://www.measuringusability.com/qualitative_risks.htm

Wymaga trochę gimnastyki głowy, ale warto przeczytać.
10.10.2008, 12:59

Iga MościchowskaWitFlow - ux &
usability studio

Temat: badania porównawcze

Wojciech Kuśmierek:
A w ramach poszukiwań trafiłem na site, który jakoś wcześniej przegapiłem. Sajt ma wielce adekwatną nazwę :)
http://www.measuringusability.com

Obecnie zgłębiam artykuł:
http://www.measuringusability.com/qualitative_risks.htm

Wymaga trochę gimnastyki głowy, ale warto przeczytać.

Dzięki za linki, z chęcią poczytam! :)

A propos presji rynku, to nie wydaje Wam się, że żyjemy w czasach dyktatury ilościówki? Wszystko musi być udowadniane statystycznie, inaczej nie jest traktowane poważnie. Osobiście uważam, że najlepsze co można zrobić, to edukować klientów - dane jakościowe w przypadku badania użyteczności mają duży potencjał i w zasadzie stanowią podstawę założeń UCD i usability. IMHO nie powinno sprowadzać się tego do liczb, bo nie o to chodzi.
10.10.2008, 13:36

Ania P.Web and Information
Design

Temat: badania porównawcze

Iga Mościchowska:
A propos presji rynku, to nie wydaje Wam się, że żyjemy w czasach dyktatury ilościówki? Wszystko musi być udowadniane statystycznie, inaczej nie jest traktowane poważnie. Osobiście uważam, że najlepsze co można zrobić, to edukować klientów - dane jakościowe w przypadku badania użyteczności mają duży potencjał i w zasadzie stanowią podstawę założeń UCD i usability. IMHO nie powinno sprowadzać się tego do liczb, bo nie o to chodzi.


wydaje nam sie. Ale edukowanie klienta czesto IMO na wiele sie zda, jesli Ty rozmawiasz z jakims tam managerem dzialu nteraktywnego czy whatever, a on to, co Ty mu przedstawisz, musi przedstawic swoim prezesom. On jeszce moze zakumac baze, ale ci prezesi to juz tylko cyferki zrozumieja :) a na zagadnieniahc uzytecznosci sie w ogole nie musza znac, bo generalnie ich praca i profl firmy polega na czyms zupelnie innym. No i taki koles tez chce miec dane ktore mu latwo przekazac dalej, a cyferki w powerpoincie sa poreczne. Oczywiscie, wychodza z tego bzdury - niedawno mialam do czynienia z sytuacja gdzie dzial marketingowo-interaktywny mial za cel obnizyc bounce rate z glownej strony bodajze z 19% na 11% - co probowali osiagnac powielaniem guziczkow (i powiekszaniem) na tej glownej stronie, tak, zeby normalnie gdzie sie nie kliknie, wchodzilo sie na "zaplac teraz". Wpyte, tylko ze rzut oka w statystyki pokazywal jasno, ze te 19% to byly przypadkowe wejscia (ludzie z zupelnie innych regionow, szukajacych zupelnie innego produktu z zupelnie innej branzy, ktorego nazwa byla podobna).
:)
11.10.2008, 15:20

Eryk Orłowskiprojektowanie
interakcji

Temat: badania porównawcze

Wojciech Kuśmierek:

Obecnie zgłębiam artykuł:
http://www.measuringusability.com/qualitative_risks.htm
>

tak się składa, że jestem szczęśliwym posiadaczem książki, w związku z którą powstała ta witryna, więc postanowiłem skrobnąć dwa słowa konkretnego naprzykładu na jej podstawie:

http://offline.pl/blog/testy-uzytecznosci-a-miary-ilos...
14.10.2008, 12:36

Marcin CharkiewiczManager w TP;
wykładowca: UW,
SGH, PW

Temat: badania porównawcze

Ależ o czym mówimy? Bo ja widzę różne sytuacje wymagające różnych rozwiązań, w tym dwie skrajnie inne:
A) zabawa intelektualna typu ranking 10 sklepów netowych na arbitralnie przyjętych wymiarach (i tu bez list kontrolnych trudno, bo trzeba dorobić dane dla minimalnych porównań). Ranking będzie subiektywny, mimo naszych starań ;)
B) onet pyta, czy jest lepszy od wp i interii, i co ma poprawić. Wtedy patrzymy pod kątem czy i ewentualnie czego mu brakuje do konkurencji. I w gre wchodzą przede wszystkim testy porównawcze.

Testy porównawcze - wg mnie tylko z użytkownikami. Z wielu powodów, ale wybiorę jeden: skoro szacowanie eksperckie jest obarczone błędami (pomijam wielkość, bo to zależy wiele i od casu, i od moderatora, i od 5 innych rzeczy) w stosunku do rzeczywistych wyników userów, to jest spore ryzyko, że oceniając 3 strony 3-krotnie zwiększymy błąd.

Praktyczne rozwiązanie (przetestowane): dobre zadania do testów z użytkownikami. Jeżeli celem jest odnaleźć kilka informacji, które userzy konsekwetnie znajdują tylko na stronie firmy X, a nie moga odnaleźć (pomimo ich istnienia) na stronie Y i stronie Z - to po co mi miary ilościowe? Tylko trzeba sprawnie wymyśleć zadania tak, by różnicowały testowane obiekty (typowo robi się to dla komórek, a nie tylko witryn)

Uwaga: oczywiście zwiększona wielkość próby (bo dodatkowe wartswy), rotacja (3n) kolejności wykonywania zadań na stronach (w próbie i dla usera) etc - standardy metodologii badań konsumenckich tutaj będą grały rolę.
5.11.2008, 17:10

Wojciech KuśmierekUX i dobre pomysły.
Konsulting i
Szkolenia.

Temat: badania porównawcze

Marcin Charkiewicz:
Uwaga: oczywiście zwiększona wielkość próby (bo dodatkowe wartswy), rotacja (3n) kolejności wykonywania zadań na stronach (w próbie i dla usera) etc - standardy metodologii badań konsumenckich tutaj będą grały rolę.
No właśnie - wielkość próby zdaje się tu być jednym z głównych czynników sukcesu. Z tymże, żeby oczekiwać przyzwoitej istotności, to pewnie by trzeba te rozmiary dobić do 15/grupę.
5.11.2008, 19:14

Marcin CharkiewiczManager w TP;
wykładowca: UW,
SGH, PW

Temat: badania porównawcze

Wojciech Kuśmierek:

No właśnie - wielkość próby zdaje się tu być jednym z głównych czynników sukcesu. Z tymże, żeby oczekiwać przyzwoitej istotności, to pewnie by trzeba te rozmiary dobić do 15/grupę.

Istotność nie ma tu wiele do rzeczy, bo to nie będzie badanie ilościowe. Jak dobrze ułożyć badanie, to dla 3 witryn wychodzi niecałe 30 osób na testach. Przy założeniach takich, jak podawałem.
6.11.2008, 11:00

Paweł Piskorzkoder HTML/CSS

Temat: badania porównawcze

Wojciech Kuśmierek:
No właśnie - wielkość próby zdaje się tu być jednym z głównych czynników sukcesu. Z tymże, żeby oczekiwać przyzwoitej istotności, to pewnie by trzeba te rozmiary dobić do 15/grupę.

Wg Nielsena wystarczy już 5 użytkowników:
http://www.useit.com/alertbox/20000319.html
A można też 20:
http://www.useit.com/alertbox/quantitative_testing.html
20.06.2009, 11:43

Jakub AndrzejewskiUsability Specialist
/ UX Designer

Temat: badania porównawcze

Porównywanie systemu A z B i wyniki typu: "A jest lepsze o x% od B" wymaga badań ilościowych. I nie widzę innego rozwiązania jak zapewnienie odpowiednio licznej próby badawczej i max identycznych warunków badania dla obu systemów.
Dla badań z użytkownikami potrzebowałbyś min 20 osób dla danej grupy docelowej. Poprawienie tego marginesu błędu o połowę powoduje, że musisz już "poczworzyć" próbę.

Pytanie czy ROI z takich silnie metodycznie badań jest zadowalający!

Największy dla mnie sens wydają się mieć testy A/B - wtedy są gigantycznie liczne próby i badanie jest statystycznie ważne. Bez odpowiedzi zostają jednak pytania dlaczego A jest lepsze od B.Jakub Andrzejewski edytował(a) ten post dnia 17.11.10 o godzinie 15:52
17.11.2010, 15:51



Wyślij zaproszenie do