Dobór próby w badaniach Customer Experience

Od prostego kłamstwa do trudnej prawdy, czyli jak unikać błędów statystycznych

W stwierdzeniu “statystyki nie kłamią” kryje się ważna prawda. W analityce badawczej jest łatwo wyciągnąć błędne wnioski, nawet z poprawnych danych. Sposoby gromadzenia danych, metody ich interpretacji i możliwości porównania wyników – wszystkie obarczone są ryzykiem błędu. Dla analityka podejmującego się badań CX, ratunkiem jest wiedza o statystyce i dyscyplina w przestrzeganiu reguł, które pomagają odróżnić trendy od pozorów.

Handel detaliczny przenosząc się do Internetu, stworzył interesujący precedens. Po raz pierwszy w historii badania marketingowe stały się niskokosztowym przywilejem wszystkich retailerów, a nie tylko największych sieci handlowych. Powszechne stało się użycie narzędzi analitycznych, monitorujących przepływy i działania klientów na stronach internetowych. Do wiedzy o wizytach, koszykach, konwersjach i transakcjach dołączyły dane demograficzne. Wyzwaniem przestało być przepytanie klientów w formie ankiet, co wyposażyło marketerów i badaczy w dodatkowe informacje o deklarowanych preferencjach, nastrojach i intencjach.

Dostępność cyfrowych danych spowodowała, że w zasadzie jedyną słuszną praktyką stało się podejmowanie decyzji w oparciu właśnie o nie (data-driven). Obecnie coraz szersze grono osób odpowiedzialnych za rozwój biznesu, aby monitorować kluczowe wskaźniki efektywności i wyciągać poprawne wnioski, spotyka się z koniecznością samodzielnej analizy danych. Z pewnością niezbędne jest to w obszarze customer experience, który realizowany jest w oparciu o dane uzyskane w badaniach CX wzbogacone o wartości kontekstowe pobierane z systemów analitycznych i CRM. Rozpoczynając przygodę z tą szczególną formą badań, należy brać pod uwagę statystyczne pułapki czekające na drodze do prawdziwych wniosków.

Mała próbka to wielkie kłamstwo?

W 2014 r. 30-letnia wówczas Elizabeth Holmes, założycielka startupu Theranos, została okrzyknięta najmłodszą w historii kobietą-miliarderem, która samodzielnie doszła do fortuny. Zaledwie 10 lat wcześniej, inspirująca się Steve’em Jobsem studentka Stanford odeszła z uczelni, aby rozwijać własne przedsięwzięcie w branży med-tech. Firma obiecała bezboleśnie rozwiązać problem pobierania krwi do badań, opracowując technologię do analizy mikroskopijnej próbki pod kątem wielu badań jednocześnie. Przez dekadę zebrano setki milionów dolarów finansowania, co pozwoliło wycenić firmę na zawrotne 9 miliardów dolarów, z których 50% należało do Holmes. Wizerunek wizjonera-geniusza długo przyćmiewał fakt, że technologii stojącej za Theranos nigdy było. Badanie niewielkich próbek krwi okazało się wielkim kłamstwem.

Na szczęście w pracy analityka to nie charyzma decyduje o sukcesie, a zasady prowadzące do wiarygodności pozostają niezmiennie te same. Liczą się wyniki i i poprawna ocena wielkości próby.

Zacznijmy od tego, że badanie statystyczne nie musi objąć całej populacji (czyli “zbioru elementów badawczych”, do którego chcemy odnosić wnioski), aby wyniki były prawdziwe dla całej grupy. Tym samym, na gruncie CX, badając doświadczenie klientów nie jest wymagane badanie wszystkich konsumentów, którzy zakupili produkt lub usługę danej marki. W statystyce nazywamy takie badanie “częściowym” wtedy, kiedy informacje są zbierane tylko od wybranych ze zbiorowości jednostek. Tworzą one zbiorowość próbną, czyli tzw. próbę badawczą. Dane na jej temat pozwalają ferować wyroki na temat całej zbiorowości pod warunkiem, że próbka jest “reprezentatywna” dla całości populacji. Jak to osiągnąć?

Możliwe jest zastosowanie dwóch metod doboru próby. Pierwsza, gdy próbkę dobiera badacz (tzw. dobór celowy) wymaga, aby próba badawcza była statystycznie prawdopodobna. Musi zatem odzwierciedlać prawdziwe dla całej zbiorowości uwarunkowania jej struktury. Przykładowo, dla orzekania na temat populacji Polski, próbka nie może składać się z osób wyłącznie pochodzących z dużych miast, posiadających wyższe wykształcenie. Aby wyniki były reprezentatywne dla Polaków jako grupy, próba powinna odzwierciedlać rozkład cech charakterystyczny dla polskiego społeczeństwa, w którym prawie 40% osób jest mieszkańcami wsi, zaś uczelnię wyższą ukończyło nie więcej niż 21% populacji. Znając procentowe rozkłady takich zmiennych w populacji, możemy rozkłady odtworzyć w próbie. Zgodnie z tą metodą trzeba poświęcić sporo uwagi temu, kogo zapraszamy do badania, a mimo to nadal istnieje spore ryzyko błędu, który trudno jest oszacować.

Dlatego łatwiejszym w realizacji pomysłem na dobieranie uczestników jest dobór losowy, w którym badane osoby mają równe prawdopodobieństwo wejścia w skład próby. Ten sposób, wymaga znacznie większej próby, której dokładna liczebność uzależniona jest wielu czynników.

Są to m.in.:

wielkość akceptowalnego błędu pomiaru (mniejszy oczekiwany błąd – większa próba)
zakres zmienności mierzonej cechy w populacji (większa wariancja – większa próba)
zakładany przedział ufności (mniejszy przedział ufności – większa próba)
wielkość populacji (im większa populacja, tym próba może stanowić mniejszy odsetek populacji).

W obliczeniu jak dużą grupę powinniśmy zbadać, aby zachować wiarygodność tj. niski błąd pomiaru i mały przedział ufności (związany z wysokim prawdopodobieństwem np. 95%), pomagają gotowe kalkulatory: https://www.cem.pl/pl/analizy/wielkosc-proby.

Prowadząc badania CX dotyczące kanału online, czyli e-commerce, stron firmowych czy aplikacji mobilnych, należy brać pod uwagę dane z systemów analitycznych, które wskazują wielkość ruchu z podziałem na unikatowe wizyty i kolejne sesje. Szukając wyników reprezentatywnych dla całej zbiorowości klientów, zwykle należy pozyskać dużą ilość opinii od użytkowników odwiedzających firmową stronę lub aplikację.

Wielu specjalistów w branży online marketingu popełnia właśnie ten błąd. Częstym celem prowadzonych wewnętrznie badań strony jest poprawa jej konwersji, w której do optymalizacji stosuje się eksperymenty porównania wersji A/B. Laikowi wydaje się, że w takim eksperymencie porównując wyniki grup 100-osobowych może ocenić wpływ różnic w kreacjach na konwersję, jednak aby wyniki były istotne statystycznie grupa powinna zwykle być liczona przynajmniej w tysiącach. Jak wielu? W testach A/B, dążąc do poprawy konwersji, warto posłużyć się kalkulatorem, który szacuje potrzebną wielkość próby badawczej: https://www.optimizely.com/sample-size-calculator/

Podobnie jest w obszarze customer experience. Realizując badania tego typu w ramach działalności YourCX, obserwujemy, że firmy spieszą się do analizy danych i wyciągania wniosków nawet z kilkudziesięciu ankiet zebranych w czasie kilku kolejnych dni. Tymczasem niskie oceny w małych próbach badawczych mogą być zwyczajnie dziełem przypadku. Wnioski wyprowadzone na podstawie małych próbek prowadzić mogą do dużych przekłamań.

Małe zmiany potrzebują dużo czasu

Wśród wielu fanów optymalizacji konwersji pokutuje przekonanie, że drobne zmiany mogą i powinny być realizowane często. Załóżmy hipotetyczną sytuację. Mając w pamięci, że potrzebna jest duża próba badawcza, wprowadziliśmy pewne zmiany na stronie internetowej i zebraliśmy w kolejnym miesiącu odpowiedzi 5000 respondentów. Opinie na temat nowej strony internetowej są nieco lepsze niż w poprzedniej ankiecie. Czy eksperyment zakończył się powodzeniem? Niekoniecznie.

Kolejną pułapką w analizie danych jest poleganie jedynie na liczebności próby do walidowania wyników, zamiast opierania się na właściwym jej doborze. Wprowadzając proklienckie zmiany do serwisu internetowego, nie możemy śledzić reakcji w ocenach satysfakcji jedynie miesiąc do miesiąca. Jeśli oceny serwisu nie wzrosły wyraźnie w kolejnym miesiącu po wprowadzeniu zmian, nic w tym dziwnego. Zmiana jest pojęciem abstrakcyjnym, odczuwamy ją tylko znając stan “przed” i porównując do stanu “po”. Tutaj znów z pomocą przychodzi analityka internetowa, pozwalająca na śledzenie tzw. kohort, czyli grup użytkowników z ich historią odwiedzin przestawioną w czasie.

Wprowadzone zmiany w serwisie mogą być ocenione przez nowe osoby, które nie widziały jego poprzedniej wersji (nie doświadczyły problemu). Te osoby zawsze będą przekazywać dość wysokie oceny, ponieważ nie przytrafiło im się negatywne doświadczenie. Dzięki analizie kohortowej z YourCX możliwe jest śledzenie powracających grup użytkowników w czasie. To jedyny sposób, aby zbadać, że zmiany wprowadzone w szczególnym punkcie podróży klienta nie tylko rzeczywiście są odczuwane przez klientów, ale również przez tych klientów, którzy wcześniej narzekali na problem. A ponieważ oczekiwanie na powrót użytkowników z tej kohorty, w takiej liczbie, aby wielkość próby mogła być reprezentatywna, może potrwać nawet kilka miesięcy, dobrze jest prowadzić badania regularnie i analizować wyniki w dłuższych odstępach czasu.

Jabłka do gruszek

Największy sklep internetowy na świecie – Amazon – jako grupa przedsiębiorstw jest wart obecnie prawie trylion dolarów. Jednak 19 lat temu był raptem jednym z wielu sklepów internetowych powstałych na fali tzw. dot-coms, czyli firm oferujących produkty w modelu zamówienia online. Ameryka oszalałą na ich punkcie, wierząc że wszystko co rozwija się w internecie osiągnie sukces. Wykorzystało to Wall Street wciągając setki dot-comów na giełdowy parkiet. Publiczna oferta księgarni internetowej Amazon ogłoszona została w cenie 18 dolarów za akcję, a już po 3 latach w styczniu 2000 r. te same akcje warty były 89 dolarów. Kiedy pękła bańka dot-comów, akcje wszystkich firm e-commerce oraz portali poszybowały bez wyjątku w dół. Analogicznie kurs Amazon spadł do poziomu 6 dolarów we wrześniu 2001 r. Kolejne internetowe firmy zamykały swoje podwoje, a wielu wróżyło upadek również Amazonowi. Pytany o ten okres Jeff Bezos, twierdzi, że nie martwił się wynikami akcji, ponieważ mierzył szereg innych, wewnętrznych wskaźników, które decydowały o kondycji jego biznesu.

Tak jak wartość firmy, każdą inną wartość można mierzyć różnymi metodami. Dlatego porównanie dwóch, nawet tych samych wskaźników może nie mieć żadnego sensu. W badaniach CX, wykorzystuje się metodologię NPS, którego wskaźnik podawany jest publicznie w wielu branżowych benchmarkach. Nierzadko powoduje to chęć konkurowania o wyższy wynik, jednak śledzenie konkurencji bez właściwego kontekstu może wprowadzać w błąd. Wprawdzie metodologia Net Promoter Score dąży do uzyskania obiektywnej wiedzy na temat siły rekomendacji w oparciu o jakość doświadczeń, w praktyce trudno jednak porównać wyniki nie znając metod ich pomiaru. Bardziej niż ogólny wynik liczą się szczegółowe dane dotyczące doświadczeń w poszczególnych punktach styku klienta z marką.Ten sam wynik dla satysfakcji mierzony po zakupie lub już po odebraniu przesyłki może oceniać dwa, zupełnie różne doświadczenia.

Nie wszyscy rozumieją liczby tak samo. To właśnie emocje klientów są najważniejsze i często ukrywają się w verbatimach. Zdarzają się ankiety z oceną NPS 9, które w pytaniach otwartych ujawniają nieprzyjemne doświadczenie z kierownikiem sklepu. Liczby nie zawsze są dokładne, a sam wynik jest pewnym uproszczeniem rzeczywistości.

Podobnie jak na giełdzie, w badaniu CX nie ma sensu porównywać wyników dzień do dnia, zwłaszcza że podnosi to ryzyko bazowania na niskiej próbie. Każdy inwestor wie, że bardziej niż wartości liczą się trendy i tych trzeba wypatrywać. Uzyskując wynik NPS taki sam jak w roku poprzednim, możliwe jest, że wyprzedziliśmy konkurencję. Na przykład, dla branży software, generalną tendencją w Net Promoter Score jest, że średnie wyniki branżowe spadają, w korelacji do wzrostu wymagań klientów. Jeśli roczny wynik NPS dostawcy oprogramowania stoi w tym samym punkcie, to mimo to nastąpiła poprawa doświadczenia klientów. Znając trendy, można ze sobą skuteczniej porównywać wyniki.

Jak szukać prawdy?

Dzięki platformie badawczej YourCX możliwe jest tworzenie nieograniczonej liczby dopasowanych do kontekstu wizyty ankiet, a także dokładne śledzenie zachowań Klientów. To daje szczególną możliwość tworzenia “mniejszych”, kontekstowych badań pytających tylko o konkretny punkt w podróży klienta.

Z drugiej strony powstaje możliwość zrozumienia kontekstu negatywnego doświadczenia na podstawie obserwacji działań klienta podczas wizyty na platformie e-commerce. Ankiety internetowe dotyczące pojedynczych obszarów doświadczenia online, np. na stronach w dotyczących zwrotu i reklamacji, połączone są w YourCX z danymi o historii użytkownika. Dzięki temu możliwe jest analizowanie właściwych sytuacji, nie tylko dotyczących konkretnego punktu styku (przeglądania informacji na temat zwrotu lub reklamacji towaru), ale również klientów, którzy wrócili do sklepu po dokonanym zakupie.

Przykładowo, mamy hipotezę, że negatywne oceny zawdzięczamy niewłaściwie dostosowanej do oczekiwań polityce zwrotów i reklamacji. Pamiętajmy przy tym jak ważna jest wielkość próby badawczej, która może zafałszować wyniki badania. Nawet jeśli całościowe doświadczenie z serwisem oceniło w danym miesiącu 10000 osób, to może być za mało do oceny tego pojedynczego aspektu. To co badamy, nie jest tak ważne, jak to co oceniają klienci. Dobór próby w tym konkretnie przypadku może być kluczowy!

Dlaczego? Wyobraźmy sobie, że z przebadanych w ogólnym badaniu CX, 30% osób przekazało negatywną opinię, ale tylko 20% z tych osób dokonało zakupu i zaledwie 5% z nich zwróciło towar. Daje nam to już próbę badawczą rzędu zaledwie 30 osób! Z tego powodu potrzebujemy więcej czasu na zebranie satysfakcjonującej próby badawczej.

Znaleźliśmy realne powody niskiego wskaźnika NPS, teraz pora na zmiany! Wprowadziliśmy nową politykę zwrotów oraz dedykowany numer telefonu, aby zdenerwowani klienci nie musieli przebijać się przez ogólną infolinię lub inny skomplikowany proces kontaktu. W nowym badaniu serwisu wynik NPS wzrósł, ale jak możemy się upewnić, że za sprawą tej konkretnie zmiany?

Porównując wyniki NPS dla nowego standardu obsługi klientów, nie możemy po prostu spojrzeć na zmianę wyniku w nowym miesiącu, ponieważ część ocen może dotyczyć osób, które pamiętają jeszcze poprzednie doświadczenie. Ponownie trzeba dokonać analizy kohortowej i dla szczególnego kontekstu, badać powracające i nowe grupy klientów. Duży rozmiar próby badawczej pozwoli filtrować wyniki w platformie YourCX – np. wykluczyć osoby, które złożyły reklamację lub wniosły o zwrot jeszcze w ramach poprzedniej procedury. Najciekawszą kohortą będą klienci, który oddawali towar w warunkach starej procedury i teraz ocenili to samo doświadczenie po zmianach. Zbierając wśród nich próbę rzędu 500 osób, możemy obliczyć procentowe prawdopodobieństwo wiarygodnego wyniku i jeśli uzyskamy przynajmniej 95% pewności, bez cienia wahania raportować pozytywne zmiany. W ten sposób nie tylko mierzymy, ale też realnie poprawiamy doświadczenia Klientów.

Nie czekaj, pozwól klientom wyposażyć Twoją firmę w wiedzę niezbędną do jej rozwoju. Zacznij badania customer experience razem z YourCX, wypełnij formularz na stronie i skontaktuj się z naszym przedstawicielem.

Źródła informacji

Analiza danych

Działania

Dla kogo

Zagadnienia

Materiały

O nas

Dobór próby w badaniach Customer Experience