Automatyzacja testów: co się naprawdę opłaca automatyzować, a co nie

Automatyzacja testów ma jedną ogromną zaletę i jedną ogromną pułapkę. Zaleta jest oczywista: szybciej dostajesz feedback i szybciej dowozisz. Pułapka jest mniej oczywista: możesz zautomatyzować bardzo dużo i nadal nie mieć jakości. Wtedy automatyzacja staje się kosztownym hobby, a nie dźwignią biznesu.

Contents

Dlaczego większość automatyzacji nie dowozi ROI
Zasada, która upraszcza decyzje
Co się opłaca automatyzować, prawie zawsze
Co automatyzować ostrożnie, bo łatwo spalić czas
Czego nie opłaca się automatyzować, prawie nigdy
Prosta matryca decyzyjna, która działa w 15 minut
Jak policzyć ROI automatyzacji, żeby to przestało być dyskusją na wiarę
Jak zacząć, żeby nie zbudować wielkiego, wolnego potwora
Podsumowanie

Jeśli chcesz podejść do tego dojrzale, musisz przestać myśleć kategorią zautomatyzujemy jak najwięcej, a zacząć myśleć kategorią zautomatyzujemy to, co daje największy zwrot, a resztę zostawimy w manualu albo przeniesiemy niżej w piramidzie testów. W praktyce nie wygrywa organizacja, która ma najwięcej testów. Wygrywa organizacja, która ma najlepsze testy w najlepszych miejscach.

Dlaczego większość automatyzacji nie dowozi ROI

Najczęściej dlatego, że automatyzacja startuje od niewłaściwego pytania. Zamiast pytać które ryzyka są najdroższe i które scenariusze muszą być chronione codziennie, pytamy które testy manualne mamy i jak je przepisać na automaty. To jest prosta droga do dużej liczby testów UI, długich pipeline, flakiness i frustracji.

Drugi powód to automatyzacja rzeczy, które ciągle się zmieniają. Jeśli produkt jest w fazie intensywnych zmian interfejsu, to automaty UI będą się łamały szybciej, niż będziesz je naprawiał. Wtedy automatyzacja nie przyspiesza. Ona przenosi czas z testowania na utrzymanie.

Trzeci powód to brak definicji, po co dany test istnieje. Test bez powiązania z ryzykiem jest tylko kodem, który czasem świeci na czerwono.

Zasada, która upraszcza decyzje

Najbardziej opłaca się automatyzować to, co jest jednocześnie krytyczne dla biznesu, często wykonywane i stabilne w czasie. Najmniej opłaca się automatyzować to, co jest niestabilne, rzadko używane i wymaga ludzkiej oceny.

Brzmi banalnie, ale gdy zaczniesz tym filtrem przechodzić przez backlog testów, nagle wiele decyzji robi się oczywistych.

Co się opłaca automatyzować, prawie zawsze

1) Smoke i krytyczne ścieżki, czyli testy, które chronią pieniądze

Jeśli miałbym wskazać jeden obszar automatyzacji, który prawie zawsze ma sens, to jest to ochrona krytycznych ścieżek. Nie dlatego, że brzmi profesjonalnie, tylko dlatego, że to są miejsca, w których błąd natychmiast zamienia się w stratę. Jeśli masz produkt sprzedażowy, krytyczne flow to zwykle logowanie, rejestracja, wyszukiwanie, koszyk, checkout, płatność, reset hasła. Jeśli masz SaaS, to logowanie, uprawnienia, billing, aktywacja kluczowej funkcji, upgrade planu. To nie są testy na pokaz. To są testy, które odpowiadają na jedno pytanie: czy biznes działa jutro rano.

Warto zauważyć jeszcze jeden mechanizm. Krytyczne ścieżki wcale nie muszą psuć się często, żeby ich automatyzacja miała sens. Wystarczy, że psują się rzadko, ale boleśnie. Wtedy ROI wynika nie z liczby znalezionych błędów, tylko z tego, że jeden błąd, który przeszedł, kosztuje więcej niż miesiące utrzymania testu. I to jest powód, dla którego dobrze zaprojektowany smoke suite jest jak pas bezpieczeństwa. Zakładasz go nie dlatego, że co tydzień masz wypadek, tylko dlatego, że wypadek jest drogi.

Jak powinien wyglądać sensowny smoke na start. Krótko i bez przesady. Kilka testów end to end, ale tylko na absolutnie kluczowych flow i tylko w wersji minimalnej. Logowanie działa. Wyszukiwanie zwraca wynik. Produkt da się dodać do koszyka. Checkout przechodzi do kroku płatności. Płatność dochodzi przynajmniej do potwierdzenia po stronie systemu, nawet jeśli finalny krok jest stubowany. Każdy taki test ma mieć jedno zadanie: wykryć regresję, która blokuje biznes. To nie jest miejsce na testowanie wszystkich kombinacji. To jest miejsce na szybki sygnał, czy release jest w ogóle bezpieczny.

To jest automatyzacja, która ma sens nawet wtedy, gdy nie masz idealnej architektury. Bo nawet proste testy typu czy da się przejść od A do B potrafią zatrzymać regresję, która kosztowałaby dużo więcej niż utrzymanie tych testów. A jeśli pipeline ma być narzędziem decyzji, to właśnie smoke ma być pierwszą informacją zwrotną, nie trzygodzinna regresja.

2) Testy kontraktowe i integracyjne na API, bo dają największy zwrot przy najmniejszym bólu

Jeśli miałbym wskazać jeden typ automatyzacji, który najczęściej daje świetny zwrot i jednocześnie najmniej boli w utrzymaniu, to są to testy API i kontraktowe. One są szybsze niż UI, stabilniejsze, łatwiej je uruchamiać równolegle, łatwiej je debugować, a przede wszystkim dają Ci kontrolę nad tym, co tak naprawdę psuje biznes, czyli nad integracjami i zależnościami. Większość drogich problemów jakościowych nie rodzi się w ładnym przycisku. Rodzi się na styku systemów, danych, uprawnień, konfiguracji i zewnętrznych usług.

Testy kontraktowe mają tu szczególną wartość, bo łapią zmiany w API zanim zamienią się w produkcyjne niespodzianki. Jeśli jeden zespół zmienia pole, typ danych albo wymagane atrybuty, kontrakt powinien krzyknąć. I to jest feedback, który oszczędza tygodnie frustracji. Dodatkowo API testy łatwiej utrzymać w ryzach, bo mniej zależą od wizualnych zmian i od UI refactorów, które w każdym produkcie są nieuniknione.

W praktyce wiele zespołów ma za dużo UI i za mało API. A potem dziwią się, że pipeline trwa wieki, że testy są flaky i że każdy bug jest trudny do odtworzenia. Jeżeli masz wybór, automatyzuj jak najwięcej na poziomie API i integracji, a UI zostaw na cienką warstwę smoke i kilka kluczowych scenariuszy. To jest najprostszy sposób, żeby skrócić czas feedbacku bez utraty realnej ochrony.

3) Testy regresji dla rzeczy, które zmieniają się rzadko, ale psują się boleśnie

Są obszary, które nie są sexy i nie są codziennie klikane, ale gdy padną, robi się gorąco. Uprawnienia i role. Podatki. Rabaty. Faktury. Eksporty. Integracje z zewnętrznymi systemami. Raporty finansowe. Procesy, które dzieją się raz na miesiąc, ale muszą zadziałać w dniu rozliczenia. To są miejsca, gdzie manual często zawodzi nie dlatego, że ludzie są słabi, tylko dlatego, że rzadko się to dotyka i łatwo o fałszywe poczucie bezpieczeństwa.

W takich obszarach automatyzacja działa jak polisa. Raz budujesz zestaw testów, potem tylko utrzymujesz. I to utrzymanie bywa minimalne, bo logika tych obszarów zwykle zmienia się wolniej niż interfejs. Największy błąd, jaki firmy robią, to zostawianie takich rzeczy jako nie mamy czasu, bo nie palą się codziennie. One palą się rzadko. Ale jak już się zapalą, to potrafią spalić miesiąc.

Praktyczna wskazówka: te testy powinny być projektowane tak, żeby były deterministyczne, oparte na kontrolowanych danych i uruchamiane cyklicznie, nie tylko przy merge. Wiele regresji w obszarach rozliczeń wychodzi nie przy codziennym development, tylko przy zmianie konfiguracji, danych lub integracji. Automatyzacja ma to wyłapać zanim zrobi to klient albo księgowość.

4) Walidacje i logika biznesowa, jeśli da się ją testować nisko

Wiele firm próbuje testować logikę biznesową przez UI, a potem cierpi. Wchodzą w formularz, wpisują dane, klikają dalej, sprawdzają komunikaty. To jest powolne, kruche i kosztowne w utrzymaniu. Dużo lepiej jest testować reguły tam, gdzie są zaimplementowane, czyli na poziomie serwisów, funkcji, komponentów, a nie na poziomie przeklikiwania ekranów. Im niżej testujesz, tym szybciej i taniej.

Logika biznesowa to idealny kandydat do automatyzacji, bo jest przewidywalna i da się ją opisać jako zestaw reguł. Rabat powinien naliczyć się w określonych warunkach. Limit powinien zadziałać w określonych warunkach. Walidacja powinna przepuścić określone formaty. I tu automaty są świetne, bo mogą przebiec setki kombinacji danych w sekundach, czego manual nie zrobi bez ogromnego nakładu.

Warto też pamiętać o jednym. Automatyzując logikę nisko, zwiększasz testowalność produktu. To jest inwestycja, która procentuje później, bo każda kolejna zmiana w logice jest tańsza do zweryfikowania.

5) Monitoring syntetyczny w produkcji dla krytycznych flow

To nie jest klasyczna automatyzacja testów w CI, ale w praktyce daje ogromną wartość, czasem większą niż kolejna paczka testów w pipeline. Syntetyczne checki typu czy można się zalogować, czy można dodać do koszyka, czy checkout dochodzi do kroku płatności, potrafią wykryć incydent zanim zrobi to klient. A to jest różnica między problemem, który widzisz w monitoringu, a problemem, o którym dowiadujesz się z komentarzy na Facebooku.

Syntetyki działają szczególnie dobrze, gdy masz zależności zewnętrzne, operatorów płatności, integracje logistyczne, zewnętrzne API, bo one potrafią psuć się punktowo i w czasie. Pipeline może być zielony, a produkcja może już cierpieć, bo zmieniły się warunki, ruch, konfiguracja albo zachowanie dostawcy. Monitoring syntetyczny jest w tym sensie testem realności. Nie mówi ci, że kod przeszedł. Mówi ci, że klient nadal może zrobić to, co musi zrobić.

Praktyczna zasada: syntetyki mają być krótkie, deterministyczne i mierzyć czas, a nie tylko prawdę lub fałsz. Bo dla biznesu różnica między działa a działa wolno bywa taka sama jak między działa a nie działa.

Co automatyzować ostrożnie, bo łatwo spalić czas

1) Testy UI end to end na szeroką skalę

Testy E2E są potrzebne, ale mają być jak złoto, a nie jak piasek. W idealnym świecie E2E to cienka warstwa, która potwierdza, że krytyczne flow działa od początku do końca, a reszta jakości jest łapana niżej, szybciej i taniej. Problem polega na tym, że wiele zespołów robi dokładnie odwrotnie. Zaczyna automatyzację od UI, bo to jest najbardziej widoczne i najłatwiejsze do wytłumaczenia biznesowi. Klikamy jak użytkownik, więc to musi być najlepsze. A potem pojawia się rachunek, którego nikt nie planował.

Zbyt duża liczba E2E robi trzy rzeczy naraz i każda z nich boli. Po pierwsze wydłuża pipeline. Nawet jeśli jeden test trwa minutę, sto testów to już godziny, a godziny w CI to nie tylko czas maszyn, ale przede wszystkim czas ludzi, którzy czekają na feedback albo zaczynają go omijać. Po drugie podnosi flakiness, bo UI testy są z natury bardziej wrażliwe na wszystko: czas ładowania, animacje, drobne zmiany w selektorach, stabilność środowiska, dane testowe, a nawet kolejność uruchomienia. Po trzecie daje fałszywe poczucie bezpieczeństwa, bo testy przechodzą, ale często testują jedynie scenariusz idealny. A realne bugi siedzą w wyjątkach, w danych, w integracjach, w edge case, czyli w miejscach, do których E2E rzadko dociera w sposób systemowy.

Najbardziej bolesny paradoks jest taki, że gdy E2E robi się dużo, zespół zaczyna je traktować jak cel sam w sobie. Dopisuje kolejne, bo tak rośnie coverage. Tylko że coverage w E2E rośnie wolno, kosztuje dużo i zwykle przykrywa to, że brakuje testów niższego poziomu. I wtedy zaczyna się normalizacja obejść. Wyłączamy część suite. Uruchamiamy tylko w nocy. Ignorujemy czerwone, bo pewnie flake. W tym momencie E2E przestaje chronić jakość, a zaczyna ją symulować.

Jak podejść do tego mądrze. Opłaca się mieć małą liczbę E2E na krytycznych flow, naprawdę małą, i trzymać je w stanie świętym: szybkie, stabilne, deterministyczne. Resztę przenosisz na API, kontrakty, integracje i testy komponentów. Jeśli potrzebujesz prostej reguły, to E2E powinny odpowiadać na pytanie czy mogę wykonać kluczowy cel, a nie na pytanie czy wszystko działa w każdej kombinacji. Kombinacje testujesz niżej.

2) Testy wizualne i pixel perfect

Testy wizualne potrafią uratować UI, zwłaszcza w produktach, gdzie layout i prezentacja są częścią wartości, na przykład w e commerce, w aplikacjach konsumenckich, w marketingowych landingach, w produktach, gdzie błąd wizualny od razu obniża zaufanie. Ale to jest automatyzacja, która ma dwie miny. Pierwsza to fałszywe alarmy. Druga to utrzymanie baseline w świecie, w którym UI zmienia się ciągle.

Pixel diff bywa bezlitosny. Dla narzędzia różnica o jeden piksel to różnica. Dla użytkownika to czasem nic, a czasem katastrofa. Jeśli wrzucisz testy wizualne masowo, bardzo łatwo zalać zespół czerwonymi alertami, które nie mają znaczenia. Wtedy zaczyna się ignorowanie, a ignorowanie w automatyzacji jest zawsze początkiem końca zaufania.

Kiedy to ma sens. Tam, gdzie layout jest krytyczny i zmiany są kontrolowane. Kluczowe ekrany sprzedażowe, checkout, koszyk, płatność, strony z formularzami, gdzie układ wpływa na konwersję. Tam test wizualny jest jak alarm przeciwpożarowy. Kiedy nie ma sensu. Gdy UI jest w ciągłej przebudowie, gdy macie dużo eksperymentów A B, gdy komponenty są dynamiczne, gdy treści są zmienne, bo wtedy baseline żyje szybciej niż testy.

Jak to ustawić, żeby nie spalić czasu. Najpierw ogranicz zakres do kilku ekranów, potem ustal reguły, co jest akceptowalną zmianą, a co jest defektem, i miej rytuał aktualizacji baseline. Testy wizualne mają wzmacniać pewność, a nie produkować hałas.

3) Automatyzacja mobile, jeśli nie masz stabilnego środowiska i danych

Automaty na mobile są bardzo wartościowe, bo mobile to dziś często większość ruchu i często większość bólu użytkownika. Tylko że automatyzacja mobile wymaga większej dyscypliny niż web. Masz więcej wariantów systemów, urządzeń, wersji, integracji, uprawnień, powiadomień, a do tego dochodzi sieć, która w realnym świecie jest kapryśna. Jeśli nie masz stabilnego środowiska i danych testowych, mobilne automaty szybko zamienią się w generator losowych czerwonych buildów.

Najczęstsze problemy są powtarzalne. Testy padają, bo dane nie są deterministyczne. Testy padają, bo środowisko jest wspólne i ktoś zmienił stan. Testy padają, bo nie ma izolacji kont i sesji. Testy padają, bo buildy są niezsynchronizowane z backendem. Testy padają, bo urządzenia w farmie są obciążone. I nagle zespół ma wrażenie, że automatyzacja mobile jest z natury flaky. A prawda jest taka, że to nie mobile jest problemem. Problemem jest brak fundamentów.

Jak robić to bez bólu. Po pierwsze zaczynasz od minimalnego smoke na kluczowych flow, nie od pełnej regresji. Po drugie budujesz deterministyczne dane testowe i izolację kont. Po trzecie ustalasz, na jakich urządzeniach testujesz na każdą zmianę, a jaką macierz puszczasz nocą lub cyklicznie. Po czwarte dopiero potem rozszerzasz zakres. Mobilna automatyzacja działa świetnie, gdy jest selektywna i dobrze osadzona w procesie. Działa źle, gdy próbujesz nią zastąpić całe QA.

Czego nie opłaca się automatyzować, prawie nigdy

1) Rzeczy, które wymagają oceny człowieka

UX, czytelność, zrozumiałość komunikatów, wrażenia z procesu, mikrocopy, dostępność w sensie doświadczenia, to są obszary, gdzie automat może pomóc jako filtr, ale nie zastąpi człowieka. Automat sprawdzi, czy przycisk istnieje i czy da się go kliknąć. Nie sprawdzi, czy użytkownik rozumie, że ma go kliknąć, czy czuje się bezpiecznie, czy komunikat błędu jest sensowny, czy proces jest logiczny. Jeśli próbujesz to automatyzować na siłę, dostajesz testy, które formalnie przechodzą, a produkt nadal frustruje.

2) Funkcje, które żyją w ciągłej przebudowie

Jeśli obszar UI zmienia się co sprint, automatyzacja UI będzie kosztować dużo utrzymania i będzie stale goniła produkt. To jest klasyczny moment, w którym lepiej oprzeć się na testach niższego poziomu, czyli API, komponenty, logika, a UI zostawić na krótki smoke i manualne exploratory do czasu ustabilizowania. Automatyzacja ma bronić stabilności. Jeśli obszar nie jest stabilny, automatyzacja stanie się podatkiem od zmian.

3) Rzadkie edge case, które nie są ryzykiem, tylko ciekawostką

Automatyzacja każdego pojedynczego przypadku, który zdarzył się raz, to prosta droga do rozrostu suity bez wartości. Taki test potrafi żyć latami, psuć się co jakiś czas, wymagać utrzymania, a realnie broni scenariusza, który nie wraca. Lepiej zapisać obserwację, dodać monitoring lub alerty, a test automatyczny tworzyć tylko wtedy, gdy problem ma realny koszt albo realne prawdopodobieństwo powrotu. Automatyzacja nie jest muzeum bugów. Automatyzacja jest ochroną ryzyka.

Prosta matryca decyzyjna, która działa w 15 minut

Jeśli chcesz szybko zdecydować, czy coś automatyzować, odpowiedz na cztery pytania.:

Czy ten scenariusz jest krytyczny dla przychodu, bezpieczeństwa albo reputacji.
Czy jest powtarzalny, czyli będzie uruchamiany często.
Czy jest stabilny, czyli nie zmienia się co sprint.
Czy da się go przetestować nisko, czyli bez UI.

Jeśli masz trzy razy tak, automatyzuj. Jeśli masz dwa razy tak, automatyzuj ostrożnie, najlepiej niżej. Jeśli masz jedno tak, zostaw w manualu lub monitoringu. Jeśli masz zero, nie dotykaj.

Jak policzyć ROI automatyzacji, żeby to przestało być dyskusją na wiarę

Najprostszy model jest praktyczny i konserwatywny. Liczysz, ile godzin miesięcznie idzie na ręczną regresję danego obszaru oraz ile kosztuje Cię jedna godzina pracy. To jest oszczędność operacyjna. Potem dodajesz koszt ryzyka, czyli ile incydentów lub krytycznych defektów w tym obszarze miałeś w ostatnich miesiącach i jaki był ich koszt. To jest oszczędność ryzyka. Jeśli automatyzacja ma pokryć krytyczny flow, często sama oszczędność ryzyka bije oszczędność godzin.

I tu ważna rzecz. Automatyzacja zawsze kosztuje utrzymanie. Jeśli nie uwzględnisz czasu na utrzymanie, ROI będzie wyglądało pięknie na papierze i słabo w życiu.

Jak zacząć, żeby nie zbudować wielkiego, wolnego potwora

Najlepszy start to nie jest napisanie stu testów. Najlepszy start to zrobienie małego zestawu smoke na krytyczne ścieżki i spięcie go z CI tak, żeby feedback był szybki. Potem dokładanie testów API i integracyjnych tam, gdzie najczęściej uciekają regresje. Dopiero na końcu rozbudowa E2E, ale tylko dla kluczowych flow i tylko wtedy, gdy masz stabilne środowiska i dane.

Jeśli zrobisz to w tej kolejności, automatyzacja zaczyna pomagać szybko. Jeśli zrobisz to odwrotnie, zaczyna przeszkadzać szybko.

Podsumowanie

Automatyzacja testów opłaca się wtedy, gdy jest inwestycją w szybki feedback i ochronę krytycznych ryzyk, a nie wtedy, gdy jest próbą automatyzowania wszystkiego. Największy zwrot da Ci mała liczba dobrze dobranych testów w miejscach, gdzie koszt błędu jest wysoki. Reszta to już optymalizacja.

W Quality Island pomagamy zespołom wybrać, co naprawdę opłaca się automatyzować, a co lepiej zostawić w manualu albo przenieść na niższy poziom testów. Robimy przegląd krytycznych ścieżek, liczymy potencjalny zwrot z automatyzacji i układamy plan na kilka tygodni, tak żeby automatyzacja zaczęła skracać feedback i zmniejszać ryzyko, zamiast wydłużać pipeline i zwiększać flakiness. Jeśli chcesz, żeby automatyzacja przestała być projektem, a stała się dźwignią, odezwij się.

Sekrety automatyzacji testów. Czyli co płaca się automatyzować