Od Excela do uczenia maszynowego: jak przejść z raportów do modeli predykcyjnych w małej firmie

0
11
3/5 - (1 vote)

Nawigacja:

Punkt wyjścia: od Excela do decyzji – co faktycznie chcesz ulepszyć?

Jak dziś używasz Excela w firmie?

Zacznijmy od miejsca, w którym realnie jesteś. Bez tego przejście z Excela do uczenia maszynowego zamieni się w kolejną „techniczną zabawkę”, zamiast w narzędzie do lepszych decyzji. Zadaj sobie proste pytanie: do jakich decyzji używasz dziś Excela?

Najczęstszy scenariusz w małych firmach to raporty sprzedaży. Co tydzień lub co miesiąc ktoś eksportuje dane z systemu (fakturowego, CRM, sklepu internetowego), wrzuca do Excela, dorzuca kilka kolumn pomocniczych, filtrów i tabel przestawnych. Na końcu powstaje raport: sprzedaż wg handlowca, kanału, produktu. Raport trafia na spotkanie, ktoś powie „trzeba mocniej pociągnąć region X” i tyle. Po tygodniu robisz to od nowa.

Drugi typowy obszar to cashflow. Excel staje się „budżetem firmy”: przychody, koszty, prognoza płynności na dwa–trzy miesiące do przodu. Często bazuje to na założeniach typu: „średnia sprzedaż z ostatnich trzech miesięcy” albo „załóżmy, że powtórzy się zeszły kwartał”. Prognoza jest robiona ręcznie, aktualizowana raz na jakiś czas, a każda zmiana w danych wymaga przeklikania formuł.

Trzeci scenariusz to prognozy „na oko”. Ktoś z zespołu tworzy arkusz, gdzie z historii sprzedaży wybiera sobie kilka okresów, liczy średnie, może trend liniowy, dodaje własne poprawki „bo w sierpniu zawsze jest gorzej”. Formalnie wygląda to jak analityka, ale w praktyce większość decyzji i tak jest oparta na doświadczeniu osób, a nie na powtarzalnym modelu.

Jak dużo masz ręcznej roboty w tych arkuszach? Ile razy w tygodniu kopiujesz dane, odświeżasz pivoty, poprawiasz formuły, scalam pliki od różnych osób? To jest właśnie miejsce, w którym najczęściej pojawia się zmęczenie, opóźnienia i powtarzalna praca. Od tego punktu można zacząć poważnie myśleć o automatyzacji i modelach predykcyjnych. Co najbardziej Cię boli: czas, który poświęcasz na raporty, czy to, że mimo nich decyzje wciąż są mocno „na czuja”?

Czym różni się raport od modelu predykcyjnego?

Excelowy raport odpowiada na pytanie „co się wydarzyło?”. To opis historii: sprzedaż, koszt, liczba zgłoszeń. Nawet jeśli są tam wykresy trendów, wciąż główną rolę gra przeszłość. Model predykcyjny odpowiada na inne pytanie: „co najprawdopodobniej się wydarzy, biorąc pod uwagę to, co wiemy teraz?”. To przejście z opisu na prognozę.

Różnica jest też w dynamice. Raport statyczny powstaje raz na tydzień lub miesiąc. Kiedy zmienią się dane – raport się nie aktualizuje, dopóki ktoś go nie otworzy, nie podmieni źródeł, nie przeliczy formuł. Model predykcyjny, jeśli jest dobrze zbudowany, może działać jak funkcja: podajesz aktualne dane wejściowe, a on zwraca przewidywanie w czasie rzeczywistym lub z niewielkim opóźnieniem. Możesz go odpalić codziennie, co godzinę, przy każdym nowym kliencie.

To zmienia typ pytań, na które możesz odpowiedzieć. Raport powie: „sprzedaż w zeszłym miesiącu wyniosła X”. Model predykcyjny może powiedzieć: „dla tego konkretnego klienta szansa zakupu w najbliższych 7 dniach wynosi Y%” albo „najbardziej prawdopodobny popyt na produkt A w przyszłym tygodniu to zakres od A1 do A2”. Zamiast patrzeć tylko w lusterko wsteczne, zaczynasz mieć przybliżony obraz tego, co jest przed maską.

Zastanów się: czy Twoje obecne raporty wspierają konkretne decyzje, czy raczej „informują ogólnie, jak poszło”? Bo model predykcyjny ma sens tylko wtedy, gdy bezpośrednio wspiera konkretną decyzję, nie ciekawość analityczną.

Definiowanie decyzji biznesowej do wsparcia modelem

Masz już świadomość różnicy między raportowaniem a predykcją. Teraz kluczowe pytanie: jaką jedną decyzję chcesz ulepszyć jako pierwszą? Zbyt ogólne podejście („chcę prognoz”) kończy się chaosem i projektem, który nigdy nie wyjdzie poza etap testów.

Spróbuj użyć prostego szablonu:

„Chcę przewidzieć [zjawisko] na podstawie [danych], aby [decyzja].”

  • „Chcę przewidzieć prawdopodobieństwo zakupu przez leada na podstawie źródła pozyskania, historii kontaktu i branży, aby ustawić priorytety pracy handlowców.”
  • „Chcę przewidzieć popyt na produkt na podstawie historii sprzedaży, sezonowości i promocji, aby lepiej planować zamówienia do dostawcy.”
  • „Chcę przewidzieć ryzyko rezygnacji klienta na podstawie częstotliwości zakupów i reklamacji, aby z wyprzedzeniem kontaktować się z zagrożonymi klientami.”

Co już próbowałeś zrobić w Excelu wokół tych decyzji? Czy masz arkusze, w których ręcznie oceniasz „jakość” leada, „ryzyko” klienta, „szacunkowy” popyt? Jeśli tak, to znaczy, że decyzja już istnieje – tylko model predykcyjny zastąpi Twoje ręczne reguły bardziej systematycznym podejściem.

Druga rzecz: czy w ogóle potrzebujesz ML? Bywa, że wystarczy lepszy raport lub prosty model w Excelu (np. prognoza liniowa, kilka dobrze ustawionych filtrów, prosty scoring oparty o 3–5 reguł). Jeśli problem jest mały, decyzje rzadkie, a danych niewiele – pełnoprawne uczenie maszynowe będzie przerostem formy nad treścią. Model ma sens wtedy, gdy:

  • decyzja powtarza się często (np. codziennie setki leadów, zamówień, zgłoszeń),
  • wykonanie jej ręcznie jest kosztowne lub wolne,
  • masz wystarczająco dużo historii, żeby uczyć się na danych (o tym za chwilę).

Zrób więc dla siebie krok zero: zapisz jedną decyzję, którą dziś podejmujesz „na czuja”, a chciałbyś oprzeć na danych. To będzie Twoje centrum projektu przejścia z Excela do uczenia maszynowego.

Wybór pierwszego problemu pod ML: co się naprawdę opłaca modelować?

Kryteria dobrego pierwszego use case’u

Technologia kusi, żeby „zmodelować wszystko”. W małej firmie lepiej zadać sobie trzeźwe pytanie: co się naprawdę opłaca? Pierwszy projekt ML ma pokazać wartość, a nie zużyć zasoby na coś marginalnego. Jakie cechy powinien mieć sensowny pierwszy use case?

Po pierwsze, powtarzalność i liczba obserwacji. Uczenie maszynowe uczy się na przykładach, więc potrzebuje ich sporo. Jeśli w Twoim procesie rocznie dzieje się kilkadziesiąt przypadków, to trudno będzie zbudować stabilny model. Lepsze są obszary takie jak transakcje sprzedażowe, leady marketingowe, zgłoszenia serwisowe, wizyty w sklepie internetowym – cokolwiek, co generuje dziesiątki lub setki zdarzeń miesięcznie.

Po drugie, realna wartość biznesowa. Jeśli model zadziała, co się zmieni w liczbach? Czy handlowcy będą mogli obsłużyć o 20% więcej „dobrych” leadów? Czy obniżysz zapasy magazynowe przy podobnym poziomie dostępności towaru? Czy zredukujesz liczbę klientów, którzy odchodzą, bo nie zdążyłeś zareagować? Spróbuj choć orientacyjnie policzyć, ile jest wart 1% poprawy danego wskaźnika. Wtedy łatwiej uzasadnić czas poświęcony na projekt.

Po trzecie, prosty sposób zmierzenia efektu. Tu większość inicjatyw ML w małych firmach się wykłada. Model działa, ale nikt nie wie, czy rzeczywiście poprawił wyniki. Potrzebujesz jasnego sposobu porównania „przed” i „po”: czy to będzie A/B test (część decyzji według modelu, część jak dotychczas), czy porównanie okresów, czy inna metoda. Im jaśniejszy wskaźnik (konwersja, marża, czas reakcji), tym lepiej.

Wreszcie, rozsądna złożoność procesu. Na start odpuść sprawy, które dotyczą całej firmy, bardzo wielu działów lub wymagają głębokiej integracji z różnymi systemami IT. Lepiej wziąć proces „wąski”, ale dobrze zrozumiany i kontrolowany przez jeden zespół. Łatwiej będzie testować, poprawiać, wdrażać.

Przykłady prostych problemów predykcyjnych dla małej firmy

Jeśli szukasz inspiracji, kilka typowych problemów dobrze nadaje się na pierwsze modele predykcyjne w małej firmie. Sprawdź, który jest Ci najbliższy.

1. Prognoza prawdopodobieństwa zakupu / odejścia klienta.
Znasz sytuację, w której handlowcy mają listę leadów i dzwonią po kolei od góry? Model może pomóc ustalić priorytety: kto ma największą szansę kupić w najbliższych dniach. Dane wejściowe: źródło leada, czas reakcji, liczba kontaktów, branża, wielkość firmy, zachowanie na stronie (jeśli masz). Podobnie z odejściem klienta – model może wskazać klientów w „czerwonej strefie”, którym warto poświęcić dodatkową uwagę.

2. Szacowanie popytu na produkt.
Magazyn pełen towaru, który nie schodzi, albo odwrotnie – braki na półkach w okresie wzmożonego popytu. Masz w Excelu historię sprzedaży po dniach/tygodniach/miesiącach? Dołóż do tego informacje o promocjach, sezonowości, świętach, kampaniach marketingowych. Model może podpowiedzieć, ile najprawdopodobniej sprzeda się w nadchodzącym tygodniu czy miesiącu, co pozwoli precyzyjniej złożyć zamówienia u dostawców.

3. Priorytetyzacja leadów lub zgłoszeń do serwisu.
W firmach usługowych często jest kolejka zgłoszeń: „oddzwonić”, „odpowiedzieć na maila”, „obsłużyć ticket”. Do tego ograniczone zasoby ludzi. Model może brać pod uwagę: typ zgłoszenia, źródło, historię klienta, SLA, a na końcu wyliczać priorytet. Excel już dziś przechowuje część tych informacji – kwestia, by zamienić je w spójną tabelę uczącą model, które zgłoszenia na ogół są „pilne”, a które mogą poczekać.

W każdym z tych przypadków zadaj sobie pytanie: jak dziś podejmujesz te decyzje? Co jest oparte na danych, a co na intuicji? Jeśli widzisz, że już próbujesz ustalać priorytety czy prognozować „na oko”, to znak, że teren jest gotowy na podejście ML.

Jak przejść od ogólnego „chcę prognoz” do konkretnego pytania?

Ogólne pragnienie prognozowania rzadko przekłada się na działanie. Pomaga rozbicie potrzeby na kilka kroków. Spróbuj przejść przez taką mini-ścieżkę:

  1. Wypisz 3–5 decyzji, które dziś podejmujesz „na czuja”.
    Przykłady: które leady obdzwonić najpierw, ile towaru zamówić, które kampanie marketingowe ciąć, gdy budżet się kończy, z którymi klientami zrobić akcję retencyjną.
  2. Przy każdej decyzji dopisz, jak często ją podejmujesz.
    Im częściej, tym lepszy kandydat pod ML.
  3. Dorzuć przybliżoną wartość finansową.
    Jeśli pomylisz się o 10% w jednej decyzji, ile to kosztuje lub ile przepuszczasz zysku?
  4. Wskaż decyzję z największym stosunkiem: wartość / liczba decyzji / prostota procesu.
    Czyli taką, gdzie „małym ruchem” możesz podnieść wynik.
  5. Zamień ją na zdanie w formacie: przewidzieć [zjawisko] na podstawie [danych], aby [decyzja].

Gdy masz jedno klarowne zdanie, dużo łatwiej rozmawia się z osobami technicznymi, z zespołem oraz… z samym sobą, gdy pojawi się pokusa „dołóżmy jeszcze to i tamto do zakresu projektu”.

Pytanie kontrolne: czy wybrany problem nie jest zbyt ambitny na start? Jeśli mówisz o pełnej automatyzacji cen dynamicznych, optymalizacji tras, inteligentnym planowaniu grafików w całej firmie – to może być świetny drugi lub trzeci projekt. Na początek lepiej wybrać obszar, w którym uczenie maszynowe nie musi od razu „sterować” całym procesem, a jedynie podpowiadać.

Lupa powiększająca papierowe wykresy biznesowe i raporty danych
Źródło: Pexels | Autor: RDNE Stock project

Dane w Excelu: jak sprawdzić, czy nadają się pod model?

Audyt danych – co masz, a czego brakuje?

Masz już decyzję i problem, który chcesz modelować. Kolejny krok to bardzo przyziemne pytanie: jakie dane masz w Excelu i skąd one pochodzą? Tu przydaje się coś w rodzaju mini-inwentaryzacji.

Najpierw wypisz wszystkie arkusze, które dotyczą wybranego procesu. Jeśli celem jest priorytetyzacja leadów, będą to pliki z CRM, eksporty z formularzy kontaktowych, raporty aktywności handlowców. Jeśli popyt – arkusze sprzedażowe, stany magazynowe, kalendarz promocji. Zdziwisz się, ile wersji tego samego raportu krąży po firmie.

Przy każdym arkuszu zanotuj:

  • Źródło danych – system, z którego robisz eksport, ręczne wpisy, dane od partnerów.
  • Częstotliwość aktualizacji – codziennie, tygodniowo, ad hoc.
  • Osobę odpowiedzialną – kto realnie dba, żeby dane się pojawiały.

Struktura danych: od „arkusza operacyjnego” do „tabeli uczącej”

Kiedy już masz spisane pliki i źródła, pojawia się praktyczne pytanie: czy z tych arkuszy da się zrobić jedną sensowną tabelę pod model? Tu zaczyna się różnica między „Excel do pracy codziennej” a „Excel jako źródło dla ML”.

Modele predykcyjne zazwyczaj oczekują tzw. tabeli uczącej: każdy wiersz to jeden przypadek (lead, klient, zamówienie, dzień sprzedaży), a każda kolumna to cecha (atrybut) tego przypadku, znana przed podjęciem decyzji. Plus jedna kolumna z „wynikiem”, który chcesz przewidywać (czy kupił, ile kupił, czy zrezygnował itd.).

Zadaj sobie trzy pytania kontrolne:

  • Co jest u mnie „jednostką analizy”? Pojedynczy klient, lead, zamówienie, dzień, produkt? Bez tego nie złożysz spójnej tabeli.
  • Czy potrafię dla każdej takiej jednostki wskazać wynik? Np. dla leada: „skończył się sprzedażą – tak/nie”; dla dnia: „sprzedaż sztuk produktu X”.
  • Czy mam dane wejściowe zebrane przed wynikiem? Model nie może „podglądać przyszłości”. Daty, statusy, kwoty muszą odpowiadać stanowi z chwili podejmowania decyzji.

Przykład praktyczny: chcesz przewidywać, które leady zamienią się w klientów. Jednostką analizy będzie lead. Dla każdego leada potrzebujesz:

  • identyfikatora (ID leada),
  • cech znanych na starcie (źródło, branża, wielkość firmy, data wpływu, czas pierwszej reakcji handlowca),
  • informacji, czy zakończył się sprzedażą, oraz w jakim czasie (np. sprzedaż w ciągu 30 dni – tak/nie).

Jeśli widzisz, że dziś masz dane porozrzucane po kilku arkuszach (formularze, CRM, notatki handlowców), to nic nadzwyczajnego. Kluczowe pytanie brzmi: czy da się je logicznie połączyć po jakimś identyfikatorze albo dacie?

Typowe problemy z danymi w Excelu i jak je „oswoić”

Podczas pierwszego porządkowania danych zwykle wychodzą na jaw podobne kłopoty. Zanim pomyślisz „u nas się nie da”, sprawdź, czy nie wystarczy kilka prostych usprawnień.

Rozjazd nazw i formatów.
Masz w jednym pliku „Data utworzenia”, w drugim „Utw. data”, w trzecim „data_leada”? Albo raz „PL”, raz „Polska”, raz „Poland”? Taki chaos utrudnia łączenie danych. Co możesz zrobić już w Excelu?

  • Ustal jedno nazewnictwo pól i powoli je ujednolicaj (nawet ręcznie, zaczynając od najważniejszych kolumn).
  • Używaj formatów daty i liczb zamiast tekstu (Excel potrafi potem sortować i filtrować).
  • Stwórz prostą „legendę pól” – osobny arkusz z listą nazw kolumn i opisem, co oznaczają.

Brak unikalnych identyfikatorów.
Czy w Twoich plikach klient występuje jako „Firma XYZ”, „XYZ sp. z o.o.” i „XYZ”? Bez identyfikatora (ID klienta, ID leada, ID zamówienia) łączenie tabel jest ruletką.

Zadaj sobie pytanie: jak dziś rozpoznajesz, że to „ten sam” klient lub lead? Po mailu, NIP-ie, numerze telefonu? Od tego zacznij. Możesz wprowadzić w Excelu dodatkową kolumnę z takim identyfikatorem i konsekwentnie ją utrzymywać. To mała zmiana w codziennej pracy, a ogromne ułatwienie przy ML.

Ręczne wpisy i literówki.
Ręczne wprowadzanie danych oznacza błędy. Zamiast załamywać ręce, wybierz minimalny zakres standaryzacji:

  • tam, gdzie możesz, stosuj listy rozwijane (status leada, źródło kontaktu, typ zgłoszenia),
  • ogranicz pola tekstowe do „uwag” – reszta powinna być wybierana z list, liczbą lub datą,
  • rozważ prosty szablon Excel, który wszyscy wypełniają w ten sam sposób.

Brak historii zmian.
Zdarza się, że w Excelu „nadpisujesz” stare dane nowymi (np. aktualny status klienta), nie przechowując historii. Dla modelu predykcyjnego liczy się to, co było w momencie decyzji. Jeśli masz tylko stan aktualny, nie odtworzysz warunków z przeszłości.

Co możesz zrobić, idąc małym krokiem?

  • zamiast jednego wiersza na klienta, przejdź na wiele wierszy z datą statusu (klient – data – status),
  • zamiast nadpisywać stany magazynowe, dopisz każdy ruch (data – produkt – zmiana stanu – przyczyna).

Zapytaj siebie: czy jestem w stanie z moich dzisiejszych plików odtworzyć „film z przeszłości”, choćby zgrubnie? Jeśli tak – masz materiał na model. Jeśli nie – zaplanuj zmianę sposobu zapisu danych na przyszłość, nawet jeśli pierwszy model będzie korzystał z uboższej historii.

Minimalny „standard ML” dla Excela

Nie potrzebujesz od razu hurtowni danych ani systemu klasy enterprise. Mała firma spokojnie może zacząć od prostego zestawu zasad. Traktuj to jako „minimalny standard”, który chcesz osiągnąć w ciągu kilku tygodni.

  • Jeden plik źródłowy na proces (lub kilka, ale jasno nazwanych), zamiast kilkunastu wersji „Raport_final_ostateczny_v3_poprawiony.xlsx”.
  • Jedna tabela główna z wierszem na jednostkę analizy (lead, klient, zamówienie, dzień) i stabilnym ID.
  • Wyraźnie oznaczone daty – co się wydarzyło i kiedy (data utworzenia, data kontaktu, data zakupu itd.).
  • Kolumna z wynikiem (label), którego chcesz uczyć model: „kupiono / nie kupiono”, „ilość sprzedaży”, „odeszło / nie odeszło”.
  • Opis pól w osobnym arkuszu: nazwa kolumny, krótki opis, przykładowa wartość.

Sprawdź uczciwie: jak daleko jesteś od tego standardu? Czasem brakuje tylko dodania dwóch–trzech kolumn i uporządkowania nazw, by Twoje arkusze stały się „czytelne” dla ludzi i dla narzędzi ML.

Od Excela do pierwszego modelu: jakie narzędzia i ścieżki masz do wyboru?

Trzy poziomy „wyjścia z Excela”

Przejście z Excela do uczenia maszynowego nie musi oznaczać od razu rekrutacji zespołu data scientistów. Dobrze jest świadomie wybrać poziom ambicji. Jakie masz opcje?

Poziom 1: „Excel + gotowy dodatek / AutoML”
Jeżeli dopiero zaczynasz i nie masz w zespole osoby technicznej, która programuje w Pythonie czy R, najprostsza ścieżka to:

  • wyeksportować przygotowaną tabelę z Excela do CSV,
  • użyć narzędzia AutoML (często w chmurze),
  • przetestować kilka modeli bez pisania kodu,
  • wyniki (prognozy, prawdopodobieństwa) z powrotem wczytać do Excela jako kolumnę pomocniczą.

Tu zadaj sobie pytanie: czy chcesz najpierw zobaczyć „czy w ogóle coś się przewiduje”? Jeśli tak, AutoML jest naturalnym kandydatem. Nie da Ci pełnej kontroli, ale pozwoli szybko zweryfikować, czy dane niosą użyteczną informację.

Poziom 2: „Excel + analityk z Pythonem / R”
Masz w firmie kogoś, kto bawił się w Pythonie, albo współpracujesz z freelancerem? Wtedy Twoją rolą jest być dostawcą dobrej tabeli i partnerem biznesowym, a nie ekspertem od kodu. Przepływ wygląda mniej więcej tak:

  • Ty: definiujesz problem, przygotowujesz dane w Excelu, opisujesz pola.
  • Analityk: importuje dane, czyści je, buduje i testuje model, tłumaczy wyniki.
  • Na końcu: wyniki wracają jako plik (z kolumną „wynik modelu”) lub proste narzędzie (np. panel webowy).

Pytanie do Ciebie: czy masz dziś dostęp do kogoś technicznego, komu ufasz? Jeśli tak, lepiej wykorzystać tę osobę niż samodzielnie zgłębiać ML od zera.

Poziom 3: „Budujemy kompetencje ML w firmie”
To opcja dla tych, którzy widzą kilka potencjalnych projektów ML i chcą inwestować długofalowo. Oznacza to zwykle:

  • zatrudnienie lub wyszkolenie osoby, która czuje się swobodnie w Pythonie, SQL, podstawach modeli,
  • stopniowe przechodzenie z Excela na prostą bazę danych lub hurtownię,
  • budowanie wewnętrznych „produktów” ML (skoring, prognozy) włączonych na stałe w procesy.

Zastanów się: czy Twój pierwszy projekt ma być eksperymentem, czy początkiem większej zmiany? Odpowiedź pomoże zdecydować, który poziom jest sensowny na dziś.

Jak wygląda minimalny cykl pracy nad modelem?

Nawet w małej firmie warto myśleć o modelu jak o procesie, nie jednorazowej „akcji”. Nie chodzi o skomplikowaną metodykę, ale o kilka prostych kroków, które się powtarzają.

  1. Definicja problemu i miernika sukcesu.
    Masz już: „przewidzieć [zjawisko] na podstawie [danych], aby [decyzja]”. Dopisz jeszcze: jaki wskaźnik chcesz poprawić (np. konwersja leadów, średni stan magazynu, czas reakcji).
  2. Przygotowanie danych.
    Czyli to, co robisz w Excelu: porządkujesz, łączysz, uzupełniasz, opisujesz kolumny.
  3. Trening modelu.
    Ktoś (Ty z AutoML albo analityk) bierze dane, uczy modelu „rozpoznawać” wzorce na historii.
  4. Walidacja.
    Sprawdzenie, jak model radzi sobie na danych, których „nie widział”. To odpowiednik pytania: „gdybym używał go rok temu, jakby mi poszło?”.
  5. Test w małej skali.
    Model nie idzie od razu „na całą firmę”. Stosujesz go np. dla części leadów albo jednego regionu i porównujesz wyniki z dotychczasowym sposobem.
  6. Wdrożenie do procesu.
    Jeśli test się udał, model dostaje swoje miejsce w codziennej pracy – np. kolumna „priorytet” w raporcie sprzedażowym.
  7. Monitoring i poprawki.
    Co jakiś czas sprawdzasz, czy model dalej działa dobrze. Jeśli otoczenie się zmienia (nowe produkty, inny profil klientów), odświeżasz dane i uczysz model od nowa.

Zadaj sobie pytanie: który z tych kroków jest dla Ciebie dziś najbardziej mglisty? To tam na starcie przyda się pomoc z zewnątrz lub dodatkowa nauka.

Wykresy finansowe, laptop i lupa jako analiza danych w małej firmie
Źródło: Pexels | Autor: Leeloo The First

Przygotowanie danych do modelu: od „surowego Excela” do sensownych cech

Feature engineering w wersji „dla ludzi z Excela”

Modele uczą się na cechach (feature’ach). Często największy efekt daje nie wybór algorytmu, tylko mądre przygotowanie kolumn. Dobra wiadomość: wiele z tych operacji jesteś w stanie zrobić sam w Excelu, zanim ktokolwiek dotknie Pythona.

Zacznij od pytania: jak człowiek podejmujący decyzję patrzy na dane? Jakie „podsumowania w głowie” robi Twój najlepszy handlowiec czy magazynier? Z tego właśnie rodzą się cechy.

Przykłady prostych cech, które da się policzyć w Excelu:

  • Agregaty historyczne – liczba zamówień klienta w ostatnich 3 miesiącach, średnia wartość koszyka, liczba reklamacji.
  • Recency / ostatnia aktywność – ile dni minęło od ostatniego kontaktu, od ostatniego zakupu, od ostatniego logowania.
  • Intensywność – liczba wizyt na stronie, liczba otwartych maili, liczba zgłoszeń serwisowych.
  • Kategorie – przypisanie klienta do segmentu (np. mała/średnia/duża firma), grupy produktowej, regionu.
  • Sezonowość – miesiąc, kwartał, dzień tygodnia, czy to okres świąteczny lub wakacyjny.

Zapytaj siebie: jakie 3–5 prostych podsumowań intuicyjnie sprawdzasz, zanim podejmiesz decyzję? To są Twoi kandydaci na cechy do modelu.

Czego unikać, przygotowując cechy w Excelu?

Przy pierwszym podejściu łatwo popełnić kilka klasycznych błędów. Dobrze je znać, zanim model powstanie.

Mieszanie przyszłości z przeszłością.
Model ma na wejściu tylko to, co wiesz w momencie decyzji. Jeśli prognozujesz, czy lead kupi w ciągu 30 dni, nie możesz użyć jako cechy liczby kontaktów wykonanych po tych 30 dniach.

Zadaj sobie pytanie: czy tę informację znałem w chwili, gdy podejmowałem decyzję? Jeśli nie – nie dawaj jej modelowi jako cechy.

Zbyt drobne szczegóły.
Pełna data i godzina, dokładna nazwa produktu w formie tekstu, długie komentarze – modelowi często niewiele z tego przychodzi bez skomplikowanego przetwarzania. Na początek lepiej:

Praktyczne uproszczenia zamiast „szumu” w danych

Zamiast wlewać do modelu każdy drobiazg, lepiej najpierw odchudzić dane. Zastanów się: które informacje realnie pomogłyby człowiekowi podjąć decyzję szybciej lub lepiej?

Zamiast pełnej daty i godziny każdej interakcji, możesz użyć np.:

  • dnia tygodnia (pon.–niedz.),
  • pory dnia (rano / popołudnie / wieczór),
  • informacji, czy to dzień roboczy czy weekend.

Zamiast dokładnej nazwy produktu w 10 wariantach marketingowych – prostszej kategorii produktu (np. „akcesoria”, „usługi”, „licencje”).

Zamiast pełnego tekstu komentarza handlowca – jednej kolumny opisującej status leadu („zimny”, „ciepły”, „gorący”).

Zastanów się przy każdym polu: czy zamieniłem surowy szczegół na prostą, logiczną kategorię lub liczbę? Jeśli nie – to dobry kandydat do uproszczenia.

Obchodzenie się z brakami danych i „dziwnymi” wartościami

Niemal w każdym arkuszu znajdą się puste komórki, literówki, wartości „0” używane na zmianę z pustymi polami. Pytanie do Ciebie: czy wiesz, skąd te braki się biorą?

Dobrą praktyką jest najpierw nazwać problem, a dopiero potem go „maskować” w tabeli do modelu.

  • Brak bo nie dotyczy (np. „data wypowiedzenia” przy aktywnym kliencie) – możesz wprowadzić osobną kategorię „nie dotyczy” albo zostawić brak, jeśli analityk umie go poprawnie obsłużyć.
  • Brak bo nikt nie wpisał – to inny przypadek, często sygnał o jakości procesu. Czasem lepiej stworzyć dodatkową kolumnę „czy_pusta” (0/1), niż udawać, że brak to np. zero.
  • Wartości skrajne (bardzo duży rabat, potężne zamówienie) – zadaj sobie pytanie: czy to błąd, czy po prostu wyjątkowy przypadek (np. jeden duży klient)?

Przygotowując dane pod pierwszy model, możesz przyjąć prostą zasadę: wolę jasno oznaczyć, że czegoś nie wiem, niż wymyślać „na siłę” wartość zastępczą. Potem analityk zdecyduje, jak technicznie z tym postępować.

Minimalny „zestaw cech” dla kilku typowych problemów

Łatwiej projektuje się kolumny, gdy masz z tyłu głowy konkretny problem. Jakie pytanie biznesowe chcesz zadać modelowi? Wybierz jedno i zobacz, czy masz choć szkic takiego zestawu.

1. Który lead ma największą szansę na zakup?

  • ilość kontaktów w pierwszych X dniach,
  • źródło pozyskania (kampania, polecenie, organic),
  • czas od pierwszego kontaktu,
  • segment firmy (branża, wielkość),
  • status handlowy (zimny/ciepły/gorący),
  • czy to już kolejny lead z tej firmy (tak/nie).

2. Które zamówienia są najbardziej ryzykowne pod kątem opóźnień?

  • typ produktu (standard / custom),
  • średnie opóźnienia historyczne dla danego klienta,
  • średnie opóźnienia dla danego typu produktu,
  • sezon (przed świętami / poza sezonem),
  • odległość / region dostawy.

3. Który klient może odejść w najbliższych miesiącach?

  • częstotliwość zakupów w ostatnich miesiącach,
  • trend wartości koszyka (rośnie / spada / stabilnie),
  • liczba zgłoszeń serwisowych / reklamacji,
  • czas od ostatniego kontaktu opiekuna,
  • porównanie klienta do „średniego” w segmencie (czy korzysta mniej niż podobni?).

Spójrz teraz na swoje arkusze: ile z powyższych cech da się policzyć na bazie tego, co już masz? To często tylko kwestia kilku formuł i dodatkowych kolumn.

Od tabeli do działania: jak wpleść model w codzienną pracę

Gdzie w Twoim procesie decydujesz „na czuja”?

Model predykcyjny sam z siebie niczego nie zmieni, jeśli nie podłączysz go do konkretnej decyzji. Zastanów się: w których miejscach dziś podejmujesz decyzje głównie intuicją?

Typowe miejsca w małej firmie to:

  • priorytetyzacja kontaktów – do których leadów zadzwonić w pierwszej kolejności, a które odpuścić,
  • planowanie zatowarowania – co domówić, a co „dowyprzedać”,
  • planowanie pracy zespołu – które zgłoszenia obsłużyć szybciej, bo niosą większe ryzyko lub wartość,
  • utrzymanie klientów – których klientów „pomuścidłać” rabatem lub kontaktem opiekuna.

Dla każdego z tych punktów możesz zadać jedno proste pytanie: co by się zmieniło, gdybym miał dodatkową kolumnę „szansa” lub „ryzyko” obok każdego wiersza?

Projektowanie prostego „interfejsu” dla modelu

Nawet najlepsza prognoza jest bezużyteczna, jeśli handlowiec jej nie widzi lub jej nie ufa. Model musi mieć swoje miejsce w narzędziu, z którego zespół już korzysta. Jak to zorganizować przy niewielkiej skali?

  • Dodatkowa kolumna w Excelu / Google Sheets – wynik modelu jako liczba (np. 0–1) lub prosty priorytet (A/B/C). Dla wielu małych firm to wystarczy na 6–12 miesięcy.
  • Prosty raport w BI – jeżeli używasz Power BI, Lookera czy Data Studio, wynik modelu może być jedną z miar lub segmentem filtrującym listę klientów.
  • Panel www lub mini-aplikacja – przy poziomie 2 lub 3 analityk może wystawić interfejs, gdzie wpisujesz ID klienta, a system zwraca prognozę i podpowiedź.

Kluczowe pytanie: jak wygląda ekran, na którym Twój zespół pracuje codziennie? To tam powinna trafić informacja z modelu, a nie do osobnego, rzadko otwieranego pliku.

Dzielenie się modelem z zespołem: co im powiedzieć?

Wprowadzenie modelu to też zmiana na poziomie ludzi. Jeśli chcesz, by ktoś go faktycznie używał, trzeba mu dać kontekst. Co usłyszy Twój handlowiec lub kierownik, gdy zapytają: „skąd się biorą te cyferki?”

Pomaga prosty, ludzki opis:

  • „To narzędzie uczyło się na ostatnich dwóch latach naszych danych sprzedażowych.”
  • „Patrzy m.in. na liczbę kontaktów, źródło leadu i wcześniejsze zakupy z tej firmy.”
  • „Liczy szansę zakupu w ciągu 30 dni. 0,8 to wysoka szansa, 0,2 to niska.”
  • „Nie zastępuje Twojej decyzji, ale podpowiada, gdzie może być większa szansa.”

Zadaj sobie pytanie: jakie 2–3 zdania byłbyś w stanie powiedzieć swojemu zespołowi o modelu bez wchodzenia w żargon? Jeśli ich nie masz, to sygnał, że sam potrzebujesz trochę doprecyzować jego rolę.

Dłoń z długopisem analizuje kolorowe wykresy słupkowe i liniowe na kartce
Źródło: Pexels | Autor: Lukas Blazek

Jak i czym mierzyć skuteczność modelu w małej firmie

Podstawowe liczby zamiast skomplikowanych metryk

Świat data science zna dziesiątki metryk, ale na początek wystarczy kilka prostych pytań: czy podejmujemy lepsze decyzje, czy lepiej wykorzystujemy zasoby, czy rośnie efekt, na którym nam zależy?

Dla trzech częstych typów modeli możesz użyć bardzo prostych miar.

1. Modele klasyfikacji (tak/nie, kupi/nie kupi)

  • porównaj konwersję w grupie „wysoki wynik modelu” vs. reszta,
  • sprawdź, ile zrealizowanych zakupów pochodziło z górnych 10–20% listy wg modelu,
  • policz, jak zmieniła się efektywność pracy (np. ile rozmów na jedną sprzedaż).

2. Modele regresji (prognoza liczby, wartości)

  • zrób prosty wykres: prognoza vs. rzeczywistość dla kilkudziesięciu przypadków,
  • policz średnią różnicę między prognozą a wynikiem (w Excelu),
  • dla prognoz popytu: zmierz, o ile zmienił się poziom braków towaru lub przestojów magazynu.

3. Modele ryzyka (np. rezygnacja klienta)

  • porównaj odsetek rezygnacji w grupie oznaczonej jako „wysokie ryzyko” z resztą,
  • sprawdź, ile rezygnacji udało się uniknąć dzięki dodatkowym działaniom wobec „zagrożonych” klientów.

Zadaj sobie pytanie: jaką jedną liczbę chcesz widzieć po miesiącu testów, żeby powiedzieć „to działa” albo „nie działa”? Bez tego łatwo wpaść w pułapkę zachwytu samą technologią.

Prosty test A/B w warunkach małej firmy

Nie potrzebujesz wyszukanych platform eksperymentów, by sprawdzić, czy model daje przewagę. Wystarczy prosty podział pracy.

Przykład dla działu sprzedaży:

  • sortujesz leady według wyniku modelu,
  • połowa handlowców pracuje „od góry listy”,
  • druga połowa – tak jak dotychczas (np. chronologicznie),
  • po 2–4 tygodniach porównujesz konwersję i wartość sprzedaży między tymi grupami.

Podobnie możesz zrobić w obsłudze klienta, magazynie czy windykacji. Kluczowe pytanie: czy umiesz zaprojektować prostą „równą szansę” – żeby porównanie było uczciwe?

Kiedy powiedzieć „stop”, a kiedy „inwestujemy dalej”

Po pierwszym teście przychodzi moment decyzji. Co wtedy bierzesz pod uwagę?

  • Skala efektu – czy różnica jest na tyle duża, że uzasadnia dodatkowy wysiłek (utrzymanie, odświeżanie danych)?
  • Akceptacja zespołu – czy ludzie faktycznie korzystają z podpowiedzi modelu, czy traktują go jak ciekawostkę?
  • Stabilność wyników – czy model zachowuje się podobnie w różnych tygodniach/miesiącach, czy wyniki „skaczą” bez wyraźnego powodu?

Zadaj sobie wprost: czy ten model rozwiązuje realny ból biznesowy, czy tylko zaspokaja ciekawość technologiczną? Od tej odpowiedzi zależy, czy pójdziesz w stronę poziomu 2/3, czy na razie zostaniesz przy małej skali.

Organizacja pracy nad danymi i modelami w małym zespole

Kto za co odpowiada, żeby nie zgubić się w plikach

Nawet w firmie kilkuosobowej dobrze jest nazwać role. Pytanie: kto dziś jest „właścicielem” danych sprzedażowych, a kto marketingowych?

Prosty podział może wyglądać tak:

  • Właściciel biznesowy problemu – np. szef sprzedaży; definiuje pytanie, pilnuje, by model był używany w procesie.
  • Opiekun danych – ktoś, kto dba o aktualność i poprawność plików, schematów, opisów kolumn.
  • Osoba techniczna / analityk – jeśli jest; zamienia dane w model, tłumaczy wyniki, pomaga wciąć je w narzędzia.

W małej firmie często te role łączą się w 1–2 osoby. Ważne, by choć na kartce mieć zapisane: kto aktualizuje tabelę, kto ją sprawdza, kto używa wyników. Inaczej szybko wrócisz do chaosu „wersja_v3_ostateczny.xlsx”.

Prosty „rejestr modeli” i wersji danych

Jeśli planujesz więcej niż jeden model, przydaje się choć minimalny porządek. Nie musi to być od razu specjalistyczne narzędzie. Wystarczy dodatkowa zakładka w Excelu lub dokument w chmurze.

Co tam wpisać?

  • nazwę modelu (np. „Skoring leadów PL 2025Q1”),
  • jaki problem rozwiązuje,
  • na jakich danych został uczony (zakres dat, główna tabela),
  • kto jest właścicielem biznesowym i technicznym,
  • datę uruchomienia i plan przeglądu (np. „przegląd co 3 miesiące”).

Zastanów się: gdybyś odszedł z firmy na miesiąc, czy ktoś inny byłby w stanie zrozumieć, co robią Twoje modele i na czym się opierają? Taki rejestr bardzo to ułatwia.

Jak często odświeżać model i dane?

Środowisko biznesowe się zmienia – ceny, produkty, zachowania klientów. Model, który dziś działa świetnie, za rok może już nie nadążać. Nie musisz jednak trenować go co tydzień.

Możesz przyjąć prostą zasadę:

  • Modele taktyczne (np. skoring kampanii) – aktualizacja danych i ewentualny retrening co kampanię lub raz na kwartał.
  • Najczęściej zadawane pytania (FAQ)

    Jak zacząć przechodzenie z Excela do uczenia maszynowego w małej firmie?

    Zacznij od konkretu: do jakich decyzji dziś używasz Excela – sprzedaż, cashflow, prognozy „na oko”? Zapisz sobie 1–2 kluczowe arkusze, do których najczęściej wracasz i zadaj pytanie: jaką decyzję one faktycznie wspierają, a co dalej i tak robisz „na czuja”?

    Kolejny krok to policzenie, ile ręcznej roboty jest wokół tych plików: kopiowanie danych, poprawianie formuł, scalanie plików od zespołu. Tam, gdzie czujesz największe zmęczenie i opóźnienia, zwykle kryje się pierwszy kandydat pod automatyzację i modele predykcyjne. Jakie 2–3 procesy najbardziej Cię irytują w Excelu?

    Czym dokładnie różni się raport w Excelu od modelu predykcyjnego?

    Raport w Excelu odpowiada na pytanie „co się wydarzyło?” – opisuje historię: sprzedaż, koszty, liczbę zgłoszeń. Nawet jeśli są wykresy trendów, wciąż patrzysz głównie w lusterko wsteczne. Model predykcyjny próbuje odpowiedzieć na inne pytanie: „co najprawdopodobniej się wydarzy przy obecnych danych?”.

    Druga różnica to dynamika. Raport jest statyczny, odświeżany ręcznie co tydzień czy miesiąc. Model predykcyjny działa jak funkcja: podajesz aktualne dane (np. cechy klienta, aktualną sprzedaż, sezon) i dostajesz prognozę tu i teraz – np. szansę zakupu albo przewidywany popyt. Zastanów się: czy dzisiejsze raporty wspierają konkretną decyzję, czy tylko „informują, jak poszło”?

    Skąd wiedzieć, czy naprawdę potrzebuję uczenia maszynowego, a nie lepszego Excela?

    Zacznij od pytania: jak często podejmujesz daną decyzję i ile kosztuje jej ręczne podjęcie. Jeśli decyzje są rzadkie, dane skromne, a proste reguły typu „3 filtry + jedna formuła” już robią robotę, to ML najpewniej będzie przerostem formy. Wtedy lepiej dopracować raporty, dodać prostą prognozę liniową czy kilka jasnych zasad scoringu w Excelu.

    Uczenie maszynowe ma sens, gdy:

    • decyzja powtarza się często (setki leadów, zamówień, zgłoszeń miesięcznie),
    • ręczne sortowanie / ocena trwa długo lub jest drogim czasem dobrych ludzi,
    • masz już sensowną historię danych, na których model może się uczyć.
    • Zadaj sobie pytanie: jaka jedna decyzja dziś jest „na czuja”, a chciałbyś ją oprzeć na danych – i pojawia się przy niej dużo powtórzeń?

    Jak wybrać pierwszy problem do zbudowania modelu predykcyjnego w małej firmie?

    Wybierz obszar, gdzie łączą się trzy rzeczy: dużo powtarzalnych zdarzeń, jasna wartość biznesowa i możliwość zmierzenia efektu. Dobrze sprawdzają się np. lead scoring (priorytetyzacja klientów), prognoza popytu na wąską grupę produktów, przewidywanie rezygnacji klientów w jednym kanale.

    Zadaj sobie serię pytań:

    • Czy mam tu dziesiątki/setki przypadków miesięcznie (leady, zamówienia, wizyty)?
    • Jeśli poprawię decyzję o 1–5%, co się zmieni w złotówkach lub czasie pracy?
    • Jak sprawdzę „przed” vs „po” – A/B test, porównanie okresów, inny wskaźnik?
    • Czy proces dotyczy jednego zespołu, czy wymaga zgody pół firmy?
    • Jeśli na większość odpowiadasz „tak” w jednym obszarze – to dobry kandydat na start.

    Jak sformułować problem biznesowy pod model predykcyjny?

    Użyj prostego wzoru: „Chcę przewidzieć [zjawisko] na podstawie [danych], aby [decyzja].” Przykłady:

    • „Chcę przewidzieć prawdopodobieństwo zakupu przez leada na podstawie źródła, historii kontaktu i branży, aby poukładać priorytety pracy handlowców.”
    • „Chcę przewidzieć popyt na produkt na podstawie historii sprzedaży, sezonowości i promocji, aby lepiej planować zamówienia.”
    • „Chcę przewidzieć ryzyko odejścia klienta na podstawie częstotliwości zakupów i reklamacji, aby wcześniej zareagować.”
    • Zadaj sobie pytanie: jakie dane już zbierasz i jaką decyzję realnie chciałbyś podejmować inaczej dzięki prognozie?

    Jakie dane z Excela nadają się do zasilenia modelu uczenia maszynowego?

    Najczęściej wykorzystasz to, co już masz w raportach: historię transakcji sprzedażowych, dane o leadach (źródło, status, branża), informacje o klientach (częstotliwość zakupów, reklamacje), historię stanów magazynowych, dane o akcjach marketingowych. Kluczowe pytanie: czy te dane są w miarę spójne i zawierają wynik, który chcesz przewidywać (np. „kupił / nie kupił”, „odszedł / został”)?

    Na początek nie potrzebujesz idealnego porządku w całej firmie. Wybierz jeden proces i jedno, maksymalnie kilka źródeł danych, które możesz regularnie eksportować z systemu do Excela lub CSV. Co już dziś cyklicznie zrzucasz do arkusza – i mógłbyś to robić w sposób bardziej automatyczny?

    Jak zmierzyć, czy model predykcyjny faktycznie coś poprawił w mojej firmie?

    Najpierw zdecyduj: jaki wskaźnik ma się zmienić dzięki modelowi – konwersja leadów, marża, poziom zapasów, czas reakcji, liczba odejść klientów? Bez tego każdy model będzie wyglądał „fajnie technicznie”, ale trudno będzie ocenić jego sens.

    W praktyce masz kilka prostych opcji:

    • A/B test: część decyzji według dotychczasowych zasad, część według modelu i porównanie wyników.
    • Porównanie okresów: np. 3 miesiące „przed” i 3 miesiące „po”, jeśli w tym czasie nie zmieniasz innych kluczowych elementów procesu.
    • Porównanie grup: np. handlowcy korzystający z modelu vs ci, którzy jeszcze go nie używają.
    • Zastanów się: jaki jeden wskaźnik możesz śledzić miesiąc do miesiąca, aby szczerze odpowiedzieć sobie, czy model pomaga, czy tylko generuje dodatkową pracę.

    Źródła

  • Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. O'Reilly Media (2013) – Podstawy myślenia analitycznego, modele predykcyjne vs raportowanie opisowe
  • Forecasting: Principles and Practice. OTexts (2018) – Prognozowanie szeregów czasowych, zastosowania biznesowe i metody poza Excelem
  • Machine Learning Yearning. deeplearning.ai (2018) – Praktyczne podejście do wyboru problemu ML i oceny wartości biznesowej
  • The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling. Wiley (2013) – Modelowanie danych pod raportowanie, różnica między raportami a analizą predykcyjną

Poprzedni artykułOd testera manualnego do inżyniera automatyzacji testów w 12 miesięcy
Następny artykułJak wdrożyć etyczną AI w firmie technologicznej i nie sparaliżować innowacji
Jakub Jaworski
Jakub Jaworski specjalizuje się w DevOps, automatyzacji i chmurze obliczeniowej. Na co dzień projektuje i utrzymuje środowiska CI/CD, konteneryzację oraz monitoring dla aplikacji o wysokiej dostępności. Na Pirat-Pirat.pl opisuje narzędzia i procesy z perspektywy praktyka, który wielokrotnie wdrażał je w produkcji. W swoich tekstach kładzie nacisk na powtarzalność procedur, bezpieczeństwo konfiguracji oraz realne ograniczenia budżetowe. Każdy poradnik opiera na własnych testach, logach i oficjalnej dokumentacji, a wnioski formułuje w sposób zrozumiały zarówno dla początkujących, jak i doświadczonych inżynierów.