Dlaczego analizujemy dane? Odpowiedź jest prosta, aby podjąć decyzję lub przewidzieć, co stanie się w przyszłości. Większość danych w przyrodzie ma rozkład normalny, ale są również takie, które rozkładają się inaczej. Jeżeli do danych o rozkładzie innym niż normalny podejdziemy jak do tych normalnych, to możemy popełnić błąd i wyciągnąć mylne wnioski. Jak zatem nie pomylić danych i właściwie je interpretować?


Artykuł sponsorowany

Normalne dane

Dobrym przykładem danych o rozkładzie normalnym jest wzrost ludzi w Polsce. Intuicyjnie wyczuwamy, że większość ludzi ma wzrost bliski średniej, powiedzmy 168 cm. Wiemy też, że są ludzie, których wzrost znacznie odbiega od tej wartości. Mamy w Polsce koszykarzy, którzy mierzą ponad 200 cm. Mamy również ludzi niższych, nawet popularnych aktorów, mierzących 163 cm. Pamiętajmy również, że im dalej od średniej, tym mniej ludzi o danym wzroście. Można to pokazać na rysunku:

Rysunek: Rozkład normalny

Rysunek 1 przedstawia rozkład normalny, nazywany również krzywą Gaussa lub krzywą dzwonową. Staram się pokazać, że najwięcej ludzi (najwyższa część wykresu) jest średniego wzrostu. Te umowne 168 cm to nasza wartość oczekiwana, oznaczona symbolem μ. Jest to chyba najważniejsza część tego rozkładu. Drugą jego ważną cechą jest odchylenie standardowe – to te cieńsze, pionowe, czerwone linie po każdej stronie średniej. Odchylenie standardowe oznaczamy symbolem σ. Te dwa parametry pozwalają nam zrozumieć jakie jest prawdopodobieństwo, że nasza dana „wpadnie” do konkretnego przedziału. Wysokość tego prawdopodobieństwa została opisana na wykresie.

Jak użyć tej wiedzy? Zastosowań jest bardzo dużo. Proponuję następujący przykład. Jesteś osobą, która ma zorganizować pamiątkowe gadżety – T-shirty na imprezę firmową. W firmie pracuje 10 000 ludzi, więc pytanie każdego o rozmiar trwałoby zbyt długo. Zakładamy, że wysokość pracowników ma rozkład normalny, czyli możemy użyć średniej μ, oraz odchylenia standardowego σ – te dane pozwalają nam określić, ilu pracowników posiada wzrost korespondujący z konkretnymi rozmiarami koszulek. Oczywiście zamówienie wyglądałoby inaczej, gdybyśmy zamawiali koszulki dla drużyny koszykarskiej, bo nasz zespół nie jest reprezentatywny dla całej populacji…

Wykres kontrolny

Dane zbieramy, aby coś z nimi zrobić, na przykład wyciągnąć wnioski i na ich podstawie podejmować decyzje. Poniżej przedstawię przykład.

Kierownik w firmie transportowej zdecydował, że będzie monitorować zużycie paliwa poszczególnych kierowców w firmie. Może to posłużyć do naliczania premii za oszczędną jazdę. W tym samym czasie firma zatrudniła nowego kierowcę. Kierownik przyjrzał się średniemu zużyciu paliwa tego kierowcy za pierwsze pięć tygodni pracy, a wyglądał on tak, jak na rysunku Wykres kontrolny 1.

Rysunek: Wykres kontrolny 1

Szef pomyślał – OK, jest super. Przez kolejne cztery tygodnie kierowca obniża zużycie. Kupuję szampana, będzie premia! W kolejnym tygodniu kierownik zobaczył dane jak na rysunku Wykres kontrolny 2. Pomyślał – co? To największe spalanie od początku pracy! Ledwo poczuł się pewnie w firmie, a już kradnie paliwo, na pewno do prywatnego auta!

Rysunek: Wykres kontrolny 2

Czy w oparciu o te dane można było wyciągać takie wnioski? Nie, bo jest ich zbyt mało. Spójrzmy na kolejny wykres. Na Wykresie kontrolnym 3 przedstawiłem dane z 30 tygodni, łącznie z linią przedstawiającą średnią oraz liniami przedstawiającymi kolejne wartości oddalone o wielokrotności odchylenia standardowego od średniej. Możemy zauważyć, że dane są „rozrzucone” przy średniej. Wszystkie wpadają w zakres pomiędzy dwoma odchyleniami standardowymi poniżej średniej i dwoma odchyleniami powyżej. Czy to dobrze? Jest to bardzo prawdopodobne, ponieważ zakres średnia +/- dwa odchylenia standardowe zawiera 95,4% danych, a my mamy tylko 30 punktów. Co, jeżeli trafiłby się jakiś punkt bardziej oddalony od średniej niż na dwa odchylenia standardowe? To nic strasznego, warto zastanowić się na ile to jest prawdopodobne oraz czy nie zaistniały jakieś warunki specjalne, które są tego wytłumaczeniem. Widzimy, że nie dzieje się nic dziwnego ze zużyciem paliwa u tego kierowcy. Zmienność danych jest naturalna dla tego procesu.

Rysunek: Wykres kontrolny 3

Często byłem pytany, ile danych potrzeba aby obliczyć średnią czy odchylenie standardowe. Wiadomo, że im więcej danych użyjemy, tym bardziej będziemy pewni wyniku. Często jednak nie mamy komfortu posiadania dużej puli wyników. Ja kierowałem się następującymi zasadami:

  • aby wyliczyć średnią starałem się użyć przynajmniej 9 punktów,
  • aby wyliczyć odchylenie standardowe, potrzebujemy przynajmniej 30 punktów,
  • aby zrozumieć kształt rozkładu naszych danych trzeba mieć przynajmniej 100 punktów.

Dane wygenerowałem w dodatku narzędzi statystycznych w najbardziej popularnym arkuszu kalkulacyjnym. Sprawdziłem również normalność tych danych w narzędziu online i stanowią one rozkład normalny. Online można znaleźć bardzo dużo narzędzi, które mogą nam pomóc w analizie danych.

Regresja

Jak śledzić zmiany przy naturalnej zmienności danych?

Poniżej przedstawiam te same dane, ale dodałem lekki trend. Mógłby on odwzorować staranie kierowcy o ograniczenie zużycia paliwa. Widać, że pomimo trendu można obserwować naturalną zmienność procesu. Patrząc na to jednak z innej strony, pomimo obserwowanej zmienności, wciąż można dopatrzeć się trendu.

Rysunek: Wykres kontrolny 4

Najpopularniejszy na świecie arkusz kalkulacyjny pozwala łatwo dodać linię trendu. Może również podać jej równanie matematyczne. Mając te dane jesteśmy już o krok od obliczenia naturalnej zmienności naszego procesu, czyli odchylenia standardowego od linii trendu.

Dane inne niż normalne

Częściej niż przypuszczałem mamy w życiu do czynienia z danymi, które mają rozkład inny niż normalny. Dla mnie przykładem takich danych był mój czas dojazdu do biura przed pandemią. Zwykle zajmowało mi to około 32 minut. Czas ten dość często się wydłużał, jeżeli na trasie doszło do jakiejś stłuczki, która powodowała korki lub przy niesprzyjającej pogodzie. Podróż mogła wtedy trwać nawet ponad godzinę. Zdarzało mi się również „zejść” do 28 minut, ale miało to miejsce, jeżeli jechałem do biura w weekend, lub poza godzinami szczytu. Na tym przykładzie widać, że nasz „dzwon” nie jest symetryczny, czyli mamy do czynienia z rozkładem innym niż normalny. Widać to na wykresie:

Rysunek: Rozkład nienormalny

Widać, że znacznie częściej czas mojego dojazdu do biura się wydłużał, a rzadko skracał poniżej wartości oczekiwanej. Rozumiejąc rozkład danych, możemy na przykład wyliczyć, o której godzinie musimy wyjechać, ab spóźniać się do pracy nie częściej niż raz na 100 dni. Jeżeli dokonalibyśmy w tym przypadku takich obliczeń zakładając, że dane mają rozkład normalny, to spóźnialibyśmy się częściej niż zakładamy. Jest to spowodowane brakiem symetryczności naszych danych i użyciem obliczeń, które do nich nie pasują.

Podobny kształt ma również struktura wynagrodzeń. Minimum jest określone płacą minimalną. Jest też mała grupa społeczeństwa, która zarabia bardzo dużo. Na tym przykładzie warto omówić główne cechy tego rozkładu. Dominanta to wartość, którą zarabia największa liczba ludzi. Mediana to wartość zarabiana przez „środkowego” pracownika. Połowa ludzi zarabia mniej niż on, a połowa więcej. Jeżeli obliczylibyśmy średnią arytmetyczną zarobków, to mam wrażenie, że nie powiedziałaby nam ona zbyt wiele. Jest tak, ponieważ jest ona zawyżana przez garstkę ludzi zarabiających niebotyczne kwoty.

Inny przykład to czas, po jakim psują się urządzenia. Powinien mieć on rozkład Weibulla. Producentom zależy, żeby urządzenia nie psuły się na gwarancji, bo naprawy stanowią ich koszt. Dla zachowania dobrej renomy firmy na rynku, produkt nie powinien się zepsuć też zaraz po gwarancji. Wszyscy zdajemy sobie sprawę, że bardzo mało kuchenek mikrofalowych, przetrwa pięć okresów gwarancyjnych, powiedzmy 10 lat. Większość z nich prawdopodobnie zepsuje się może po sześciu latach… Co możemy zrobić jeżeli mamy do czynienia z danymi innymi niż normalne? Zawsze możemy policzyć dominantę i medianę, to dwie ważne cechy. Jeżeli potrzebne jest nam lepsze zrozumienie zagadnienia, mamy do dyspozycji kilka opcji:

  • Możemy analizować je graficznie – to najprostsze, ale niezbyt naukowe podejście. Z dostępnych danych możemy sporządzić sobie histogram, aby poznać kształt rozkładu. On podpowie nam, jakie wartości są typowe i na ile prawdopodobne. Moim ulubionym rodzajem wykresu do zrozumienia danych jest wykres prawdopodobieństwa. Ma on dwie osie: x – to nasz zakres danych, a y – to prawdopodobieństwo. Skala obu osi jest dobrana do kształtu rozkładu, aby nasze punkty układały się w linię prostą.
  • Możemy również użyć narzędzi dostępnych online – dowiedzieć się jaki rozkład mają moje dane. Posiadając tę wiedzę, możemy już wyliczać prawdopodobieństwo przykładowych danych.
  • Możemy użyć programów komputerowych, które analizują dane statystyczne.
  • Inną opcją jest przekształcenie danych do rozkładu normalnego. Możemy wtedy je analizować jak normalne, a wyniki naszej analizy musimy znowu przekształcić na „język” naszych danych.

Zawsze warto zastanowić się przez moment, „czy moje dane powinny mieć rozkład normalny?”. Jeżeli mają inny rozkład niż oczekujemy, to warto zastanowić się, dlaczego tak jest.

Po co to wiedzieć Project Managerowi? Uważam, że zrozumienie tych ogólnych zasad może pomóc PM-owi dość często, szczególnie w projektach, których celem jest osiągnięcie przez jakiś proces mierzalnej wartości. Przy pisaniu Project Charter możemy wziąć pod uwagę występowanie naturalnej zmienności procesu. Przy zamknięciu projektu możemy upewnić się w poprawny sposób, że założenia zostały spełnione, znowu – biorąc pod uwagę zmienność. Przy projektach poprawiających jakiś proces, na przykład projektach typu DMAIC, mamy narzędzia, aby zmierzyć stan rozważanego procesu przed i po wprowadzeniu zmian.