Powiedzenie, że Data Science, to po pro­stu „nauka o danych” to nieco za mało. W zakres wchodzi bowiem między innymi proces pozyskania, analizy i modelowania oraz „rozumienia” danych, jak też i sta­wiania hipotez, wnioskowania czy wresz­cie – wizualizacji i komunikacji wyników. Już z samej listy tych aktywności widać, że całość może stać się dość komplekso­wym przedsięwzięciem i powinna wyma­gać sprawnego zarządzania. A jeśli mowa o zarządzaniu, to najlepiej poprzez dedy­kowany projekt. No i właśnie… o co w ta­kim projekcie chodzi i jak odnieść w nim sukces?


Celem takiego projektu jest praca z dany­mi zorientowana na pozyskanie informacji służących rozwiązaniu problemu, na przy­kład biznesowego. Określa się to ładnie jako tzw. valuable insights, czyli uzyskanie realnej wartości z przeprowadzonych ana­liz. Wartość ta polega na otrzymaniu rezul­tatu, na przykład wspomagającego decyzje biznesowe. Szczególnego wymiaru takie przedsięwzięcie nabiera dziś, w czasach Big Data, czyli w kontekście dostępności i moż­liwości przetwarzania dużych ilości danych. Innymi słowy, w takim projekcie przeprowa­dzamy zaawansowane analizy statystyczne, budujemy modele statystyczne, wchodzi­my w obszary Data Mining albo Machine Learning.

Z kolei sukces projektu to szeroka ga­łąź badań, której celem jest analiza, jakie elementy zarządzania projektami mogą się przyczynić do jego pomyślnego przeprowa­dzenia oraz ich aplikacja w praktyce.

Przyjrzyjmy się zatem tym komponentom oraz czynnikom projektowym, które szcze­gólnie nabierają znaczenia w projektach typu Data Science. Dlaczego? Ponieważ badanie danych, obok właściwego rzemiosła zarząd­czego, wymaga również odpowiednich na­rzędzi i umiejętności, specyficznych dla tej kategorii projektów. Startujemy!

I.Ustalmy zasady gry

…czyli zacznijmy od wyboru efektywnej metodyki projektowej. Oczywiście, jak każdy projekt, również i  ten potrzebuje ram (framework), w  których będą zachodzić wymagane procesy i  aktywności zarządzania. Ich zadaniem jest pomóc w  zdefiniowaniu i  zarządzaniu realizacją celów projektu, zakresu, interesariuszy, zespołu itd. Dodatkowo, szeregu specyficznych technicznych wymagań – zaczynając od wyboru technik analitycznych a na infrastrukturze kończąc. Choć istnieje kilka dedykowanych metodyk do zastosowania, można zaaplikować również i  taką opartą o  powszechnie uznane podejścia jak PRINCE2® lub PMBOK® Guide. Generalnie mamy zgodność – i  w  praktyce, i  w  literaturze – iż niezależnie od tego wyboru typowy framework powinien składać się z  następujących po sobie faz (data analytics lifecycle): Odkrywanie problemu, (m.in. definiowanie zagadnienia badawczego, ustalanie celów, stawianie hipotez), Przygotowywanie danych (m.in. pozyskanie danych, ich przekształcanie), Planowanie modelu, Budowanie modelu (m.in. wykrywanie zależności między zmiennymi, wybór kluczowych zmiennych, testowanie danych oraz użycie ich do celów treningowych i walidacji modelu), Komunikowanie wyników, Operacjonalizacja (m.in. dostarczenie dokumentacji, kodu gotowego do wdrożenia „na produkcję”). Choćby tak zarysowany plan gry powinien być znany zespołowi projektowemu.

Jaka drogą pójść?

Za sprawdzoną i  wiodącą metodykę w  omawianej tu dziedzinie uchodzi CRISP-DM (Cross Industry Standard Process for Data Mining). Wielokrotnie wygrywała w ankietach przeprowadzonych przez internetowy serwis KDNuggets, skupiający profesjonalistów zajmujących się m.in. Data Science. Pozostałe mniej popularne, lecz uznane podejścia to KDD (Knowledge Discovery in Databases) oraz SEMMA (Sample, Explore, Modify, Model and Assess). Warto też wspomnieć wyniki niezwykle ciekawej analizy na temat efektywności metodologii zarządzania projektami Data Science, którą przeprowadzili J. Saltz, I. Shamshurin, K. Crowston. Swoje rezultaty zaprezentowali w artykule „Comparing Data Science Project Management Methodologies via Controlled Experiment” (Hawaii International Conference on System Sciences, 2017). Otóż spośród czterech wybranych i  „testowanych” metodyk najbardziej efektywna okazała się Agile Kanban, zaś najmniej Agile Scrum.

II. Ustalmy, gdzie wbić szpadel

W  pewnym momencie ktoś zada nam pytanie – „to co właściwie będziemy robić?” i będzie ono dotyczyć zakresu projektu. Zrozumienie problemu, jak zawsze, jest kluczowe dla sukcesu projektu. Pozornie może się więc wydawać, iż nie ma tu nic nowego do dodania. Jednakże w przypadku Data Science istotny jest sposób, który pozwoli nam dookreślić kierunek działań już od początku projektu. Mianowicie, w tym celu można wyjść od predefiniowanej checklisty pozwalającej nam ukierunkować myślenie czy celem będzie bardziej opisowe zajęcie się problemem, a może eksploracyjne, czy też będziemy się zajmować wnioskowaniem, predykcją, badaniem przyczynowości lub np. poszukiwaniem wzorców. A może, mierząc ambitnie, po prostu wkroczymy w  obszar pełnego wyzwań uczenia maszynowego (Machine Learning). Inaczej mówiąc – staramy się rozpoznać na ile jest to problem, dla którego poprzez nasz projekt znajdziemy odpowiedzi czy stworzymy nowe rozwiązania. Ta akcja musi zakończyć się przed etapem pozyskania danych, ponieważ zakres projektu określi, jakich danych będziemy potrzebować.

Kiedy projekt się kończy?

Obok decyzji „gdzie wbić szpadel” warto też pomyśleć i o tym „kiedy lub gdzie go odłożyć”. Rozmawiając o  zakresie projektu trzeba ustalić, co będzie kryterium odbioru projektu i kiedy de facto zostanie on uznany za zakończony; i  nie chodzi wyłącznie o kryteria sukcesu. Data Scientist może obstawać przy stanowisku, iż praca kończy się w  momencie uznania, iż np. model został przetestowany i jest gotowy do wdrożenia. Tymczasem „biznes” może oczekiwać, iż projekt powinien zakończyć się dopiero z faktycznym wdrożeniem rozwiązania na „produkcję”, do działalności operacyjnej. Niektóre organizacje wprowadzają dodatkowy tzw. etap Sustainability celem monitorowania czy oczekiwane KPIs np. usługi zostały spełnione (np. rozwiązanie powinno rozpoznać 97% spamu pocztowego, lecz jest skuteczne w 92%).

Nie zapomnijmy, by rozmawiać o naszym projekcie z  interesariuszami w  trakcie jego realizacji – lub inaczej – formalna komunikacja nie zastąpi zwykłej rozmowy. Nie zawsze oczekiwania względem projektu mogą być dobrze znane od samego początku. W miarę, gdy coraz więcej będziemy wiedzieć o  problemie biznesowym i  o  danych, wówczas możemy sprawnie dostosowywać kierunek działań w projekcie do jak najefektywniejszej realizacji jego celów.

III. Zdobądźmy serce projektu!

…czyli dane! W Data Science bez danych nie ma projektu. Świadomość tego jest jed­nocześnie najbardziej banalną częścią, ale zarazem i najtrudniejszym do zarządzania komponentem przedsięwzięcia. Dlaczego? Musimy zrozumieć, jakich danych potrzebu­jemy, by znaleźć odpowiedzi na postawione pytania badawcze i by przetestować nasze hipotezy. Dane następnie musimy pozyskać czy to z własnej organizacji czy też poprzez akwizycję ze źródła zewnętrznego; a być może z kilku. Wówczas należy uwzględnić to w kosztach. Dane ze względu na istniejące regulacje prawne będą podlegać procesom governance, których celem będzie zapewnie­nie zgodności (compliance) nie tylko z obo­wiązującym prawem, ale i polityką organi­zacji. Muszą być odpowiednio składowane, a dostęp do nich zabezpieczony.

Wreszcie, musimy poznać nasze dane. Co to znaczy? Musimy zrozumieć choćby to czy te dane zaspokajają potrzeby projektu, czy są kompletne, wystarczającej jakości, w tym aktualne. Być może, a przeważnie na pew­no, surowe dane, które otrzymamy będziemy musieli przekształcić (data wrangling) zanim rozpoczniemy na nich właściwe działania analityczne.

Fot. BillionPhotos.com – stock.adobe.com

Przypadek Cambridge Analytica

stanowi już klasyczny przykład niezgodnego z prawem i nieetycznego wykorzystania danych w projekcie Data Science. Firma używała danych pozyskanych nielegalnie oraz bez odpowiedniego zezwolenia na ich przetwarzanie. Celem projektu było manipulowanie użytkownikami Facebooka. Cambridge Analytica tworzyła psychologiczne profile użytkowników, aby budować odpowiednie przekazy, które mogą oddziaływać na pojedynczego człowieka i  wpływać na jego opinie i wybory.

Więcej: http://bezprawnik.pl/cambridge-analytica, dostęp 06.01.2020.

IV. Zbudujmy własny A-Team!

Nie damy rady ruszyć z  miejsca bez odpowiednich ról i  umiejętności dostępnych w  naszym zespole. W przygotowaniu i skutecznej egzekucji projektu obok ról Sponsora, Kierownika Projektu oraz Odbiorcy Biznesowego wymaganych jest wiele dodatkowych. W  tego typu projekcie mamy do czynienia z różnymi specjalistami dziedzinowymi, spośród których warto wymienić choćby takich jak Specjalista ds. baz danych, Specjalista ds. rozwiązań Business Intelligence, Ekspert RODO, Architekt ds. danych, Specjalista ds. infrastruktury, Developer ds. dużych zbiorów danych. Tych ról może być całkiem sporo i mogą być nieco egzotyczne – jedną z  takich „najnowszych” jest Data Science Architect. Kluczową rolą pozostaje jednakże Data Scientist. Zadaniem tej roli jest przygotowanie algorytmów przetwarzania zbiorów danych, głownie dużych i modeli statystycznych. Obok znajomości statystyki jest zazwyczaj ekspertem w  języku R czy Python oraz potrafi świetnie obsługiwać pakiety statystyczne jak IBM SPSS, SAS czy Mathlab; oczywiście MS Excel też!

Dla sukcesu zespołu, obok zdolności technicznych, za najważniejszą umiejętność uchodzi zdolność zrozumienia problemu badawczego, co jest punktem wyjścia do zdefiniowania zakresu projektu i kryteriów jego odbioru. Inne to: zdolność krytycznego myślenia (dobra wiadomość jest taka, iż można się jej nauczyć!), umiejętność komunikacji i prezentacji oraz wizualizacji danych. Są one bardzo istotne, kiedy trzeba w  efektywny i  efektowny sposób wyjaśnić interesariuszom, na przykład sponsorowi, co właściwie udało się wydobyć z danych. Pozostałe umiejętności to ciekawość, innowacyjne, nieszablonowe myślenie oraz umiejętność zadawania pytań i rozwiązywania problemów.

V. Zadbajmy o dobry sprzęt!

By być naprawdę niepokonanymi musimy mieć niezłe wyposażenie. Zespół będzie potrzebował specjalistycznych narzędzi do pracy z  danymi – do ich przetwarzania czy budowania modeli statystycznych. Warto zastanowić się już na wstępie czy będą to narzędzia typu open source czy komercyjne. Te ostatnie na pewno podniosą koszty projektu, wliczając nie tylko koszty licencji, ale też szkoleń. Mogą jednak okazać się niezbędne. Niektóre z nich są specjalnie zaprojektowane do pracy z danymi, udoskonalane latami i posiadają tzw. analytic sandbox lub workspace. Jest to rozwiązanie idealne dla Data Scientist do pracy z  danymi, pozwalające na ich podłączenie z  wielu źródeł (baz danych) jednocześnie. Dodatkowo mogą być wyposażone w  znakomite funkcje wizualizacji wyników (np. Tableau). Tych będziemy szczególnie potrzebować w  końcowej fazie projektu, zgodnie z  zasadą „obraz to 1000 słów”.

Sama infrastruktura również stanowi nie lada wyzwanie. Chyba, że organizacja już realizowała podobne projekty i  technologia pozwalająca wydajnie analizować duże zbiory danych jest dostępna i  skalowalna. Warto nadmienić, iż kluczowe jest czy dane będą analizowane w  czasie rzeczywistym (real time) czy też będzie to analiza off-line. Architektura umożliwiająca składowanie, przetwarzanie i  analizowanie dużych ilości danych będzie wyzwaniem, dlatego, jeśli to możliwe, powinna być częścią definiowania wymagań projektu.

Kilka rad na koniec

Zaprezentowane wyżej komponenty sukcesu są podstawowymi elementami, na ogólnym poziomie z  pewnością Wam znanymi. Dotykaliśmy przecież takich spraw jak definiowanie zakresu czy budowanie zespołu. Niemniej jednak, jak pewnie zauważyliście, „diabeł tkwi w szczegółach”. Od tych szczegółów zależy sukces projektu Data Science. Warto na koniec dodać, iż nic oczywiście nie przyczynia się bardziej do osiągnięcia mistrzostwa niż praktyka oraz wnioski wyciągnięte z pozytywnego i  negatywnego doświadczenia prowadzonych projektów. W  szczególności w  kontekście przedstawionych tutaj komponentów. Być może w  swoich projektach znajdziecie, jako bardziej wartościowy do zastosowania, nieco inny zestaw kluczowych czynników. Albo po prostu – ich specyficzny balans. Warto mieć otwarty umysł oraz ciekawość i odwagę w aplikowaniu nowych rozwiązań. Wszystko to sprawi, iż w naszej szklanej kuli ukaże się prawdziwy obraz (z danych).