CRISP-DM: Standardowy proces analityczny dla projektów data science #EN27

TL;DR

CRISP-DM to najpopularniejszy standardowy framework dla projektów data science, opublikowany w 1999 roku
Składa się z 6 kluczowych faz: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation i Deployment
Przygotowanie danych (Data Preparation) często zajmuje nawet 80% całego projektu analitycznego
CRISP-DM można stosować zarówno w stylu waterfall jak i agile – kluczowa jest elastyczność wdrożenia
Badania pokazują, że CRISP-DM pozostaje najpopularniejszą metodologią dla projektów analitycznych
Warto łączyć CRISP-DM z praktykami agile, takimi jak Kanban czy Scrum, aby zwiększyć efektywność procesu

Wprowadzenie: Czym jest CRISP-DM?

Zapraszam Cię do kolejnego artykułu z mojej nowej serii, gdzie dzielę się najcenniejszymi informacjami z podcastów i materiałów, które uważam za warte zapamiętania i powrotu w przyszłości.

CRISP-DM (Cross-Industry Standard Process for Data Mining) to ustandaryzowana metodologia prowadzenia projektów data mining, analytics i data science. Jak wyjaśnia transkrypcja wykładu, którą analizowałem: „Common lifecycle is what’s called the Crisp dm, the cross industry standard process for data mining. And there’s really five pieces to it.”

Opublikowana w 1999 roku metodologia miała na celu standaryzację procesów eksploracji danych w różnych branżach. Od tego czasu stała się najbardziej rozpowszechnionym podejściem do projektów analitycznych i data science, co potwierdzają badania przytoczone w materiałach.

Jak zauważa autor transkrypcji: „Jeśli podejdziesz do analityki bez odpowiedniego przygotowania, możesz po prostu rozbić się i spłonąć. Nie chcesz wydawać mnóstwa pieniędzy na analitykę bez posiadania celu biznesowego, który próbujesz osiągnąć.”

6 faz CRISP-DM w szczegółach

I. Business Understanding (Zrozumienie Biznesu)

Każdy dobry projekt zaczyna się od głębokiego zrozumienia potrzeb klienta. Projekty data mining nie są wyjątkiem, a CRISP-DM to rozpoznaje.

Według analizowanych materiałów, faza Business Understanding koncentruje się na zrozumieniu celów i wymagań projektu. Obejmuje cztery zadania:

Określenie celów biznesowych: „Należy najpierw dokładnie zrozumieć, z biznesowej perspektywy, co klient naprawdę chce osiągnąć, a następnie zdefiniować kryteria sukcesu biznesowego.”
Ocena sytuacji: Określenie dostępności zasobów, wymagań projektu, ocena ryzyk i planów awaryjnych oraz przeprowadzenie analizy kosztów i korzyści.
Określenie celów data mining: Oprócz zdefiniowania celów biznesowych, należy również określić, jak wygląda sukces z technicznej perspektywy data mining.
Stworzenie planu projektu: Wybór technologii i narzędzi oraz zdefiniowanie szczegółowych planów dla każdej fazy projektu.

Jak podkreśla autor materiałów: „Chociaż wiele zespołów spieszy się przez tę fazę, ustanowienie silnego zrozumienia biznesu jest jak budowanie fundamentów domu – absolutnie niezbędne.”

II. Data Understanding (Zrozumienie Danych)

Następnym krokiem jest faza Zrozumienia Danych. Jak wyjaśnia transkrypcja: „A lot of what we’re doing here is looking at what data we have and what data we need and trying to cover some of those gaps.”

Ta faza ma cztery zadania:

Zebranie wstępnych danych: Pozyskanie niezbędnych danych i (jeśli to konieczne) załadowanie ich do narzędzia analitycznego.
Opisanie danych: Zbadanie danych i udokumentowanie ich powierzchownych właściwości, takich jak format danych, liczba rekordów czy identyfikatory pól.
Eksploracja danych: Głębsze wnikanie w dane. Zadawanie pytań, wizualizacja i identyfikacja relacji między danymi.
Weryfikacja jakości danych: Ocena czystości danych i dokumentacja wszelkich problemów z jakością.

Transkrypcja zwraca uwagę na istotny aspekt: „Now, as we’re trying to understand and explore our data, oftentimes we use a sandbox, which is a safe space to explore our data so we don’t mess up what’s called production, where all the live data is.”

III. Data Preparation (Przygotowanie Danych)

Jak zauważa autor materiałów: „Powszechna zasada mówi, że 80% projektu to przygotowanie danych.” Ta faza, często nazywana „data munging”, przygotowuje ostateczne zbiory danych do modelowania.

Ma pięć zadań:

Wybór danych: Określenie, które zbiory danych będą używane i udokumentowanie powodów włączenia/wykluczenia.
Czyszczenie danych: „Często jest to najdłuższe zadanie. Bez niego prawdopodobnie padniesz ofiarą zasady 'śmieci na wejściu, śmieci na wyjściu’.”
Konstruowanie danych: Tworzenie nowych atrybutów, które będą pomocne. Na przykład, wyliczenie wskaźnika masy ciała na podstawie wzrostu i wagi.
Integracja danych: Tworzenie nowych zbiorów danych poprzez łączenie danych z wielu źródeł.
Formatowanie danych: Ponowne formatowanie danych w razie potrzeby.

Jak pokazuje transkrypcja na przykładzie: „Now you have two customers, one of them has a city that’s missing, the states are in different formats and also the date of birth. And so what you might have to do is do cleaning to get this in a good place in order to do the Next step, to do your modeling.”

IV. Modeling (Modelowanie)

To, co jest powszechnie uważane za najbardziej ekscytującą pracę w data science, jest również często najkrótszą fazą projektu. W tej fazie buduje się i ocenia różne modele oparte na kilku różnych technikach modelowania.

Ta faza ma cztery zadania:

Wybór technik modelowania: Określenie, które algorytmy wypróbować (np. regresja, sieć neuronowa).
Generowanie planu testów: W zależności od podejścia do modelowania, może być konieczne podzielenie danych na zbiory treningowe, testowe i walidacyjne.
Budowanie modelu: Jak wyjaśniono w transkrypcji: „A model is something that mimics the real world. It’s our version of it. Maybe when you were a kid, you built a LEGO model that looked like the White House or the pyramids in Egypt.”
Ocena modelu: Zazwyczaj wiele modeli konkuruje ze sobą, a data scientist musi interpretować wyniki modelu na podstawie wiedzy domenowej, wcześniej zdefiniowanych kryteriów sukcesu i planu testów.

V. Evaluation (Ewaluacja)

Podczas gdy zadanie Oceny Modelu w fazie Modelowania koncentruje się na technicznej ocenie modelu, faza Ewaluacji patrzy szerzej na to, który model najlepiej spełnia potrzeby biznesowe i co robić dalej.

Ta faza ma trzy zadania:

Ewaluacja wyników: Czy modele spełniają kryteria sukcesu biznesowego? Które z nich powinny zostać zatwierdzone dla biznesu?
Przegląd procesu: Przegląd wykonanej pracy. Czy coś zostało przeoczone? Czy wszystkie kroki zostały prawidłowo wykonane?
Określenie kolejnych kroków: Na podstawie poprzednich trzech zadań, określenie czy przejść do wdrożenia, iterować dalej, czy zainicjować nowe projekty.

VI. Deployment (Wdrożenie)

„Zależnie od wymagań, faza wdrożenia może być tak prosta jak wygenerowanie raportu lub tak złożona jak implementacja powtarzalnego procesu eksploracji danych w całym przedsiębiorstwie.” – wskazuje przewodnik CRISP-DM.

Model nie jest szczególnie użyteczny, dopóki klient nie ma dostępu do jego wyników. Złożoność tej fazy może się znacznie różnić. Ta ostatnia faza ma cztery zadania:

Planowanie wdrożenia: Opracowanie i udokumentowanie planu wdrożenia modelu.
Planowanie monitorowania i konserwacji: Opracowanie dokładnego planu monitorowania i konserwacji, aby uniknąć problemów podczas fazy operacyjnej modelu.
Tworzenie raportu końcowego: Zespół projektu dokumentuje podsumowanie projektu, które może zawierać końcową prezentację wyników eksploracji danych.
Przegląd projektu: Przeprowadzenie retrospektywy projektu dotyczącej tego, co poszło dobrze, co mogło być lepsze i jak poprawić w przyszłości.

Jak zauważa transkrypcja: „So once we build our model, we can’t just walk away. We actually have to start using it.”

Agile czy Waterfall? Jak stosować CRISP-DM

Jedną z kluczowych kwestii poruszanych w analizowanych materiałach jest to, czy CRISP-DM jest bardziej zgodny z podejściem zwinnym (agile) czy kaskadowym (waterfall).

Niektórzy argumentują, że jest elastyczny i zwinny, podczas gdy inni postrzegają CRISP-DM jako sztywny. Jak podkreślają materiały: „To, co naprawdę ma znaczenie, to sposób jego implementacji.”

CRISP-DM jako Waterfall

Z jednej strony:

Wiele osób postrzega CRISP-DM jako sztywny proces waterfall – częściowo dlatego, że jego wymagania dotyczące raportowania są nadmierne dla większości projektów.
Przewodnik stwierdza, że w fazie zrozumienia biznesu „plan projektu zawiera szczegółowe plany dla każdej fazy” – charakterystyczny aspekt tradycyjnych podejść waterfall, które wymagają szczegółowego planowania z góry.

CRISP-DM jako Agile

Z drugiej strony:

CRISP-DM pośrednio popiera zasady i praktyki agile, stwierdzając: „Sekwencja faz nie jest sztywna. Poruszanie się tam i z powrotem między różnymi fazami jest zawsze wymagane. Wynik każdej fazy określa, która faza lub poszczególne zadanie fazy, musi być wykonane jako następne.”

Materiały zawierają ilustrację, jak CRISP-DM może być wdrożony na oba sposoby na przykładzie projektu dotyczącego rezygnacji klientów (churn) z trzema elementami do dostarczenia: model dobrowolnej rezygnacji, model rezygnacji z powodu braku płatności oraz skłonność do akceptacji oferty retencyjnej.

CRISP-DM Waterfall: Zespół pracowałby kompleksowo i poziomo w ramach każdego elementu. Zespół mógłby rzadko wracać do niższej warstwy poziomej tylko w razie krytycznej potrzeby. Jedna „wielka” dostawa jest dostarczana na koniec projektu.

CRISP-DM Agile: Zespół wąsko koncentrowałby się na szybkim dostarczeniu jednego pionowego wycinka łańcucha wartości na raz. Dostarczaliby wiele mniejszych pionowych wydań i często zbierali opinie po drodze.

Na pytanie, które podejście jest lepsze, materiały zdecydowanie zalecają: „Jeśli to możliwe, przyjmij podejście agile i tnij pionowo, aby:

Interesariusze otrzymywali wartość szybciej
Interesariusze mogli dostarczać znaczące opinie
Data scientists mogli oceniać wydajność modelu wcześniej
Zespół projektu mógł dostosować plan na podstawie opinii interesariuszy”

Popularność CRISP-DM

Jak pokazują badania przytoczone w materiałach, CRISP-DM pozostaje najpopularniejszą metodologią dla projektów data science:

Ankiety KDnuggets: W każdej z ankiet w latach 2002, 2004, 2007 i 2014 CRISP-DM był najpopularniejszą metodologią.
Ankieta z 2020 roku: CRISP-DM był zdecydowanym zwycięzcą, uzyskując prawie połowę ze 109 głosów.
Wyszukiwania Google: Analiza średnich miesięcznych wyszukiwań w USA pokazuje, że CRISP-DM przewyższa inne metodologie znacznie szerszym marginesem.

Zalety i wady CRISP-DM

Zalety

Możliwość uogólnienia: Chociaż zaprojektowany dla data mining, CRISP-DM zapewnia silne wskazówki nawet dla najbardziej zaawansowanych działań w dzisiejszej data science.
Zdrowy rozsądek: Badania pokazują, że nawet studenci, którym nie dano konkretnych wskazówek dotyczących zarządzania projektem, „dążyli do metodologii podobnej do CRISP i identyfikowali fazy i wykonywali kilka iteracji.”
Możliwość adaptacji: Podobnie jak Kanban, CRISP-DM może być wdrożony bez większego szkolenia, zmian ról organizacyjnych czy kontrowersji.
Dobry start: Początkowe skupienie się na Business Understanding pomaga dostosować pracę techniczną do potrzeb biznesowych i skierować data scientists z dala od wskakiwania w problem bez odpowiedniego zrozumienia celów biznesowych.
Mocne zakończenie: Ostatni krok Deployment również dotyczy ważnych aspektów zamknięcia projektu i przejścia do utrzymania i operacji.
Elastyczność: Luźna implementacja CRISP-DM może być elastyczna, aby zapewnić wiele korzyści z zasad i praktyk agile.

Słabości i wyzwania

Sztywność: Z drugiej strony, niektórzy twierdzą, że CRISP-DM cierpi na te same słabości co Waterfall i utrudnia szybką iterację.
Duża ilość dokumentacji: Prawie każde zadanie ma krok dokumentacji. Choć dokumentowanie swojej pracy jest kluczowe w dojrzałym procesie, wymagania dokumentacyjne CRISP-DM mogą niepotrzebnie spowalniać zespół.
Nie nowoczesny: Inni argumentują, że CRISP-DM, jako proces sprzed ery big data, „może nie być odpowiedni dla projektów Big Data ze względu na jego cztery V”.
Nie jest to podejście do zarządzania projektami: Być może najważniejsze, CRISP-DM nie jest prawdziwą metodologią zarządzania projektami, ponieważ zakłada, że jego użytkownik to pojedyncza osoba lub mały, zgrany zespół i ignoruje koordynację pracy zespołowej niezbędną dla większych projektów.

Rekomendacje

Według materiałów, CRISP-DM jest świetnym punktem wyjścia dla osób, które chcą zrozumieć ogólny proces data science. Pięć wskazówek, aby przezwyciężyć słabości, to:

Iteruj szybko: Nie wpadaj w pułapkę waterfall, pracując dokładnie w poprzek warstw projektu. Raczej myśl pionowo i dostarczaj cienkie pionowe plasterki wartości od końca do końca.
Dokumentuj wystarczająco… ale nie za dużo: Jeśli będziesz ściśle przestrzegać CRISP-DM, możesz spędzić więcej czasu na dokumentowaniu niż robieniu czegokolwiek innego.
Nie zapominaj o nowoczesnych technologiach: Dodaj kroki do wykorzystania architektur chmury i nowoczesnych praktyk oprogramowania, takich jak kontrola wersji git i potoki CI/CD.
Ustaw oczekiwania: CRISP-DM nie posiada strategii komunikacji z interesariuszami. Upewnij się więc, że ustawisz oczekiwania i będziesz z nimi często komunikować.
Połącz z podejściem do zarządzania projektami: CRISP-DM nie jest prawdziwie podejściem do zarządzania projektami. Połącz go więc z frameworkiem koordynacji data science. Popularne podejścia agile obejmują:
- Kanban
- Scrum
- Data Driven Scrum

Alternatywy dla CRISP-DM

SEMMA

Kilka lat przed publikacją CRISP-DM, SAS opracował Sample, Explore, Modify, Model, and Assess (SEMMA). Chociaż zaprojektowany, aby pomóc użytkownikom w korzystaniu z narzędzi w SAS Enterprise Miner do problemów data mining, SEMMA jest często uważany za ogólną metodologię data mining. Popularność SEMMA zmalała, tylko 1% respondentów w ankiecie z 2020 roku stwierdziło, że go używa.

W porównaniu z CRISP-DM, SEMMA jest jeszcze bardziej wąsko skoncentrowany na technicznych krokach data mining. Pomija początkową fazę Business Understanding z CRISP-DM i zamiast tego zaczyna od procesów próbkowania danych. SEMMA również nie obejmuje końcowych aspektów Deployment.

KDD i KDDS

Datujący się na 1989 rok, Knowledge Discovery in Database (KDD) to ogólny proces odkrywania wiedzy w danych poprzez data mining, czyli ekstrakcję wzorców i informacji z dużych zbiorów danych przy użyciu uczenia maszynowego, statystyki i systemów baz danych.

W 2016 roku Nancy Grady z SAIC, opublikowała Knowledge Discovery in Data Science (KDDS), opisując go „jako kompleksowy model procesu od planowania potrzeb misji do dostarczania wartości”. KDDS specjalnie rozszerza KDD i CRISP-DM, aby rozwiązać problemy big data.

KDD ma tendencję do bycia starszym terminem, który jest rzadziej używany. KDDS nigdy nie miał znacznej adopcji.

Podsumowanie

CRISP-DM pozostaje najpopularniejszym standardowym procesem dla projektów data science i data mining. Jego sześć faz zapewnia kompleksowe ramy od zrozumienia biznesu po wdrożenie, które mogą być adaptowane zarówno do podejść waterfall, jak i agile.

Jak pokazuje nasza analiza, najskuteczniejszym podejściem jest luźna implementacja CRISP-DM połączona z praktykami agile, która pozwala na szybkie iteracje i dostarczanie wartości. Choć CRISP-DM ma swoje słabości, szczególnie w obszarze nadmiernej dokumentacji i braku specyficznych wskazówek dotyczących zarządzania zespołem, pozostaje solidnym fundamentem dla każdego projektu data science.

Z mojego doświadczenia, kluczem do sukcesu jest elastyczne podejście – wykorzystaj strukturę CRISP-DM jako mapę, ale nie bój się dostosować procesu do specyficznych potrzeb Twojego projektu i zespołu.

Materiały do dalszej nauki:

Chapman, P., Clinton, J., Kerber, R., Khabaza, T., Reinartz, T., Shearer, C., & Wirth, R. (1999). CRISP-DM 1.0: Step-by-step data mining guide.
Shearer, C. (2000). The CRISP-DM model: the new blueprint for data mining. Journal of data warehousing, 5(4), 13-22.
Saltz, J., & Shamshurin, I. (2016). Big data team process methodologies: A literature review and the identification of key factors for a project’s success.
Vorhies, W. (2016). CRISP-DM – a Standard Methodology to Ensure a Good Outcome. Data Science Central.

Niniejszy artykuł powstał na podstawie „Introduction to the CRISP-DM Methodology (Analytics & Data Science)” oraz dokumentu „What is CRISP DM?” z serwisu KDnuggets. Stanowi część mojej nowej serii, w której dzielę się najbardziej wartościowymi informacjami z interesujących materiałów edukacyjnych, do których warto wracać.