Data science i uczenie maszynowe

JeremiaszP/ Listopad 3, 2017/ Książki/ 0 comments

Data science okladka

Okładka książki

Data science i uczenie maszynowe jest nowoczesną książką, wprowadzającą czytelnika w dziedzinę, która jest coraz częściej wykorzystywana. Dziedzina zwana Data Science stoi na pograniczu informatyki i statystyki, łączy miejscami również pojęcia znane z socjologii, demografii, czy nauk podstawowych. Czy autor książki Data science i uczenie maszynowe Marcin Szeliga oraz Wydawnictwo Naukowe PWN sprostali trudnemu zadaniu, jakim jest przekazanie wiedzy o data science? I tak i nie – ale tego dowiecie się z niniejszej recenzji.

Data science author

Autor książki: Pan Marcin Szeliga

Data science i uczenie maszynowe w kwestii przekazywania wiedzy teoretycznej jest książką bardzo dobrą – autor prezentuje szereg schematów, w tym drzewa decyzyjne, szczegółowo je opisując, tak więc Data science i uczenie maszynowe jako wprowadzenie jest na pewno pozycją bardzo dobrą. Problem zaczyna się pojawiać, gdy dochodzi do wykorzystania oprogramowania. Zasadniczo kod używany w listingach przez autora odnosi się do środowiska R i chwała autorowi za to, jednak zasadnicza część, czyli projektowanie eksperymentów jest w książce nie najlepiej ujęte. Autor sugeruje czytelnikowi platformę Microsoft Azure i zgadzam się – jest to bardzo dobre środowisko pozwalające automatyzować ścieżki i badania związane z analizą danych. Dodatkowo Azure pozwala na wizualizację procesów i kroków prowadzących do celu (programiści zaawansowanych aplikacji pewnie kojarzą schematy blokowe) oraz edycję tych procesów niejako w „locie”.

Data science Azure MS

Microsoft Azure to potężne środowisko analityczne. Do tego dla celów szkoleniowych darmowe i w pełni funkcjonalne!

Niestety Data science i uczenie maszynowe nie opisuje krok po kroku działań zmierzających do przeprowadzenia eksperymentu w Azure wspomnianym „krok po kroku”. Mam wrażenie, że część instrukcji, jakie musi wykonać czytelnik, jest „ucięta” tak, jakby autor zakładał, że odbiorca wie, gdzie jest dany przycisk lub dana procedura. Osobiście na początku musiałem się z MS Azure zapoznawać we własnym zakresie za pomocą poradników na YT. Chwała autorowi, że użył Azure, jednak początkujący czytelnik (nawet zaznajomiony z R) może się pogubić. Jest to moim zdaniem dość spory zgrzyt, który w pewien sposób będzie limitował potencjalnych czytelników książki. A szkoda by było. Dlaczego?

Dlatego, że Data science i uczenie maszynowe opisuje szczegółowo, czym jest nauka o danych – data mining. Autor w pierwszych rozdziałach wprowadza czytelnika w formalizm data science, opisując czym jest:
– ocena przydatności danych;
– wstępne przetwarzanie danych (redukcja wyników, uzupełnianie danych);
– wzbogacanie danych;
– klasyfikacje danych (w tym metody Bayesowskie, za to naprawdę ogromny plus dla autora!), metody klasyfikacji binarnej;

Następnie autor łączy projektowanie eksperymentów związanych z analizą danych i ze statystyką, (wykorzystując darmowy program R) poruszając tematy takie jak:
– regresja;
– analiza skupień;
– prognozowanie;
– bardzo ważna część: ocena i poprawa jakości modeli (w tym modele klasyfikacyjne z krzywą ROC na czele!).

Bayes Data Science

Statystyka Bayesowska atakuje problematykę statystyki z nieco innej, bardziej ogólnej i formalnej strony.

W Data science i uczenie maszynowe poruszono również problematykę uczenia maszynowego oraz opisano różnego rodzaju ciekawe zastosowania (takie jak przetwarzanie i rozpoznawanie pisma przez komputer). Trudno mi dlatego jednoznacznie ocenić tę książkę. Dla początkującego adepta sztuki data science może być wręcz nieczytelna miejscami (Azure!). Tak naprawdę w pełni skorzystają z niej czytelnicy już zaznajomieni z interfejsem Azure: dla nich Data science i uczenie maszynowe stanie się książką bardzo często wykorzystywaną (ponieważ, co powtórzę: autor porusza takie problemy, jak analiza Bayesowska, czy krzywe ROC, niezwykle ważne w crossowych badaniach klinicznych). Jeżeli autor zaznaczyłby, że warto znać Azure w przynajmniej podstawach podstaw to osobiście „nie narzekałbym”, w szczególności, że książka okraszona jest dużą ilością schematów, ilustracji i jest napisana stosunkowo przystępnym językiem. Niemniej Data science i uczenie maszynowe jest książką wartą polecenia.