Narzędzia i środowisko pracy
Data Scientist potrzebuje narzędzi do
wykonywania swojej pracy.
Współcześnie wiele z narzędzi jest dostępnych
online bez konieczności instalowania
czegokolwiek bezpośrednio na komputerze.
Jednak wciąż istnieje, kilka absolutnie
koniecznych narzędzi które każdy Data Scientist
musi umieć zainstalować i którymi musi
wiedzieć jak zarządzać.
Roadmapa Specjalisty od AI
Jak zostać Data Scientistem?
Jak rozpocząć przygodę z AI?
Środowisko wirtualne /
conda
Jupyter notebook
zarządzanie środowiskiem
wirtualnym
zarządzanie pakietami /
bibliotekami Pythona
zarządzanie wersjami Pythona
efektywna praca z notebookiem
zarządzanie notebookami
instalowanie rozszerzeń
Git i współdzielenie pracy z
innymi
czym jest system kontroli wersji?
podstawowe komendy gita
cykl życia kodu i git flow
Analiza i eksploracja danych
Programowanie / analiza danych
Statystyka opisowa
Jak eksplorować dane (EDA)?
Techniki eksploracji i analizy danych w celu
wydobycia zasadniczych informacji i
wzorców.
Mając wszystkie narzędzia zainstalowane,
skonfigurowane i bardzo dobrze opanowane
możemy totalnie zanurzyć się w świecie
eksploracji danych.
podstawowe metody analizy i opisu
danych:
średnia
mediana
wariancja
odchylenie standardowe
korelacja
Wizualizacja
Jakiego wykresu kiedy użyć? Które formy
wizualizacji potrafią nam
odpowiedzieć na specyficzne pytania?
Mając wszystkie narzędzia w gotowości możemy
przystąpić do nauki Pythona i pakietu Pandas
który jest najważniejszym pakietem z punktu
widzenia pracy Data Scientista.
Python i Pandas pozwolą nam
uzyskać pełną kontrolę nad danymi i operacjami
nad nimi wykonywanymi.
Python i biblioteki do wizualizacji pozwolą nam
szybko przekształcić abstrakcyjne dane w
atrakcyjnie wyglądające wykresy.
Wizualizacja danych
Tworzenie wykresów w Pandas
Tworzenie wykresów w
Nauczymy się jak analizować dane, jak
oceniać wartość danych, odkrywać w nich wzorce
i wiele innych.
Wstęp do Pandas
Wstęp do Pythona
Podstawy Pandas
Operacje odczytu, odpytywania i
filtrowania DataFrame
Operacje modyfikacji DataFrame
Operacje zapisu DataFrame
Matplotlib
Tworzenie wykresów w Seaborn
Tworzenie wykresów w Plotly
Podstawy Pythona
Nauka czytania kodu w Pythonie
Pakiety i biblioteki
Podstawy OOP
Praca z szeregami czasowymi
Podstawy analizy
szeregów czasowych
Wiemy już jak eksplorować dane i odkrywać
ukryte w nich złoto. Istnieje jeszcze jeden rodzaj
danych, który należy wyróżnić, gdyż jego natura
sprawia, że do jego analizy i zrozumienia
potrzebujemy nieco innych narzędzi.
Powitajmy na scenie szeregi czasowe.
definicja
podstawowe metryki
średnie kroczące
zachowanie i interpretacja
Dekompozycja szeregów
czasowych
Techniki dekompozycji szeregów
czasowych
Interpretacja poszczególnych
składników
Praca z pakietem statsmodels
Modelowanie szeregów
czasowych
Przy okazji poznawania szeregów czasowych w
końcu mogliśmy zetknąć się z konceptem modeli i
uczeniem maszynowym.
Jednak w przypadku Szeregów Czasowych
modele te są dość specyficzne dla tego
konkretnie typu danych.
Czas najwyższy szczegółowo pochylić się nad
temat uczenia maszynowego i sztucznej
inteligencji.
Prognozowanie szeregów
czasowych
AR
MA
ARMA
ARIMA
SARIMA
...
pakiet Prophet
pakiet sktime
pakiet darts
Uczenie maszynowe i sztuczna inteligencja
Na tym etapie potrafimy eksplorować i
przekształcać dane, tak aby
tworzyć najskuteczniejsze modele sztucznej
inteligencji.
Jednak ani modele, ani wnioski zaobserwowane w
naszych danych nie będą nic warte jeżeli nie
nauczymy się tego jak je
prezentować publiczności nietechnicznej.
Przygotowywanie danych dla
ML
MLOps
Wersjonowanie i
zarządzanie modelami
Dryf modeli
Wdrażanie modeli na
produkcję
Uczenie głębokie
Modele regresyjne
Tworzenie produktu i prezentacja rezultatów
Prezentowanie wyników
analizy danych
Wybór najważniejszych obserwacji i
wniosków
Synchronizacja obserwacji z celami
biznesowymi
Przygotowywanie i eksport raportów
Tworzenie dashboardów
Projektowanie
Story telling
Prezentowanie dashboardów
Tworzenie data apps = Streamlit
Nauka biblioteki Streamlit
Cykl życia aplikacji Streamlit
Wdrażanie aplikacji Streamlit
Klasyfikacja
Inżynieria cech (Feature Engineering)
Kodowanie zmiennych kategorycznych
Test / Train Split
Skalowanie
Balansowanie danych
Transformacje
Przekształcenia czasowe
Na tym moglibyśmy poprzestać, jednak został
nam jeszcze jeden bardzo ważny temat.
Często w pracy Data Scientista, stajemy przed
koniecznością pracy z danymi w różnych
formatach, o różnej jakości lub zlokalizowanych w
wielu różnych źródłach, z których sami musimy
sobie te dane pobrać.
Do tego dochodzi jeszcze jest temat zmienności
danych, czyli tego jak z czasem ulegają one
zmienia i tego jak powinniśmy sobie z
tą zmiennością radzić.
Wstęp do uczenia
maszynowego
uczenie nadzorowane i
nienadzorowane
klasyfikacja / regresja
trenowanie
testowanie
ocena i ewaluacje
optymalizacja hiperparametrów
Inżynieria danych
Jak wczytywać dane
w różnych formatach
CSV / TSV
Excel
PDF
Parquet
Web
...
Bazy danych
MySQL
Postgres
MongoDB
Hive i Spark
DAG-i
biblioteka mage.ai
budowanie pipelinów
wdrażanie pipelinów