Podstawy analizy danych w Pythonie
Sprawdź również: Zaawansowana analiza danych w języku Python oraz Wprowadzenie do uczenia maszynowego
Kurs realizowany jest w języku Python w środowisku PyCharm. Główną oś szkolenia stanowią dwa pakiety do operacji na danych – NumPy oraz pandas. Uczestnicy dowiedzą się ponadto, w jaki sposób przygotować dane, aby mogły służyć do budowy modeli predykcyjnych oraz poznają podstawowe techniki ich wizualizacji.
Szkolenie przeznaczone jest dla osób chcących zdobyć, ugruntować lub wzbogacić swoją wiedzę z zakresu analizy danych.
Dzięki udziałowi w szkoleniu uczestnicy:
- Poznają dwa pakiety do operacji na danych – NumPy oraz pandas
- Dowiedzą się, w jaki sposób przygotować dane, aby mogły służyć do budowy modeli predykcyjnych
- Poznają podstawowe techniki wizualizacji danych
Oczekiwana wiedza wstępna:
- Język Python na poziomie podstawowym
Przypomnienie podstaw języka Python
- Tworzenie nowego projektu w środowisku PyCharm
- Przegląd podstawowej funkcjonalności środowiska
- Import bibliotek
- Identyfikatory
- Konwencje nazewnicze
- Linie i wcięcia
- Komentarze
- Zmienne
- Operatory arytmetyczne
- Wbudowane funkcje
- Instrukcje warunkowe
- Pętle
- Listy, wyrażenia listowe
- Krotki
- Słowniki
Wprowadzenie do analizy danych
- Podstawowe statystyki
- Typy danych
- Problemy z danymi
Podstawy NumPy
- Wektory, macierze, tensory
- Generowanie liczb pseudolosowych
- Tworzenie tablic
- Właściwości tablicy, konwersja typów
- Działania na indeksach
- Operacje arytmetyczne i logiczne na tablicach
- Zmiana rozmiaru i łączenie tablic
- Agregacja danych
- Płytkie i głębokie kopiowanie
- Wbudowane funkcje
- Sortowanie tablic
Podstawy pandas
- Seria i ramka danych
- Indeksy i kolumny
- Tworzenie obiektów
- Import danych (Excel, CSV)
- Zapis danych
- Atrybuty ramki
- Dodawanie i usuwanie wierszy
- Indeksery
- Filtracja danych
- Operacje na ramce
- Grupowanie i agregacja
Analiza eksploracyjna i przygotowanie danych
- Typy i rozmiar danych
- Statystyki
- Kodowanie danych
- Rodzaje braków danych
- Wykrywanie braków danych
- Podstawowe metody uzupełniania braków danych
- Niespójności w danych
- Wartości odstające
- Korelacja danych
- Standaryzacja i skalowanie
Wizualizacja danych w pakiecie Matplotlib
- Konfiguracja wykresów
- Podwykresy
- Wykres liniowy
- Wykres rozrzutu
- Histogram
- Wykres słupkowy
- Diagram kołowy
- Heatmap
- Wyświetlanie obrazów
Stanisław Kaźmierczak - asystent i doktorant Politechniki Warszawskiej w obszarze uczenia maszynowego/data science. Prowadzi zajęcia i szkolenia z obszaru analizy danych, sieci neuronowych, głębokiego uczenia oraz szeroko rozumianej sztucznej inteligencji.