Architektura danych
Cele szkolenia
Po ukończeniu szkolenia uczestnicy:
- Zrozumieją, jak myśli architekt danych - jak dane przepływają, zmieniają się i wspierają decyzje biznesowe.
- Będą swobodnie pracować w Pythonie, tworząc praktyczne skrypty do czyszczenia, transformacji i przygotowania danych.
- Opanują SQL w realnych zastosowaniach - od prostych zapytań po złożone JOIN‑y, agregacje i projektowanie schematów.
- Zbudują małe, realistyczne pipeline’y danych, łącząc Python, SQL i Git w spójny, powtarzalny proces.
- Nauczą się efektywnie korzystać z Git, aby wersjonować projekty, współpracować i utrzymywać czysty, przejrzysty kod.
- Zrealizują kompletny projekt danych - od surowych plików po zweryfikowane tabele i zapytania analityczne.
- Poznają dobre praktyki jakości danych, logiki i projektowania przepływów, tworząc rozwiązania niezawodne i łatwe w utrzymaniu.
Plan szkolenia
Podstawy danych i logiki
- Czym jest „architektura danych”: pipeline’y, przechowywanie, transformacje
- Typy danych: strukturalne, semi‑strukturalne, niestrukturalne
- Rozumowanie logiczne w przepływach danych
- Logika boolowska, tabele prawdy, predykaty
- Logika sterowania (rozgałęzienia, warunki, niezmienniki)
- Jak logika przekłada się na klauzule SQL WHERE i warunki w Pythonie
- Ćwiczenia praktyczne
- Budowanie tabel prawdy dla prostych i złożonych warunków
- Tłumaczenie reguł języka naturalnego na wyrażenia boolowskie
- Pisanie małych zagadek logicznych w pseudokodzie
- Ćwiczenie rozumowania warunkowego na prostych fragmentach Pythona
Python w pracy z danymi
- Podstawy składni Pythona: zmienne, typy, operatory
- Listy, słowniki, krotki, zbiory - kiedy używać których struktur
- Sterowanie przepływem: if/else, pętle, list comprehensions
- Funkcje, moduły, importy
- Menedżery kontekstu
- Operacje na plikach (CSV, JSON)
- Wprowadzenie do bibliotek związanych z danymi: csv, json, pathlib, collections
- Tworzenie wykresów — matplotlib
- Obsługa błędów i wzorce debugowania
- Ćwiczenia praktyczne
- Pisanie skryptów parsujących pliki CSV/JSON
- Transformacja list/słowników za pomocą pętli i comprehensions
- Implementacja małych zadań ETL (extract → transform → output)
- Budowa mini‑pipeline’u do czyszczenia danych
- Ćwiczenie debugowania błędnych skryptów
Podstawy SQL dla architektury danych
- Model relacyjny: tabele, klucze, ograniczenia
- Składnia SELECT: projekcja, filtrowanie, sortowanie
- JOIN‑y: inner, left, right, full
- Agregacje: GROUP BY, HAVING
- Podzapytania i CTE
- Podstawy projektowania schematów: normalizacja, relacje
- Transakcje i podstawy ACID
- Ćwiczenia praktyczne
- Zapytania do przykładowej bazy (PostgreSQL lub SQLite)
- Pisanie JOIN‑ów dla scenariuszy z życia wziętych
- Budowanie raportów agregujących (liczności, sumy, średnie)
- Tworzenie tabel z ograniczeniami
- Normalizacja nieuporządkowanego zbioru danych do 3NF
- Pisanie transformacji opartych na CTE
Git i kontrola wersji w projektach danych
- Dlaczego kontrola wersji jest ważna w architekturze danych
- Podstawy Git: init, clone, add, commit, push, pull
- Strategie branchowania (feature branches, main/dev)
- Rozwiązywanie konfliktów scalania
- Współpraca z GitHub/GitLab
- Przechowywanie kodu SQL/Python w repozytoriach
- Higiena commitów i powtarzalność projektów
- Ćwiczenia praktyczne
- Utworzenie repozytorium i wysłanie ćwiczeń Python/SQL
- Ćwiczenie branchowania i scalania
- Rozwiązywanie celowo przygotowanych konfliktów
- Wzajemne review kodu poprzez pull requesty
- Tagowanie wersji projektu pipeline’u danych
Integracja Python + SQL + Git w przepływach danych
- Jak skrypty Pythona komunikują się z bazami danych
- Użycie sqlite3 lub psycopg2 do wykonywania SQL z poziomu Pythona
- Projektowanie małych pipeline’ów danych
- Struktura folderów i powtarzalny układ projektu
- Logowanie, konfiguracja i separacja środowisk
- Ćwiczenia praktyczne
- Budowa skryptu Pythona, który ładuje dane → wstawia do SQL → wykonuje zapytania
- Utworzenie małego pipeline’u ETL przechowywanego w Git
- Wzajemne review i refaktoryzacja kodu
- Dodanie dokumentacji i instrukcji README
Projekt praktyczny
- Zaprojektowanie prostego schematu
- Załadowanie surowych danych (CSV/JSON) w Pythonie
- Transformacja i walidacja danych
- Wstawienie danych do tabel SQL
- Przygotowanie zapytań analitycznych
- Wersjonowanie całego projektu w Git
Wymagania
Szkolenie jest idealne dla osób, które chcą zrozumieć, jak działa nowoczesna architektura danych i zdobyć solidne podstawy do dalszej pracy jako data engineer, analityk lub architekt danych.
Czas trwania
5 dni po 8 godzin lekcyjnychWycena szkolenia zamkniętego
Szkolenie zamknięte w siedzibie Klienta.
Klient zapewnia salę szkoleniową i sprzęt.
Zapytaj o termin i cenęWycena szkolenia zdalnego
Szkolenie zamknięte w siedzibie Klienta.
Szkolenie live online. Warsztaty z trenerem.
Zapytaj o termin i cenę