Architektura danych

Cele szkolenia

Po ukończeniu szkolenia uczestnicy:

  • Zrozumieją, jak myśli architekt danych - jak dane przepływają, zmieniają się i wspierają decyzje biznesowe.
  • Będą swobodnie pracować w Pythonie, tworząc praktyczne skrypty do czyszczenia, transformacji i przygotowania danych.
  • Opanują SQL w realnych zastosowaniach - od prostych zapytań po złożone JOIN‑y, agregacje i projektowanie schematów.
  • Zbudują małe, realistyczne pipeline’y danych, łącząc Python, SQL i Git w spójny, powtarzalny proces.
  • Nauczą się efektywnie korzystać z Git, aby wersjonować projekty, współpracować i utrzymywać czysty, przejrzysty kod.
  • Zrealizują kompletny projekt danych - od surowych plików po zweryfikowane tabele i zapytania analityczne.
  • Poznają dobre praktyki jakości danych, logiki i projektowania przepływów, tworząc rozwiązania niezawodne i łatwe w utrzymaniu.

Plan szkolenia

Podstawy danych i logiki

  • Czym jest „architektura danych”: pipeline’y, przechowywanie, transformacje
  • Typy danych: strukturalne, semi‑strukturalne, niestrukturalne
  • Rozumowanie logiczne w przepływach danych
  • Logika boolowska, tabele prawdy, predykaty
  • Logika sterowania (rozgałęzienia, warunki, niezmienniki)
  • Jak logika przekłada się na klauzule SQL WHERE i warunki w Pythonie
  • Ćwiczenia praktyczne
    • Budowanie tabel prawdy dla prostych i złożonych warunków
    • Tłumaczenie reguł języka naturalnego na wyrażenia boolowskie
    • Pisanie małych zagadek logicznych w pseudokodzie
    • Ćwiczenie rozumowania warunkowego na prostych fragmentach Pythona

Python w pracy z danymi

  • Podstawy składni Pythona: zmienne, typy, operatory
  • Listy, słowniki, krotki, zbiory - kiedy używać których struktur
  • Sterowanie przepływem: if/else, pętle, list comprehensions
  • Funkcje, moduły, importy
  • Menedżery kontekstu
  • Operacje na plikach (CSV, JSON)
  • Wprowadzenie do bibliotek związanych z danymi: csv, json, pathlib, collections
  • Tworzenie wykresów — matplotlib
  • Obsługa błędów i wzorce debugowania
  • Ćwiczenia praktyczne
    • Pisanie skryptów parsujących pliki CSV/JSON
    • Transformacja list/słowników za pomocą pętli i comprehensions
    • Implementacja małych zadań ETL (extract → transform → output)
    • Budowa mini‑pipeline’u do czyszczenia danych
    • Ćwiczenie debugowania błędnych skryptów

Podstawy SQL dla architektury danych

  • Model relacyjny: tabele, klucze, ograniczenia
  • Składnia SELECT: projekcja, filtrowanie, sortowanie
  • JOIN‑y: inner, left, right, full
  • Agregacje: GROUP BY, HAVING
  • Podzapytania i CTE
  • Podstawy projektowania schematów: normalizacja, relacje
  • Transakcje i podstawy ACID
  • Ćwiczenia praktyczne
    • Zapytania do przykładowej bazy (PostgreSQL lub SQLite)
    • Pisanie JOIN‑ów dla scenariuszy z życia wziętych
    • Budowanie raportów agregujących (liczności, sumy, średnie)
    • Tworzenie tabel z ograniczeniami
    • Normalizacja nieuporządkowanego zbioru danych do 3NF
    • Pisanie transformacji opartych na CTE

Git i kontrola wersji w projektach danych

  • Dlaczego kontrola wersji jest ważna w architekturze danych
  • Podstawy Git: init, clone, add, commit, push, pull
  • Strategie branchowania (feature branches, main/dev)
  • Rozwiązywanie konfliktów scalania
  • Współpraca z GitHub/GitLab
  • Przechowywanie kodu SQL/Python w repozytoriach
  • Higiena commitów i powtarzalność projektów
  • Ćwiczenia praktyczne
    • Utworzenie repozytorium i wysłanie ćwiczeń Python/SQL
    • Ćwiczenie branchowania i scalania
    • Rozwiązywanie celowo przygotowanych konfliktów
    • Wzajemne review kodu poprzez pull requesty
    • Tagowanie wersji projektu pipeline’u danych

Integracja Python + SQL + Git w przepływach danych

  • Jak skrypty Pythona komunikują się z bazami danych
  • Użycie sqlite3 lub psycopg2 do wykonywania SQL z poziomu Pythona
  • Projektowanie małych pipeline’ów danych
  • Struktura folderów i powtarzalny układ projektu
  • Logowanie, konfiguracja i separacja środowisk
  • Ćwiczenia praktyczne
    • Budowa skryptu Pythona, który ładuje dane → wstawia do SQL → wykonuje zapytania
    • Utworzenie małego pipeline’u ETL przechowywanego w Git
    • Wzajemne review i refaktoryzacja kodu
    • Dodanie dokumentacji i instrukcji README

Projekt praktyczny

  • Zaprojektowanie prostego schematu
  • Załadowanie surowych danych (CSV/JSON) w Pythonie
  • Transformacja i walidacja danych
  • Wstawienie danych do tabel SQL
  • Przygotowanie zapytań analitycznych
  • Wersjonowanie całego projektu w Git

Wymagania

Szkolenie jest idealne dla osób, które chcą zrozumieć, jak działa nowoczesna architektura danych i zdobyć solidne podstawy do dalszej pracy jako data engineer, analityk lub architekt danych.

Czas trwania

5 dni po 8 godzin lekcyjnych
Wycena szkolenia zamkniętego

Szkolenie zamknięte w siedzibie Klienta.

Klient zapewnia salę szkoleniową i sprzęt.

Zapytaj o termin i cenę
Wycena szkolenia zdalnego

Szkolenie zamknięte w siedzibie Klienta.

Szkolenie live online. Warsztaty z trenerem.

Zapytaj o termin i cenę
Terminy szkoleń otwartych

Brak terminu?

Zgłoś zainteresowanie szkoleniem