Data Engineer (Databricks)
Senior Data Engineer (Azure Databricks / Azure Data Factory)
📍 Lokalizacja: Kraków, Polska (tryb hybrydowy 3 dni z biura)
Forma zatrudnienia: Pełny etat
Opis stanowiska:
Poszukujemy doświadczonej osoby z bardzo dobrą znajomością Azure Databricks (ADB) oraz Azure Data Factory (ADF), która dołączy do zespołu realizującego skalowalne rozwiązania data-platformowe w chmurze Azure. Idealny kandydat/kandydatka to osoba techniczna, nastawiona na jakość, optymalizację wydajności oraz pracę z danymi batchowymi i strumieniowymi na poziomie produkcyjnym.
Zakres obowiązków
Projektowanie, budowa i utrzymanie potoków danych w Azure Data Factory (lub Synapse Pipelines) oraz Azure Databricks dla przetwarzania batchowego i strumieniowego
Tworzenie skalowalnych rozwiązań przetwarzania danych w PySpark (preferowane Delta Lake)
Implementacja pipeline’ów streamingowych (Structured Streaming, Event Hubs, Kafka) oraz niezawodnych workflow batchowych wraz z monitoringiem i alertami
Optymalizacja wydajności Spark (partycjonowanie, cache, broadcast joins, AQE, tuning rozmiarów plików) oraz zarządzanie pamięcią i klastrami
Modelowanie danych pod analitykę i ML (architektura medallion: bronze / silver / gold)
Wdrażanie praktyk CI/CD i DevOps dla rozwiązań data engineeringowych
Zapewnienie jakości danych, lineage i governance (np. Great Expectations, Deequ, Azure Purview)
Współpraca z architektami danych, analitykami i zespołami produktowymi
Tworzenie dokumentacji technicznej i materiałów do przekazywania wiedzy
Wymagane kompetencje
Azure Databricks (ADB): PySpark, Spark SQL, Delta Lake, job clusters vs all-purpose clusters, workflows
Azure Data Factory (ADF): pipeline’y, data flows, triggery, Integration Runtime, parametryzacja, orkiestracja
Programowanie: Python i PySpark (modularność, obsługa błędów, testy jednostkowe)
Batch & Streaming: Structured Streaming, checkpointing, watermarking, wzorce orkiestracji
Optymalizacja wydajności: tuning Sparka, strategie partycjonowania, Parquet/Delta, cache/persistence, AQE, obsługa skew, optymalizacja joinów i shuffle
SQL: zaawansowany SQL do transformacji, tuningu i debugowania
Bazy danych / storage: relacyjne bazy danych (SQL Server, PostgreSQL) oraz ADLS Gen2
Azure: ADLS, Key Vault, Event Hubs / Service Bus, podstawy sieci i IAM
Kontrola wersji i CI/CD: Git (GitHub / Azure DevOps).
Data Engineer (Databricks)
Data Engineer (Databricks)