Data Engineer (Databricks)

Data

al. Jana Pawła II 22, Warszawa

ASTEK Polska

Full-time

B2B

Senior

Hybrid

40 - 51 USD

Net per hour - B2B

Job description

Senior Data Engineer (Azure Databricks / Azure Data Factory)

📍 Lokalizacja: Kraków, Polska (tryb hybrydowy 3 dni z biura)

Forma zatrudnienia: Pełny etat

Opis stanowiska:

Poszukujemy doświadczonej osoby z bardzo dobrą znajomością Azure Databricks (ADB) oraz Azure Data Factory (ADF), która dołączy do zespołu realizującego skalowalne rozwiązania data-platformowe w chmurze Azure. Idealny kandydat/kandydatka to osoba techniczna, nastawiona na jakość, optymalizację wydajności oraz pracę z danymi batchowymi i strumieniowymi na poziomie produkcyjnym.

Zakres obowiązków

Projektowanie, budowa i utrzymanie potoków danych w Azure Data Factory (lub Synapse Pipelines) oraz Azure Databricks dla przetwarzania batchowego i strumieniowego
Tworzenie skalowalnych rozwiązań przetwarzania danych w PySpark (preferowane Delta Lake)
Implementacja pipeline’ów streamingowych (Structured Streaming, Event Hubs, Kafka) oraz niezawodnych workflow batchowych wraz z monitoringiem i alertami
Optymalizacja wydajności Spark (partycjonowanie, cache, broadcast joins, AQE, tuning rozmiarów plików) oraz zarządzanie pamięcią i klastrami
Modelowanie danych pod analitykę i ML (architektura medallion: bronze / silver / gold)
Wdrażanie praktyk CI/CD i DevOps dla rozwiązań data engineeringowych
Zapewnienie jakości danych, lineage i governance (np. Great Expectations, Deequ, Azure Purview)
Współpraca z architektami danych, analitykami i zespołami produktowymi
Tworzenie dokumentacji technicznej i materiałów do przekazywania wiedzy

Wymagane kompetencje

Azure Databricks (ADB): PySpark, Spark SQL, Delta Lake, job clusters vs all-purpose clusters, workflows
Azure Data Factory (ADF): pipeline’y, data flows, triggery, Integration Runtime, parametryzacja, orkiestracja
Programowanie: Python i PySpark (modularność, obsługa błędów, testy jednostkowe)
Batch & Streaming: Structured Streaming, checkpointing, watermarking, wzorce orkiestracji
Optymalizacja wydajności: tuning Sparka, strategie partycjonowania, Parquet/Delta, cache/persistence, AQE, obsługa skew, optymalizacja joinów i shuffle
SQL: zaawansowany SQL do transformacji, tuningu i debugowania
Bazy danych / storage: relacyjne bazy danych (SQL Server, PostgreSQL) oraz ADLS Gen2
Azure: ADLS, Key Vault, Event Hubs / Service Bus, podstawy sieci i IAM
Kontrola wersji i CI/CD: Git (GitHub / Azure DevOps).