Senior Databricks Engineer

Data

-, Gdańsk

CRODU

Full-time

B2B

Senior

Remote

50 - 58 USD

Net per hour - B2B

Job description

Cześć! 👋

Dla naszego klienta z USA poszukujemy Azure DataBrick Engineerów. Prace dotyczą działań w obszarach m.in. migracji, zbierania danych i optymalizacji rozwiązań opartych na DataBricks. Klient posiada stałe zapotrzebowanie na specjalistów. Projekty, które prowadzą przeważnie są krótkoterminowe (ze sporym prawdopodobieństwem na przedłużenia), a ze względu na stałość zapotrzebowania klient jest w stanie zaproponować nowy temat po zakończeniu danego projektu.

Obecnie poszukiwany jest specjaliści do 2 projektów startujących początkiem grudnia:

1. Budowa nowoczesnej platformy danych w Databricks (przy użyciu architektury Medallion) i migrację krytycznych danych finansowych (JDE Job Master File), które zasilą ponad 20 aplikacji Smartsheet:

-> po stronie data engineering będzie trzeba budować, optymalizować i utrzymywać potoki ETL/ELT (PySpark, DLT) transformujące surowe dane z JDE, zaimplementować ścisłe kontrole jakości oraz zdefiniować skomplikowaną logikę biznesową ze starszych systemów (SSIS/Boomi).

-> po stronie infrastruktury i architektury będzie trzeba zaprojektować i wdrożyć bezpieczną, wielowarstwową infrastrukturę Databricks jako kod (Terraform IaC), architekturę dostępu (Unity Catalog) oraz zapewnić automatyzację zarządzania tożsamością i dostępem (SailPoint)

2. Migracja całej platformy hurtowni danych z YellowBrick na Databricks, obejmująca projektowanie architektury, budowanie potoków migracyjnych, optymalizację zapytań i zapewnienie integralności danych podczas przejścia, z wdrożeniem mechanizmów governance (Unity Catalog).

Dla klienta kluczowe jest obycie w środowisku Azure (i/lub) AWS oraz znajomość DataBricks i Apache Spark. Projekty prowadzone przez klienta przede wszystkim dla firm z USA - w większości przypadków wymagana jest praca jedynie z niewielką zakładką godzinową (np. od 10:00 do 18:00) natomiast jesteśmy otwarci na kandydatów preferujących pracę w innych godzinach.

Ogólny zakres obowiązków (może on różnić się w zależności od pełnionej roli):

📍 Architektura i Implementacja Platformy: Projektowanie, wdrażanie i utrzymanie skalowalnych rozwiązań Data Lakehouse z wykorzystaniem Databricks, Delta Lake oraz standardów Medallion Architecture (Bronze/Silver/Gold).

📍 Budowa Potoków Danych: Tworzenie i optymalizacja zaawansowanych potoków ETL/ELT przy użyciu PySpark i Delta Live Tables (DLT), włączając w to mechanizmy przetwarzania danych wsadowych oraz strumieniowych/w czasie zbliżonym do rzeczywistego.

📍 Wyzwania Migracyjne i Transformacyjne: Aktywny udział w projektach migracyjnych platformy (np. Yellowbrick -> Databricks) oraz refaktoring złożonej, starszej logiki biznesowej (SSIS, Boomi) do nowoczesnych rozwiązań Spark/Python.

📍 Governance i Security: Wdrażanie mechanizmów zarządzania danymi (data governance) i bezpieczeństwa, w tym konfiguracja Unity Catalog, zarządzanie dostępem (RBAC) oraz implementacja IaC (Terraform) dla automatyzacji infrastruktury.

📍 Optymalizacja i SLA: Monitorowanie, dostrajanie wydajności oraz automatyzacja procesów data engineering, aby spełniać krytyczne SLA (np. 4-godzinne okno odświeżania danych).

📍 Współpraca i Liderowanie: Ścisła współpraca z Data Scientistami, Data Engineerami oraz Architektami, pełniąc rolę eksperta technicznego i aktywnie uczestnicząc w planowaniu i doborze narzędzi (np. integracje z Smartsheet/SailPoint).

Wymagania:

⚡️Solidne (8+ lat) doświadczenie w pracy w roli data engineera lub pokrewnych rolach (m.in. w projektach transformacyjnych i migracyjnych)

⚡️ Bardzo dobra znajomość (min. 2-3 lata doświadczenia) platformy DataBricks (klastry, workspacje, security |migracje, procesy ETL, integracje) oraz Apache Spark ((PySpark, optymalizacja zapytań)

⚡️ Bardzo dobra znajomość Python i jego zastosowań w data engineering (w tym projektowanie i implementacja potoków ETL/ ELT)

⚡️ Praktyczne doświadczenie z Delta Lake i znajomość koncepcji zarządzania danymi, w tym Unity Catalog lub pokrewnych rozwiązań governance

⚡️ Doświadczenie w pracy w środowisku Microsoft Azure (np. Data Factory, Synapse, Logic Apps, Data Lake) i/lub AWS (np. Redshift, Athena, Glue)

⚡️ Znajomość SQL w kontekście projektowania schematów, optymalizacji zapytań i implementacji logiki biznesowej

⚡️ Umiejętność podejmowania inicjatywy i samodzielność

⚡️ Angielski na poziomie umożliwiającym swobodną komunikację w zespole

Mile widziane:

⚡️ Praktyczne doświadczenie z Delta Live Tables (DLT)

⚡️ Znajomość lub doświadczenie w pracy z hurtowniami danych/narzędziami migracyjnymi takimi jak Yellowbrick, SSIS, Boomi lub podobnymi systemami legacy

⚡️ Doświadczenie z implementacją Infrastruktury jako Kodu (IaC), np. Terraform lub Pulumi

⚡️ Doświadczenie w projektowaniu i optymalizacji przepływów danych za pomocą, DBT, SSIS, TimeXtender lub podobnych rozwiązań (ETL, ELT)

Jak działamy i co oferujemy?

🎯 Stawiamy na otwartą komunikację zarówno w procesie rekrutacji jak i po zatrudnieniu - zależy nam na klarowności informacji dotyczących procesu i zatrudnienia

🎯 Do rekrutacji podchodzimy po ludzku, dlatego upraszczamy nasze procesy rekrutacyjne, żeby były możliwie jak najprostsze i przyjazne kandydatowi

🎯 Pracujemy w imię zasady "remote first", więc praca zdalna to u nas norma, a wyjazdy służbowe ograniczamy do minimum

🎯 Oferujemy prywatną opiekę medyczną (Medicover) oraz kartę Multisport dla kontraktorów