Data Engineer/ML Engineer
Opis projektu
Nasz Klient to państwowa jednostka o znaczeniu strategicznym, odpowiedzialna za utrzymanie i rozwój kluczowej infrastruktury w sektorze lotnictwa cywilnego. Instytucja ta pełni nadrzędną rolę w zapewnianiu ciągłości i bezpieczeństwa operacji transportowych na skalę krajową, działając w oparciu o rygorystyczne normy publiczne oraz międzynarodowe standardy regulacyjne.
Zadania:
Projektowanie, budowa i utrzymanie niezawodnych potoków ETL/ELT dla danych wsadowych i strumieniowych.
Modelowanie danych (warstwy surowe, przetworzone, prezentacyjne), wersjonowanie i utrzymanie linii pochodzenia danych.
Współpraca z Product Ownerem oraz Data Scientistami przy definiowaniu wymagań danych i SLA usług danych/modeli.
Planowanie pracy w Scrum, rozbijanie zadań na iteracje, estymacje, przeglądy i retrospektywy.
Koordynacja przebiegu prac nad przydzielonym segmentem platformy danych, synchronizacja z zespołami aplikacyjnymi.
Weryfikacja postępów: monitorowanie jakości danych, stabilności jobów, wskaźników kosztu/wydajności i niezawodności.
Utrzymanie i rozwój środowisk CI/CD dla kodu danych i artefaktów analitycznych (repozytoria, artefakty, polityki).
Konteneryzacja i orkiestracja usług danych oraz inferencji (budowa obrazów, zarządzanie manifestami i rolloutami).
Integracja narzędzi MLOps (rejestr eksperymentów i modeli, śledzenie metryk, automatyzacja wdrożeń modeli).
Optymalizacja kosztów i wydajności: tuning zapytań, partycjonowanie, kompresja, cache, dobór klas zasobów.
Implementacja testów dla danych i potoków (jednostkowe, integracyjne, walidacje jakości danych).
Utrzymanie katalogu danych i metadanych, klasyfikacje, polityki retencji i wersjonowania zbiorów danych.
Przygotowanie i aktualizacja dokumentacji technicznej, runbooków i procedur operacyjnych.
Udział w przeglądach architektonicznych i standardyzacji wzorców integracji danych.
Wspieranie Data Scientistów w przygotowaniu danych cech, materializacji widoków i wydajnym dostępie do danych.
Współtworzenie planów rozwoju platformy danych oraz roadmapy migracji/modernizacji (on‐prem, chmura, hybryda).
Optymalizacja pracy zespołu poprzez automatyzację powtarzalnych czynności i wprowadzanie dobrych praktyk.
Wymagania:
Wykształcenie wyższe: informatyka, inżynieria danych, matematyka, automatyka, elektronika lub pokrewne.
Doświadczenie w projektowaniu i utrzymaniu potoków danych (wsad/stream), pracy z SQL i bazami relacyjnymi oraz nierelacyjnymi.
Praktyka w ekosystemie Big Data/stream (np. Spark, Kafka) oraz w automatyzacji wdrożeń (CI/CD).
Umiejętność pracy z konteneryzacją i orkiestracją (np. Docker, Kubernetes) oraz narzędziami IaC.
Doświadczenie w wersjonowaniu artefaktów danych i modeli, podstawy MLOps (np. rejestr eksperymentów, metryki).
Znajomość wzorców projektowania rozwiązań danych, zagadnień jakości danych i monitoringu.
Umiejętność diagnozowania problemów wydajnościowych oraz optymalizacji kosztów środowisk danych.
Doświadczenie w pracy zespołowej, code review, dokumentowaniu rozwiązań i pracy w metodykach zwinnych.
Biegłe posługiwanie się językiem polskim.
Co oferujemy?
Pracę zdalną z możliwością przyjazdów co jakiś czas do biura w Warszawie.
Pracę na naszym sprzęcie.
Płaską strukturę zarządzania.
Samoorganizujące się zespoły.
Dużo przestrzeni na własną inicjatywę.
Możliwość delegacji na terenie Unii Europejskiej lub Wielkiej Brytanii.
Data Engineer/ML Engineer
Data Engineer/ML Engineer