Data Flow Engineer (Cloudera / Apache NiFi)
Poznaj Onwelo
Onwelo jest partnerem technologicznym, który dostarcza kompleksowe usługi, od strategii i architektury, przez wdrożenia, po utrzymanie, w obszarach transformacji cyfrowej, danych i automatyzacji. Nasz zespół liczy ponad 400 specjalistów z silnymi kompetencjami seniorskim, a na koncie mamy 300+ zrealizowanych projektów dla dużych organizacji w Polsce, Europie i USA. Działamy z kilku polskich miast oraz z biur w Niemczech, Szwajcarii i USA, łącząc lokalną obecność z globalnym zasięgiem.
O projekcie
Jako Data Flow Engineer dołączysz do zespołu odpowiedzialnego za projektowanie, wdrażanie i utrzymanie zaawansowanych, rozproszonych potoków danych w międzynarodowym środowisku sektora bezpieczeństwa publicznego. Projekt opiera się na Cloudera Data Platform (CDP), a kluczowym elementem architektury jest zapewnienie wysokiej niezawodności, automatyzacji (Python) oraz rygorystycznego podejścia do bezpieczeństwa i zarządzania danymi (Data Governance).
Praca związana jest realizacją projektów unijnych o krytycznym znaczeniu, gdzie kluczowe jest przetwarzanie danych w czasie rzeczywistym i near-real-time. Ze względu na specyfikę oraz wymogi bezpieczeństwa projektu, rola ta wymaga codziennej obecności w biurze w Warszawie (praca w trybie on-site).
Twoje zadania
Projektowanie i rozwój przepływów danych: Definiowanie, wdrażanie, testowanie i utrzymanie złożonych potoków danych w Apache NiFi (Cloudera DataFlow) (procesy ingest, transform, enrich, route, egress).
Budowa i optymalizacja potoków CDC: Tworzenie potoków przetwarzania danych w czasie rzeczywistym/near-real-time w oparciu o mechanizmy CDC (Change Data Capture) z baz relacyjnych, przy użyciu natywnych konektorów NiFi, SQL Builder oraz narzędzi takich jak Debezium.
Integracje REST API i systemowe: Budowanie zaawansowanych integracji opartych na REST API, JDBC i Kafce, z uwzględnieniem mechanizmów autoryzacji (OAuth/JWT), limitowania zapytań (rate limiting) oraz zaawansowanej obsługi błędów i procedur recovery (error recovery).
Zarządzanie architekturą danych (Modern Data Lakehouse): Praca z formatem Apache Iceberg (zarządzanie tabelami, schema evolution, partycjonowanie) oraz integracja z silnikami Spark/Flink.
Zarządzanie schematami i streaming: Obsługa Apache Kafka jako brokera wiadomości (zarządzanie tematami, producentami/konsumentami) oraz serializacja danych za pomocą Apache Avro (w tym Schema Registry).
Data Governance, Security & Auditing: Konfiguracja i zarządzanie metadanymi, tagowaniem i śledzeniem pochodzenia danych (data lineage) w Apache Atlas oraz wdrażanie polityk bezpieczeństwa i uprawnień w Apache Ranger w kontekście przepływów NiFi.
Utrzymanie i Migracje: Monitoring, alertowanie i rozwiązywanie problemów (troubleshooting) z wydajnością potoków. Udział w podnoszeniu wersji (upgrades) oraz migracjach środowisk CDP / NiFi / Kafka.
Dokumentacja: Tworzenie i aktualizacja procedur operacyjnych (SOPs), runbooków oraz dokumentacji technicznej architektur danych.
Kogo szukamy
Wymagania formalne:
Gotowość do pracy stacjonarnej (on-site) w Warszawie.
Minimum jeden z poniższych certyfikatów (lub międzynarodowy odpowiednik uznawany przez instytucje publiczne):
Cloudera Certified Developer for Apache NiFi
Cloudera Data Flow (CFM) related certification
Doświadczenie i kompetencje techniczne:
Minimum 2-3 lata praktycznego, codziennego doświadczenia w pracy z Apache NiFi, najchętniej w ekosystemie Cloudera Data Platform (CDP) (projektowanie, wdrożenia, monitoring, troubleshooting zaawansowanych flow).
Udokumentowane doświadczenie w realizacji co najmniej jednego dużego projektu integracyjnego, w którym NiFi pełniło rolę centralnego narzędzia (API calling, integracje z bazami danych, transformacje, routing).
Zaawansowana znajomość języka Python w inżynierii danych (przetwarzanie danych, tworzenie customowej logiki w NiFi, automatyzacja flow).
Praktyczna znajomość i doświadczenie z Apache Iceberg (tworzenie tabel, zarządzanie, integracja z NiFi/Spark/Flink).
Doświadczenie we wdrażaniu potoków CDC do/z relacyjnych baz danych.
Praktyczna wiedza z zakresu konfiguracji i zarządzania governance/lineage w Apache Atlas oraz uprawnień w Apache Ranger dla przepływów NiFi (tagowanie, polityki, audyt).
Doświadczenie z Apache Kafka w ekosystemie CDP (potoki NiFi -> Kafka -> downstream consumers, zarządzanie schematami Avro i zgodnością wersji).
Profil kandydata:
Zdolności analityczne oraz umiejętność pracy z wymagającą dokumentacją techniczną i procedurami (SOP).
Komunikatywność i nastawienie na współpracę z architektami danych, inżynierami oraz biznesowymi interesariuszami.
Bieżąca znajomość języka angielskiego (praca w międzynarodowym środowisku projektowym).
Co oferujemy
Udział w ciekawych projektach dla globalnych klientów
Aż 80% awansów w naszej firmie odbywa się wewnętrznie
90% kadry zarządzającej ma wykształcenie techniczne
Dostęp do szkoleń wewnętrznych i ścieżek rozwojowych
Udział w wydarzeniach zespołowych, firmowych spotkaniach i Town Hallach
Wsparcie w budowaniu profesjonalnego wizerunku (personal branding)
Dostęp do ubezpieczenia na życie oraz prywatnej opieki medycznej dla siebie i rodziny
Karta MultiSport, która wspiera dbałość o zdrowie i kondycję

Onwelo
Onwelo is a Polish technology company delivering digital transformation, data analytics, and automation projects for leading organizations in Poland and abroad. With 400+ specialists, 300+ completed projects, and clients...Data Flow Engineer (Cloudera / Apache NiFi)
Data Flow Engineer (Cloudera / Apache NiFi)