Data Engineer (GCP)
Centrum, Warszawa
Randlab
Dołączysz do zespołu budującego i utrzymującego platformę CDP w architekturze Data Lakehouse na GCP. Pracujemy nad potokami batch/stream, integracjami CDC oraz warstwami danych Bronze/Silver/Gold w BigQuery, z naciskiem na jakość, lineage i zgodność (RODO). Praca Hybrydowa w Warszawie (2 wizyty w biurze w miesiącu)
Twój zakres obowiązków
Projektowanie i rozwój potoków danych (ETL/ELT) w GCP: Dataflow (Apache Beam, Python), Composer (Airflow), Pub/Sub.
Implementacja i utrzymanie strumieniowania/CDC (np. MySQL → Datastream → BigQuery).
Modelowanie danych w BigQuery (partycje, klastrowanie, optymalizacja zapytań) i praca w warstwach Bronze/Silver/Gold.
Zarządzanie katalogiem/metadanymi, DQ i lineage (Dataplex) oraz transformatami SQL (Dataform).
Współpraca z IT/PM, code review, CI/CD, monitoring i alertowanie w chmurze.
Nasze wymagania
Doświadczenie jako Data Engineer w kilku projektach cloud (preferencyjnie GCP).
GCP: BigQuery, Cloud Storage, Dataflow (Beam, Python), Composer (Airflow), Pub/Sub, Datastream, Dataplex, Dataform.
Bardzo dobra znajomość Python oraz SQL (dialekt BigQuery).
Doświadczenie z MySQL jako źródłem danych (transakcyjne), praktyka w CDC.
Architektura Medalionowa (Bronze/Silver/Gold), ETL/ELT.
Data Governance/RODO, Data Quality, Data Lineage, deduplikacja klientów, wersjonowanie danych.
Git i CI/CD (np. Cloud Build), monitoring/logging w GCP.
Komunikacja i współpraca w zespole, angielski do pracy w środowisku międzynarodowym.
Mile widziane
Doświadczenie z PostgreSQL/MS SQL jako dodatkowymi źródłami.
Optymalizacja kosztów BigQuery (partycjonowanie/klastrowanie, MV).
Praktyka w projektowaniu kontraktów danych i testów w Dataform/dbt-like.
Randlab to dynamiczna firma technologiczna, która tworzy innowacyjne rozwiązania dla nowoczesnego biznesu. Specjalizujemy się w tworzeniu oprogramowania, aplikacji mobilnych oraz systemów zarządzania danymi.
Data Engineer (GCP)
Data Engineer (GCP)
Centrum, Warszawa
Randlab