Data Engineer
Poszukujemy Data Engineera, który dołączy do naszego zespołu pracującego dla klienta z branży farmaceutycznej. Jeśli chcesz tworzyć nowoczesne, skalowalne rozwiązania do przetwarzania danych, wspierać analityków i data scientistów oraz uczestniczyć w projektach ML, to jest rola dla Ciebie! Nasz klient stawia na innowacyjne technologie chmurowe (Azure), a Twoja praca będzie miała realny wpływ na rozwój nowoczesnych systemów danych w sektorze zdrowia i farmacji.
Zakres obowiązków:
Projektowanie, wdrażanie i utrzymanie struktur przechowywania danych (Delta Lake) oraz systemów ich przetwarzania w chmurze (Azure Databricks, Azure Data Lake Storage, Azure SQL Server, Azure Event Hub, Apache Airflow, Azure Data Factory), zapewniając wydajny i niezawodny dostęp do danych.
Projektowanie, implementacja i zarządzanie potokami ETL/ELT oraz strumieniami danych w celu gromadzenia, transformacji i integracji dużych zbiorów danych z różnych źródeł.
Automatyzacja procesów przetwarzania danych poprzez tworzenie skryptów i narzędzi zwiększających efektywność, niezawodność i skalowalność przepływów danych.
Tworzenie i modyfikacja struktur danych oraz kodu infrastruktury z użyciem Terraform i YAML.
Zarządzanie kodem, wdrażanie zmian w strukturze danych oraz pipelinów z użyciem Git i zautomatyzowanych procesów CI/CD w Azure DevOps.
Wspieranie analityków danych, data scientistów i innych zespołów w dostarczaniu danych w odpowiednim formacie i jakości.
Wymagania:
Doświadczenie w budowaniu wydajnych i skalowalnych struktur danych oraz potoków przetwarzania danych.
Umiejętność projektowania i implementacji wydajnych potoków ETL/ELT oraz ich monitorowania i optymalizacji.
Biegłość w pracy z usługami Azure (Databricks wraz z Unity Catalog, Data Factory, Event Hub, Data Lake Storage) oraz orkiestracją potoków w Apache Airflow.
Bardzo dobra znajomość Python, PySpark, Terraform, YAML, SQL i Databricks Asset Bundle.
Doświadczenie w konfiguracji CI/CD z użyciem Azure DevOps Repos i Pipelines.
Doświadczenie w projektowaniu rozwiązań w architekturze Data Lakehouse.
Umiejętność tworzenia procesów przetwarzania danych w czasie rzeczywistym lub bliskim rzeczywistemu oraz ich późniejszego monitorowania i optymalizacji.
Elementy ML (mile widziane):
Tworzenie zautomatyzowanych pipeline’ów do przetwarzania danych, trenowania modeli oraz wdrażania ich w środowisku produkcyjnym.
Praca z MLflow: śledzenie eksperymentów, rejestr modeli, wdrażanie w produkcji.
Monitorowanie modeli w środowisku produkcyjnym.
Wsparcie procesów CI/CD dla ML w Azure DevOps, automatyzacja testów i przepływów pracy w Git.
Oferujemy:
Pracę w trybie hybrydowym.
Prywatną opiekę medyczną.
Ubezpieczenie na życie.
Kartę Multisport.
Dostęp do nowoczesnej platformy benefitowej.
Szkolenia i rozwój kompetencji zawodowych.
Kartę lunchową.
Paczki świąteczne dla dzieci.
Jeden dodatkowy dzień wolny.
Pracowniczy Program Emerytalny (PPE).
Jeśli to ogłoszenie Cię zainteresowało – aplikuj już teraz!
Data Engineer
Data Engineer
Centrum, Warsaw
Simplicity Recruitment