#1 Job Board for tech industry in Europe

ML Engineer
New
AI/ML

ML Engineer

Warszawa
29 - 38 USD/hNet per hour - B2B
29 - 38 USD/hNet per hour - B2B
Type of work
Full-time
Experience
Mid
Employment Type
B2B
Operating mode
Remote
Britenet

Britenet

We are a European company that has been creating world-changing solutions for over 18 years. When you join #BriteTeam, you join an international environment that supports innovation, diversity, and creativity. We believe that passion, ambition, collaboration, and expertise make the most extraordinary ideas possible.

Tech stack

    Polish

    C2

    Airflow

    advanced

    PySpark

    advanced

    Python

    advanced

    ML

    advanced

    Machine Learning

    advanced

    XGBoost

    regular

    scikit-learn

    regular

    mllib

    regular

    MLflow

    regular

Job description

Online interview

O projekcie:

Centrum e-Zdrowia (CEZ) to instytucja odpowiedzialna za rozwój i utrzymanie systemów informatycznych wspierających funkcjonowanie ochrony zdrowia w Polsce. Jednym z kluczowych elementów infrastruktury CEZ jest hurtownia danych (Data Warehouse – DWH), która gromadzi i integruje dane pochodzące z różnych systemów medycznych i administracyjnych.


Nasze oczekiwania:

  • Doświadczenie zawodowe na stanowisku Programisty Machine Learning lub na stanowisku Data Scientist, minimum 3 lata;
  • Doświadczenie projektowe w zaawansowanym modelowaniu opartym o ML, minimum 1 projekt;
  • Doświadczenie projektowe w programowaniu w języku Python, minimum 1 projekt;
  • Doświadczenie projektowe w przetwarzaniu i analizie dużych zbiorów danych, minimum 1 projekt;
  • Doświadczenie we wdrażaniu rozwiązań opartych o ML na środowisko produkcyjne, minimum 1 projekt;
  • Znajomość bibliotek uczenia maszynowego (scikit-learn, MLLib, XGBoost);
  • Znajomość PySpark;
  • Znajomość Airflow;
  • Znajomość MLFlow;
  • Dobra organizacja pracy własnej, orientacja na realizacje celów;
  • Umiejętności interpersonalne i organizacyjne, planowanie;
  • Komunikatywność, kreatywność, samodzielność, kultura osobista i odporność na stres, dociekliwość;
  • Zdolność adaptacji i elastyczność, otwartość na stały rozwój i gotowość uczenia się.


Mile widziane:

  • Doświadczenie projektowe w obszarze ochrony zdrowia
  • Doświadczenie projektowe w obszarze Hurtownia Danych
  • Doświadczenie w projektach IT w obszarze Hurtownia Danych dla ezdrowie
  • Znajomość procesów biznesowych z obszaru ochrony zdrowia
  • Znajomość słowników i rejestrów z obszaru zdrowia np.: ICD9, ICD10, OID, PESEL
  • Doświadczenie z wykorzystaniem bazy Postgre SQL/EDB do analizy danych
  • Doświadczenie z wykorzystaniem środowiska Spark/Hadoop do przetwarzania zbiorów


Kluczowe zadania:

  • Projektowanie i rozwój potoków ML: Opracowywanie, implementacja i utrzymywanie kompleksowych potoków (pipelines) do pozyskiwania, przetwarzania, trenowania, walidacji i serwowania modeli uczenia maszynowego, wykorzystując PySpark do przetwarzania dużych zbiorów danych i Airflow do orkiestracji procesów.
  • Implementacja i optymalizacja modeli ML: Aktywne programowanie, implementacja oraz optymalizacja algorytmów i modeli uczenia maszynowego (z użyciem bibliotek takich jak scikit-learn, MLLib, XGBoost) w języku Python, w celu rozwiązywania zidentyfikowanych problemów biznesowych, np. wykrywania nieprawidłowości, przewidywania trendów w ochronie zdrowia.
  • Wdrażanie i zarządzanie modelami na środowisku produkcyjnym: Odpowiedzialność za proces wdrażania wytrenowanych modeli ML do środowiska produkcyjnego, zapewnienie ich skalowalności, niezawodności i monitorowanie ich wydajności po wdrożeniu. Wykorzystanie narzędzi do zarządzania cyklem życia modeli, takich jak MLFlow.
  • Analiza i inżynieria cech (Feature Engineering): Współpraca z analitykami danych i specjalistami domenowymi w celu identyfikacji, ekstrakcji i tworzenia nowych cech (features) z dużych zbiorów danych medycznych (np. z hurtowni danych CEZ, o wolumetrii 1 mld rekordów lub większej) pod kątem ich użyteczności w modelach ML.
  • Monitorowanie i utrzymanie modeli produkcyjnych: Implementacja systemów monitorowania wydajności wdrożonych modeli ML, wykrywanie dryftu danych (data drift) i pogorszenia jakości predykcji, a także planowanie i realizacja re-treningu lub aktualizacji modeli.
  • Współpraca z zespołami Data Scientists i Data Engineering: Ścisła współpraca z Data Scientistami w zakresie przenoszenia prototypów modeli do środowiska produkcyjnego oraz z Data Engineerami w zakresie dostępu do danych, ich transformacji i integracji z potokami ML.
  • Automatyzacja procesów ML: Tworzenie i utrzymywanie zautomatyzowanych procesów Continuous Integration/Continuous Delivery (CI/CD) dla modeli uczenia maszynowego, w tym automatyzacja testów, wdrażania i monitorowania.
  • Dokumentowanie rozwiązań ML: Przygotowywanie szczegółowej dokumentacji technicznej dotyczącej architektury modeli, potoków danych, procesów wdrożeniowych oraz monitoringu, zapewniając klarowność i powtarzalność rozwiązań.
  • Optymalizacja wykorzystania zasobów: Efektywne zarządzanie zasobami obliczeniowymi i pamięciowymi, zwłaszcza w kontekście przetwarzania dużych zbiorów danych przy użyciu Spark/Hadoop i PostgreSQL/EDB.


29 - 38 USD/h

Net per hour - B2B