Data Engineer

Kaczmarski Group

Warszawa

Type of work

Full-time

Experience

Mid

Employment Type

Permanent

Operating mode

Remote

Tech stack

Python

advanced

Apache Spark

regular

MS SQL Server

regular

PySpark

regular

SOLID Principles

regular

Git

regular

Airflow

junior

Job description

Online interview

Jesteśmy stabilną i znaną na rynku firmą z Wrocławia. Na co dzień stawiamy na przyjacielską, atmosferę i dobre relacje. Od pierwszego dnia zatrudnienia dbamy o Twój komfort i pomagamy Ci odnaleźć się w gronie Naszych pracowników. Pracując w Kaczmarski Group możesz liczyć na wsparcie i intensywny rozwój na każdym etapie swojej kariery.

Narzędzia, z których korzystamy:

Apache Ariflow 2
Apache Spark 3 (YARN oraz K8S) z wykorzystaniem PySpark
Visual Studio Code oraz JupyterHub
Microsoft SQL Server 2019

i więcej :)

Jak pracujemy w projektach?

Pracujemy w metodyce Kanban
Realizujemy swoje projekty holistycznie mając pełną kontrolę nad architekturą rozwiązania
Wspieramy się standaryzacją rozwiązań i automatyzacją generowania kodu w celu budowania środowiska typu low-code
Przywiązujemy uwagę do zarządzania metadanymi oraz automatycznego budowania dokumentacji przepływu danych (data-lineage)
Tworzymy innowacyjne rozwiązania/produkty - wsparcie biznesu

Zakres obowiązków:

Analiza źródeł danych (data discovery) oraz automatyzacja procesu ich pozyskiwania do systemów analitycznych
Integracja z wewnętrznymi i zewnętrznymi interfejsami API (rest api, odata)
Wsparcie projektów migracyjnych z rozwiązań MS Integration Services do Spark + Airflow
Budowanie struktur danych w relacyjnej hurtowni danych (MS SQL) oraz Data Lake (delta.io)
Testowanie i dokumentowanie wykonywanych prac programistycznych.
Monitorowanie procesów przetwarzania danych i reagowanie na potencjalne błędy
Rozwijanie narzędzi automatyzujących prace programistyczne (m.in. wewnętrzna biblioteka standardowa, aplikacje konsolowe, cookiecutter oraz jinja templates)

Wymagania:

Bardzo dobra znajomość programowania w Python (v. 3.6+) – min 2 lata doświadczenia
Dobra znajomość procesowania danych w Python z wykorzystaniem Apache Spark lub Pandas/Dask – min rok doświadczenia
Dobra znajomość pracy z relacyjną bazą danych (preferowana MS SQL) poprzez interfejs pyodbc lub sqlalchemy
Podstawowa znajomość Apache Airflow 2+
Znajomość i umiejętność implementacji OOP oraz SOLID,
Umiejętność pisania testów jednostkowych i integracyjnych - TDD, znajomość frameworka pytest
Umiejętność posługiwania się systemem kontroli wersji GIT, znajomość zasad git-flow

Jak wygląda proces rekrutacyjny?

Screening z HR
Spotkanie z Kierownikiem Zespołu i HR
Dzwonimy do Ciebie z informacją zwrotną, niezależnie od naszej decyzji.

Jeżeli zainteresowaliśmy Ciebie powyższym opisem, to zapraszamy na wirtualną kawę na Teams ;)