Data Engineer

Kaczmarski Group

Type of work

Full-time

Experience

Mid

Employment Type

Permanent

Operating mode

Remote

Tech stack

Python

advanced

Apache Spark

regular

MS SQL Server

regular

PySpark

regular

SOLID Principles

regular

Git

regular

Airflow

junior

Job description

Online interview

Kaczmarski Group jest polską spółką, która pod ponad 30 lat działa na rynku szeroko-pojętych finansów. Swoją główną siedzibę mamy we Wrocławiu ale na co dzień preferujemy zdalny tryb pracy. Miło jest nam spotkać się raz, czasami dwa razy w miesiącu w biurze, aby zespołowo podziałać przy planowaniu naszych dalszych działań. Cenimy sobie tą możliwość, ponieważ także jest to czas na wymianę doświadczeń, a mamy ich sporo! Jesteśmy wprawionym w boju zespołem, którego członkowie mają co najmniej 10 lat doświadczenia zawodowego. Możemy powiedzieć, że wiele się można od nas nauczyć, jednak chętnie dowiemy się czegoś nowego od Ciebie.

Jeżeli nie wystraszyliśmy Cię powyższym opisem i jesteś chętny/a aby podzielić się z nami swoimi doświadczeniami, to aplikuj śmiało. Brakuje nam jeszcze jednego człowieka do ekipy szczęśliwej siódemki 😊

Narzędzia, z których korzystamy:

Apache Ariflow 2
Apache Spark 3 (YARN oraz K8S) z wykorzystaniem PySpark
Visual Studio Code oraz JupyterHub
Microsoft SQL Server 2019

i więcej :)

Jak pracujemy w projektach?

Pracujemy w metodyce Kanban
Realizujemy swoje projekty holistycznie mając pełną kontrolę nad architekturą rozwiązania
Wspieramy się standaryzacją rozwiązań i automatyzacją generowania kodu w celu budowania środowiska typu low-code
Przywiązujemy uwagę do zarządzania metadanymi oraz automatycznego budowania dokumentacji przepływu danych (data-lineage)
Tworzymy innowacyjne rozwiązania/produkty - wsparcie biznesu

Zakres obowiązków:

Analiza źródeł danych (data discovery) oraz automatyzacja procesu ich pozyskiwania do systemów analitycznych
Integracja z wewnętrznymi i zewnętrznymi interfejsami API (rest api, odata)
Wsparcie projektów migracyjnych z rozwiązań MS Integration Services do Spark + Airflow
Budowanie struktur danych w relacyjnej hurtowni danych (MS SQL) oraz Data Lake (delta.io)
Testowanie i dokumentowanie wykonywanych prac programistycznych.
Monitorowanie procesów przetwarzania danych i reagowanie na potencjalne błędy
Rozwijanie narzędzi automatyzujących prace programistyczne (m.in. wewnętrzna biblioteka standardowa, aplikacje konsolowe, cookiecutter oraz jinja templates)

Wymagania:

Bardzo dobra znajomość programowania w Python (v. 3.6+) – min 2 lata doświadczenia
Dobra znajomość procesowania danych w Python z wykorzystaniem Apache Spark lub Pandas/Dask – min rok doświadczenia
Dobra znajomość pracy z relacyjną bazą danych (preferowana MS SQL) poprzez interfejs pyodbc lub sqlalchemy
Podstawowa znajomość Apache Airflow 2+
Znajomość i umiejętność implementacji OOP oraz SOLID,
Umiejętność pisania testów jednostkowych i integracyjnych - TDD, znajomość frameworka pytest
Umiejętność posługiwania się systemem kontroli wersji GIT, znajomość zasad git-flow

Jak wygląda proces rekrutacyjny?

Screening z HR
Spotkanie z Kierownikiem Zespołu i HR
Dzwonimy do Ciebie z informacją zwrotną, niezależnie od naszej decyzji.

Jeżeli zainteresowaliśmy Ciebie powyższym opisem, to zapraszamy na wirtualną kawę na Teams ;)