All offersPoznańDataData Engineer
Data Engineer
new
Data
Kaczmarski Group

Data Engineer

Kaczmarski Group
Type of work
Full-time
Experience
Mid
Employment Type
Permanent
Operating mode
Remote

Tech stack

    Python
    advanced
    Apache Spark
    regular
    MS SQL Server
    regular
    PySpark
    regular
    SOLID Principles
    regular
    Git
    regular
    Airflow
    junior

Job description

Online interview

Kaczmarski Group jest polską spółką, która pod ponad 30 lat działa na rynku szeroko-pojętych finansów. Swoją główną siedzibę mamy we Wrocławiu ale na co dzień preferujemy zdalny tryb pracy. Miło jest nam spotkać się raz, czasami dwa razy w miesiącu w biurze, aby zespołowo podziałać przy planowaniu naszych dalszych działań. Cenimy sobie tą możliwość, ponieważ także jest to czas na wymianę doświadczeń, a mamy ich sporo! Jesteśmy wprawionym w boju zespołem, którego członkowie mają co najmniej 10 lat doświadczenia zawodowego. Możemy powiedzieć, że wiele się można od nas nauczyć, jednak chętnie dowiemy się czegoś nowego od Ciebie.

Jeżeli nie wystraszyliśmy Cię powyższym opisem i jesteś chętny/a aby podzielić się z nami swoimi doświadczeniami, to aplikuj śmiało. Brakuje nam jeszcze jednego człowieka do ekipy szczęśliwej siódemki 😊


Narzędzia, z których korzystamy:

  • Apache Ariflow 2
  • Apache Spark 3 (YARN oraz K8S) z wykorzystaniem PySpark
  • Visual Studio Code oraz JupyterHub
  • Microsoft SQL Server 2019

i więcej :) 


Jak pracujemy w projektach? 

  • Pracujemy w metodyce Kanban
  • Realizujemy swoje projekty holistycznie mając pełną kontrolę nad architekturą rozwiązania
  • Wspieramy się standaryzacją rozwiązań i automatyzacją generowania kodu w celu budowania środowiska typu low-code
  • Przywiązujemy uwagę do zarządzania metadanymi oraz automatycznego budowania dokumentacji przepływu danych (data-lineage)
  • Tworzymy innowacyjne rozwiązania/produkty - wsparcie biznesu 


Zakres obowiązków:

  • Analiza źródeł danych (data discovery) oraz automatyzacja procesu ich pozyskiwania do systemów analitycznych
  • Integracja z wewnętrznymi i zewnętrznymi interfejsami API (rest api, odata)
  • Wsparcie projektów migracyjnych z rozwiązań MS Integration Services do Spark + Airflow
  • Budowanie struktur danych w relacyjnej hurtowni danych (MS SQL) oraz Data Lake (delta.io)
  • Testowanie i dokumentowanie wykonywanych prac programistycznych.
  • Monitorowanie procesów przetwarzania danych i reagowanie na potencjalne błędy
  • Rozwijanie narzędzi automatyzujących prace programistyczne (m.in. wewnętrzna biblioteka standardowa, aplikacje konsolowe, cookiecutter oraz jinja templates)


Wymagania:

  • Bardzo dobra znajomość programowania w Python (v. 3.6+) – min 2 lata doświadczenia
  • Dobra znajomość procesowania danych w Python z wykorzystaniem Apache Spark lub Pandas/Dask – min rok doświadczenia
  • Dobra znajomość pracy z relacyjną bazą danych (preferowana MS SQL) poprzez interfejs pyodbc lub sqlalchemy
  • Podstawowa znajomość Apache Airflow 2+
  • Znajomość i umiejętność implementacji OOP oraz SOLID,
  • Umiejętność pisania testów jednostkowych i integracyjnych - TDD, znajomość frameworka pytest
  • Umiejętność posługiwania się systemem kontroli wersji GIT, znajomość zasad git-flow


Jak wygląda proces rekrutacyjny?

  1. Screening z HR
  2. Spotkanie z Kierownikiem Zespołu i HR
  3. Dzwonimy do Ciebie z informacją zwrotną, niezależnie od naszej decyzji.


Jeżeli zainteresowaliśmy Ciebie powyższym opisem, to zapraszamy na wirtualną kawę na Teams ;)