Jak pracujemy w projektach?
- Pracujemy w metodyce Kanban
- Realizujemy swoje projekty holistycznie mając pełną kontrolę nad architekturą rozwiązania
- Wspieramy się standaryzacją rozwiązań i automatyzacją generowania kodu w celu budowania środowiska typu low-code
- Przywiązujemy uwagę do zarządzania metadanymi oraz automatycznego budowania dokumentacji przepływu danych (data-lineage)
- Tworzymy innowacyjne rozwiązania/produkty - wsparcie biznesu
Narzędzia, z których korzystamy:
- Apache Ariflow 2
- Apache Spark 3 z wykorzystaniem PySpark
- Visual Studio Code oraz JupyterHub
- Microsoft SQL Server 2022
- Analiza źródeł danych (data discovery) oraz automatyzacja procesu ich pozyskiwania do systemów analitycznych
- Integracja z wewnętrznymi i zewnętrznymi interfejsami API (rest api, odata)
- Wsparcie projektów migracyjnych z rozwiązań MS Integration Services do Spark + Airflow
- Budowanie struktur danych w relacyjnej hurtowni danych (MS SQL) oraz Data Lake (delta.io)
- Testowanie i dokumentowanie wykonywanych prac programistycznych.
- Monitorowanie procesów przetwarzania danych i reagowanie na potencjalne błędy
- Rozwijanie narzędzi automatyzujących prace programistyczne (m.in. wewnętrzna biblioteka standardowa, aplikacje konsolowe, cookiecutter oraz jinja templates)
- Bardzo dobra znajomość programowania w Python (v. 3.6+) – min 2 lata doświadczenia
- Dobra znajomość procesowania danych w Python z wykorzystaniem Apache Spark lub Pandas/Dask – min rok doświadczenia
- Dobra znajomość pracy z relacyjną bazą danych (preferowana MS SQL) poprzez interfejs pyodbc lub sqlalchemy
- Podstawowa znajomość Apache Airflow 2+
- Znajomość i umiejętność implementacji OOP oraz SOLID,
- Umiejętność pisania testów jednostkowych i integracyjnych - TDD, znajomość frameworka pytest
- pracę zdalną (1 dzień w miesiącu z biura)
- możliwość realizacji własnych pomysłów i projektów;
- udział w nieszablonowych i innowacyjnych projektach dla spółek z grupy Kaczmarski Group;