Data Engineer

Data

ul. Armii Krajowej 25, Kraków

Unity Group

Undetermined

B2B

Mid

Remote

4 102 - 5 698 USD

Net per month - B2B

Tech stack

Python

regular

Apache Spark

regular

Amazon Redshift

regular

Amazon S3

regular

Airflow

junior

IaC

junior

AWS Lake Formation

junior

Machine Learning

nice to have

Job description

W ramach współpracy B2B oferujemy stawkę godzinową: 90 - 125 zł netto + VAT.
Jesteśmy elastyczni w doborze formy współpracy :)!

Do rozwijającego się działu Data Science w Unity Group szukamy Data Engineer – potrzebujemy wsparcia w obszarze składowania i przetwarzania danych oraz automatyzacji procesów z tym związanych.

Od Ciebie oczekujemy komercyjnego doświadczenia zarówno w samym data engineeringu jak i w AWS – wszystkie projekty wdrażamy z wykorzystaniem chmury Amazona.

Uwaga! Twoim zadaniem będzie automatyzacja procesów związanych z danymi, a nie sama analiza danych – to rola data scientistów, a nie data engineerów.

Jako Data Engineer będziesz:

Projektował rozwiązania dotyczące danych – konsulting z klientami to codzienność, również w języku angielskim (oczekujemy poziomu minimum B2+)
Wdrażał data lake, hurtownie danych oraz konwencjonalne bazy danych
Implementował procesy ETL
Automatyzował i orkiestrował codzienne zadania dotyczące danych i machine learningu
Wspierał innych członków zespołu, szczególnie data scientistów
Aktywnie uczestniczył w spotkaniach scrumowych

Tematy i technologie, którymi się zajmujemy- nie musisz ich wszystkich znać, grunt żebyś wiedział czemu są na tej liście:

Języki programowania (Python, Kotlin, Scala)
Orkiestracja danymi (Airflow, Luigi, Argo, Prefect, AWS Step Functions)
Procesy ETL (Spark, AWS Glue, Beam, GCP Dataflow)
Query Engines (Amazon Athena, Presto, Impala)
Hurtownie danych (Amazon Redshift, Snowflake)
Date Lake (Amazon S3, AWS Lake Formation, Hadoop)
Dane strumieniowe (Amazon Kinesis, Kafka, Flink)
Bazy NoSQL (Amazon DynamoDB, HBase, Google BigQuery, Cassandra, MongoDB, Druid)
Bazy SQL (PostgreSQL, MariaDB, MySQL, Oracle)
Machine Learning (Spark MLlib, H2O.ai, scikit-learn, Amazon SageMaker, Amazon Forecast, Amazon Personalize)
„Platformy danych/ML” (Databricks, Cloudera, EMR, HDInsight, MLflow)
Kontenery (Docker, AWS ECS, Kubernetes)
Infrastructure as Code (Terraform, AWS CloudFormation, AWS CDK)
Inne narzędzia AWS (API Gateway, Lambda, Cognito, IAM)
Formaty danych (Avro, Parquet, Protobuf, ORC, CSV, JSON)