Big Data Engineer/Architect

Data

Puławska 39/20, Warszawa

GetInData

Undetermined

B2B

Senior

Office

6 591 - 8 788 USD

Net per month - B2B

Tech stack

Hadoop

master

Hive

master

Java / Scala

advanced

Kafka

advanced

Jira / Git

advanced

Spark

advanced

Flink

regular

NIFI

regular

Job description

GetInData jest niedużą, ekspercką firmą założoną przez byłych pracowników Spotify w 2014 roku i skupiającą pasjonatów zajmujących się przetwarzaniem dużych danych przy użyciu technologii open-source takich jak Hadoop, Spark, Hive, Kafka czy Flink zarówno on-premise jak i w chmurze. Pomagamy firmom w skutecznym i sprawnym wydobyciu wartości z ogromu danych, które mają do swojej dyspozycji. Zrealizowaliśmy projekty dla m.in. Spotify, Truecaller, PLAY, Freshmail i wielu innych firm.

Kogo szukamy?

Szukamy osoby na stanowisko Senior Big Data Engineer, do której obowiązków będzie należało budowa i rozwijanie zaawansowanych platform danych na potrzeby klientów Getindata oraz implementacja scenariuszy biznesowych przy wykorzystaniu nowoczesnych technologii oraz technik Big Data.
Jako ekspert będziesz odpowiedzialny za nadzór techniczny nad zespołem projektowym składającym się ze specjalistów Big Data. Będziesz brał także udział w projektowaniu architektury i rozwijaniu budowanych przez Getindata systemów.

Przykładowe obowiązki

Budowanie procesu (pipeline) czytającego strumień danych (500K zdarzeń/s) z Kafki i zapisującego na HDFS zdarzenia pogrupowane według czasu zdarzenia i kolumn partycjonowania
Zasilanie danymi takich systemów jak: Hive, Druid, Kylin, Cassandra, Elasticsearch
Dobór optymalnych narzędzi i technologii Big Data w celu rozwiązania konkretnych wyzwań dotyczących potrzeb przetwarzania danych
Budowanie etapów kontroli jakości danych strumieniowych i zgłaszania błędów w przypadku zajścia anomalii
Budowanie mechanizmu monitorowania procesów przesyłających dane (pipelines) - przepustowość, progres, użycie zasobów
Opracowanie modelu danych, które można odpytywać w masowy albo interaktywny sposób
Korzystanie z najlepszych praktyk inżynierii oprogramowania: DevOps, DataOps, czy CI/CD
Uogólnianie, wyciąganie abstrakcji, automatyzacja