#1 Job Board for tech industry in Europe

Big Data Engineer/Architect
Data

Big Data Engineer/Architect

Warszawa
Type of work
Undetermined
Experience
Senior
Employment Type
B2B
Operating mode
Office

Tech stack

    Hadoop

    master

    Hive

    master

    Java / Scala

    advanced

    Kafka

    advanced

    Jira / Git

    advanced

    Spark

    advanced

    Flink

    regular

    NIFI

    regular

Job description

GetInData  jest niedużą, ekspercką firmą założoną przez byłych pracowników Spotify w 2014 roku i skupiającą pasjonatów zajmujących się przetwarzaniem dużych danych przy użyciu technologii open-source takich jak Hadoop, Spark, Hive, Kafka czy Flink zarówno on-premise jak i w chmurze. Pomagamy firmom w skutecznym i sprawnym wydobyciu wartości z ogromu danych, które mają do swojej dyspozycji. Zrealizowaliśmy projekty dla m.in. Spotify, Truecaller, PLAY, Freshmail i wielu innych firm. 

Kogo szukamy?


Szukamy osoby na stanowisko Senior Big Data Engineer, do której obowiązków będzie należało budowa i rozwijanie zaawansowanych platform danych na potrzeby klientów Getindata oraz implementacja scenariuszy biznesowych przy wykorzystaniu nowoczesnych technologii oraz technik Big Data. 
Jako ekspert będziesz odpowiedzialny za nadzór techniczny nad zespołem projektowym składającym się ze specjalistów Big Data. Będziesz brał także udział w projektowaniu architektury i rozwijaniu budowanych przez Getindata systemów. 

Przykładowe obowiązki


  • Budowanie procesu (pipeline) czytającego strumień danych (500K zdarzeń/s) z Kafki i zapisującego na HDFS zdarzenia pogrupowane według czasu zdarzenia i kolumn partycjonowania
  • Zasilanie danymi takich systemów jak: Hive, Druid, Kylin, Cassandra, Elasticsearch
  • Dobór optymalnych narzędzi i technologii Big Data w celu rozwiązania konkretnych wyzwań dotyczących potrzeb przetwarzania danych
  • Budowanie etapów kontroli jakości danych strumieniowych i zgłaszania błędów w przypadku zajścia anomalii
  • Budowanie mechanizmu monitorowania procesów przesyłających dane (pipelines) - przepustowość, progres, użycie zasobów
  • Opracowanie modelu danych, które można odpytywać w masowy albo interaktywny sposób
  • Korzystanie z najlepszych praktyk inżynierii oprogramowania: DevOps, DataOps, czy CI/CD
  • Uogólnianie, wyciąganie abstrakcji, automatyzacja