All offersWarszawaDataBig Data Engineer/Architect
Big Data Engineer/Architect
Data
GetInData

Big Data Engineer/Architect

GetInData
Warszawa
Type of work
Undetermined
Experience
Senior
Employment Type
B2B
Operating mode
Office

Tech stack

    Hadoop
    master
    Hive
    master
    Java / Scala
    advanced
    Kafka
    advanced
    Jira / Git
    advanced
    Spark
    advanced
    Flink
    regular
    NIFI
    regular

Job description

GetInData  jest niedużą, ekspercką firmą założoną przez byłych pracowników Spotify w 2014 roku i skupiającą pasjonatów zajmujących się przetwarzaniem dużych danych przy użyciu technologii open-source takich jak Hadoop, Spark, Hive, Kafka czy Flink zarówno on-premise jak i w chmurze. Pomagamy firmom w skutecznym i sprawnym wydobyciu wartości z ogromu danych, które mają do swojej dyspozycji. Zrealizowaliśmy projekty dla m.in. Spotify, Truecaller, PLAY, Freshmail i wielu innych firm. 

Kogo szukamy?


Szukamy osoby na stanowisko Senior Big Data Engineer, do której obowiązków będzie należało budowa i rozwijanie zaawansowanych platform danych na potrzeby klientów Getindata oraz implementacja scenariuszy biznesowych przy wykorzystaniu nowoczesnych technologii oraz technik Big Data. 
Jako ekspert będziesz odpowiedzialny za nadzór techniczny nad zespołem projektowym składającym się ze specjalistów Big Data. Będziesz brał także udział w projektowaniu architektury i rozwijaniu budowanych przez Getindata systemów. 

Przykładowe obowiązki


  • Budowanie procesu (pipeline) czytającego strumień danych (500K zdarzeń/s) z Kafki i zapisującego na HDFS zdarzenia pogrupowane według czasu zdarzenia i kolumn partycjonowania
  • Zasilanie danymi takich systemów jak: Hive, Druid, Kylin, Cassandra, Elasticsearch
  • Dobór optymalnych narzędzi i technologii Big Data w celu rozwiązania konkretnych wyzwań dotyczących potrzeb przetwarzania danych
  • Budowanie etapów kontroli jakości danych strumieniowych i zgłaszania błędów w przypadku zajścia anomalii
  • Budowanie mechanizmu monitorowania procesów przesyłających dane (pipelines) - przepustowość, progres, użycie zasobów
  • Opracowanie modelu danych, które można odpytywać w masowy albo interaktywny sposób
  • Korzystanie z najlepszych praktyk inżynierii oprogramowania: DevOps, DataOps, czy CI/CD
  • Uogólnianie, wyciąganie abstrakcji, automatyzacja