Dołączy do zespołu inżynierów odpowiedzialnych za zarządzanie ryzykiem kredytowym kontrahentów (CCR), zapewniając technologię do obliczania ekspozycji na ryzyko kredytowe kontrahentów dla tysięcy klientów banku na całym świecie. Obecnie realizujemy plan długoterminowy, który obejmuje budowę nowej generacji silników CCR, migrację do chmury oraz zastąpienie oprogramowania dostawców własnymi rozwiązaniami analitycznymi. Praca w tym zespole oznacza współpracę z najnowszymi technologiami, takimi jak Google Cloud, Spring Boot, Apache Flink oraz wiele innych.
Twoje zadania:
- Zarządzanie operacjami wsparcia aplikacji, z naciskiem na niezawodność, dostępność oraz monitorowanie wydajności systemów.
- Koordynowanie rozwiązywania incydentów produkcyjnych oraz przeprowadzanie analiz przyczyn źródłowych (RCA) w celu poprawy procesów.
- Analiza, triage i rozwiązywanie incydentów produkcyjnych, koncentrując się na sygnałach technicznych i analizie przyczyn pierwotnych.
- Dokumentowanie kroków naprawczych po incydencie oraz tworzenie bazy wiedzy.
- Aktywny udział w społeczności zarządzania usługami, angażowanie się w zarządzanie incydentami, problemami i dostarczaniem usług.
- Definiowanie i dostarczanie usprawnień operacyjnych w zakresie technologicznym i procesowym.
- Stosowanie zasad SRE w celu poprawy niezawodności platformy, jej wydajności oraz zdolności do obsługi rosnących obciążeń.
- Tworzenie narzędzi do monitorowania, alarmowania, detekcji incydentów oraz zarządzania pojemnością systemów.
Wymagania:
- Minimum 4 lata doświadczenia w rozwoju i wsparciu rozproszonych systemów opartych na języku Java.
- Doświadczenie w metodach i procesach odzyskiwania danych po awarii (Disaster Recovery).
- Systematyczne podejście do rozwiązywania problemów oraz umiejętność analizowania przyczyn technicznych.
- Doświadczenie w zarządzaniu cyklem życia aplikacji przy użyciu narzędzi takich jak JIRA/Confluence, Ansible, CI/CD automation.
- Znajomość narzędzi do logowania, monitorowania i alarmowania w chmurze, takich jak Geneos, Grafana, Splunk, InfluxDB.
- Znajomość RDBMS, technologii chmurowych, systemów Unix/Linux oraz narzędzi do planowania zadań, np. Controm-m lub autosys.
- Język angielski i polski na poziomie minimum B2.
Rodzaj pracy: hybryda z Krakowa (pojawienie się w biurze 1 x w tygodniu). 3-4 dni w miesiącu 2-ga zmiana (praca od 4.00pm).
Stack technologiczny: Java SE, Spring Boot, Spring Cloud, Apache Beam, Apache Flink, GCP, Redis, REST APIs, Ansible, Jenkins, Kubernetes, Grafana, Prometheus.