Opis stanowiska:
· Zapewnienie jakości i dostępności systemów oraz aplikacji w AWS Cloud
· Wdrażanie zautomatyzowanych procesów niezbędnych do efektywnego propagowania dobrych praktyk inżynierskich i filtrowania podatności oraz ryzyk reputacyjnych
· Wymiana wiedzy w zakresie zespołu i organizacji, rozwój kultury SRE
· Wsparcie definicji/wdrożenia oraz monitoring jakości usług (SLI)
· Zarządzanie Error Budget
· Proaktywne podejście do wsparcia, budowanie relacji i dbanie o wizerunek zespołu
· Tworzenie pipeline oraz automatyzacji, które adresują potrzeby SRE
· Wsparcie w troubleshootingu aplikacji podczas awarii produkcyjnej
(Praca na Windowsie albo Linuxie - do wyboru)
Wymagania:
· Znajomość jednej z wiodących chmur publicznych (AWS, Azure, GCP)
· Praktyczna znajomość języka programowania Node.js/Java
· Umiejętności komunikacyjne i analityczne przy rozwiązywaniu problemów i kreowaniu nowych inicjatyw
· Praktyczna znajomość narzędzi CI/CD i ich konfiguracji
· Znajomość podejścia GitOps
· Praktyczna znajomość Terraform, konteneryzacji (Docker, Kubernetes), rozwoju mikroserwisów, API, integracji oraz automatyzacji
· Doświadczenie w rozwijaniu testów funkcjonalnych oraz niefunkcjonalnych platformy
· Umiejętność pracy na środowiskach unixowych z wiedzą o działaniu serwerów, skalowalności, redundancji i zarządzania ruchem sieciowym
· Praktyczne doświadczenie w rozproszonym monitorowaniu i logowaniu (Prometheus, ELK, Opensearch)
· Praca z narzędziami tj. Kibana, Dynatrace, Jenkins, JIRA, Confluence, GIT, Gitlab
· Znajomość języka angielskiego (B2+)
Mile widziane:
· Certyfikaty chmurowe
· Znajomość Terragrunt
· Doświadczenie w roli Architekta/DevOps
· Zrozumienie zagadnień bezpieczeństwa w chmurze
· Znajomość ITIL
· Doświadczenie w roli Full-stack
· Znajomość języka Python/Go
Oferujemy:
SRE (Site Reliability Engineering), czyli Inżynieria Dostępności Systemów IT, to koncepcja stworzona w Google w celu usprawnienia procesów tworzenia i utrzymania systemów informatycznych. Głównym założeniem SRE jest podejście inżynieryjne do problemów operacyjnych.
Współczesny rozwój oprogramowania, przyspieszony przez kulturę DevOps wprowadzoną w wielu organizacjach, może prowadzić do obniżenia jakości dostarczanych rozwiązań. Tutaj właśnie SRE wkracza na scenę, zapewniając balans pomiędzy rozwojem aplikacji a ich dostępnością, wykorzystując do tego tzw. „error budget”.
Jako zespół Cloud SRE uczestniczymy w migracji aplikacji na chmurę publiczną Mozart, wdrażając przy tym innowacyjne podejście do ich rozwoju i utrzymania w środowiskach chmurowych. Jesteśmy odpowiedzialni za kluczowe aspekty usług, takie jak wysoka dostępność, szybki czas dostępu, wydajność, innowacyjny monitoring, reakcja na problemy, zarządzanie dystrybucją i planowanie przydziału zasobów (capacity planning).
W naszej codziennej pracy stawiamy na szeroko pojętą automatykę. Wykorzystując narzędzia developerskie, automatyzujemy różnorodne zadania i procesy, zyskując dzięki temu dużą oszczędność czasu, spójność rozwiązań i szybszy czas reakcji w przypadku awarii systemów.
Jak wygląda przebieg rekrutacji?
1. Wyślij CV
2. Spotkaj się z zespołem HR + SRE (łączone spotkanie 1.5h online)
3. Witaj w T-Mobile