Site Reliability Engineer

41 - 42 USDNet per hour - B2B
DevOps

Site Reliability Engineer

DevOps
Bagno 2/71/71, Warszawa

Shimi Sp. z o.o.

Full-time
B2B
Senior
Remote
41 - 42 USD
Net per hour - B2B

Job description

Obecnie dla jednego z naszych Klientów poszukujemy osób na stanowisko Site Reliability Engineer.

Osoba na tym stanowisku weźmie realną odpowiedzialność za niezawodność aplikacji i pipeline’ów opartych o AI. To nie jest rola “ticketowa” ani tylko koncepcyjna – szukamy osoby hands-on, która sama diagnozuje, naprawia i automatyzuje, a nie tylko projektuje rozwiązania dla innych.

Rola łączy:

  • odpowiedzialność za operacyjną stabilność systemów AI,

  • budowę operacyjnego “control tower” (monitoring, alerting, KPI),

  • oraz aktywną pracę inżynierską przy realnych problemach produkcyjnych.

Najważniejsze cechy:

  • Proaktywność i samodzielność – identyfikowanie problemów, ryzyk oraz obszarów do usprawnień bez potrzeby bardzo szczegółowych instrukcji

  • Owner mindset – traktowanie stabilności systemów jako odpowiedzialności end‑to‑end

  • Hands‑on approach – regularna, praktyczna praca z klastrami, pipeline’ami, monitoringiem oraz kodem

  • AI‑native mindset - codzienne, intensywne korzystanie z narzędzi AI (Copilot, LLM‑y, automatyzacja, analizy, debugowanie, dokumentacja) oraz rozumienie wpływu AI na sposób budowy i utrzymania systemów

  • Elastyczność środowiskowa – komfortowe funkcjonowanie w dynamicznym otoczeniu o nie w pełni dojrzałych procesach

Zakres obowiązków

  • Budowa i utrzymanie centralnego operacyjnego “control tower” dla aplikacji i pipeline’ów AI

  • Projektowanie i wdrażanie monitoringu, alertów i dashboardów (sygnały, progi, routing, runbooki)

  • Incident response: triage, koordynacja, root cause analysis, post‑mortems i działania prewencyjne

  • Standaryzacja telemetrii pipeline’ów (success/failure, latency, throughput, bottlenecks)

  • Optymalizacja CI/CD – jakość releasów, testy automatyczne, reliability gates

  • Współpraca z zespołami engineeringowymi w celu zmniejszenia liczby powtarzalnych incydentów

Wymagania:

  • 5+ lat doświadczenia jako SRE / Production / Platform Engineer

  • Realne doświadczenie w środowiskach produkcyjnych

  • Bardzo dobra znajomość incident management i RCA

  • Umiejętność budowania praktycznego, a nie teoretycznego monitoringu

  • Azure DevOps – Boards, Repos, Pipelines

  • Kubernetes – troubleshooting, scaling, operacje produkcyjne

  • Datadog – metrics, logs, dashboardy, alerting

  • Azure Portal – operacje środowiskowe i konfiguracja

  • CI/CD – optymalizacja pipeline’ów, testy, quality gates

  • (Nice to have) Grafana

Preferowane

  • Doświadczenie z AI / LLM pipelines i ich obserwowalnością

  • Budowa multi‑app monitoring platforms

  • Praca w skalowanych środowiskach Kubernetes (AKS lub podobne)

Oferta:

  • Forma współpracy: B2B

  • Stawka: 150 - 155 PLN/H

  • Tryb: 100% zdalny

Tech stack

    English

    B2

    CI/CD

    advanced

    Azure DevOps

    regular

    Kubernetes

    regular

    Datadog

    regular

    Grafana

    regular

Office location

Site Reliability Engineer

41 - 42 USDNet per hour - B2B
Summary of the offer

Site Reliability Engineer

Bagno 2/71/71, Warszawa
Shimi Sp. z o.o.
41 - 42 USDNet per hour - B2B
By applying, I consent to the processing of my personal data for the purpose of conducting the recruitment process. Informujemy, że administratorem danych jest Shimi Sp. z o.o. z siedzibą w Warszawie, (dalej jako "administrator"). Masz prawo do żądan... MoreThis site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.