DevOps Engineer - AI Infrastructure & Orchestration

DevOps

Taśmowa 7, Warszawa

Poland

Full-time

B2B

Senior

Remote

9 300 - 12 787 USDNet per month - B2B

Job description

W ITLT pomagamy naszym zaprzyjaźnionym firmom przekształcać ambitne pomysły w cyfrową rzeczywistość.

Z nastawieniem na wyzwania, ciekawość technologii i zwinność - współtworzymy wyjątkowe rozwiązania IT.

Aktualnie poszukujemy osób na stanowisko: DevOps Engineer (AI Infrastructure & Orchestration)

Konkrety:

Stawka: 200-250 (SENIOR) / 250-275 PLN/h na FV (EXPERT - powyżej wymagań)
Miejsce pracy/praca zdalna: Praca zdalna (Remote)
Wymiar pracy: Fulltime
Sektor: AI/Telco
Projekt: On-prem LLM platform - orkiestracja i monitoring vLLM na GPU clusterze
Zespół: 6-8os.
Proces rekrutacji: 1-etapowy (spotkanie zdalne via MS Teams). Sporadycznie możliwe dodatkowe krótkie spotkanie - połączone z decyzją
Szacowany czas trwania projektu: Długoterminowy/Bezterminowy
Czas pracy/Strefa czasowa: Standardowe polskie godziny pracy
Technologie na projekcie: Kubernetes (OpenShift), vLLM, NVIDIA GPU (H100/H200/B300), Prometheus, Grafana, ELK, OpenTelemetry, Python, Bash, Go, GitLab CI, Jenkins, ArgoCD, bare metal

Do Twoich głównych obowiązków na tym stanowisku należeć będzie:

Deployment i utrzymanie vLLM na Openshift Kubernetes (bare-metal GPU)
Orkiestracja i optymalizacja GPU (NVIDIA)
Automatyzacja lifecycle modeli (HF/S3: pull, versioning, hot-swap)
HPA (queue depth, GPU memory)
Tuning vLLM (performance, batching, memory)
Metryki inference (tokeny, latency, errors) + tracking zużycia per user/API key
Grafana dashboards (GPU, TTFT, RPS, koszty, quota)
Alerting (GPU failures, latency, anomalies)
API Gateway (NGINX: auth, rate limit, routing)
Security + isolation + audit logging
Monitoring stack (Prometheus, Grafana, ELK, OpenTelemetry)
Automatyzacja (Python/Bash/Go)
CI/CD (GitLab CI, Jenkins, ArgoCD)
SLA 99.9%, >70% GPU utilization, MTTR reduction

Ta oferta będzie idealna dla Ciebie, jeśli posiadasz:

Min. 5+ lat doświadczenia w DevOps/SRE
Min. 2 lata doświadczenia w MLOps lub AI Infrastructure
Doświadczenie w deploymencie vLLM w środowisku produkcyjnym
Znajomość PagedAttention i continuous batching (vLLM)
Bardzo dobra znajomość Kubernetes i Openshift
Doświadczenie w infrastrukturze GPU NVIDIA (CUDA drivers, container toolkit, debugging)
Umiejętność zarządzania i debugowania środowisk GPU
Doświadczenie w budowie systemów observability od zera
Umiejętność tworzenia custom Prometheus exporters
Bardzo dobra znajomość Python (automation, tooling)
Znajomość Bash i Go
Doświadczenie w pracy z CI/CD (GitLab CI, Jenkins, ArgoCD)
Doświadczenie w środowiskach on-prem / bare-metal

Nice to have:

Znajomość GPU orchestration w Kubernetes (device plugins NVIDIA)
Znajomość model quantization (AWQ, GPTQ)
Znajomość FinOps dla AI infrastructure
Znajomość vector databases (Milvus, Qdrant)

Warto do nas dołączyć, ponieważ oferujemy:

Dużą swobodę pracy zdalnej
Długofalowe stabilne zatrudnienie
Szansę na uczestniczenie w kluczowych projektach dla dużej firmy działającej w bardzo stabilnym sektorze
Atrakcyjne wynagrodzenie (adekwatne do umiejętności i doświadczenia)
Benefity (Lux Med, MultiSport...)

W razie pytań pingnij śmiało na Linkedin'ie do Kuby

Tech stack

English

DevOps/SRE

advanced

Office location

DevOps Engineer - AI Infrastructure & Orchestration

9 300 - 12 787 USDNet per month - B2B

Summary of the offer

DevOps Engineer - AI Infrastructure & Orchestration

Taśmowa 7, Warszawa

Poland

9 300 - 12 787 USDNet per month - B2B

By applying, I consent to the processing of my personal data for the purpose of conducting the recruitment process. Informujemy, że administratorem danych jest IT Leasing Team z siedzibą w Warszawie, ul.Taśmowa 7 (dalej jako "administrator"). Masz pr... MoreThis site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.

Check similar offers