DevOps Engineer - AI Infrastructure & Orchestration
W ITLT pomagamy naszym zaprzyjaźnionym firmom przekształcać ambitne pomysły w cyfrową rzeczywistość.
Z nastawieniem na wyzwania, ciekawość technologii i zwinność - współtworzymy wyjątkowe rozwiązania IT.
Aktualnie poszukujemy osób na stanowisko: DevOps Engineer (AI Infrastructure & Orchestration)
Konkrety:
Stawka: 200-250 (SENIOR) / 250-275 PLN/h na FV (EXPERT - powyżej wymagań)
Miejsce pracy/praca zdalna: Praca zdalna (Remote)
Wymiar pracy: Fulltime
Sektor: AI/Telco
Projekt: On-prem LLM platform - orkiestracja i monitoring vLLM na GPU clusterze
Zespół: 6-8os.
Proces rekrutacji: 1-etapowy (spotkanie zdalne via MS Teams). Sporadycznie możliwe dodatkowe krótkie spotkanie - połączone z decyzją
Szacowany czas trwania projektu: Długoterminowy/Bezterminowy
Czas pracy/Strefa czasowa: Standardowe polskie godziny pracy
Technologie na projekcie: Kubernetes (OpenShift), vLLM, NVIDIA GPU (H100/H200/B300), Prometheus, Grafana, ELK, OpenTelemetry, Python, Bash, Go, GitLab CI, Jenkins, ArgoCD, bare metal
Do Twoich głównych obowiązków na tym stanowisku należeć będzie:
Deployment i utrzymanie vLLM na Openshift Kubernetes (bare-metal GPU)
Orkiestracja i optymalizacja GPU (NVIDIA)
Automatyzacja lifecycle modeli (HF/S3: pull, versioning, hot-swap)
HPA (queue depth, GPU memory)
Tuning vLLM (performance, batching, memory)
Metryki inference (tokeny, latency, errors) + tracking zużycia per user/API key
Grafana dashboards (GPU, TTFT, RPS, koszty, quota)
Alerting (GPU failures, latency, anomalies)
API Gateway (NGINX: auth, rate limit, routing)
Security + isolation + audit logging
Monitoring stack (Prometheus, Grafana, ELK, OpenTelemetry)
Automatyzacja (Python/Bash/Go)
CI/CD (GitLab CI, Jenkins, ArgoCD)
SLA 99.9%, >70% GPU utilization, MTTR reduction
Ta oferta będzie idealna dla Ciebie, jeśli posiadasz:
Min. 5+ lat doświadczenia w DevOps/SRE
Min. 2 lata doświadczenia w MLOps lub AI Infrastructure
Doświadczenie w deploymencie vLLM w środowisku produkcyjnym
Znajomość PagedAttention i continuous batching (vLLM)
Bardzo dobra znajomość Kubernetes i Openshift
Doświadczenie w infrastrukturze GPU NVIDIA (CUDA drivers, container toolkit, debugging)
Umiejętność zarządzania i debugowania środowisk GPU
Doświadczenie w budowie systemów observability od zera
Umiejętność tworzenia custom Prometheus exporters
Bardzo dobra znajomość Python (automation, tooling)
Znajomość Bash i Go
Doświadczenie w pracy z CI/CD (GitLab CI, Jenkins, ArgoCD)
Doświadczenie w środowiskach on-prem / bare-metal
Nice to have:
Znajomość GPU orchestration w Kubernetes (device plugins NVIDIA)
Znajomość model quantization (AWQ, GPTQ)
Znajomość FinOps dla AI infrastructure
Znajomość vector databases (Milvus, Qdrant)
Warto do nas dołączyć, ponieważ oferujemy:
Dużą swobodę pracy zdalnej
Długofalowe stabilne zatrudnienie
Szansę na uczestniczenie w kluczowych projektach dla dużej firmy działającej w bardzo stabilnym sektorze
Atrakcyjne wynagrodzenie (adekwatne do umiejętności i doświadczenia)
Benefity (Lux Med, MultiSport...)
W razie pytań pingnij śmiało na Linkedin'ie do Kuby
DevOps Engineer - AI Infrastructure & Orchestration
DevOps Engineer - AI Infrastructure & Orchestration