NeverHard

DevOps / MLOps инженер (AI-инфраструктура) at Crocos Systems — NeverHard

DevOps / MLOps инженер (AI-инфраструктура) at Crocos Systems in Астана. Apply on NeverHard.

Company: Crocos Systems
Location: Астана
Type: not_specified

Remote: Yes

ТОО CROCOS реализует проект внедрения AI-диспетчера в контакт-центр. Ищем DevOps/MLOps инженера, который развернёт и обеспечит стабильную работу AI-инфраструктуры на серверах заказчика с жёсткими требованиями к SLA. Обязанности: Развёртывание и настройка GPU-сервера (≥80 ГБ GPU) на инфраструктуре заказчика (on-premise) Установка и конфигурирование среды для LLM-инференса (CUDA, vLLM / llama.cpp, Docker) Настройка сетевой инфраструктуры: доступ low-code платформы к LLM через внутренний REST API Обеспечение SLA: доступность ≥99,5%/мес, регламентные работы ≤4 ч/мес Настройка мониторинга и алертов: Severity 1 — начало диагностики ≤20 мин, восстановление ≤4 ч CI/CD для обновлений AI-компонентов без остановки сервиса Настройка логирования разговоров и системных событий Резервное копирование конфигураций, моделей и баз знаний Поддержка работоспособности в течение 4 месяцев проекта + передача на гарантийное сопровождение Написание раздела технической документации по инфраструктуре (установка, конфигурация, troubleshooting) Требования: Опыт DevOps / системного администрирования — от 2 лет Уверенное владение Linux (Ubuntu/CentOS): установка ПО, настройка сети, firewall, systemd Опыт работы с Docker и Docker Compose Базовое понимание GPU-инфраструктуры: установка драйверов NVIDIA, CUDA, nvidia-docker Опыт настройки мониторинга (Prometheus + Grafana или аналоги) Понимание REST API на уровне администратора (nginx reverse proxy, SSL) Опыт настройки резервного копирования Будет плюсом: Опыт работы с vLLM, Ollama, llama.cpp или другими LLM-серверами Опыт с Kubernetes или оркестрацией контейнеров Знакомство с MLflow, Ray Serve или другими MLOps-инструментами Опыт работы в on-premise корпоративных средах (файрволы, внутренние сети, сертификаты) Условия: Проектная (4 месяца) с возможностью гарантийного сопровождения Выезды на площадку заказчика + удалённый мониторинг 5/2, дежурство по SLA Linux, Docker, CUDA, NVIDIA GPU, Prometheus/Grafana, nginx