NeverHard

Senior/middle ML engineer at Yurt Tech — NeverHard

Senior/middle ML engineer at Yurt Tech in Астана. Apply on NeverHard.

Company: Yurt Tech
Location: Астана
Type: not_specified

Мы разрабатываем масштабную систему видеомониторинга и интеллектуальной аналитики. Проект включает обработку видеопотоков, анализ событий и построение AI-решений уровня production. Сейчас мы в поисках Senior/middle ML engineer Что должен знать кандидат: ViT & Мультимодальность: Глубокое понимание Vision Transformers (ViT, Swin, DETR) и видео-трансформеров (TimeSformer, ViViT). Опыт работы с VLM (LLaVA, Qwen-VL) на стыке текста и видеопотоков, fine-tuning (LoRA/QLoRA). Video Analytics & DeepStream: Проектирование highload пайплайнов для реал-тайм видеоаналитики. Практический опыт с NVIDIA DeepStream SDK (GStreamer, nvinfer, мультистриминг, трекинг), обработка RTSP-потоков с минимальным latency. GPU Optimization & TensorRT: Профилирование и ускорение инференса на GPU. Уверенная работа с TensorRT (layer fusion, INT8/FP16 calibration, dynamic shapes, сборка движков через trtexec), понимание CUDA-специфики и узких мест памяти. OpenVINO & Quantization: Оптимизация моделей для CPU/Edge-деплоя. Опыт работы с OpenVINO и NNCF для Post-Training Quantization (INT8/INT4), accuracy-aware тюнинг и минимизация деградации качества при сжатии. Dynamo & Компиляция графов: Использование PyTorch 2.0 Dynamo (torch.compile) для JIT-компиляции и слияния графов (AOTAutograd, Triton kernels), ускорение обучения и инференса "из коробки". LLM & Кастомные Агентные Системы: Проектирование агентных архитектур поверх LLM без жесткой привязки к "магии" фреймворков. Реализация графов состояний (LangGraph, конечные автоматы), кастомный Tool Calling/Function Calling, паттерны ReAct/Plan-and-Execute, управление контекстом и памятью агентов, оркестрация мультиагентного взаимодействия. Сервинг LLM (vLLM, Continuous Batching). RAG & Retrieval: Проектирование пайплайнов от чанкинга до генерации. Понимание векторных БД (HNSW), типов эмбеддингов (Dense, Sparse, ColBERT) и архитектуры реранкинга. System Design & MLOps: Проектирование end-to-end AI-архитектуры (FastAPI, K8s, Kafka), расчет Cost/Performance trade-off, LLMOps (Evaluation: RAGAS, LLM-as-a-Judge), CI/CD для ML-моделей. Что должен уметь кандидат: Строить highload-пайплайны видеоаналитики: Проектировать и запускать в прод системы реал-тайм обработки видео (десятки/сотни RTSP-потоков) на базе NVIDIA DeepStream. Уметь писать кастомные GStreamer-плагины, связывать трекинг и детекцию, минимизировать сквозное latency (e2e latency). Выжимать максимум из железа (GPU/CPU Optimization): Брать PyTorch-модель и ускорять её в 3-10 раз. Самостоятельно конвертировать модели в ONNX/TensorRT (настраивать динамические размеры, INT8/FP16 калибровку) или OpenVINO (использовать NNCF для квантования с сохранением точности). Применять torch.compile (Dynamo) для ускорения тренировки и инференса. Проектировать кастомные агентные системы: Создавать автономных AI-агентов с нуля (или на базе LangGraph), отказываясь от "магии" тяжелых фреймворков там, где нужен контроль. Уметь связывать LLM с внешними API (Function Calling), выстраивать графы состояний, управлять контекстом/памятью агента и обрабатывать его ошибки/галлюцинации. Внедрять VLM и ViT в бизнес-процессы: Файн-тюнить Vision Transformers и мультимодальные модели (LLaVA, Qwen-VL) под специфические доменные данные (специфичные кадры, медицинские снимки, спутниковые фото). Склеивать CV-пайплайны (YOLO/DeepStream) с LLM для генерации текстовых отчетов по видео. Собирать продакшен-системы на базе RAG: Инжестировать тонны неструктурированных данных, подбирать оптимальные стратегии чанкинга и эмбеддингов, строить гибридный поиск (BM25 + Dense) и реранкинг. Уметь оценивать качество RAG-пайплайна (RAGAS) и устранять галлюцинации. Выводить AI в Production (End-to-End): Упаковывать модели в микросервисы (FastAPI/gRPC),orchestрировать их в Docker/Kubernetes. Настраивать CI/CD для ML, мониторить инференс (TTFB, throughput, GPU utilization, drift метрик) и строить процессы переобучения/обновления моделей без даунтайма. Принимать архитектурные решения: Оценивать Cost/Performance trade-off: выбирать между вызовом API провайдера и деплоем Open Source модели на своих GPU; решать, когда писать кастомного агента на чистом Python, а когда использовать готовый фреймворк. Брать техническое лидерство: Проектировать архитектуру AI-компонентов проекта, декомпозировать задачи для мидлов и джуниоров, проводить код-ревью ML-кода и задавать стандарты качества (логирование, тестирование, репродуктивность) в команде. Условия: Работа над масштабным государственным / национальным проектом Современный AI-стек (LLM, multimodal, CV) Возможность влиять на архитектуру решений Конкурентную заработную плату