NeverHard

Senior AI Engineer at Beeline, ТМ — NeverHard

Senior AI Engineer at Beeline, ТМ in Алматы. Apply on NeverHard.

Company: Beeline, ТМ
Location: Алматы
Type: not_specified

Мы развиваем AI-направление и создаем прикладные AI-продукты на базе GenAI, LLM, RAG, embeddings, vector search и AI-агентов. Команда занимается не только прототипами, а полноценной разработкой AI-сервисов: от проектирования архитектуры и backend-интеграций до промышленного запуска, мониторинга и дальнейшего развития решений. Нам нужен Senior AI Engineer, который умеет строить LLM-based продукты end-to-end: проектировать AI-логику, разрабатывать backend-сервисы, интегрировать cloud и локальные LLM, работать с данными, векторными хранилищами и доводить решения до production. Роль предполагает работу на стыке AI engineering, backend engineering и product engineering, с высоким уровнем самостоятельности и ответственности за техническое качество решений. Формат сотрудничества — агентские услуги. Обязанности: Проектировать и разрабатывать AI-продукты и AI-функциональность на базе LLM, RAG, embeddings, vector search и agentic-подходов. Разрабатывать backend-сервисы на Python для AI-продуктов, LLM-интеграций и пользовательских сценариев. Строить wrapper-based LLM-решения: prompt orchestration, structured output, tool/function calling, context management, guardrails. Проектировать и реализовывать RAG-пайплайны: подготовка данных, chunking, embeddings, retrieval, reranking, формирование контекста, оценка качества ответов. Интегрировать LLM через cloud API, локальные inference-сервисы и OpenAI-compatible endpoints. Работать с локальными или self-hosted LLM: запуск, интеграция, настройка и эксплуатация через Ollama, LM Studio, Hugging Face Transformers, TGI, vLLM или аналоги. Работать с векторными базами данных и хранилищами знаний, включая ChromaDB и аналоги. Интегрировать AI-сервисы с backend-системами, веб-приложениями, ботами, внутренними порталами и внешними API. Проектировать надежные API и интеграции: REST, webhooks, authentication, authorization, rate limits, retries, idempotency. Готовить AI-сервисы к production: логирование, мониторинг, error handling, tracing, алертинг, контроль деградации качества. Оптимизировать AI-сценарии по качеству, latency, стабильности, стоимости и использованию вычислительных ресурсов. Участвовать в CI/CD, контейнеризации, деплое и эксплуатации AI-сервисов. Разбирать бизнес-требования, предлагать технические варианты реализации и оценивать ограничения. Брать ownership за AI-функциональность end-to-end: от архитектуры и реализации до запуска и поддержки. Взаимодействовать с backend, frontend, QA, DevOps и product-командами. Требования: Уверенный senior-level опыт в разработке AI/LLM-продуктов, backend-сервисов или платформенных решений. Сильная инженерная база: умение проектировать надежные сервисы, API, интеграции и production-ready архитектуру. Глубокий hands-on опыт с LLM-based продуктами: orchestration logic, prompt pipelines, structured output, tool/function calling, context management. Практический опыт работы с cloud LLM-провайдерами и API: OpenAI, Anthropic, Azure OpenAI, Gemini или аналоги. Опыт работы с локальными или self-hosted LLM: запуск, интеграция и эксплуатация моделей через Ollama, LM Studio, Hugging Face Transformers, TGI, vLLM или аналогичные инструменты. Понимание базовых принципов LLM inference: context window, batching, streaming, quantization, GPU/CPU resource usage, latency и throughput. Опыт интеграции локальных моделей в backend-сервисы через OpenAI-compatible API, REST API или custom inference endpoints. Понимание trade-off между cloud LLM API и локальными моделями: качество, стоимость, latency, безопасность данных и требования к инфраструктуре. Опыт построения RAG-решений: подготовка данных, chunking, embeddings, retrieval, vector search, reranking, evaluation. Опыт работы с векторными хранилищами: ChromaDB, pgvector, Milvus, Pinecone, Weaviate или аналоги. Сильная разработка на Python и опыт с backend-фреймворками: FastAPI, Flask, Django или аналоги. Понимание современных backend-подходов: async processing, queues, caching, retries, idempotency, rate limiting. Опыт проектирования интеграций с внутренними и внешними системами: REST API, webhooks, auth/authz, OAuth2/JWT. Уверенная работа с базами данных и хранилищами: relational databases, key-value stores, object storage; понимание схем, индексов, транзакций и оптимизации запросов. Практический опыт вывода сервисов в production: logging, monitoring, tracing, alerting, error handling, incident support. Опыт с Docker, CI/CD и базовое понимание Kubernetes, deployment, scaling и эксплуатации сервисов. Понимание cloud-инфраструктуры и managed services, желательно AWS. Понимание рисков LLM-приложений: hallucinations, prompt injection, data leakage, access control, guardrails. Умение работать с требованиями высокого уровня: самостоятельно уточнять ограничения, выбирать технический подход и доводить решение до результата. Готовность брать ownership за AI-функциональность end-to-end: от дизайна решения до production и поддержки. Английский язык не ниже Upper-Intermediate: чтение документации, техническая коммуникация, участие в обсуждениях. В сопроводительном письме, пожалуйста, укажите свои зарплатные ожидания, спасибо! ❤️ Наши условия ниже :)