Ковчег

Каждой задаче — по паре проверенных инструментов.

«Ковчег» — вендор-независимый технологический радар по прикладному AI: каталог моделей, инструментов, техник и инфраструктуры для команд, которые строят продакшн-системы на LLM и агентах. Мы не привязаны ни к одному поставщику и берём «каждой твари по паре» — рядом ставим проприетарные и открытые решения, managed-сервисы и self-hosted, зрелые дефолты и многообещающих новичков. Каждая позиция отнесена к одному из четырёх квадрантов (Модели, Инструменты, Техники, Инфраструктура) и одному из четырёх колец зрелости. Цель — дать инженеру быстрый, честный ориентир: что уже можно ставить в основу, что стоит пилотировать, за чем наблюдать, а от чего лучше держаться подальше.

Adopt

Зрелый дефолт. Технология проверена на реальной нагрузке, предсказуема в эксплуатации и имеет устоявшийся API — можно уверенно закладывать в продакшн и новые проекты.

Trial

Готова к пилотам. Производственно жизнеспособна и даёт ощутимую отдачу, но требует вложений во внедрение, тюнинга под конкретный профиль или ещё накапливает зрелость — обкатывайте на ограниченных задачах с хорошими evals, прежде чем делать дефолтом.

Assess

Стоит присматриваться. Перспективное направление со стремительно созревающей экосистемой или свежим релизом; управляемость, безопасность и паттерны эксплуатации ещё формируются — изучайте на изолированных сценариях и через opt-in, не доверяя ему критичный продакшн.

Hold

Воздержаться. Зависший, свёрнутый или вытесненный преемником вариант. Для новых систем выбирать нецелесообразно; существующие развёртывания — сопровождать и планомерно мигрировать.

26 позиций · 4 квадранта · 4 кольца зрелости

Модели

foundation-модели — проприетарные и открытые

Adopt1. Claude Opus 4.8 (Anthropic)

Флагманская проприетарная модель Anthropic (релиз 28.05.2026), лидер агентного кодинга (SWE-Bench Pro 69.2%, SWE-bench Verified 88.6%) и computer use. Стабильный API, режим Fast втрое дешевле, чем у Opus 4.7.

Почему здесь: Зрелый предсказуемый дефолт для продакшн-агентов и кодинга — проверена на реальной нагрузке, бенчмарках и ценах.

Adopt2. OpenAI GPT-5.5

Текущая флагманская модель OpenAI (релиз в API 24.04.2026) с вариантами Thinking/Pro/Instant; сильна в коде, исследовании, анализе данных и работе с документами. Instant — дефолтная модель ChatGPT.

Почему здесь: Универсальный широко доступный рабочий конь с богатой экосистемой инструментов и tooling.

Trial3. Gemini 3.5 Flash (Google DeepMind)

Mid-tier модель Google (релиз 19.05.2026 на I/O): Pro-уровень рассуждений при Flash-латентности. Обгоняет Gemini 3.1 Pro на Terminal-Bench 2.1 (76.2% vs 70.3%), MCP Atlas (83.6% vs 78.2%) и GDPval-AA. Gemini 3.5 Pro пока только во внутреннем/Vertex-preview.

Почему здесь: Свежий релиз с сильными агентными бенчмарками и низкой латентностью — стоит обкатать на пилотах, прежде чем делать дефолтом.

Trial4. DeepSeek V4 (open-weight)

Открытая MoE-модель под MIT (релиз 24.04.2026): V4-Pro 1.6T/49B активных, V4-Flash 284B/13B, контекст 1M, sparse-attention DSA. V4-Pro-Max берёт 80.6% на SWE-bench Verified — топ среди open-weights, наравне с Gemini 3.1 Pro.

Почему здесь: Frontier-уровень с открытыми весами, self-hosting и низкой ценой — оправдывает пилот там, где важны приватность и контроль над стоимостью.

Assess5. Kimi K2.6 (Moonshot AI)

Открытая 1T MoE-модель (32B активных, 384 эксперта, контекст 262K) под Modified MIT; #4 в Artificial Analysis Intelligence Index и текущий лидер среди open-weights. Ставит GPT-5.5 на SWE-Bench Pro (58.6%), лидирует на Humanity's Last Exam с инструментами; ~на 80% дешевле фронтира.

Почему здесь: Лучший open-weight для агентного tool use на сегодня, но всё ещё за тройкой проприетарных лидеров — стоит присматриваться, а не закладывать в продакшн.

Hold6. Llama 4 Behemoth (Meta)

Teacher-модель Meta на ~2T параметров (288B активных, 16 экспертов), так и не вышедшая публично из-за проблем с MoE-роутингом и chunked-attention на 2T-масштабе. К середине 2026 веса не выпущены, формальной отмены нет — существует только как внутренний артефакт для дистилляции Scout/Maverick.

Почему здесь: Зависший, так и не выпущенный релиз — не закладывайте его в планы, пока Meta не предъявит работающие веса.

Инструменты

фреймворки, SDK и платформы разработки на LLM

Adopt7. Claude Agent SDK

Библиотека Anthropic (Python и TypeScript) для построения продакшн-агентов поверх того же харнесса, что и Claude Code: агентный цикл с tool-use, управление контекстом, субагенты, персистентные сессии, нативный MCP-клиент, встроенные file/bash/web-инструменты и опциональный human-in-the-loop. Переименована из Claude Code SDK в сентябре 2025; стала дефолтным способом встраивать Claude в долгоживущие tool-using процессы.

Почему здесь: Зрелый, активно поддерживаемый вендором SDK с доказанной продакшн-эксплуатацией и быстрым ростом adoption — низкий риск для внедрения.

Adopt8. Model Context Protocol (MCP)

Открытый стандарт подключения LLM к внешним инструментам и данным, переданный Anthropic в Agentic AI Foundation под эгидой Linux Foundation (анонс 9 декабря 2025; учредители-контрибьюторы — Anthropic, Block и OpenAI). К 2026 — фактический отраслевой интерфейс интеграции: 10 000+ серверов, первоклассная поддержка в Claude, ChatGPT, Cursor, Gemini, Microsoft Copilot и VS Code.

Почему здесь: Кросс-вендорная стандартизация и нейтральное управление де-факто сделали MCP обязательным фундаментом агентных интеграций.

Adopt9. Vercel AI SDK 6

Ведущий TypeScript-тулкит для AI-приложений и агентов с провайдер-нейтральным API, first-class абстракцией Agent (интерфейс + реализация ToolLoopAgent), полной поддержкой MCP, tool-execution approval и DevTools. Более 20 млн загрузок в месяц, интеграция с React/Next.js/Vue/Svelte/Node.

Почему здесь: Зрелая, широко принятая провайдер-нейтральная библиотека с устоявшимся API — стандартный выбор для агентов и LLM-фич в TypeScript-стеке.

Trial10. LangGraph

Низкоуровневый оркестратор и рантайм для долгоживущих stateful-агентов: durable execution с возобновлением после сбоев, чекпойнтинг, time-travel debugging, human-in-the-loop, кратко- и долгосрочная память. Достиг v1.0 GA в октябре 2025; используется в продакшене Klarna, LinkedIn, Uber, Replit, Elastic и др.

Почему здесь: Мощный и продакшн-проверенный, но низкоуровневый и требующий значительных вложений — оправдан в пилотах сложных агентных систем, а не как дефолт.

Trial11. OpenAI Agents SDK

Первопартийный SDK OpenAI для агентных систем: model-native харнесс для работы с файлами и инструментами плюс нативное sandbox-исполнение (E2B, Modal, Daytona, Cloudflare, Vercel, Blaxel, Runloop). Крупное обновление с харнессом и песочницами вышло 15 апреля 2026, на старте в первую очередь на Python (TypeScript — позже).

Почему здесь: Активно развивается и хорошо подходит для продакшена, но ключевые возможности новые и Python-first — стоит обкатать на ограниченных задачах.

Assess12. Microsoft Agent Framework

Унифицированный SDK для .NET и Python, объединивший простые агентные абстракции AutoGen и enterprise-возможности Semantic Kernel: middleware, телеметрия, память, граф-ориентированные workflow, паттерны оркестрации и нативная MCP + A2A совместимость. GA 1.0 вышел 3 апреля 2026.

Почему здесь: Стратегически важная консолидация Microsoft, но релиз очень свежий — требует оценки зрелости и путей миграции прежде, чем доверять продакшену.

Hold13. AutoGen

Ранний мульти-агентный фреймворк Microsoft с паттернами GroupChat и агентных диалогов. Переведён в maintenance mode (только критические багфиксы и патчи безопасности, без новых функций); инвестиции и явный преемник для новых проектов — Microsoft Agent Framework.

Почему здесь: Maintenance mode и явный преемник делают старт новых проектов на AutoGen нецелесообразным — только сопровождение существующих.

Техники

подходы и практики построения LLM-систем

Adopt14. Adaptive RAG (маршрутизация запросов по сложности)

RAG-конвейер, где классификатор оценивает сложность запроса и маршрутизирует его в нужную ветку: дешёвый прямой ответ (или без retrieval) для простых вопросов и полный многошаговый/агентный поиск для сложных. Канонический подход — Adaptive-RAG (T5-классификатор на трёх классах сложности); к 2026 это базовая практика продакшн-RAG, дающая качество дорогой ветки при заметно меньшей стоимости.

Почему здесь: Зрелый, проверенный паттерн с понятным контролем стоимости и качества — безопасный выбор по умолчанию для продакшн-RAG.

Adopt15. LLM-as-a-Judge (оценка выходов моделью)

Автоматическая оценка ответов одной модели другой по критериям (релевантность, faithfulness, корректность). Каноничный результат MT-Bench: сильный судья согласуется с экспертами на ~85%, что выше согласия двух людей между собой (~81%). Дефолт для масштабных evals; требует контроля известных смещений (позиционное, verbosity, self-preference) через рандомизацию и калибровку.

Почему здесь: Дешёвый и масштабируемый способ гонять evals, ставший индустриальным дефолтом для оценки LLM-приложений.

Adopt16. Structured Output через constrained decoding (Strict Mode)

Гарантированное соответствие ответа JSON Schema за счёт маскирования невалидных токенов при декодировании (схема компилируется в грамматику/FSM). К 2026 поддержано нативно у всех крупных провайдеров: OpenAI (Strict Mode, 2024), Google Gemini, Anthropic (бета structured-outputs с ноября 2025), Cohere, xAI.

Почему здесь: Снимает целый класс ошибок парсинга и доступен из коробки у всех крупных провайдеров — обязательная база для интеграций.

Trial17. Декларативная оптимизация промптов: DSPy + GEPA

DSPy задаёт LLM-пайплайн декларативно, а оптимизатор GEPA через рефлексию на естественном языке (анализ трейсов и ошибок) автоматически эволюционирует инструкции, удерживая Парето-фронт кандидатов. GEPA — устный доклад (Oral) на ICLR 2026: обгоняет RL-метод GRPO в среднем на 6 п.п. (до 19 п.п.) при ~35x меньшем числе прогонов и MIPROv2 на 10+ п.п.

Почему здесь: Уже вышло из стадии «просто наблюдаем»: интегрировано в DSPy, есть ранние продакшн-внедрения — стоит пробовать на реальных пайплайнах с хорошими evals.

Trial18. Программируемые guardrails (NeMo Guardrails / Llama Guard / LLM Guard)

Слой защиты ввода/вывода: модерация контента, детект джейлбрейков и инъекций, контроль тем и диалоговых сценариев. На практике комбинируют 2-3 инструмента (defense-in-depth), так как одиночные детекторы обходятся (высокий ASR у evasion-атак), а NeMo Guardrails сам NVIDIA до сих пор помечает как бета, не рекомендованную в проде как есть.

Почему здесь: Инструменты полезны и доступны, но требуют сборки нескольких компонентов, тюнинга под домен и зрелость ещё не дотягивает до дефолта — внедряем под контролем.

Assess19. Мультиагентная оркестрация через MCP + A2A

Двухслойный стек координации агентов: MCP стандартизирует доступ к инструментам и данным, а A2A (Google → Linux Foundation, 150+ организаций) покрывает делегирование между автономными агентами. Поверх связки MCP-для-инструментов + A2A-для-агентов появляются enterprise-шлюзы с SSO и аудитом, но паттерны мультиагентной координации только складываются.

Почему здесь: Экосистема и стандарты стремительно созревают, но управляемость, безопасность и паттерны мультиагентной координации ещё формируются — изучаем на ограниченных сценариях.

Hold20. Ручная prompt-инженерия как самостоятельная дисциплина

Опора на изолированный подбор формулировок промпта в отрыве от управления контекстом, retrieval и evals. С ростом контекстных окон и reasoning отдача от трюков с формулировками падает; индустрия сместилась к context engineering (по опросам 2026, большинство лидеров считают «голый» prompting недостаточным для масштаба).

Почему здесь: Уступает место context engineering и автоматической оптимизации промптов — как отдельную практику для новых систем выбирать не стоит.

Инфраструктура

сервинг, хранилища, наблюдаемость

Adopt21. vLLM

Высокопроизводительный движок инференса LLM с PagedAttention, непрерывным батчингом и OpenAI-совместимым API; де-факто стандартный бэкенд для большинства облачных и self-hosted развёртываний. Поддерживает 200+ архитектур и все виды параллелизма (tensor/pipeline/data/expert).

Почему здесь: Самый широкий охват железа и моделей, крупнейшее сообщество и проверенность на триллионах токенов в день делают его безопасным выбором по умолчанию.

Adopt22. pgvector

Расширение PostgreSQL для векторного и гибридного поиска с индексами HNSW и IVFFlat; типы halfvec (16-бит) и sparsevec (разрежённые векторы) для экономии памяти. Текущая стабильная версия 0.8.2. Уверенно держит до десятков миллионов векторов без отдельной БД.

Почему здесь: Для большинства RAG-сценариев это лучший выбор: переиспользует существующий Postgres и убирает операционные издержки отдельной векторной БД.

Trial23. SGLang

Движок инференса с RadixAttention (префиксное кеширование KV в radix-дереве) и быстрым constrained decoding; даёт заметный прирост на префикс-тяжёлых нагрузках (RAG, многоходовый чат) и structured output. В проде у xAI (Grok), NVIDIA, AMD, Azure, Cursor; входит в экосистему PyTorch.

Почему здесь: Производственно зрелый и быстрее vLLM на ряде нагрузок, но охват железа и архитектур уже, поэтому внедрять стоит точечно под конкретный профиль трафика.

Trial24. Qdrant

Специализированная векторная БД на Rust с быстрым ANN-поиском (HNSW) и богатой фильтрацией по метаданным прямо в графе обхода; одна из самых низколатентных среди open-source на больших объёмах.

Почему здесь: Оправдан, когда pgvector упирается в потолок по объёму или нужны сложные фильтры, но это ещё один сервис в эксплуатации, поэтому пробовать под нагрузку, а не повсеместно.

Assess25. OpenTelemetry GenAI Semantic Conventions

Стандарт семантических соглашений OTel для трейсинга LLM/агентов/MCP: единые имена спанов, атрибуты вызовов инструментов, метрики токенов. Спаны клиентских вызовов в начале 2026 стабилизировались, но события, метрики и агентские/MCP-спаны всё ещё в статусе Development.

Почему здесь: Перспективный отраслевой стандарт, который частично стабилизировался, но ключевые атрибуты ещё меняются, поэтому пока изучать и закладывать через opt-in (OTEL_SEMCONV_STABILITY).

Hold26. Hugging Face TGI (как движок сервинга)

Text Generation Inference — ранний движок сервинга от Hugging Face. С конца 2025 в режиме maintenance, репозиторий заархивирован в марте 2026; сам HF для эндпоинтов рекомендует vLLM или SGLang.

Почему здесь: Проект фактически свёрнут и вытеснен vLLM/SGLang, поэтому новые развёртывания на него ставить не стоит, а существующие — мигрировать.