Ковчег
Каждой задаче — по паре проверенных инструментов.
«Ковчег» — вендор-независимый технологический радар по прикладному AI: каталог моделей, инструментов, техник и инфраструктуры для команд, которые строят продакшн-системы на LLM и агентах. Мы не привязаны ни к одному поставщику и берём «каждой твари по паре» — рядом ставим проприетарные и открытые решения, managed-сервисы и self-hosted, зрелые дефолты и многообещающих новичков. Каждая позиция отнесена к одному из четырёх квадрантов (Модели, Инструменты, Техники, Инфраструктура) и одному из четырёх колец зрелости. Цель — дать инженеру быстрый, честный ориентир: что уже можно ставить в основу, что стоит пилотировать, за чем наблюдать, а от чего лучше держаться подальше.
Зрелый дефолт. Технология проверена на реальной нагрузке, предсказуема в эксплуатации и имеет устоявшийся API — можно уверенно закладывать в продакшн и новые проекты.
Готова к пилотам. Производственно жизнеспособна и даёт ощутимую отдачу, но требует вложений во внедрение, тюнинга под конкретный профиль или ещё накапливает зрелость — обкатывайте на ограниченных задачах с хорошими evals, прежде чем делать дефолтом.
Стоит присматриваться. Перспективное направление со стремительно созревающей экосистемой или свежим релизом; управляемость, безопасность и паттерны эксплуатации ещё формируются — изучайте на изолированных сценариях и через opt-in, не доверяя ему критичный продакшн.
Воздержаться. Зависший, свёрнутый или вытесненный преемником вариант. Для новых систем выбирать нецелесообразно; существующие развёртывания — сопровождать и планомерно мигрировать.
Модели
foundation-модели — проприетарные и открытые
Флагманская проприетарная модель Anthropic (релиз 28.05.2026), лидер агентного кодинга (SWE-Bench Pro 69.2%, SWE-bench Verified 88.6%) и computer use. Стабильный API, режим Fast втрое дешевле, чем у Opus 4.7.
Почему здесь: Зрелый предсказуемый дефолт для продакшн-агентов и кодинга — проверена на реальной нагрузке, бенчмарках и ценах.
Текущая флагманская модель OpenAI (релиз в API 24.04.2026) с вариантами Thinking/Pro/Instant; сильна в коде, исследовании, анализе данных и работе с документами. Instant — дефолтная модель ChatGPT.
Почему здесь: Универсальный широко доступный рабочий конь с богатой экосистемой инструментов и tooling.
Mid-tier модель Google (релиз 19.05.2026 на I/O): Pro-уровень рассуждений при Flash-латентности. Обгоняет Gemini 3.1 Pro на Terminal-Bench 2.1 (76.2% vs 70.3%), MCP Atlas (83.6% vs 78.2%) и GDPval-AA. Gemini 3.5 Pro пока только во внутреннем/Vertex-preview.
Почему здесь: Свежий релиз с сильными агентными бенчмарками и низкой латентностью — стоит обкатать на пилотах, прежде чем делать дефолтом.
Открытая MoE-модель под MIT (релиз 24.04.2026): V4-Pro 1.6T/49B активных, V4-Flash 284B/13B, контекст 1M, sparse-attention DSA. V4-Pro-Max берёт 80.6% на SWE-bench Verified — топ среди open-weights, наравне с Gemini 3.1 Pro.
Почему здесь: Frontier-уровень с открытыми весами, self-hosting и низкой ценой — оправдывает пилот там, где важны приватность и контроль над стоимостью.
Открытая 1T MoE-модель (32B активных, 384 эксперта, контекст 262K) под Modified MIT; #4 в Artificial Analysis Intelligence Index и текущий лидер среди open-weights. Ставит GPT-5.5 на SWE-Bench Pro (58.6%), лидирует на Humanity's Last Exam с инструментами; ~на 80% дешевле фронтира.
Почему здесь: Лучший open-weight для агентного tool use на сегодня, но всё ещё за тройкой проприетарных лидеров — стоит присматриваться, а не закладывать в продакшн.
Teacher-модель Meta на ~2T параметров (288B активных, 16 экспертов), так и не вышедшая публично из-за проблем с MoE-роутингом и chunked-attention на 2T-масштабе. К середине 2026 веса не выпущены, формальной отмены нет — существует только как внутренний артефакт для дистилляции Scout/Maverick.
Почему здесь: Зависший, так и не выпущенный релиз — не закладывайте его в планы, пока Meta не предъявит работающие веса.
Инструменты
фреймворки, SDK и платформы разработки на LLM
Библиотека Anthropic (Python и TypeScript) для построения продакшн-агентов поверх того же харнесса, что и Claude Code: агентный цикл с tool-use, управление контекстом, субагенты, персистентные сессии, нативный MCP-клиент, встроенные file/bash/web-инструменты и опциональный human-in-the-loop. Переименована из Claude Code SDK в сентябре 2025; стала дефолтным способом встраивать Claude в долгоживущие tool-using процессы.
Почему здесь: Зрелый, активно поддерживаемый вендором SDK с доказанной продакшн-эксплуатацией и быстрым ростом adoption — низкий риск для внедрения.
Открытый стандарт подключения LLM к внешним инструментам и данным, переданный Anthropic в Agentic AI Foundation под эгидой Linux Foundation (анонс 9 декабря 2025; учредители-контрибьюторы — Anthropic, Block и OpenAI). К 2026 — фактический отраслевой интерфейс интеграции: 10 000+ серверов, первоклассная поддержка в Claude, ChatGPT, Cursor, Gemini, Microsoft Copilot и VS Code.
Почему здесь: Кросс-вендорная стандартизация и нейтральное управление де-факто сделали MCP обязательным фундаментом агентных интеграций.
Ведущий TypeScript-тулкит для AI-приложений и агентов с провайдер-нейтральным API, first-class абстракцией Agent (интерфейс + реализация ToolLoopAgent), полной поддержкой MCP, tool-execution approval и DevTools. Более 20 млн загрузок в месяц, интеграция с React/Next.js/Vue/Svelte/Node.
Почему здесь: Зрелая, широко принятая провайдер-нейтральная библиотека с устоявшимся API — стандартный выбор для агентов и LLM-фич в TypeScript-стеке.
Низкоуровневый оркестратор и рантайм для долгоживущих stateful-агентов: durable execution с возобновлением после сбоев, чекпойнтинг, time-travel debugging, human-in-the-loop, кратко- и долгосрочная память. Достиг v1.0 GA в октябре 2025; используется в продакшене Klarna, LinkedIn, Uber, Replit, Elastic и др.
Почему здесь: Мощный и продакшн-проверенный, но низкоуровневый и требующий значительных вложений — оправдан в пилотах сложных агентных систем, а не как дефолт.
Первопартийный SDK OpenAI для агентных систем: model-native харнесс для работы с файлами и инструментами плюс нативное sandbox-исполнение (E2B, Modal, Daytona, Cloudflare, Vercel, Blaxel, Runloop). Крупное обновление с харнессом и песочницами вышло 15 апреля 2026, на старте в первую очередь на Python (TypeScript — позже).
Почему здесь: Активно развивается и хорошо подходит для продакшена, но ключевые возможности новые и Python-first — стоит обкатать на ограниченных задачах.
Унифицированный SDK для .NET и Python, объединивший простые агентные абстракции AutoGen и enterprise-возможности Semantic Kernel: middleware, телеметрия, память, граф-ориентированные workflow, паттерны оркестрации и нативная MCP + A2A совместимость. GA 1.0 вышел 3 апреля 2026.
Почему здесь: Стратегически важная консолидация Microsoft, но релиз очень свежий — требует оценки зрелости и путей миграции прежде, чем доверять продакшену.
Ранний мульти-агентный фреймворк Microsoft с паттернами GroupChat и агентных диалогов. Переведён в maintenance mode (только критические багфиксы и патчи безопасности, без новых функций); инвестиции и явный преемник для новых проектов — Microsoft Agent Framework.
Почему здесь: Maintenance mode и явный преемник делают старт новых проектов на AutoGen нецелесообразным — только сопровождение существующих.
Техники
подходы и практики построения LLM-систем
RAG-конвейер, где классификатор оценивает сложность запроса и маршрутизирует его в нужную ветку: дешёвый прямой ответ (или без retrieval) для простых вопросов и полный многошаговый/агентный поиск для сложных. Канонический подход — Adaptive-RAG (T5-классификатор на трёх классах сложности); к 2026 это базовая практика продакшн-RAG, дающая качество дорогой ветки при заметно меньшей стоимости.
Почему здесь: Зрелый, проверенный паттерн с понятным контролем стоимости и качества — безопасный выбор по умолчанию для продакшн-RAG.
Автоматическая оценка ответов одной модели другой по критериям (релевантность, faithfulness, корректность). Каноничный результат MT-Bench: сильный судья согласуется с экспертами на ~85%, что выше согласия двух людей между собой (~81%). Дефолт для масштабных evals; требует контроля известных смещений (позиционное, verbosity, self-preference) через рандомизацию и калибровку.
Почему здесь: Дешёвый и масштабируемый способ гонять evals, ставший индустриальным дефолтом для оценки LLM-приложений.
Гарантированное соответствие ответа JSON Schema за счёт маскирования невалидных токенов при декодировании (схема компилируется в грамматику/FSM). К 2026 поддержано нативно у всех крупных провайдеров: OpenAI (Strict Mode, 2024), Google Gemini, Anthropic (бета structured-outputs с ноября 2025), Cohere, xAI.
Почему здесь: Снимает целый класс ошибок парсинга и доступен из коробки у всех крупных провайдеров — обязательная база для интеграций.
DSPy задаёт LLM-пайплайн декларативно, а оптимизатор GEPA через рефлексию на естественном языке (анализ трейсов и ошибок) автоматически эволюционирует инструкции, удерживая Парето-фронт кандидатов. GEPA — устный доклад (Oral) на ICLR 2026: обгоняет RL-метод GRPO в среднем на 6 п.п. (до 19 п.п.) при ~35x меньшем числе прогонов и MIPROv2 на 10+ п.п.
Почему здесь: Уже вышло из стадии «просто наблюдаем»: интегрировано в DSPy, есть ранние продакшн-внедрения — стоит пробовать на реальных пайплайнах с хорошими evals.
Слой защиты ввода/вывода: модерация контента, детект джейлбрейков и инъекций, контроль тем и диалоговых сценариев. На практике комбинируют 2-3 инструмента (defense-in-depth), так как одиночные детекторы обходятся (высокий ASR у evasion-атак), а NeMo Guardrails сам NVIDIA до сих пор помечает как бета, не рекомендованную в проде как есть.
Почему здесь: Инструменты полезны и доступны, но требуют сборки нескольких компонентов, тюнинга под домен и зрелость ещё не дотягивает до дефолта — внедряем под контролем.
Двухслойный стек координации агентов: MCP стандартизирует доступ к инструментам и данным, а A2A (Google → Linux Foundation, 150+ организаций) покрывает делегирование между автономными агентами. Поверх связки MCP-для-инструментов + A2A-для-агентов появляются enterprise-шлюзы с SSO и аудитом, но паттерны мультиагентной координации только складываются.
Почему здесь: Экосистема и стандарты стремительно созревают, но управляемость, безопасность и паттерны мультиагентной координации ещё формируются — изучаем на ограниченных сценариях.
Опора на изолированный подбор формулировок промпта в отрыве от управления контекстом, retrieval и evals. С ростом контекстных окон и reasoning отдача от трюков с формулировками падает; индустрия сместилась к context engineering (по опросам 2026, большинство лидеров считают «голый» prompting недостаточным для масштаба).
Почему здесь: Уступает место context engineering и автоматической оптимизации промптов — как отдельную практику для новых систем выбирать не стоит.
Инфраструктура
сервинг, хранилища, наблюдаемость
Высокопроизводительный движок инференса LLM с PagedAttention, непрерывным батчингом и OpenAI-совместимым API; де-факто стандартный бэкенд для большинства облачных и self-hosted развёртываний. Поддерживает 200+ архитектур и все виды параллелизма (tensor/pipeline/data/expert).
Почему здесь: Самый широкий охват железа и моделей, крупнейшее сообщество и проверенность на триллионах токенов в день делают его безопасным выбором по умолчанию.
Расширение PostgreSQL для векторного и гибридного поиска с индексами HNSW и IVFFlat; типы halfvec (16-бит) и sparsevec (разрежённые векторы) для экономии памяти. Текущая стабильная версия 0.8.2. Уверенно держит до десятков миллионов векторов без отдельной БД.
Почему здесь: Для большинства RAG-сценариев это лучший выбор: переиспользует существующий Postgres и убирает операционные издержки отдельной векторной БД.
Движок инференса с RadixAttention (префиксное кеширование KV в radix-дереве) и быстрым constrained decoding; даёт заметный прирост на префикс-тяжёлых нагрузках (RAG, многоходовый чат) и structured output. В проде у xAI (Grok), NVIDIA, AMD, Azure, Cursor; входит в экосистему PyTorch.
Почему здесь: Производственно зрелый и быстрее vLLM на ряде нагрузок, но охват железа и архитектур уже, поэтому внедрять стоит точечно под конкретный профиль трафика.
Специализированная векторная БД на Rust с быстрым ANN-поиском (HNSW) и богатой фильтрацией по метаданным прямо в графе обхода; одна из самых низколатентных среди open-source на больших объёмах.
Почему здесь: Оправдан, когда pgvector упирается в потолок по объёму или нужны сложные фильтры, но это ещё один сервис в эксплуатации, поэтому пробовать под нагрузку, а не повсеместно.
Стандарт семантических соглашений OTel для трейсинга LLM/агентов/MCP: единые имена спанов, атрибуты вызовов инструментов, метрики токенов. Спаны клиентских вызовов в начале 2026 стабилизировались, но события, метрики и агентские/MCP-спаны всё ещё в статусе Development.
Почему здесь: Перспективный отраслевой стандарт, который частично стабилизировался, но ключевые атрибуты ещё меняются, поэтому пока изучать и закладывать через opt-in (OTEL_SEMCONV_STABILITY).
Text Generation Inference — ранний движок сервинга от Hugging Face. С конца 2025 в режиме maintenance, репозиторий заархивирован в марте 2026; сам HF для эндпоинтов рекомендует vLLM или SGLang.
Почему здесь: Проект фактически свёрнут и вытеснен vLLM/SGLang, поэтому новые развёртывания на него ставить не стоит, а существующие — мигрировать.