Карта Production AI Platform
Двенадцать зон ответственности: от сценариев до владельцев.
От API-ключа к платформе.
Production AI — это не модель. Это платформа. Практическая карта для команд, которые строят LLM, STT, embeddings и агентов в production: инференс, маршрутизация, кеш, оценка качества, защитные контуры, наблюдаемость, стоимость и ответственность.
13
глав и карт
12
слоёв платформы
5
форматов
3
инструмента
4
ролевых трека
Продуктовые сценарии
AI Gateway
Стратегия провайдеров
Маршрутизация моделей
Инференс-рантайм
Кеширование
Не читайте подряд. Начните с той платформенной проблемы, которая уже болит.
Откройте карту платформы и найдите слой, где нет владельца.
Начните с модели зрелости и главы про MaaS vs self-hosted.
Идите в экономику инференса и prefix cache.
Начните с контроля качества, наблюдаемости и ответственности.
Навигатор хэндбука
Прогресс
0/18
прочитано
0
в закладках
Только локальное состояние. Без аккаунта, слежки и backend.
Форматы
Роли
Двенадцать зон ответственности: от сценариев до владельцев.
Семь уровней: от API-ключа до AI-native операционной модели.
Выберите первый маршрут по текущей платформенной проблеме.
Почему production AI стоит мыслить как платформу, а не как выбор модели.
Стратегическое решение, а не религиозный спор.
Точка управления доступом, квотами, маршрутизацией, политиками и стоимостью.
Решения по развёртыванию LLM, STT, embeddings и rerankers.
STT как полноценная production-нагрузка, а не предварительная обработка.
Embeddings и rerankers как слой качества, задержки и жизненного цикла.
Стоимость принятого результата, а не сырая цена токена.
Как форма промпта, схемы инструментов и маршрутизация влияют на кеш.
Цикл выкатки, который не даёт качеству деградировать незаметно.
Минимальная телеметрия для модели, промпта, стоимости, задержки и результата.
Политики, телеметрия, путь отката и ответственность, а не одна магическая библиотека.
Кто владеет качеством, стоимостью, инцидентами и контрактами платформы.
Локальная диагностика нестабильных префиксов и дрейфа схем.
Оценка реальной стоимости с кешированными входными токенами.
Локальная проверка готовности перед выкаткой.
Шаблон для сценария, владельца, риска, проверок качества, стоимости и выкатки.
Описание релиза, порог качества, путь отката и профиль стоимости при смене модели.
Датасет, таксономия ошибок, регрессионные дельты и рекомендация по выкатке.
Стоимость сценария, кешированные токены, повторы, загрузка GPU и принятые результаты.
Шаблон для выбора между MaaS, self-hosted и гибридным подходом.
Шаблон для инцидентов с промптом, моделью, инструментом, стоимостью и безопасностью.
В карте двенадцать зон ответственности. Если слоя нет, его всё равно кто-то сделает внутри продукта.
L01
Ценность, риски, владелец и критерии успеха.
L02
Единый вход: доступ, лимиты, маршрутизация, политики и учёт стоимости.
L03
MaaS, self-hosted и гибридный подход как стратегия, а не религия.
L04
Алиасы, резервные пути, канареечные выкатки и версии моделей.
L05
Запуск LLM, STT, embeddings и rerankers с бюджетами задержки и пропускной способности.
L06
Prompt cache, prefix cache, KV-cache и стабильная форма запроса.
L07
От исследования до теневого теста, канареечной выкатки, production, отката и вывода из эксплуатации.
L08
Датасеты, регрессионные проверки, канареечная выкатка и обратная связь.
L09
Трейсы, токены, TTFT, TPOT, события резервного маршрута, события безопасности и обратная связь.
L10
Стоимость сценария, кешированные токены, повторы, загрузка GPU и цена принятого результата.
L11
Политики, PII, prompt injection, риски инструментов и аудит.
L12
SLO, инциденты, планирование мощности, инструкции и опыт разработчиков платформы.
Короткий маршрут по основным главам v0.1.
Карта ответственности: от сценариев к AI Gateway, инференсу, проверке качества и владельцам.
Модель зрелости: от одного API-ключа до зрелой AI-платформы.
Как выбирать MaaS, self-hosted или гибридный инференс.
Как стабильный префикс, схемы инструментов и маршрутизация влияют на реальную стоимость.
Карты, чеклисты, шаблоны и инструменты собраны как рабочие артефакты, а не как список статей.
Ищет нестабильный префикс, динамические поля и дрейф схем.
Оценивает реальную стоимость с кешированными входными токенами.
Проверяет готовность перед выкаткой.
Следующие: RFC AI-сценария, релиз модели, отчёт по качеству и разбор инцидента.