Sergei Notevskii
Хэндбук · v0.1

Production AI Platform Handbook

От API-ключа к платформе.

Production AI — это не модель. Это платформа. Практическая карта для команд, которые строят LLM, STT, embeddings и агентов в production: инференс, маршрутизация, кеш, оценка качества, защитные контуры, наблюдаемость, стоимость и ответственность.

13

глав и карт

12

слоёв платформы

5

форматов

3

инструмента

4

ролевых трека

API key → platform
01

Продуктовые сценарии

02

AI Gateway

03

Стратегия провайдеров

04

Маршрутизация моделей

05

Инференс-рантайм

06

Кеширование

Как пользоваться хэндбуком

Не читайте подряд. Начните с той платформенной проблемы, которая уже болит.

Нужна общая картина?

Откройте карту платформы и найдите слой, где нет владельца.

Нужен язык для CTO?

Начните с модели зрелости и главы про MaaS vs self-hosted.

Растёт стоимость или задержка?

Идите в экономику инференса и prefix cache.

Плывёт качество?

Начните с контроля качества, наблюдаемости и ответственности.

Навигатор хэндбука

Фильтруйте первый релиз по формату или роли и отмечайте прочитанное. Прогресс хранится только в этом браузере.

Прогресс

0/18

прочитано

0

в закладках

Только локальное состояние. Без аккаунта, слежки и backend.

Форматы

Роли

Шаблоны
Запланировано

RFC AI-сценария

Шаблон для сценария, владельца, риска, проверок качества, стоимости и выкатки.

Шаблоны
Запланировано

RFC релиза модели

Описание релиза, порог качества, путь отката и профиль стоимости при смене модели.

Шаблоны
Запланировано

Отчёт по качеству

Датасет, таксономия ошибок, регрессионные дельты и рекомендация по выкатке.

Шаблоны
Запланировано

Разбор стоимости

Стоимость сценария, кешированные токены, повторы, загрузка GPU и принятые результаты.

Шаблоны
Запланировано

Матрица выбора провайдера

Шаблон для выбора между MaaS, self-hosted и гибридным подходом.

Шаблоны
Запланировано

Разбор AI-инцидента

Шаблон для инцидентов с промптом, моделью, инструментом, стоимостью и безопасностью.

Слои платформы

В карте двенадцать зон ответственности. Если слоя нет, его всё равно кто-то сделает внутри продукта.

L01

Продуктовые сценарии

Ценность, риски, владелец и критерии успеха.

L02

AI Gateway

Единый вход: доступ, лимиты, маршрутизация, политики и учёт стоимости.

L03

Стратегия провайдеров

MaaS, self-hosted и гибридный подход как стратегия, а не религия.

L04

Маршрутизация моделей

Алиасы, резервные пути, канареечные выкатки и версии моделей.

L05

Инференс-рантайм

Запуск LLM, STT, embeddings и rerankers с бюджетами задержки и пропускной способности.

L06

Кеширование

Prompt cache, prefix cache, KV-cache и стабильная форма запроса.

L07

Жизненный цикл модели

От исследования до теневого теста, канареечной выкатки, production, отката и вывода из эксплуатации.

L08

Оценка качества и релизный контроль

Датасеты, регрессионные проверки, канареечная выкатка и обратная связь.

L09

Наблюдаемость

Трейсы, токены, TTFT, TPOT, события резервного маршрута, события безопасности и обратная связь.

L10

Экономика / FinOps

Стоимость сценария, кешированные токены, повторы, загрузка GPU и цена принятого результата.

L11

Защитные контуры / безопасность

Политики, PII, prompt injection, риски инструментов и аудит.

L12

Эксплуатация / ответственность

SLO, инциденты, планирование мощности, инструкции и опыт разработчиков платформы.

Быстрые входы

Короткий маршрут по основным главам v0.1.

Инструменты и шаблоны

Карты, чеклисты, шаблоны и инструменты собраны как рабочие артефакты, а не как список статей.