Практическое руководство

Хэндбук по ИИ-платформам в продакшене

От API-ключа к платформе.

ИИ в продакшене — это не модель. Это платформа. Практическая карта для команд, которые строят LLM, STT, эмбеддинги и агентов: инференс, маршрутизация, кеш, оценка качества, защитные ограничения, наблюдаемость, стоимость и ответственность.

Начать с карты Модель зрелости Инструменты

глав и карт

слоёв платформы

форматов

инструмента

ролевых трека

API key → platform

Продуктовые сценарии

AI Gateway

Стратегия провайдеров

Маршрутизация пути исполнения

Среда инференса

Кеширование

Как пользоваться хэндбуком

Не читайте подряд. Начните с той платформенной проблемы, которая уже болит.

Нужна общая картина?

Откройте карту платформы и найдите слой, где нет владельца.

Нужен язык для CTO?

Начните с модели зрелости и главы про MaaS vs self-hosted.

Растёт стоимость или задержка?

Идите в экономику инференса и кеш префикса.

Плывёт качество?

Начните с контроля качества, наблюдаемости и ответственности.

Начать по роли

Выберите маршрут по своей зоне ответственности, а затем отфильтруйте материалы в каталоге ниже.

Руководитель ИИ-платформы

Ответственность, карта, качество и экономика.

CTO / руководитель

Стратегия, зрелость и операционная модель.

Backend-инженер

AI Gateway, наблюдаемость, инструменты и контракты.

MLOps / инференс

Развёртывание, STT, эмбеддинги, кеш и мощность.

Навигатор хэндбука

Ищите материалы по роли, формату или теме и отмечайте прочитанное. Прогресс хранится только в этом браузере.

Прогресс

0/22

прочитано

в закладках

Только локальное состояние. Без аккаунта, слежки и серверной части.

Поиск

Форматы

Роли

Карты

Карта Production AI Platform

Двенадцать зон ответственности: от сценариев до владельцев.

Карты

Модель зрелости ИИ-платформы

Семь уровней: от API-ключа до AI-native операционной модели.

Главы

С чего начать

Выберите первый маршрут по текущей платформенной проблеме.

Главы

Манифест

Почему production AI стоит мыслить как платформу, а не как выбор модели.

Главы

MaaS vs Self-hosted

Стратегическое решение, а не религиозный спор.

Главы

AI Gateway

Точка управления доступом, квотами, маршрутизацией, политиками и стоимостью.

Главы

Semantic Router

Маршрутизация пути исполнения: direct, RAG, agentic или ручная проверка.

Главы

Рантайм инференса

Решения по развёртыванию LLM, STT, эмбеддингов и rerankers.

Главы

STT в production

STT как полноценная production-нагрузка, а не предварительная обработка.

Главы

Embeddings в production

Embeddings и rerankers как слой качества, задержки и жизненного цикла.

Главы

Экономика инференса

Стоимость принятого результата, а не сырая цена токена.

Главы

Prefix Cache

Как форма промпта, схемы инструментов и маршрутизация влияют на кеш.

Чеклисты

Контроль качества ИИ

Цикл выкатки, который не даёт качеству деградировать незаметно.

Чеклисты

Чеклист наблюдаемости LLM

Минимальная телеметрия для модели, промпта, стоимости, задержки и результата.

Главы

Защитные контуры и безопасность

Политики, телеметрия, путь отката и ответственность, а не одна магическая библиотека.

Главы

Ответственность и операционная модель

Кто владеет качеством, стоимостью, инцидентами и контрактами платформы.

Инструменты

Prefix Cache Auditor

Локальная диагностика нестабильных префиксов и дрейфа схем.

Инструменты

LLM Cost Calculator

Оценка реальной стоимости с кешированными входными токенами.

Инструменты

Чеклист контроля качества

Локальная проверка готовности перед выкаткой.

Шаблоны

RFC миграции ИИ-сценария

Шаблон перехода сценария с MaaS на self-hosted или гибридный контур.

Шаблоны

Запланировано

RFC релиза модели

Описание релиза, порог качества, путь отката и профиль стоимости при смене модели.

Шаблоны

Запланировано

Отчёт по качеству

Датасет, таксономия ошибок, регрессионные дельты и рекомендация по выкатке.

Шаблоны

Non-prod cost sheet

Prod, stage, debug, canary, резерв и стоимость принятого результата.

Шаблоны

Матрица выбора контура

Шаблон для выбора между MaaS, обезличиванием, self-hosted, batch и hybrid.

Шаблоны

Запланировано

Разбор AI-инцидента

Шаблон для инцидентов с промптом, моделью, инструментом, стоимостью и безопасностью.

Слои платформы

В карте двенадцать зон ответственности. Если слоя нет, его всё равно кто-то сделает внутри продукта.

L01

Продуктовые сценарии

Ценность, риски, владелец и критерии успеха.

L02

AI Gateway

Единый вход: доступ, лимиты, маршрутизация, политики и учёт стоимости.

L03

Стратегия провайдеров

MaaS, self-hosted и гибридный подход как стратегия, а не религия.

L04

Маршрутизация пути исполнения

Выбор пути: маленькая модель, большая модель, RAG, агент, ручная проверка или отказ по политике.

L05

Среда инференса

Запуск LLM, STT, эмбеддингов и моделей ранжирования с бюджетами задержки и пропускной способности.

L06

Кеширование

Prompt cache, prefix cache, KV-cache и стабильная форма запроса.

L07

Жизненный цикл модели

От исследования до теневого теста, канареечной выкатки, production, отката и вывода из эксплуатации.

L08

Оценка качества и релизный контроль

Датасеты, регрессионные проверки, канареечная выкатка и обратная связь.

L09

Наблюдаемость

Трейсы, токены, TTFT, TPOT, события резервного маршрута, события безопасности и обратная связь.

L10

Экономика / FinOps

Стоимость сценария, кешированные токены, повторы, загрузка GPU и цена принятого результата.

L11

Защитные контуры / безопасность

Политики, PII, prompt injection, риски инструментов и аудит.

L12

Эксплуатация / ответственность

SLO, инциденты, планирование мощности, инструкции и опыт разработчиков платформы.

Быстрые входы

Короткий маршрут по основным главам первой версии.

Карта Production AI Platform

Карта ответственности: от сценариев к AI Gateway, инференсу, проверке качества и владельцам.

Модель зрелости ИИ-платформы

Модель зрелости: от одного API-ключа до зрелой ИИ-платформы.

MaaS vs Self-hosted

Как выбирать MaaS, self-hosted или гибридный инференс.

Semantic Router

Как выбирать путь исполнения: direct, RAG, agentic или ручная проверка.

Инструменты и шаблоны

Карты, чеклисты, шаблоны и инструменты собраны как рабочие артефакты, а не как список статей.

Prefix Cache Auditor

Ищет нестабильный префикс, динамические поля и дрейф схем.

LLM Cost Calculator

Оценивает реальную стоимость с кешированными входными токенами.

Чеклист контроля качества

Проверяет готовность перед выкаткой.

Шаблоны

RFC миграции сценария, матрица выбора контура и расчёт непроизводственных контуров.