Карта Production AI Platform

Карта двенадцати зон ответственности production ИИ-платформы.

Проблема

Без карты любой разговор про AI схлопывается к выбору модели. В production это слишком узко: настоящая система живёт между продуктовым сценарием, AI Gateway, инференсом, качеством, стоимостью, безопасностью и ответственностью.

Симптомы

Разные команды по-разному решают AI Gateway, проверку качества, защитные контуры и наблюдаемость.
Один и тот же сбой повторяется в нескольких продуктах.
Руководство видит AI как очередь фич, а не как эксплуатационную поверхность.
Стоимость, качество и инциденты обсуждаются после запуска, а не до него.

Ментальная модель

Продуктовые сценарии идут вниз в слои платформы. Обратная связь из production возвращается вверх: в продуктовые решения, выбор моделей и зоны ответственности.

Если слоя нет на карте, он не исчезает. Его просто неявно реализует продуктовая команда: в коде сервиса, в ручной поддержке или в ночном инциденте.

Архитектура

Продуктовые сценарии

Ценность, риски, владелец и критерии успеха.

AI Gateway

Единый вход: доступ, лимиты, маршрутизация, политики и учёт стоимости.

Стратегия провайдеров

MaaS, self-hosted и гибридный подход как стратегия, а не религия.

Маршрутизация пути исполнения

Выбор пути: маленькая модель, большая модель, RAG, агент, ручная проверка или отказ по политике.

Среда инференса

Запуск LLM, STT, эмбеддингов и моделей ранжирования с бюджетами задержки и пропускной способности.

Кеширование

Prompt cache, prefix cache, KV-cache и стабильная форма запроса.

Жизненный цикл модели

От исследования до теневого теста, канареечной выкатки, production, отката и вывода из эксплуатации.

Оценка качества и релизный контроль

Датасеты, регрессионные проверки, канареечная выкатка и обратная связь.

Наблюдаемость

Трейсы, токены, TTFT, TPOT, события резервного маршрута, события безопасности и обратная связь.

Экономика / FinOps

Стоимость сценария, кешированные токены, повторы, загрузка GPU и цена принятого результата.

Защитные контуры / безопасность

Политики, PII, prompt injection, риски инструментов и аудит.

Эксплуатация / ответственность

SLO, инциденты, планирование мощности, инструкции и опыт разработчиков платформы.

Как читать карту через сценарий

Карта становится полезной, когда начинается не с модели, а с конкретного ИИ-сценария:

ИИ-сценарий
  -> данные
  -> SLA и бюджет задержки
  -> профиль нагрузки
  -> модель и контур исполнения
  -> проверки качества и выкатка
  -> владелец

Сценарий	Данные	SLA	Решение
Чат с ИИ	обычные	ответ в реальном времени	быстрый пул, MaaS или self-hosted
Follow-up звонка	могут быть чувствительными	пакетная или асинхронная обработка	self-hosted или отложенный контур
Быстрый эксперимент	без чувствительных данных	гибкий	MaaS или OpenRouter
Массовая обработка	внутренний контур	не срочно	пакетная обработка ночью
Сценарий с жёстким TTFT	зависит от продукта	строгий TTFT	выделенный пул

Метрики

У каждого слоя своя метрика: принятие сценария, покрытие AI Gateway, надёжность провайдера, качество маршрутизации, false_agentic_rate, false_direct_rate, cost_saved_by_router, загрузка инференса, доля попаданий в кеш по route, прохождение проверки качества, полнота трейсов, стоимость принятого результата, доля событий безопасности и покрытие владельцами.

Компромиссы

Карта упрощает реальность. Её задача не заморозить архитектуру, а показать пропущенные зоны ответственности до продуктовых инцидентов.

Анти-паттерны

Считать RAG, агентов или запуск моделей отдельными островами.
Рисовать схему без владельцев.
Объединять наблюдаемость и экономику в один слой "потом посмотрим".
Игнорировать стоимость и циклы качества до запуска.

Чеклист

✓У каждого слоя есть владелец или явно отмеченный пробел.
✓Каждый продуктовый сценарий входит через описанный контракт.
✓Жизненный цикл модели и промпта виден на карте.
✓Стоимость, качество и контур безопасности выделены в отдельные слои.
✓STT, embeddings и rerankers не потеряны за LLM-слоем.
✓Эксплуатация и реакция на инциденты не спрятаны в инфраструктуре.

Пример

Agent loop внезапно стал дороже. Карта не даёт списать всё на модель. Проверяем маршрут, повторы, стабильность схемы инструментов, кешированные токены, прохождение проверки качества, поля трейса и бюджетную политику. Часто причина не в "плохой модели", а в сломанной форме запроса или резервном маршруте.

Шаблон решения

Перед разработкой нового сценария отметь: какие слои платформы он трогает, кто владеет риском релиза, какие поля попадут в телеметрию, где будет резервный маршрут и кто принимает компромисс между стоимостью и качеством.