Sergei Notevskii
English version

Карта Production AI Platform

Карта двенадцати зон ответственности production AI-платформы.

Базовый уровень
v0.1
Руководители AI-платформ
Staff-инженеры
CTO
Хранится только в этом браузере.

Проблема

Без карты любой разговор про AI схлопывается к выбору модели. В production это слишком узко: настоящая система живёт между продуктовым сценарием, AI Gateway, инференсом, качеством, стоимостью, безопасностью и ответственностью.

Симптомы

  • Разные команды по-разному решают AI Gateway, проверку качества, защитные контуры и наблюдаемость.
  • Один и тот же сбой повторяется в нескольких продуктах.
  • Руководство видит AI как очередь фич, а не как эксплуатационную поверхность.
  • Стоимость, качество и инциденты обсуждаются после запуска, а не до него.

Ментальная модель

Продуктовые сценарии идут вниз в слои платформы. Обратная связь из production возвращается вверх: в продуктовые решения, выбор моделей и зоны ответственности.

Если слоя нет на карте, он не исчезает. Его просто неявно реализует продуктовая команда: в коде сервиса, в ручной поддержке или в ночном инциденте.

Архитектура

01

Продуктовые сценарии

Ценность, риски, владелец и критерии успеха.

02

AI Gateway

Единый вход: доступ, лимиты, маршрутизация, политики и учёт стоимости.

03

Стратегия провайдеров

MaaS, self-hosted и гибридный подход как стратегия, а не религия.

04

Маршрутизация моделей

Алиасы, резервные пути, канареечные выкатки и версии моделей.

05

Инференс-рантайм

Запуск LLM, STT, embeddings и rerankers с бюджетами задержки и пропускной способности.

06

Кеширование

Prompt cache, prefix cache, KV-cache и стабильная форма запроса.

07

Жизненный цикл модели

От исследования до теневого теста, канареечной выкатки, production, отката и вывода из эксплуатации.

08

Оценка качества и релизный контроль

Датасеты, регрессионные проверки, канареечная выкатка и обратная связь.

09

Наблюдаемость

Трейсы, токены, TTFT, TPOT, события резервного маршрута, события безопасности и обратная связь.

10

Экономика / FinOps

Стоимость сценария, кешированные токены, повторы, загрузка GPU и цена принятого результата.

11

Защитные контуры / безопасность

Политики, PII, prompt injection, риски инструментов и аудит.

12

Эксплуатация / ответственность

SLO, инциденты, планирование мощности, инструкции и опыт разработчиков платформы.

Метрики

У каждого слоя своя метрика: принятие сценария, покрытие AI Gateway, надёжность провайдера, доля срабатываний резервного маршрута, загрузка инференса, доля попаданий в кеш, прохождение проверки качества, полнота трейсов, стоимость принятого результата, доля событий безопасности и покрытие владельцами.

Компромиссы

Карта упрощает реальность. Её задача не заморозить архитектуру, а показать пропущенные зоны ответственности до продуктовых инцидентов.

Анти-паттерны

  • Считать RAG, агентов или запуск моделей отдельными островами.
  • Рисовать схему без владельцев.
  • Объединять наблюдаемость и экономику в один слой "потом посмотрим".
  • Игнорировать стоимость и циклы качества до запуска.

Чеклист

  • У каждого слоя есть владелец или явно отмеченный пробел.
  • Каждый продуктовый сценарий входит через описанный контракт.
  • Жизненный цикл модели и промпта виден на карте.
  • Стоимость, качество и контур безопасности выделены в отдельные слои.
  • STT, embeddings и rerankers не потеряны за LLM-слоем.
  • Эксплуатация и реакция на инциденты не спрятаны в инфраструктуре.

Пример

Agent loop внезапно стал дороже. Карта не даёт списать всё на модель. Проверяем маршрут, повторы, стабильность схемы инструментов, кешированные токены, прохождение проверки качества, поля трейса и бюджетную политику. Часто причина не в "плохой модели", а в сломанной форме запроса или резервном маршруте.

Шаблон решения

Перед разработкой нового сценария отметь: какие слои платформы он трогает, кто владеет риском релиза, какие поля попадут в телеметрию, где будет резервный маршрут и кто принимает компромисс между стоимостью и качеством.

Связанные главы

On this page