Карта Production AI Platform
Карта двенадцати зон ответственности production AI-платформы.
Проблема
Без карты любой разговор про AI схлопывается к выбору модели. В production это слишком узко: настоящая система живёт между продуктовым сценарием, AI Gateway, инференсом, качеством, стоимостью, безопасностью и ответственностью.
Симптомы
- Разные команды по-разному решают AI Gateway, проверку качества, защитные контуры и наблюдаемость.
- Один и тот же сбой повторяется в нескольких продуктах.
- Руководство видит AI как очередь фич, а не как эксплуатационную поверхность.
- Стоимость, качество и инциденты обсуждаются после запуска, а не до него.
Ментальная модель
Продуктовые сценарии идут вниз в слои платформы. Обратная связь из production возвращается вверх: в продуктовые решения, выбор моделей и зоны ответственности.
Если слоя нет на карте, он не исчезает. Его просто неявно реализует продуктовая команда: в коде сервиса, в ручной поддержке или в ночном инциденте.
Архитектура
Продуктовые сценарии
Ценность, риски, владелец и критерии успеха.
AI Gateway
Единый вход: доступ, лимиты, маршрутизация, политики и учёт стоимости.
Стратегия провайдеров
MaaS, self-hosted и гибридный подход как стратегия, а не религия.
Маршрутизация моделей
Алиасы, резервные пути, канареечные выкатки и версии моделей.
Инференс-рантайм
Запуск LLM, STT, embeddings и rerankers с бюджетами задержки и пропускной способности.
Кеширование
Prompt cache, prefix cache, KV-cache и стабильная форма запроса.
Жизненный цикл модели
От исследования до теневого теста, канареечной выкатки, production, отката и вывода из эксплуатации.
Оценка качества и релизный контроль
Датасеты, регрессионные проверки, канареечная выкатка и обратная связь.
Наблюдаемость
Трейсы, токены, TTFT, TPOT, события резервного маршрута, события безопасности и обратная связь.
Экономика / FinOps
Стоимость сценария, кешированные токены, повторы, загрузка GPU и цена принятого результата.
Защитные контуры / безопасность
Политики, PII, prompt injection, риски инструментов и аудит.
Эксплуатация / ответственность
SLO, инциденты, планирование мощности, инструкции и опыт разработчиков платформы.
Метрики
У каждого слоя своя метрика: принятие сценария, покрытие AI Gateway, надёжность провайдера, доля срабатываний резервного маршрута, загрузка инференса, доля попаданий в кеш, прохождение проверки качества, полнота трейсов, стоимость принятого результата, доля событий безопасности и покрытие владельцами.
Компромиссы
Карта упрощает реальность. Её задача не заморозить архитектуру, а показать пропущенные зоны ответственности до продуктовых инцидентов.
Анти-паттерны
- Считать RAG, агентов или запуск моделей отдельными островами.
- Рисовать схему без владельцев.
- Объединять наблюдаемость и экономику в один слой "потом посмотрим".
- Игнорировать стоимость и циклы качества до запуска.
Чеклист
- ✓У каждого слоя есть владелец или явно отмеченный пробел.
- ✓Каждый продуктовый сценарий входит через описанный контракт.
- ✓Жизненный цикл модели и промпта виден на карте.
- ✓Стоимость, качество и контур безопасности выделены в отдельные слои.
- ✓STT, embeddings и rerankers не потеряны за LLM-слоем.
- ✓Эксплуатация и реакция на инциденты не спрятаны в инфраструктуре.
Пример
Agent loop внезапно стал дороже. Карта не даёт списать всё на модель. Проверяем маршрут, повторы, стабильность схемы инструментов, кешированные токены, прохождение проверки качества, поля трейса и бюджетную политику. Часто причина не в "плохой модели", а в сломанной форме запроса или резервном маршруте.
Шаблон решения
Перед разработкой нового сценария отметь: какие слои платформы он трогает, кто владеет риском релиза, какие поля попадут в телеметрию, где будет резервный маршрут и кто принимает компромисс между стоимостью и качеством.