Production AI
— как мы его строим.
Разборы того, что работает на production. Бенчмарки моделей, провалившиеся подходы, цифры по себестоимости. Раз в неделю, по пятницам.
ElevenLabs vs MiniMax для UA-голоса. Замеры на 3 600 минутах прода.
Один inbound-поток, два движка параллельно. Latency, MOS, цена за минуту. Без «вот это звучит круче» — только цифры.
Когда reranker в RAG не нужен. И где он спасает recall на 20 пунктов.
Cohere, BGE, GPT-as-judge — замеры на трёх production-корпусах. С цифрами recall@5, latency и cost.
IG-DM агент на 200+ диалогов в день. Без банов за 7 месяцев.
24-часовое окно, voice messages, rate limits Graph API и три вещи, за которые Meta банит молча.
Llama on-prem vs Claude API. На каком RPS сходится TCO.
Break-even честно : GPU, инженер, электричество, downtime. На каком потоке съезжать в свой стек — и где это никогда не окупится.
Streaming LLM в Telegram. Где ломается edit-rate и как не ловить flood-wait.
«Печатает...» на production : 1 edit/sec лимит, message_too_long, форматирование съезжает, бот молчит 18 сек и юзер уходит.
Зачем мы запускаем этот блог. Манифест.
Один разбор в неделю. С кодом, цифрами, ссылками. Без «AI-евангелизма» и daily-постов про каждый твит OpenAI.
Читать — одно.
Запустить production AI — другое.
Если статьи отзываются и вы хотите построить под себя — расскажите о задаче.