На потоке <120 запросов/мин Claude Sonnet 4 дешевле любого on-prem-решения. На 200–400 запросов/мин Llama-3.3-70B на 2× H100 сходится примерно в ноль с Claude — решает фактор «данные не уходят». На >600 запросов/мин on-prem экономит ~40–55% при условии что у вас есть инженер, который умеет обслуживать vLLM. Без инженера — любая экономия съедается одним outage в квартал.
Что сравниваем
Сравнение : Claude Sonnet 4 (через Anthropic API) vs Llama-3.3-70B-Instruct в vLLM на собственных серверах. Use-case : диалоговый агент, средний запрос 800 input + 250 output токенов. Объём считаем месяцем (30 дней × 24 часа = 720 часов).
Claude API : реальная цена
Прайс на 2026-05 (Sonnet 4) : $3/M input, $15/M output. На нашем запросе (800+250) :
- Один запрос : 800×$3/1M + 250×$15/1M = $0.0024 + $0.00375 = $0.006.
- 100 RPM × 60 × 720 = 4.32М запросов/мес : $25 920.
- 200 RPM : 8.64М → $51 840.
- 500 RPM : 21.6М → $129 600.
Что не входит : ничего. Это полная цена. Анторопик считает токены тарификации честно (через свой tokenizer), без скрытых overhead.
Llama-3.3-70B on-prem : всё что входит
vLLM serving Llama-3.3-70B FP8 на 2× H100 80GB. Throughput на наших промптах (800+250) : ~120 req/min sustained, ~180 в пике до ~10 сек.
Capex/Opex :
- 2× H100 80GB : лизинг через H100-провайдера — $2.50–3.00 / час каждая → ~$3 700 / мес за пару (90% uptime). Купить — $60K за штуку, амортизация 36 мес = $3 300 / мес за пару.
- Хостинг + сеть : $400 / мес (colo c нормальной мощностью + транзит).
- Инженер : 0.3 FTE среднего ML-engineer ≈ $2 500 / мес (UA-рынок). Реально : дежурство, обновление vLLM, troubleshooting OOM, monitoring.
- Backup-инстанс : либо вторая пара GPU за $3 700, либо платная подписка Claude как fallback — ~$1 500 / мес на 5% трафика.
Итого fixed : ~$7 500–11 200 / мес. Не зависит от того, обрабатываете вы 100 запросов в день или 4 миллиона.
Расчёт миграции под ваш use-case
Берём ваши реальные access-логи или прогноз нагрузки, считаем 3 сценария (Claude, on-prem, гибрид) на 12 мес. Discovery бесплатно.
Break-even по RPS
Берём минимальный on-prem-сетап ($8 000 / мес fixed) и ищем точку где Claude становится дороже :
- 50 RPM : Claude $12 960 / мес vs On-prem $8 000. On-prem дешевле — НО pure throughput on-prem 120 RPM, capacity не используется, ROI плохой.
- 100 RPM : Claude $25 920 vs On-prem $8 000. On-prem в 3.2× дешевле, capacity used 83%. Sweet spot.
- 200 RPM : capacity 2× H100 не вытянет, нужна вторая пара. Fixed → $12 000. Claude $51 840. On-prem в 4.3× дешевле.
- 20 RPM (один диалоговый агент на маленьком бизнесе) : Claude $5 200 / мес vs On-prem $8 000. Claude дешевле. И не надо нанимать инженера.
Реальный break-even : ~62 RPM на нашей конфигурации запроса. Ниже — Claude. Выше — on-prem (если уже есть кто обслуживает).
Когда не стоит мигрировать
- RPS прыгает в 10×. Если у вас 30 RPM ночью и 300 RPM в пик — платите Claude за пик и не покупайте железо под peak load. Дешевле.
- Нет ML-инженера в штате. Найм + onboarding = 3–6 месяцев. За это время Claude API съест ~$80–150K — но это меньше, чем стоимость одного простоя production-агента в outage on-prem без owner.
- Качество важнее цены. Llama-3.3-70B сильна на ru/uk, но на сложных reasoning-задачах (tool use, многошаговые планы) Claude Sonnet 4 объективно лучше. Если ваш агент использует function calling активно — не экономьте, потеряете в конверсии.
- Регулируемая индустрия с data residency. Тут наоборот : даже на маленьком RPS on-prem обязателен, потому что данные не могут уйти за контур. Тут exclusively считаем on-prem, цена — price of doing business.
В наших on-prem проектах схема обычно гибридная : Llama держит 90% потока (rutine intents), на hard cases (tool use, multistep planning) router отдаёт в Claude. Это сохраняет качество и экономит ~70% бюджета против чистого Claude. Roughly : 90% запросов на $0 marginal cost, 10% на Claude по $0.006 = ~$2 600 / мес вместо $26 000 для 100 RPM.