Llama on-prem vs Claude API. Накаком RPS сходится TCO.

⬡ TL;DR

На потоке <120 запросов/мин Claude Sonnet 4 дешевле любого on-prem-решения. На 200–400 запросов/мин Llama-3.3-70B на 2× H100 сходится примерно в ноль с Claude — решает фактор «данные не уходят». На >600 запросов/мин on-prem экономит ~40–55% при условии что у вас есть инженер, который умеет обслуживать vLLM. Без инженера — любая экономия съедается одним outage в квартал.

Что сравниваем

Сравнение : Claude Sonnet 4 (через Anthropic API) vs Llama-3.3-70B-Instruct в vLLM на собственных серверах. Use-case : диалоговый агент, средний запрос 800 input + 250 output токенов. Объём считаем месяцем (30 дней × 24 часа = 720 часов).

Claude API : реальная цена

Прайс на 2026-05 (Sonnet 4) : $3/M input, $15/M output. На нашем запросе (800+250) :

Один запрос : 800×$3/1M + 250×$15/1M = $0.0024 + $0.00375 = $0.006.
100 RPM × 60 × 720 = 4.32М запросов/мес : $25 920.
200 RPM : 8.64М → $51 840.
500 RPM : 21.6М → $129 600.

Что не входит : ничего. Это полная цена. Анторопик считает токены тарификации честно (через свой tokenizer), без скрытых overhead.

Llama-3.3-70B on-prem : всё что входит

vLLM serving Llama-3.3-70B FP8 на 2× H100 80GB. Throughput на наших промптах (800+250) : ~120 req/min sustained, ~180 в пике до ~10 сек.

Capex/Opex :

2× H100 80GB : лизинг через H100-провайдера — $2.50–3.00 / час каждая → ~$3 700 / мес за пару (90% uptime). Купить — $60K за штуку, амортизация 36 мес = $3 300 / мес за пару.
Хостинг + сеть : $400 / мес (colo c нормальной мощностью + транзит).
Инженер : 0.3 FTE среднего ML-engineer ≈ $2 500 / мес (UA-рынок). Реально : дежурство, обновление vLLM, troubleshooting OOM, monitoring.
Backup-инстанс : либо вторая пара GPU за $3 700, либо платная подписка Claude как fallback — ~$1 500 / мес на 5% трафика.

Итого fixed : ~$7 500–11 200 / мес. Не зависит от того, обрабатываете вы 100 запросов в день или 4 миллиона.

Расчёт миграции под ваш use-case

Берём ваши реальные access-логи или прогноз нагрузки, считаем 3 сценария (Claude, on-prem, гибрид) на 12 мес. Discovery бесплатно.

Кинуть бриф

Break-even по RPS

Берём минимальный on-prem-сетап ($8 000 / мес fixed) и ищем точку где Claude становится дороже :

50 RPM : Claude $12 960 / мес vs On-prem $8 000. On-prem дешевле — НО pure throughput on-prem 120 RPM, capacity не используется, ROI плохой.
100 RPM : Claude $25 920 vs On-prem $8 000. On-prem в 3.2× дешевле, capacity used 83%. Sweet spot.
200 RPM : capacity 2× H100 не вытянет, нужна вторая пара. Fixed → $12 000. Claude $51 840. On-prem в 4.3× дешевле.
20 RPM (один диалоговый агент на маленьком бизнесе) : Claude $5 200 / мес vs On-prem $8 000. Claude дешевле. И не надо нанимать инженера.

Реальный break-even : ~62 RPM на нашей конфигурации запроса. Ниже — Claude. Выше — on-prem (если уже есть кто обслуживает).

Когда не стоит мигрировать

RPS прыгает в 10×. Если у вас 30 RPM ночью и 300 RPM в пик — платите Claude за пик и не покупайте железо под peak load. Дешевле.
Нет ML-инженера в штате. Найм + onboarding = 3–6 месяцев. За это время Claude API съест ~$80–150K — но это меньше, чем стоимость одного простоя production-агента в outage on-prem без owner.
Качество важнее цены. Llama-3.3-70B сильна на ru/uk, но на сложных reasoning-задачах (tool use, многошаговые планы) Claude Sonnet 4 объективно лучше. Если ваш агент использует function calling активно — не экономьте, потеряете в конверсии.
Регулируемая индустрия с data residency. Тут наоборот : даже на маленьком RPS on-prem обязателен, потому что данные не могут уйти за контур. Тут exclusively считаем on-prem, цена — price of doing business.

В наших on-prem проектах схема обычно гибридная : Llama держит 90% потока (rutine intents), на hard cases (tool use, multistep planning) router отдаёт в Claude. Это сохраняет качество и экономит ~70% бюджета против чистого Claude. Roughly : 90% запросов на $0 marginal cost, 10% на Claude по $0.006 = ~$2 600 / мес вместо $26 000 для 100 RPM.

Llama on-prem vs Claude API. На каком RPS сходится TCO.

Что сравниваем

Claude API : реальная цена

Llama-3.3-70B on-prem : всё что входит

Расчёт миграции под ваш use-case

Break-even по RPS

Когда не стоит мигрировать

TCO-расчёт
под вашу нагрузку.

Llama on-prem vs Claude API. На каком RPS сходится TCO.

Что сравниваем

Claude API : реальная цена

Llama-3.3-70B on-prem : всё что входит

Расчёт миграции под ваш use-case

Break-even по RPS

Когда не стоит мигрировать

Из соседних разборов.

Когда reranker в RAG не нужен.

Услуга : On-Prem · EvoCore

Production-кейсы по индустриям

TCO-расчётпод вашу нагрузку.

TCO-расчёт
под вашу нагрузку.