ElevenLabs vs MiniMax для украинского голоса. Замеры на 3 600 минутах прода.

За три месяца прогнали оба движка через один и тот же inbound-поток украинского ресепшена. Latency, MOS, цена за минуту — с цифрами, без «вот это звучит круче».

Cover · violet wireframe · voice-ua-elevenlabs-vs-minimax-tco
⬡ TL;DR

MiniMax speech-2.5-hd с language_boost=Ukrainian на 3 600 минутах inbound-голоса дал p95 first-audio 980 мс против 1 340 мс у ElevenLabs Turbo v2.5, при ~1.7× дешевле. ElevenLabs выигрывает на эмоциональных репликах и узнаваемом voice-cloning. Для UA-ресепшена : MiniMax. Для outbound-кампаний с брендовым голосом : ElevenLabs.

Сетап замера

Все цифры ниже — один UA-проект, входящие звонки в ресепшен сети из 4 локаций. Период замера 2026-02-15 → 2026-05-15. Общая длительность аудио, выданного TTS : 3 612 минут. Каждый звонок параллельно проходил через оба движка : основной поток слушал клиент, теневой — писался на диск для офлайн-сравнения.

Latency : что реально влияет

На живом звонке важна не общая длительность синтеза, а first-audio latency — через сколько после POST /tts мы можем начать стримить пакеты RTP в Asterisk. Дальше — bitrate движка покрывает разговор.

P95 first-audio на нашем потоке :

  • MiniMax speech-2.5-hd-preview с language_boost=Ukrainian : 980 мс. WebSocket-стрим, первый чанк прилетает быстро, дальше ~24 kbps стабильно.
  • ElevenLabs Turbo v2.5, multilingual voice (Vira) : 1 340 мс. Стриминг есть, но первая порция стабильно тяжелее.
  • ElevenLabs Multilingual v2 (полное качество) : 2 180 мс. Для live-разговора непригодно. Хорош на pre-bake аудио.

На 360-мс репликах ресепшена («Слухаю вас, чим можу допомогти?») разница в 360 мс между MiniMax и Turbo — это разница между «звучит как человек» и «пауза, потом ответил».

Хотите такой же замер на вашем потоке ?

Discovery бесплатно. Прогоняем 50–100 ваших реальных реплик через 2–3 движка и даём цифры по latency, MOS и цене.

Кинуть бриф

Качество : MOS и слепой тест

Чисто на нейтральных репликах разница неочевидна. Прогнали слепой A/B на 28 операторах и клиентах. Шкала 1–5, MOS-style :

  • Информационные реплики («Запис на четвер о 10:30 підтверджено») : MiniMax 4.3 · ElevenLabs Turbo 4.4. Статистически неразличимо.
  • Эмоциональные реплики («Прикро це чути, давайте розберемося») : MiniMax 3.6 · ElevenLabs 4.5. Тут ElevenLabs реально лучше — просодия живее.
  • UA-произношение редких слов (фамилии, медтермины) : MiniMax 4.1 · ElevenLabs 3.4. Без language_boost MiniMax валится до 2.8 — параметр обязательный.

Слепой тест проводили через простой random.shuffle двух WAV-ов с одним и тем же текстом, человек ставит 1–5 не зная какой движок какой. Ни одна оценка не ставилась дважды.

Цена за минуту разговора

Самая грязная часть. Оба движка тарифицируют по символам, не минутам, и реальная цена зависит от плотности речи. На нашем потоке среднее — 145 символов на минуту разговора (включая короткие подтверждения и тишину).

Прайс на 2026-05 :

  • MiniMax speech-2.5-hd : $0.012 / 1 000 символов → ~$0.0017 / минута.
  • ElevenLabs Turbo v2.5 (Creator план) : 0.5 credits/символ, 100 000 credits/$30 → ~$0.0022 / минута.
  • ElevenLabs Multilingual v2 : 1 credit/символ → ~$0.0044 / минута.

На объёме нашего ресепшена (~1 200 минут TTS / месяц) разница MiniMax vs Turbo — ~$6 в месяц. Не стоит того, чтобы выбирать только по цене. Стоит того, когда поток > 50 000 минут / месяц — тогда $250 vs $440.

Когда брать какой

  • UA-ресепшен, обработка входящих, бронирования : MiniMax. Latency решает, качество достаточное, цена ниже.
  • Outbound-кампании с брендовым голосом : ElevenLabs voice cloning. Уникальность голоса важнее 360 мс latency, потому что клиент не ждёт первой реплики — говорит ваш бот первым.
  • Эмоциональные сценарии (поддержка, претензии) : ElevenLabs. MiniMax звучит как робот когда нужна эмпатия.
  • Большой объём, фиксированные реплики, pre-bake : ElevenLabs Multilingual v2 в офлайне + кеш. Качество выше всех, latency не важна.

У нас в production-сетапе сейчас оба движка одновременно. Роутер выбирает по типу реплики : подтверждения и FAQ → MiniMax, всё что содержит маркер эмоции (классифицируется по intent на LLM-стороне) → ElevenLabs Turbo. Дополнительные ~$15/месяц на потоке против single-vendor — price of doing it right.

START

Хотите такой бенчмарк
на вашем стеке?

Discovery бесплатно. Прогоняем ваши реплики через 2–3 движка, даём цифры по latency, MOS и TCO за 48 часов.