Блог

Whisper против Deepgram: какой движок распознавания речи лучше в 2026?

Две философии распознавания речи

OpenAI Whisper и Deepgram воплощают принципиально разные подходы к построению системы распознавания речи. Whisper создавался как универсальная многоязычная модель, обученная на колоссальном корпусе интернет-аудио. Deepgram изначально проектировался как коммерческий API-продукт, оптимизированный под скорость и удобство разработчика. Оба движка превосходны — и ни один не является лучшим в абсолюте.

Чтобы понять, какой подходит для конкретной задачи, нужно рассмотреть архитектуру, бенчмарки, ценовую модель и практические последствия для разных рабочих нагрузок.

Архитектура

Whisper

Whisper — трансформерная модель типа «энкодер-декодер», обученная OpenAI на 680 000 часах многоязычного аудио, собранного из интернета. Архитектура обрабатывает аудио как лог-мел-спектрограмму, пропускает её через свёрточный энкодер и декодирует в текст с помощью языковой модели.

Модель выпускается в нескольких размерах: tiny, base, small, medium, large-v2 и large-v3. Версия large-v3, которую использует Telvr, наиболее точная, но и самая требовательная — для локального запуска нужна производительная видеокарта или значительное время CPU.

Ключевая особенность: Whisper обучалась на разнообразном и шумном интернет-аудио. Это обеспечивает ей замечательную устойчивость к акцентам, фоновому шуму и разговорной речи. Компромисс — модель не самая быстрая и не поддерживает потоковую архитектуру реального времени, необходимую в ряде сценариев.

Deepgram

Deepgram разработал собственную сквозную архитектуру глубокого обучения, оптимизированную под потоковую транскрипцию в реальном времени. Модель Nova-3 обучена прежде всего на разговорном английском (поддержка других языков добавлялась постепенно) и архитектурно ориентирована на вывод токенов с минимальной задержкой.

Модель Deepgram не является открытой. Она работает только через API Deepgram или в корпоративных self-hosted развёртываниях. Обучающие данные, несмотря на свой объём, значительно более отобранные, чем интернет-корпус Whisper.

Бенчмарки точности

Сравнения точности заведомо зависят от контекста. Оба движка работают хорошо — различия проявляются в специфических условиях.

Word Error Rate (WER) на стандартных бенчмарках:

  • Whisper large-v3 и Deepgram Nova-3 конкурентны на стандартных английских бенчмарках: оба достигают WER ниже 5% на чистом аудио.
  • Whisper large-v3 опережает Nova-3 при сильно акцентированной речи и смешанном языке.
  • Nova-3 опережает Whisper в потоковых сценариях, где нужны частичные результаты до завершения фразы.

Условия, где Whisper превосходит:

  • Речь с переключением языков (code-switching)
  • Неносительский английский с сильным акцентом
  • Техническая терминология без предварительного обучения
  • Фоновый шум из разных источников (улица, кофейня)

Условия, где Deepgram превосходит:

  • Аудио колл-центра с известными профилями говорящих
  • Потоковая передача в реальном времени, где важна задержка первого токена
  • Американский английский в чистой или полузашумлённой обстановке
  • Диаризация говорящих (разделение реплик по участникам)

Скорость и задержка

Whisper (через Groq API, как в Telvr): менее 1 секунды только на шаг транскрипции. Аппаратное обеспечение Groq спроектировано специально под трансформерные модели — Whisper large-v3 работает на нём значительно быстрее, чем при локальном инференсе на GPU.

Whisper (локально, Apple M3): 3–6 секунд для 30-секундного аудиоклипа. Более лёгкие модели работают быстрее.

Deepgram Nova-3 (потоковый): 300–500 мс до появления первого слова в режиме стриминга. При пакетной транскрипции полного файла суммарная задержка сопоставима с Whisper через API.

Потоковая передача — ключевое преимущество Deepgram для приложений реального времени. Для рабочих процессов «нажми-и-говори» (запись → стоп → результат) разница в задержке между Whisper через Groq и Deepgram на практике минимальна.

Поддержка языков

Whisper large-v3: 99 языков. Для языков с меньшим числом обучающих данных точность снижается плавно, а не обрывается. Автоматическое определение языка встроено.

Deepgram Nova-3: Сильная поддержка английского; другие языки добавлялись постепенно. По состоянию на 2026 год — около 35 языков с разным уровнем качества. Точность на английском отличная; большинство остальных языков пока уступают Whisper.

Для многоязычных задач Whisper — очевидный выбор. Для приложений, где приоритет — английский, скорость и стриминг, Deepgram вполне конкурентен.

Стоимость

Whisper (OpenAI API): $0,006 за минуту. Потоковая передача не поддерживается.

Whisper (через Groq API): зависит от тарифного плана. Быстрый инференс, конкурентные цены для разработчиков.

Deepgram Nova-3: от $0,0043 за минуту по модели pay-as-you-go. Доступны объёмные скидки. Стриминг тарифицируется по той же ставке.

Стоимость использования Telvr: от EUR 0,003 за минуту — включает транскрипцию и AI-обогащение. Сырые API Deepgram или Whisper дешевле за минуту, но это именно сырые API без прикладного слоя.

Опыт разработчика

Whisper (OpenAI API):

  • Простой REST-эндпоинт, стандартная загрузка аудиофайла
  • Нет потоковой передачи
  • Ограничения размера файла (25 МБ бесплатно, 100 МБ на платных планах)
  • Задержка ответа подходит для «нажми-и-говори», но не для живых субтитров

Deepgram:

  • WebSocket API для стриминга в реальном времени
  • REST API для пакетной обработки файлов
  • Расширенные функции: диаризация говорящих, усиление ключевых слов, пользовательский словарь
  • Более подробная документация для сценариев реального времени

Self-hosted Whisper:

  • Полностью открытый исходный код, развёртывание через Docker
  • Никаких затрат на API
  • Требует GPU-инфраструктуру
  • Максимальная гибкость для кастомных пайплайнов

Какой движок выбрать для каждой задачи

Десктопные приложения «нажми-и-говори»: Whisper large-v3 через быстрый инференс-API. Точность и охват языков делают его предпочтительным выбором; задержка сопоставима с Deepgram с учётом полного пайплайна.

Живые субтитры и транскрипция в реальном времени: потоковый API Deepgram. Задержка до первого токена менее 500 мс необходима для читаемых живых субтитров.

Аудио колл-центра и телефонные звонки: Deepgram с кастомным словарём и диаризацией говорящих.

Многоязычные приложения: Whisper. Ни один конкурент не сравнится с его охватом 99 языков и встроенным автоопределением.

Конфиденциальные данные, локальное развёртывание: self-hosted Whisper. Self-hosted вариант Deepgram существует, но доступен только корпоративным клиентам.

Экономичная высокообъёмная транскрипция на английском: Deepgram Nova-3 по $0,0043/мин дешевле OpenAI Whisper по $0,006/мин.

Что использует Telvr

Telvr использует Whisper large-v3 через инференс-API Groq. Выбор был осознанным: large-v3 обеспечивает наивысшую точность на всех языках, аппаратное обеспечение Groq снижает задержку транскрипции до менее одной секунды, а встроенное автоопределение языка означает, что пользователю не нужно ничего настраивать при переключении языков.

Следующий за транскрипцией слой обогащения — AI-постобработка для очистки текста, форматирования писем, структурирования заметок — не является частью ни Whisper, ни Deepgram. Это отдельный шаг с языковой моделью, превращающий сырую транскрипцию в отформатированный, готовый к использованию текст.

Итог

Whisper и Deepgram — не прямые конкуренты, а разные инструменты для разных задач. Whisper large-v3 лидирует по точности для многоязычного, зашумлённого, «жизненного» аудио. Deepgram Nova-3 лидирует по скорости и потоковой передаче для англоязычных приложений реального времени.

Для десктопного инструмента повышения продуктивности, где важнее качество, чем стриминг, Whisper large-v3 через быстрый инференс-API — более сильная основа. Для приложений, где слова должны появляться по мере того, как пользователь говорит, потоковая архитектура Deepgram создана именно для этого.