Две философии распознавания речи
OpenAI Whisper и Deepgram воплощают принципиально разные подходы к построению системы распознавания речи. Whisper создавался как универсальная многоязычная модель, обученная на колоссальном корпусе интернет-аудио. Deepgram изначально проектировался как коммерческий API-продукт, оптимизированный под скорость и удобство разработчика. Оба движка превосходны — и ни один не является лучшим в абсолюте.
Чтобы понять, какой подходит для конкретной задачи, нужно рассмотреть архитектуру, бенчмарки, ценовую модель и практические последствия для разных рабочих нагрузок.
Архитектура
Whisper
Whisper — трансформерная модель типа «энкодер-декодер», обученная OpenAI на 680 000 часах многоязычного аудио, собранного из интернета. Архитектура обрабатывает аудио как лог-мел-спектрограмму, пропускает её через свёрточный энкодер и декодирует в текст с помощью языковой модели.
Модель выпускается в нескольких размерах: tiny, base, small, medium, large-v2 и large-v3. Версия large-v3, которую использует Telvr, наиболее точная, но и самая требовательная — для локального запуска нужна производительная видеокарта или значительное время CPU.
Ключевая особенность: Whisper обучалась на разнообразном и шумном интернет-аудио. Это обеспечивает ей замечательную устойчивость к акцентам, фоновому шуму и разговорной речи. Компромисс — модель не самая быстрая и не поддерживает потоковую архитектуру реального времени, необходимую в ряде сценариев.
Deepgram
Deepgram разработал собственную сквозную архитектуру глубокого обучения, оптимизированную под потоковую транскрипцию в реальном времени. Модель Nova-3 обучена прежде всего на разговорном английском (поддержка других языков добавлялась постепенно) и архитектурно ориентирована на вывод токенов с минимальной задержкой.
Модель Deepgram не является открытой. Она работает только через API Deepgram или в корпоративных self-hosted развёртываниях. Обучающие данные, несмотря на свой объём, значительно более отобранные, чем интернет-корпус Whisper.
Бенчмарки точности
Сравнения точности заведомо зависят от контекста. Оба движка работают хорошо — различия проявляются в специфических условиях.
Word Error Rate (WER) на стандартных бенчмарках:
- Whisper large-v3 и Deepgram Nova-3 конкурентны на стандартных английских бенчмарках: оба достигают WER ниже 5% на чистом аудио.
- Whisper large-v3 опережает Nova-3 при сильно акцентированной речи и смешанном языке.
- Nova-3 опережает Whisper в потоковых сценариях, где нужны частичные результаты до завершения фразы.
Условия, где Whisper превосходит:
- Речь с переключением языков (code-switching)
- Неносительский английский с сильным акцентом
- Техническая терминология без предварительного обучения
- Фоновый шум из разных источников (улица, кофейня)
Условия, где Deepgram превосходит:
- Аудио колл-центра с известными профилями говорящих
- Потоковая передача в реальном времени, где важна задержка первого токена
- Американский английский в чистой или полузашумлённой обстановке
- Диаризация говорящих (разделение реплик по участникам)
Скорость и задержка
Whisper (через Groq API, как в Telvr): менее 1 секунды только на шаг транскрипции. Аппаратное обеспечение Groq спроектировано специально под трансформерные модели — Whisper large-v3 работает на нём значительно быстрее, чем при локальном инференсе на GPU.
Whisper (локально, Apple M3): 3–6 секунд для 30-секундного аудиоклипа. Более лёгкие модели работают быстрее.
Deepgram Nova-3 (потоковый): 300–500 мс до появления первого слова в режиме стриминга. При пакетной транскрипции полного файла суммарная задержка сопоставима с Whisper через API.
Потоковая передача — ключевое преимущество Deepgram для приложений реального времени. Для рабочих процессов «нажми-и-говори» (запись → стоп → результат) разница в задержке между Whisper через Groq и Deepgram на практике минимальна.
Поддержка языков
Whisper large-v3: 99 языков. Для языков с меньшим числом обучающих данных точность снижается плавно, а не обрывается. Автоматическое определение языка встроено.
Deepgram Nova-3: Сильная поддержка английского; другие языки добавлялись постепенно. По состоянию на 2026 год — около 35 языков с разным уровнем качества. Точность на английском отличная; большинство остальных языков пока уступают Whisper.
Для многоязычных задач Whisper — очевидный выбор. Для приложений, где приоритет — английский, скорость и стриминг, Deepgram вполне конкурентен.
Стоимость
Whisper (OpenAI API): $0,006 за минуту. Потоковая передача не поддерживается.
Whisper (через Groq API): зависит от тарифного плана. Быстрый инференс, конкурентные цены для разработчиков.
Deepgram Nova-3: от $0,0043 за минуту по модели pay-as-you-go. Доступны объёмные скидки. Стриминг тарифицируется по той же ставке.
Стоимость использования Telvr: от EUR 0,003 за минуту — включает транскрипцию и AI-обогащение. Сырые API Deepgram или Whisper дешевле за минуту, но это именно сырые API без прикладного слоя.
Опыт разработчика
Whisper (OpenAI API):
- Простой REST-эндпоинт, стандартная загрузка аудиофайла
- Нет потоковой передачи
- Ограничения размера файла (25 МБ бесплатно, 100 МБ на платных планах)
- Задержка ответа подходит для «нажми-и-говори», но не для живых субтитров
Deepgram:
- WebSocket API для стриминга в реальном времени
- REST API для пакетной обработки файлов
- Расширенные функции: диаризация говорящих, усиление ключевых слов, пользовательский словарь
- Более подробная документация для сценариев реального времени
Self-hosted Whisper:
- Полностью открытый исходный код, развёртывание через Docker
- Никаких затрат на API
- Требует GPU-инфраструктуру
- Максимальная гибкость для кастомных пайплайнов
Какой движок выбрать для каждой задачи
Десктопные приложения «нажми-и-говори»: Whisper large-v3 через быстрый инференс-API. Точность и охват языков делают его предпочтительным выбором; задержка сопоставима с Deepgram с учётом полного пайплайна.
Живые субтитры и транскрипция в реальном времени: потоковый API Deepgram. Задержка до первого токена менее 500 мс необходима для читаемых живых субтитров.
Аудио колл-центра и телефонные звонки: Deepgram с кастомным словарём и диаризацией говорящих.
Многоязычные приложения: Whisper. Ни один конкурент не сравнится с его охватом 99 языков и встроенным автоопределением.
Конфиденциальные данные, локальное развёртывание: self-hosted Whisper. Self-hosted вариант Deepgram существует, но доступен только корпоративным клиентам.
Экономичная высокообъёмная транскрипция на английском: Deepgram Nova-3 по $0,0043/мин дешевле OpenAI Whisper по $0,006/мин.
Что использует Telvr
Telvr использует Whisper large-v3 через инференс-API Groq. Выбор был осознанным: large-v3 обеспечивает наивысшую точность на всех языках, аппаратное обеспечение Groq снижает задержку транскрипции до менее одной секунды, а встроенное автоопределение языка означает, что пользователю не нужно ничего настраивать при переключении языков.
Следующий за транскрипцией слой обогащения — AI-постобработка для очистки текста, форматирования писем, структурирования заметок — не является частью ни Whisper, ни Deepgram. Это отдельный шаг с языковой моделью, превращающий сырую транскрипцию в отформатированный, готовый к использованию текст.
Итог
Whisper и Deepgram — не прямые конкуренты, а разные инструменты для разных задач. Whisper large-v3 лидирует по точности для многоязычного, зашумлённого, «жизненного» аудио. Deepgram Nova-3 лидирует по скорости и потоковой передаче для англоязычных приложений реального времени.
Для десктопного инструмента повышения продуктивности, где важнее качество, чем стриминг, Whisper large-v3 через быстрый инференс-API — более сильная основа. Для приложений, где слова должны появляться по мере того, как пользователь говорит, потоковая архитектура Deepgram создана именно для этого.