Распознавание речи в 2026 году
Голосовой ввод давно вышел за рамки простой диктовки. Современные системы распознавания речи поддерживают десятки языков, убирают слова-паразиты и умно форматируют результат. Но какое решение реально вписывается в рабочий процесс на десктопе?
Мы сравнили три подхода: Telvr («нажми-и-говори» с AI-обогащением), OpenAI Whisper (открытый код для транскрипции) и встроенная диктовка ОС (macOS Dictation / Windows Voice Typing).
Точность
Все три решения обеспечивают хорошую базовую точность для английского языка в тихой обстановке. Различия проявляются в реальных условиях:
- Telvr использует Whisper large-v3 через API вывода Groq, достигая практически идентичной точности с автономным Whisper при значительно меньшей задержке. Слой AI-обогащения автоматически исправляет грамматику и убирает слова-паразиты.
- Whisper (локальный) обеспечивает отличную сырую транскрипцию, но требует постобработки для получения чистого результата. Локальный запуск требует значительных ресурсов GPU.
- Встроенная диктовка хорошо работает с короткими фразами, но испытывает трудности с технической терминологией, смешанным языковым вводом и длинными фрагментами.
Скорость и задержка
Скорость критична, когда голосовой ввод заменяет клавиатуру в реальном времени:
- Telvr: Сквозная задержка — менее 2 секунд. Облачная обработка через оптимизированный инференс Groq не требует локального оборудования.
- Whisper (локальный): Целиком зависит от вашего железа. Современный GPU даёт 2–5 секунд для типичных фрагментов. Только CPU — 10–30 секунд.
- Встроенная диктовка: Почти мгновенно для коротких фраз. На длинных фрагментах возможны задержки и снижение точности.
Интеграция
Здесь различия максимальны:
- Telvr: Системная горячая клавиша вставляет текст прямо в позицию курсора. Работает в любом приложении без переключения окон. Шесть режимов AI-обогащения преобразуют сырую речь в письма, заметки о встречах или чистый текст.
- Whisper: Требует собственного пайплайна. Нужно записать аудио, запустить транскрипцию и вставить результат вручную. Существуют открытые обёртки, но ни одна не обеспечивает системную интеграцию.
- Встроенная диктовка: Встроена в ОС, но ограничена поддерживаемыми текстовыми полями. Нет обогащения, форматирования или нескольких режимов.
Поддержка языков
- Telvr: 50+ языков через Whisper large-v3. Автоматическое определение языка.
- Whisper: Та же модель, та же поддержка языков. Локальный вариант даёт полный контроль.
- Встроенная диктовка: Зависит от ОС. macOS поддерживает ~60 языков, Windows Voice Typing — заметно меньше.
Стоимость
- Telvr: EUR 3/мес ежемесячный минимум (засчитывается в счёт использования) + от EUR 0,003/мин. 14-дневный пробный период с EUR 3 стартового кредита.
- Whisper (локальный): Бесплатно (открытый код), но требует GPU или аренды облачных вычислений.
- Whisper (API): $0,006/мин через OpenAI API.
- Встроенная диктовка: Бесплатно, входит в состав ОС.
Итог
Выберите Telvr, если хотите голосовой ввод, работающий везде на десктопе без сложной настройки. Режимы AI-обогащения превращают сырую речь в отформатированный профессиональный текст — чего ни Whisper, ни встроенная диктовка не предлагают из коробки.
Выберите Whisper (локальный), если вам необходим полный контроль над данными, есть мощное оборудование и вы готовы построить собственный пайплайн.
Выберите встроенную диктовку для быстрого случайного голосового ввода, где точность и форматирование не критичны.
Главное преимущество Telvr — глубина интеграции. Это единственное решение, объединяющее транскрипцию, AI-обработку и системный ввод текста в одной горячей клавише. Именно такая интеграция устраняет то трение, из-за которого другие решения воспринимаются как временный костыль, а не полноценный инструмент.