Почему сырой транскрипции недостаточно
Представьте, что вы произносите мысль вслух, и каждое «эм», «ну», «понимаешь», каждая оговорка записывается дословно. Это и есть сырая транскрипция речи. Модель Whisper — одна из самых точных, доступных сегодня, — добросовестно записывает всё, что вы говорите, включая то, что вы предпочли бы проигнорировать.
Отредактированная версия этой же мысли, которую вы написали бы в письме или документе, выглядит совершенно иначе. Правильная пунктуация. Убранные слова-паразиты. Подходящая структура. Профессиональный стиль.
Разрыв между этими двумя версиями и устраняет AI-обогащение текста.
Что происходит между вашим голосом и готовым текстом
Пайплайн распознавания речи с AI-обогащением состоит из двух отдельных этапов:
Этап 1: Транскрипция. Аудио обрабатывается моделью распознавания речи — в случае Telvr это Whisper large-v3. Она преобразует звуковые волны в текст с высокой точностью. На выходе — сырая транскрипция: то, что вы сказали, со всеми естественными особенностями разговорной речи.
Этап 2: Обогащение. Сырая транскрипция передаётся языковой модели вместе со специальным промптом, описывающим задачу. Языковая модель преобразует транскрипцию в отформатированный результат — убирает слова-паразиты, перестраивает предложения, применяет правила форматирования и адаптирует стиль под нужный контекст.
Этап обогащения — это не простая замена «эм» и «ну». Здесь применяется подлинное понимание языка, и результат читается так, будто его написал вдумчивый человек.
Шесть режимов обогащения
Сырая транскрипция
Самый простой режим: минимальная постобработка, результат близок к тому, что выдаёт Whisper. Полезен, когда нужна буквальная запись — цитирование, фиксация точных слов или сохранение конкретной формулировки.
Вход: «главная проблема здесь в том, что мы видим, эм, трёхкратный рост ошибок на платёжном эндпоинте начиная примерно с двух часов дня вчера»
Выход: «Главная проблема здесь в том, что мы видим трёхкратный рост ошибок на платёжном эндпоинте начиная примерно с 14:00 вчера.»
Даже в режиме сырой транскрипции применяется базовая очистка: заглавные буквы в начале, единообразное форматирование чисел.
Чистка и коррекция
Основной режим для повседневного использования. Убирает слова-паразиты (эм, ну, типа, понимаешь), исправляет грамматику, добавляет правильную пунктуацию и выдаёт чистый текст, который читается так, будто его тщательно набирали. Правильный выбор по умолчанию для большинства задач: сообщения в Slack, обычные письма, заметки, документация.
Вход: «короче говоря что я пытаюсь сказать это то что текущий подход к, ну, обработке аутентификации создаст проблемы когда мы будем масштабироваться потому что мы используем, понимаешь, таблицу сессий и она, эм, станет узким местом»
Выход: «Текущий подход к обработке аутентификации создаст проблемы при масштабировании. Мы используем таблицу сессий для состояния аутентификации, и она станет узким местом.»
Обратите внимание: обогащение вышло за рамки простого удаления слов-паразитов — мысль была перестроена в два чётких предложения.
Профессиональное письмо
Преобразует произнесённое содержание в полноценное письмо с темой, приветствием, телом и подписью. Тон смещается к профессиональному, но не становится сухим. Подходит для деловой переписки, где вы хотите продиктовать суть, а форматирование оставить на AI.
Вход: «скажи Сергею что нам нужен план миграции сервера к концу недели и ещё напомни ему про аудит безопасности на пятнадцатое, спроси готова ли его команда»
Выход:
Тема: План миграции сервера и аудит безопасности
Добрый день, Сергей,
Не могли бы вы прислать план миграции сервера до конца этой недели? Также хотел уточнить насчёт аудита безопасности, запланированного на 15-е — готова ли ваша команда?
Спасибо.
Заметки о встрече
Структурирует произнесённое содержание в стандартный формат заметок: решения, задачи, контекст и следующие шаги. Создан для кратких резюме, которые диктуются сразу после встречи, пока всё свежо в памяти.
Вход: «продуктовая встреча сегодня, решили перенести мобильный запуск на Q3, Том обновляет дорожную карту, нам ещё нужна юридическая проверка новых условий перед запуском, этим занимается Саша, проверим на следующей неделе»
Выход:
Решения
- Мобильный запуск перенесён на Q3
Задачи
- Том: обновить дорожную карту продукта — в работе
- Саша: инициировать юридическую проверку новых условий перед запуском
Следующая встреча
- Следующая неделя
Краткое резюме (2–3 предложения)
Сжимает длинную речь в плотное резюме из двух-трёх предложений. Удобно для кратких итогов, обновлений статуса и ситуаций, когда нужно уместить большой объём информации в несколько строк.
Вход: [трёхминутное устное объяснение статуса проекта: предыстория, текущие блокировки, намеченные решения, ожидаемые сроки]
Выход: «Проект заблокирован из-за отсутствия доступа к API стороннего провайдера — интеграция задерживается примерно на две недели. Команда временно разрабатывает mock-слой API, чтобы не останавливать работу. Полная интеграция ожидается к концу месяца.»
Задача разработчика
Структурирует произнесённое содержание как задачу разработки с контекстом, требованиями и критериями приёмки. Результат соответствует распространённым форматам GitHub Issues, задач Linear и тикетов Jira.
Вход: «нам нужно добавить ограничение запросов к API, сейчас нет никакой защиты и можно долбить эндпоинты сколько угодно, нужно ограничить до ста запросов в минуту на пользователя, возвращать 429 при превышении, использовать Redis для счётчика»
Выход:
Задача: добавить ограничение частоты запросов к API
Контекст API не имеет ограничений частоты запросов, эндпоинты уязвимы для злоупотребления.
Требования
- Ограничить каждого аутентифицированного пользователя до 100 запросов в минуту
- При превышении лимита возвращать HTTP 429 (Too Many Requests)
- Реализовать счётчик частоты на базе Redis
Критерии приёмки
- [ ] Ограничение частоты применяется на уровне пользователя: 100 запросов/мин
- [ ] Ответ 429 возвращается с правильными заголовками
- [ ] Счётчик Redis корректно сбрасывается через одну минуту
Как устроено обогащение под капотом
На этапе обогащения используется большая языковая модель с тщательно разработанным системным промптом для каждого режима. Промпт определяет роль («вы профессиональный редактор текста»), задачу («преобразуйте следующую сырую транскрипцию речи в профессиональное письмо»), правила («уберите слова-паразиты, исправьте грамматику, добавьте тему и приветствие») и ожидаемый формат вывода.
Сырая транскрипция Whisper передаётся как сообщение пользователя. LLM генерирует отформатированный результат за один проход инференса.
Именно поэтому обогащение добавляет к общей задержке всего около одной секунды — правильно составленный промпт позволяет эффективной модели работать быстро.
Как выбрать нужный режим
Выбор режима зависит от контекста:
- Любой общий текст, Slack, заметки: режим «Чистка»
- Письмо в профессиональном контексте: режим «Письмо»
- Документация после встречи: режим «Заметки о встрече»
- Обновления статуса, краткие итоги, аннотации: режим «Резюме»
- GitHub Issues, задачи Linear, тикеты Jira: режим «Задача разработчика»
- Собственный рабочий процесс: пользовательский режим с вашим системным промптом
Переключение режимов в Telvr занимает один клик. Для пользователей с постоянным основным сценарием последний выбранный режим сохраняется между сессиями — переключать заново не нужно.
Обогащение против простой очистки
Разница между «обогащением» и «очисткой» принципиальна. Инструменты простой очистки убирают слова-паразиты и исправляют регистр — задача относительно механическая, с которой справится любой скрипт обработки текста.
Настоящее обогащение применяет понимание языка. Оно перестраивает предложения ради ясности, а не только грамматической правильности. Оно вычленяет задачи из потока речи и форматирует их с указанием исполнителей и сроков. Оно превращает «я пишу, чтобы уточнить...» в «хотел бы уточнить...» в режиме письма.
Разница видна в результате: механически почищенный текст читается как речь без слов-паразитов. Обогащённый текст читается как то, что написал человек.