Блог

AI-обогащение текста: от сырой речи к готовому результату

Почему сырой транскрипции недостаточно

Представьте, что вы произносите мысль вслух, и каждое «эм», «ну», «понимаешь», каждая оговорка записывается дословно. Это и есть сырая транскрипция речи. Модель Whisper — одна из самых точных, доступных сегодня, — добросовестно записывает всё, что вы говорите, включая то, что вы предпочли бы проигнорировать.

Отредактированная версия этой же мысли, которую вы написали бы в письме или документе, выглядит совершенно иначе. Правильная пунктуация. Убранные слова-паразиты. Подходящая структура. Профессиональный стиль.

Разрыв между этими двумя версиями и устраняет AI-обогащение текста.

Что происходит между вашим голосом и готовым текстом

Пайплайн распознавания речи с AI-обогащением состоит из двух отдельных этапов:

Этап 1: Транскрипция. Аудио обрабатывается моделью распознавания речи — в случае Telvr это Whisper large-v3. Она преобразует звуковые волны в текст с высокой точностью. На выходе — сырая транскрипция: то, что вы сказали, со всеми естественными особенностями разговорной речи.

Этап 2: Обогащение. Сырая транскрипция передаётся языковой модели вместе со специальным промптом, описывающим задачу. Языковая модель преобразует транскрипцию в отформатированный результат — убирает слова-паразиты, перестраивает предложения, применяет правила форматирования и адаптирует стиль под нужный контекст.

Этап обогащения — это не простая замена «эм» и «ну». Здесь применяется подлинное понимание языка, и результат читается так, будто его написал вдумчивый человек.

Шесть режимов обогащения

Сырая транскрипция

Самый простой режим: минимальная постобработка, результат близок к тому, что выдаёт Whisper. Полезен, когда нужна буквальная запись — цитирование, фиксация точных слов или сохранение конкретной формулировки.

Вход: «главная проблема здесь в том, что мы видим, эм, трёхкратный рост ошибок на платёжном эндпоинте начиная примерно с двух часов дня вчера»

Выход: «Главная проблема здесь в том, что мы видим трёхкратный рост ошибок на платёжном эндпоинте начиная примерно с 14:00 вчера.»

Даже в режиме сырой транскрипции применяется базовая очистка: заглавные буквы в начале, единообразное форматирование чисел.

Чистка и коррекция

Основной режим для повседневного использования. Убирает слова-паразиты (эм, ну, типа, понимаешь), исправляет грамматику, добавляет правильную пунктуацию и выдаёт чистый текст, который читается так, будто его тщательно набирали. Правильный выбор по умолчанию для большинства задач: сообщения в Slack, обычные письма, заметки, документация.

Вход: «короче говоря что я пытаюсь сказать это то что текущий подход к, ну, обработке аутентификации создаст проблемы когда мы будем масштабироваться потому что мы используем, понимаешь, таблицу сессий и она, эм, станет узким местом»

Выход: «Текущий подход к обработке аутентификации создаст проблемы при масштабировании. Мы используем таблицу сессий для состояния аутентификации, и она станет узким местом.»

Обратите внимание: обогащение вышло за рамки простого удаления слов-паразитов — мысль была перестроена в два чётких предложения.

Профессиональное письмо

Преобразует произнесённое содержание в полноценное письмо с темой, приветствием, телом и подписью. Тон смещается к профессиональному, но не становится сухим. Подходит для деловой переписки, где вы хотите продиктовать суть, а форматирование оставить на AI.

Вход: «скажи Сергею что нам нужен план миграции сервера к концу недели и ещё напомни ему про аудит безопасности на пятнадцатое, спроси готова ли его команда»

Выход:

Тема: План миграции сервера и аудит безопасности

Добрый день, Сергей,

Не могли бы вы прислать план миграции сервера до конца этой недели? Также хотел уточнить насчёт аудита безопасности, запланированного на 15-е — готова ли ваша команда?

Спасибо.

Заметки о встрече

Структурирует произнесённое содержание в стандартный формат заметок: решения, задачи, контекст и следующие шаги. Создан для кратких резюме, которые диктуются сразу после встречи, пока всё свежо в памяти.

Вход: «продуктовая встреча сегодня, решили перенести мобильный запуск на Q3, Том обновляет дорожную карту, нам ещё нужна юридическая проверка новых условий перед запуском, этим занимается Саша, проверим на следующей неделе»

Выход:

Решения

  • Мобильный запуск перенесён на Q3

Задачи

  • Том: обновить дорожную карту продукта — в работе
  • Саша: инициировать юридическую проверку новых условий перед запуском

Следующая встреча

  • Следующая неделя

Краткое резюме (2–3 предложения)

Сжимает длинную речь в плотное резюме из двух-трёх предложений. Удобно для кратких итогов, обновлений статуса и ситуаций, когда нужно уместить большой объём информации в несколько строк.

Вход: [трёхминутное устное объяснение статуса проекта: предыстория, текущие блокировки, намеченные решения, ожидаемые сроки]

Выход: «Проект заблокирован из-за отсутствия доступа к API стороннего провайдера — интеграция задерживается примерно на две недели. Команда временно разрабатывает mock-слой API, чтобы не останавливать работу. Полная интеграция ожидается к концу месяца.»

Задача разработчика

Структурирует произнесённое содержание как задачу разработки с контекстом, требованиями и критериями приёмки. Результат соответствует распространённым форматам GitHub Issues, задач Linear и тикетов Jira.

Вход: «нам нужно добавить ограничение запросов к API, сейчас нет никакой защиты и можно долбить эндпоинты сколько угодно, нужно ограничить до ста запросов в минуту на пользователя, возвращать 429 при превышении, использовать Redis для счётчика»

Выход:

Задача: добавить ограничение частоты запросов к API

Контекст API не имеет ограничений частоты запросов, эндпоинты уязвимы для злоупотребления.

Требования

  • Ограничить каждого аутентифицированного пользователя до 100 запросов в минуту
  • При превышении лимита возвращать HTTP 429 (Too Many Requests)
  • Реализовать счётчик частоты на базе Redis

Критерии приёмки

  • [ ] Ограничение частоты применяется на уровне пользователя: 100 запросов/мин
  • [ ] Ответ 429 возвращается с правильными заголовками
  • [ ] Счётчик Redis корректно сбрасывается через одну минуту

Как устроено обогащение под капотом

На этапе обогащения используется большая языковая модель с тщательно разработанным системным промптом для каждого режима. Промпт определяет роль («вы профессиональный редактор текста»), задачу («преобразуйте следующую сырую транскрипцию речи в профессиональное письмо»), правила («уберите слова-паразиты, исправьте грамматику, добавьте тему и приветствие») и ожидаемый формат вывода.

Сырая транскрипция Whisper передаётся как сообщение пользователя. LLM генерирует отформатированный результат за один проход инференса.

Именно поэтому обогащение добавляет к общей задержке всего около одной секунды — правильно составленный промпт позволяет эффективной модели работать быстро.

Как выбрать нужный режим

Выбор режима зависит от контекста:

  • Любой общий текст, Slack, заметки: режим «Чистка»
  • Письмо в профессиональном контексте: режим «Письмо»
  • Документация после встречи: режим «Заметки о встрече»
  • Обновления статуса, краткие итоги, аннотации: режим «Резюме»
  • GitHub Issues, задачи Linear, тикеты Jira: режим «Задача разработчика»
  • Собственный рабочий процесс: пользовательский режим с вашим системным промптом

Переключение режимов в Telvr занимает один клик. Для пользователей с постоянным основным сценарием последний выбранный режим сохраняется между сессиями — переключать заново не нужно.

Обогащение против простой очистки

Разница между «обогащением» и «очисткой» принципиальна. Инструменты простой очистки убирают слова-паразиты и исправляют регистр — задача относительно механическая, с которой справится любой скрипт обработки текста.

Настоящее обогащение применяет понимание языка. Оно перестраивает предложения ради ясности, а не только грамматической правильности. Оно вычленяет задачи из потока речи и форматирует их с указанием исполнителей и сроков. Оно превращает «я пишу, чтобы уточнить...» в «хотел бы уточнить...» в режиме письма.

Разница видна в результате: механически почищенный текст читается как речь без слов-паразитов. Обогащённый текст читается как то, что написал человек.