博客

AI 文本增强:从原始语音到精准文字

为什么原始转录还不够

想象一下,你大声说出一个想法,每一个「嗯」「啊」「你知道」和说错的开头都被原封不动地记录下来——这就是原始语音转录。Whisper 模型作为目前精度最高的模型之一,会如实记录你说的一切,包括你宁愿它忽略的所有部分。

而你写在邮件或文档里的同一个想法,看起来会完全不同:标点更准确,语气词被删除,结构更清晰,语体更正式。

AI 文本增强,正是为了弥合这两个版本之间的差距。

从你的声音到文字之间发生了什么

带有 AI 增强的语音识别流程分为两个阶段:

第一阶段:转录。 你的音频由语音识别模型处理——在 Telvr 中使用的是 Whisper large-v3。这一步将音频波形高精度地转换为文字,输出的是原始转录:你说的内容,包括口语的所有自然瑕疵。

第二阶段:增强。 原始转录被传入一个语言模型,并附带一个说明如何处理它的提示词。语言模型将转录内容转化为格式化输出——删除语气词、重构句子、应用格式规则,并根据目标场景调整语体。

增强步骤并不是简单地查找替换「嗯」和「啊」,它运用真正的语言理解能力,让输出读起来像是经过深思熟虑的人写出来的。

六种增强模式详解

原始转录

最简模式:几乎不做后期处理,输出接近 Whisper 的原始结果。适用于需要逐字记录的场景——引用内容、记录原话,或保留特定措辞。

输入: "the uh the main issue here is that we're seeing, uh, three times normal error rates on the payment endpoint starting from around two pm yesterday"

输出: "The main issue here is that we're seeing three times normal error rates on the payment endpoint starting from around 2 PM yesterday."

即便在原始模式下,基本清理(首字母大写、数字格式统一)也会执行。

清洁校正

日常使用的主力模式。删除口语填充词(嗯、啊、就是说、你知道),修正语法,补全标点,输出清晰流畅、如同认真打出来的散文。适合大多数通用文本场景:Slack 消息、日常邮件、笔记、文档。

输入: "so basically what I'm trying to say is that the, um, current approach to, like, handling authentication is gonna cause problems when we scale up because we're using, you know, the session table and that's gonna, uh, become a bottleneck"

输出: "The current approach to handling authentication will cause problems at scale. We are using the session table for auth state, which will become a bottleneck."

注意,增强不只是删除了填充词——它还将这段话重构为两个清晰的句子。

专业邮件

将口述内容转化为完整的邮件,包含主题行、称呼、正文和结尾。语气专业但不失自然。适合商务沟通场景——你负责口述内容,AI 负责处理格式。

输入: "hey can you tell Jake that we need the server migration plan by end of week and also remind him about the security audit that's scheduled for the 15th, ask him if his team is ready"

输出:

Subject: Server Migration Plan and Security Audit Update

Hi Jake,

Could you please send over the server migration plan by end of this week? I also wanted to check in about the security audit scheduled for the 15th — is your team prepared?

Thank you.

会议记录

将口述内容结构化为标准会议记录格式:决策事项、行动项、背景信息和后续步骤。专为会议结束后趁记忆新鲜立即口述摘要而设计。

输入: "product meeting today, decided to push the mobile launch to Q3, Tom is updating the roadmap, we also need a legal review of the new terms before launch, Sarah owns that, we'll check in next week"

输出:

决策事项

  • 移动端发布推迟至 Q3

行动项

  • Tom:更新产品路线图——进行中
  • Sarah:在发布前启动新条款的法律审核

下次跟进

  • 下周

2–3 句摘要

将较长的口述内容压缩为简洁的两到三句话摘要。适用于高管简报、进度更新以及需要将大量内容提炼为简短陈述的场景。

输入: [一段 3 分钟的项目状态口述,涵盖背景、当前阻碍、计划方案和预期时间线]

输出: "The project is currently blocked on API access from the third-party provider, delaying the integration by approximately two weeks. The team is implementing a mock API layer in the interim to continue development. Full integration is now expected by end of month."

开发任务

将口述内容结构化为开发任务格式,包含背景、需求和验收标准。输出格式与 GitHub Issue、Linear 任务和 Jira 工单的常见格式相匹配。

输入: "we need to add rate limiting to the API, right now there's no protection so someone could hammer the endpoints, should limit to 100 requests per minute per user, return 429 if exceeded, use Redis for the counter"

输出:

任务:添加 API 限速

背景 当前 API 没有速率限制,端点存在被滥用的风险。

需求

  • 每个已认证用户限速 100 次请求/分钟
  • 超出限制时返回 HTTP 429(请求过多)
  • 使用 Redis 实现计数器

验收标准

  • [ ] 按用户执行 100 次/分钟的速率限制
  • [ ] 返回带有适当 Header 的 429 响应
  • [ ] Redis 计数器在一分钟后正确重置

增强功能的实现原理

增强步骤使用大型语言模型,每种模式都配有精心设计的系统提示词。提示词定义了角色(「你是一位专业文本编辑」)、任务(「将以下原始语音转录转化为专业邮件」)、规则(「删除填充词,修正语法,添加主题行和称呼」)以及预期的输出格式。

原始的 Whisper 转录内容随后作为用户消息附加进来,语言模型在单次推理中生成格式化输出。

这一架构也解释了为什么增强处理只会在总延迟上增加约一秒——对高效模型经过良好提示的推理速度很快。

如何选择合适的模式

应根据写作场景来选择模式:

  • 通用文本、Slack、笔记: 清洁校正模式
  • 专业邮件: 邮件模式
  • 会后文档: 会议记录模式
  • 进度更新、摘要、内容提要: 摘要模式
  • GitHub Issue、Linear、Jira 任务: 开发任务模式
  • 自定义工作流: 自定义模式,使用你自己的系统提示词

在 Telvr 中切换模式只需在模式选择器上点击一次。对于有固定主要使用场景的用户,上次选择的模式会在会话间保持,无需每次重新选择。

增强与简单清理的区别

「增强」和「清理」之间的区别很重要。简单的清理工具删除填充词、修正大小写——这是任何文本处理脚本都能近似实现的机械操作。

真正的增强运用语言理解能力。它为了清晰而重构句子,而不只是为了语法正确。它能识别一段口述中的行动项,并格式化为带有负责人和截止日期的条目。它会将「I'm writing to ask about the...」在邮件模式下转化为「I would like to inquire about...」。

区别在输出中一目了然:经过机械清理的文本读起来像是删掉了「嗯」的口语;经过增强的文本读起来像是一个人认真写出来的。