语音识别的两种设计哲学
OpenAI Whisper 和 Deepgram 代表了构建语音识别系统的两种截然不同的思路。Whisper 被设计为通用多语言模型,基于来自互联网的海量音频语料训练而成。Deepgram 则是作为商业 API 优先产品构建的,专门针对速度和开发者集成进行优化。两款产品都很出色,但都不是在所有场景下都最优的选择。
判断哪款更适合特定用途,需要从架构、基准测试、定价模型和不同工作负载的实际表现几个维度来分析。
架构
Whisper
Whisper 是 OpenAI 开发的编码器-解码器 Transformer 模型,基于从网络抓取的 680,000 小时多语言音频训练。架构将音频转化为对数梅尔频谱图特征,经卷积编码器处理后,再由语言模型解码器生成文字。
该模型提供多种规格:tiny、base、small、medium、large-v2 和 large-v3。Telvr 使用的 large-v3 精度最高,但也是资源消耗最大的——本地运行需要高性能 GPU,或承受较长的 CPU 处理时间。
一个关键特性:Whisper 基于来自互联网的多样、嘈杂音频训练,赋予它对各种口音、背景噪音和非正式语音极强的鲁棒性。其取舍在于:它不是速度最快的模型,也不提供某些场景所需的流式/实时架构。
Deepgram
Deepgram 构建了自己的端到端深度学习架构,专为实时流式转录优化。其 Nova-3 模型专门针对英语口语训练(多语言支持随时间持续增强),在架构上被设计为逐词输出,以实现最低延迟。
Deepgram 的模型不作为开源发布,仅通过 Deepgram API 或企业自托管部署运行。训练数据虽然规模可观,但比 Whisper 的互联网级语料库更为精心筛选。
准确率基准
准确率对比高度依赖具体场景。两款模型总体表现良好,差异在特定条件下才会显现。
标准基准的词错误率(WER):
- Whisper large-v3 与 Deepgram Nova-3 在标准英语基准上旗鼓相当,两者在干净音频上的 WER 均低于 5%
- Whisper large-v3 在强口音语音和混合语言输入上优于 Nova-3
- Nova-3 在流式场景(话语说完前需要部分结果)上优于 Whisper
Whisper 表现突出的真实场景:
- 混合语言语音(语码混用)
- 带强口音的非母语英语
- 无需专项训练的技术词汇
- 来自不同来源的背景噪音(街道、咖啡馆)
Deepgram 表现突出的真实场景:
- 具有已知发言人档案的呼叫中心音频
- 首词延迟至关重要的实时流式处理
- 干净或半干净环境下的美式英语
- 说话人分离(识别谁说了什么)
速度与延迟
Whisper(通过 Groq API,即 Telvr 的使用方式): 仅转录步骤低于 1 秒。Groq 的推理硬件专为 Transformer 模型构建,使 Whisper large-v3 的运行速度远快于本地 GPU 推理。
Whisper(本地,Apple M3): 30 秒音频片段约需 3–6 秒;更小的模型运行更快。
Deepgram Nova-3(流式): 流式模式下首词出现延迟 300–500 毫秒;对于完整音频文件的批量转录,总延迟与通过 API 使用 Whisper 相近。
流式能力是 Deepgram 在实时应用中的核心优势。对于按键说话工作流(录音、停止、获取结果)而言,通过 Groq 的 Whisper 与 Deepgram 在实际使用中的延迟差异微乎其微。
语言支持
Whisper large-v3: 支持 99 种语言。对低资源语言的准确率会优雅降级,而非直接失效。内置自动语言检测。
Deepgram Nova-3: 英语支持强大,多语言能力持续扩展。截至 2026 年,约支持 35 种语言,质量参差不齐。英语准确率优秀;许多其他语言仍低于 Whisper 的水平。
对于多语言工作流,Whisper 是明确的优选。对于以英语为主、速度和流式处理是核心需求的应用,Deepgram 具有竞争力。
定价
Whisper(OpenAI API): $0.006/分钟,不支持流式。
Whisper(通过 Groq API): 按使用量分级定价,为开发者工作负载提供具有竞争力的价格和快速推理。
Deepgram Nova-3: 按需付费起价 $0.0043/分钟,支持批量折扣,流式使用相同费率。
Telvr 的使用成本: EUR 0.003/分钟起,反映了转录加 AI 增强处理的综合成本。原始 Deepgram 或 Whisper API 按分钟计价更便宜,但那些是没有应用层的纯 API。
开发者体验
Whisper(OpenAI API):
- 简单的 REST 端点,标准音频文件上传
- 不支持流式
- 音频文件大小限制(免费 25MB,付费 100MB)
- 响应时间适合按键说话工作流,不适合实时字幕
Deepgram:
- WebSocket API 支持实时流式
- REST API 处理批量文件
- 更多功能:说话人分离、关键词增强、自定义词汇
- 针对实时场景的开发者文档更完善
自托管 Whisper:
- 完全开源,支持 Docker 部署
- 无 API 费用
- 需要 GPU 基础设施
- 自定义管道的最大灵活性
各场景应该选哪个
按键说话桌面应用: Whisper large-v3 通过快速推理 API。准确率和语言支持使其更具优势,考虑完整管道后延迟与 Deepgram 相当。
实时字幕/现场转录: Deepgram 流式 API。低于 500 毫秒的首词延迟是可读实时字幕的必要条件。
呼叫中心/电话音频: Deepgram,搭配其自定义词汇和说话人分离功能。
多语言应用: Whisper,没有其他替代品能匹配其 99 种语言覆盖加自动检测的组合。
隐私敏感的本地部署: 自托管 Whisper。Deepgram 的自托管选项仅面向企业用户。
成本敏感的大规模英语转录: Deepgram Nova-3 的 $0.0043/分钟比 OpenAI 的 $0.006/分钟更便宜。
Telvr 的选择
Telvr 使用 Whisper large-v3 通过 Groq 推理 API,这一选择出于明确的考量:large-v3 提供跨语言的最高准确率;Groq 的硬件将转录步骤延迟压缩至 1 秒以内;内置的自动语言检测意味着用户切换语言时无需任何配置。
随后的增强层——AI 后处理,用于清洁输出、格式化邮件、结构化笔记——不属于 Whisper 或 Deepgram 的范畴,而是一个独立的 LLM 步骤,将原始转录转化为格式化的可用文本。
结论
Whisper 和 Deepgram 与其说是直接竞争对手,不如说是针对不同工作的不同工具。Whisper large-v3 是多语言、嘈杂、真实世界音频场景的准确率领导者;Deepgram Nova-3 是英语为主、实时应用场景的速度和流式领导者。
对于质量优先于实时流式处理的桌面生产力工具,Whisper large-v3 通过快速推理 API 是更好的基础。对于需要词语随用户说话实时出现的应用,Deepgram 的流式架构正是为此而生。