Telvr 如何工作？

按下快捷键，自然说话，Telvr 实时转录。文本直接插入光标所在位置。

支持哪些语言？

通过 Whisper large-v3 支持 50 多种语言。

不需要。阶梯式预付费模式：高用量时低至 EUR 0.003/分钟，初始 EUR 0.03/分钟。EUR 3 月最低消费（从用量中扣除）。无合约，无自动续费。

支持离线使用吗？

目前基于云端。社区版本支持本地部署在规划中。

支持哪些应用？

系统范围，适用任何应用。

TLS 加密，无永久存储，与 Groq 签署数据处理协议。

← 博客2026-02-23

Whisper vs Deepgram：2026 年哪个语音引擎更胜一筹？

Q: 支持哪些应用？

系统范围，适用任何应用。

语音识别的两种设计哲学

OpenAI Whisper 和 Deepgram 代表了构建语音识别系统的两种截然不同的思路。Whisper 被设计为通用多语言模型，基于来自互联网的海量音频语料训练而成。Deepgram 则是作为商业 API 优先产品构建的，专门针对速度和开发者集成进行优化。两款产品都很出色，但都不是在所有场景下都最优的选择。

判断哪款更适合特定用途，需要从架构、基准测试、定价模型和不同工作负载的实际表现几个维度来分析。

架构

Whisper

Whisper 是 OpenAI 开发的编码器-解码器 Transformer 模型，基于从网络抓取的 680,000 小时多语言音频训练。架构将音频转化为对数梅尔频谱图特征，经卷积编码器处理后，再由语言模型解码器生成文字。

该模型提供多种规格：tiny、base、small、medium、large-v2 和 large-v3。Telvr 使用的 large-v3 精度最高，但也是资源消耗最大的——本地运行需要高性能 GPU，或承受较长的 CPU 处理时间。

一个关键特性：Whisper 基于来自互联网的多样、嘈杂音频训练，赋予它对各种口音、背景噪音和非正式语音极强的鲁棒性。其取舍在于：它不是速度最快的模型，也不提供某些场景所需的流式/实时架构。

Deepgram

Deepgram 构建了自己的端到端深度学习架构，专为实时流式转录优化。其 Nova-3 模型专门针对英语口语训练（多语言支持随时间持续增强），在架构上被设计为逐词输出，以实现最低延迟。

Deepgram 的模型不作为开源发布，仅通过 Deepgram API 或企业自托管部署运行。训练数据虽然规模可观，但比 Whisper 的互联网级语料库更为精心筛选。

准确率基准

准确率对比高度依赖具体场景。两款模型总体表现良好，差异在特定条件下才会显现。

标准基准的词错误率（WER）：

Whisper large-v3 与 Deepgram Nova-3 在标准英语基准上旗鼓相当，两者在干净音频上的 WER 均低于 5%
Whisper large-v3 在强口音语音和混合语言输入上优于 Nova-3
Nova-3 在流式场景（话语说完前需要部分结果）上优于 Whisper

Whisper 表现突出的真实场景：

混合语言语音（语码混用）
带强口音的非母语英语
无需专项训练的技术词汇
来自不同来源的背景噪音（街道、咖啡馆）

Deepgram 表现突出的真实场景：

具有已知发言人档案的呼叫中心音频
首词延迟至关重要的实时流式处理
干净或半干净环境下的美式英语
说话人分离（识别谁说了什么）

速度与延迟

Whisper（通过 Groq API，即 Telvr 的使用方式）： 仅转录步骤低于 1 秒。Groq 的推理硬件专为 Transformer 模型构建，使 Whisper large-v3 的运行速度远快于本地 GPU 推理。

Whisper（本地，Apple M3）： 30 秒音频片段约需 3–6 秒；更小的模型运行更快。

Deepgram Nova-3（流式）： 流式模式下首词出现延迟 300–500 毫秒；对于完整音频文件的批量转录，总延迟与通过 API 使用 Whisper 相近。

流式能力是 Deepgram 在实时应用中的核心优势。对于按键说话工作流（录音、停止、获取结果）而言，通过 Groq 的 Whisper 与 Deepgram 在实际使用中的延迟差异微乎其微。

语言支持

Whisper large-v3： 支持 99 种语言。对低资源语言的准确率会优雅降级，而非直接失效。内置自动语言检测。

Deepgram Nova-3： 英语支持强大，多语言能力持续扩展。截至 2026 年，约支持 35 种语言，质量参差不齐。英语准确率优秀；许多其他语言仍低于 Whisper 的水平。

对于多语言工作流，Whisper 是明确的优选。对于以英语为主、速度和流式处理是核心需求的应用，Deepgram 具有竞争力。

定价

Whisper（OpenAI API）： $0.006/分钟，不支持流式。

Whisper（通过 Groq API）： 按使用量分级定价，为开发者工作负载提供具有竞争力的价格和快速推理。

Deepgram Nova-3： 按需付费起价 $0.0043/分钟，支持批量折扣，流式使用相同费率。

Telvr 的使用成本： EUR 0.003/分钟起，反映了转录加 AI 增强处理的综合成本。原始 Deepgram 或 Whisper API 按分钟计价更便宜，但那些是没有应用层的纯 API。

开发者体验

Whisper（OpenAI API）：

简单的 REST 端点，标准音频文件上传
不支持流式
音频文件大小限制（免费 25MB，付费 100MB）
响应时间适合按键说话工作流，不适合实时字幕

Deepgram：

WebSocket API 支持实时流式
REST API 处理批量文件
更多功能：说话人分离、关键词增强、自定义词汇
针对实时场景的开发者文档更完善

自托管 Whisper：

完全开源，支持 Docker 部署
无 API 费用
需要 GPU 基础设施
自定义管道的最大灵活性

各场景应该选哪个

按键说话桌面应用： Whisper large-v3 通过快速推理 API。准确率和语言支持使其更具优势，考虑完整管道后延迟与 Deepgram 相当。

实时字幕/现场转录： Deepgram 流式 API。低于 500 毫秒的首词延迟是可读实时字幕的必要条件。

呼叫中心/电话音频： Deepgram，搭配其自定义词汇和说话人分离功能。

多语言应用： Whisper，没有其他替代品能匹配其 99 种语言覆盖加自动检测的组合。

隐私敏感的本地部署： 自托管 Whisper。Deepgram 的自托管选项仅面向企业用户。

成本敏感的大规模英语转录： Deepgram Nova-3 的 $0.0043/分钟比 OpenAI 的 $0.006/分钟更便宜。

Telvr 的选择

Telvr 使用 Whisper large-v3 通过 Groq 推理 API，这一选择出于明确的考量：large-v3 提供跨语言的最高准确率；Groq 的硬件将转录步骤延迟压缩至 1 秒以内；内置的自动语言检测意味着用户切换语言时无需任何配置。

随后的增强层——AI 后处理，用于清洁输出、格式化邮件、结构化笔记——不属于 Whisper 或 Deepgram 的范畴，而是一个独立的 LLM 步骤，将原始转录转化为格式化的可用文本。

结论

Whisper 和 Deepgram 与其说是直接竞争对手，不如说是针对不同工作的不同工具。Whisper large-v3 是多语言、嘈杂、真实世界音频场景的准确率领导者；Deepgram Nova-3 是英语为主、实时应用场景的速度和流式领导者。

对于质量优先于实时流式处理的桌面生产力工具，Whisper large-v3 通过快速推理 API 是更好的基础。对于需要词语随用户说话实时出现的应用，Deepgram 的流式架构正是为此而生。