Telvr 如何工作？

按下快捷键，自然说话，Telvr 实时转录。文本直接插入光标所在位置。

支持哪些语言？

通过 Whisper large-v3 支持 50 多种语言。

不需要。阶梯式预付费模式：高用量时低至 EUR 0.003/分钟，初始 EUR 0.03/分钟。EUR 3 月最低消费（从用量中扣除）。无合约，无自动续费。

支持离线使用吗？

目前基于云端。社区版本支持本地部署在规划中。

支持哪些应用？

系统范围，适用任何应用。

TLS 加密，无永久存储，与 Groq 签署数据处理协议。

← 博客2026-02-25

Mac 语音识别全面对比（2026）

Q: 支持哪些应用？

系统范围，适用任何应用。

2026 年 macOS 的语音输入现状

macOS 一直拥有坚实的语音输入基础。Apple 早在 OS X Mountain Lion 时代就引入了服务器端听写，Mac 紧密的软硬件整合也意味着第三方工具同样能深度嵌入系统。2026 年，Mac 用户拥有前所未有的丰富选择——其中不乏五年前看来像科幻小说的工具。

难点在于判断哪个选项真正契合你的工作流。本文对 Mac 上所有主流方案进行横评，并客观指出各自的优势与短板。

Apple Dictation（内置）

Apple Dictation 是首先值得评估的选项，因为它零成本、无需安装。在「系统设置 > 键盘」中启用，设置一个快捷键（默认是连按两次 Fn 键或专用听写键），即可开始使用。

工作原理： 短句在设备本地使用 Apple 语音模型处理；较长的听写会话可选择使用 Apple 服务器。输出实时出现在当前活动的文本字段中。

准确率： 处理安静环境下的英语表现稳定，日常词汇识别良好。但在技术术语、Apple 词典中未收录的专有名词以及代码相关词汇上容易出错。

格式化： 除非明确口述标点命令，否则基本没有格式化。无 AI 增强。说了「嗯」或「就是说」，这些词就会原样出现在文本里。

隐私性： 短句的设备本地处理确实是私密的；服务器处理则涉及将音频发送至 Apple。

最适合： 日常应用中的轻量听写、不想安装任何软件的用户，以及对格式要求不高的快速语音输入场景。

Telvr

Telvr 是专为 macOS 设计的按键说话听写应用，以菜单栏形式运行，提供系统级语音输入和 AI 增强能力。

工作原理： 在 Mac 上任意位置——任何应用、任何文本字段，甚至终端——按住可配置的热键，说出内容，松开按键，约两秒内处理后的文字便精准出现在光标所在位置。

处理管道使用 Whisper large-v3 通过 Groq 推理 API 进行转录，随后经过 AI 增强步骤，将原始语音转化为格式化的输出文本。

六种增强模式：

原始转录：接近 Whisper 原始输出，处理最少
清洁校正：删除填充词、修正语法、补全标点
专业邮件：将语音格式化为带主题行和称呼的完整邮件
会议记录：将内容整理为含决策和行动项的结构化要点
2–3 句摘要：将较长语音压缩为简洁摘要
开发任务：生成含背景说明和验收标准的结构化任务描述

准确率： Whisper large-v3 是目前最精准的模型之一。叠加修正语法、去除口语瑕疵的增强层后，输出质量稳定高于纯转录工具。

延迟： 典型段落低于 2 秒。通过 Groq 优化推理进行的云端处理速度足够快，延迟感更像工具在「思考」，而非卡顿等待。

语言支持： 50 种以上语言，自动检测。无需手动配置语言——Telvr 会直接从你的语音中识别。

定价： EUR 3/月最低消费（可抵扣用量），加 EUR 0.003/分钟实际使用量。14 天免费试用，附赠 EUR 3 体验额度。

最适合： 需要系统级语音输入、且希望直接得到整洁格式化文本而无需手动编辑的专业用户。

Wispr Flow

Wispr Flow 是 Telvr 在 macOS 上最接近的竞品，同样采用按键说话 + AI 处理的方式生成整洁输出。

优势： 界面精致，AI 输出质量高，「Flow 模式」能更自然地处理较长停顿和未完成的表达，让听写体验更流畅。

定价： $14/月，固定费率。对于每天使用超过 30 分钟的重度用户，比 Telvr 按量计费更划算；对中等用量用户则反之。

局限： 不支持自定义提示词模式；语言覆盖范围不如基于 Whisper 的工具广。

最适合： 每天大量听写、偏好固定月费的 Mac 用户。

Whisper（自托管）

OpenAI 的 Whisper 模型作为开源项目公开发布，配合合适的工具可在搭载 Apple Silicon 的 Mac 上本地运行。

工作原理： 使用 sox 或 whisper-mic 等工具录制音频，再通过本地 Whisper 模型进行转录，无需云端 API。

准确率： 与 Telvr 的转录质量相同——同样使用 Whisper large-v3 模型。两者的区别完全在于处理管道和增强层。

延迟： 在 Apple Silicon（M2/M3/M4）上，Whisper large-v3 本地推理约需 3–8 秒；较小的模型（medium、small）可在 1–3 秒内完成，准确率有所降低。

集成： 开箱即用没有系统级集成。需要自行搭建处理管道将文字输入到当前应用。虽有一些社区项目（Whispering、MacWhisper 等），但均需一定配置工作。

增强： 完全没有。输出为纯原始转录，后期处理需要额外工具。

隐私性： 完全本地处理，音频不会离开你的设备。

最适合： 希望完全掌控数据的开发者、注重隐私的用户，以及需要搭建自定义工作流的人。

Dragon for Mac（已停产）

Dragon NaturallySpeaking for Mac 于 2023 年被 Nuance 停产，目前没有可用于 macOS 的版本。如果你在寻找 Dragon 级别的准确率和词汇管理能力，Mac 上的选择是 Telvr、Wispr Flow 或自托管 Whisper。

此处特别说明，是因为许多搜索结果仍在引用 Dragon for Mac——它已不再是 macOS 用户的可行选项。

对比表

| 功能 | Apple Dictation | Telvr | Wispr Flow | Whisper（本地） | |---|---|---|---|---| | 系统级插入 | 有 | 有 | 有 | 需自定义配置 | | AI 增强 | 无 | 有（6 种模式） | 有 | 无 | | 延迟 | 1–3 秒 | 低于 2 秒 | 低于 2 秒 | 3–8 秒 | | 语言支持 | 约 60 种 | 50+（自动检测） | 约 40 种 | 99 种 | | 隐私性 | 可本地处理 | 云端 | 云端 | 完全本地 | | 价格 | 免费 | EUR 3/月 + 用量 | $14/月 | 免费 | | 自定义提示词 | 无 | 有 | 无 | 无 |

我们的推荐

对于大多数希望将语音输入作为真正生产力工具——而非偶尔尝试——的 Mac 用户，Telvr 是最完整的解决方案。系统级插入、快速云端处理和 AI 增强模式的组合，正好解决了语音输入工具通常让人放弃的两大原因：需要切换应用才能使用，以及输出需要大量编辑。

选择 Apple Dictation，如果你只需要在标准应用中偶尔使用语音输入，且不想安装任何软件。

选择 Wispr Flow，如果你每天大量听写，更偏好固定月费。

选择本地 Whisper，如果隐私是不可妥协的底线，且你能够自行搭建处理管道。

核心洞察在于：原始准确率固然重要，但在 2026 年已不再是差异化因素。Whisper large-v3 通过多款产品均可获得，精度都很高。真正的差异化在于转录之后发生了什么——你得到的是原始口语输出，还是格式化、可直接使用的文本。