2026 年 macOS 的语音输入现状
macOS 一直拥有坚实的语音输入基础。Apple 早在 OS X Mountain Lion 时代就引入了服务器端听写,Mac 紧密的软硬件整合也意味着第三方工具同样能深度嵌入系统。2026 年,Mac 用户拥有前所未有的丰富选择——其中不乏五年前看来像科幻小说的工具。
难点在于判断哪个选项真正契合你的工作流。本文对 Mac 上所有主流方案进行横评,并客观指出各自的优势与短板。
Apple Dictation(内置)
Apple Dictation 是首先值得评估的选项,因为它零成本、无需安装。在「系统设置 > 键盘」中启用,设置一个快捷键(默认是连按两次 Fn 键或专用听写键),即可开始使用。
工作原理: 短句在设备本地使用 Apple 语音模型处理;较长的听写会话可选择使用 Apple 服务器。输出实时出现在当前活动的文本字段中。
准确率: 处理安静环境下的英语表现稳定,日常词汇识别良好。但在技术术语、Apple 词典中未收录的专有名词以及代码相关词汇上容易出错。
格式化: 除非明确口述标点命令,否则基本没有格式化。无 AI 增强。说了「嗯」或「就是说」,这些词就会原样出现在文本里。
隐私性: 短句的设备本地处理确实是私密的;服务器处理则涉及将音频发送至 Apple。
最适合: 日常应用中的轻量听写、不想安装任何软件的用户,以及对格式要求不高的快速语音输入场景。
Telvr
Telvr 是专为 macOS 设计的按键说话听写应用,以菜单栏形式运行,提供系统级语音输入和 AI 增强能力。
工作原理: 在 Mac 上任意位置——任何应用、任何文本字段,甚至终端——按住可配置的热键,说出内容,松开按键,约两秒内处理后的文字便精准出现在光标所在位置。
处理管道使用 Whisper large-v3 通过 Groq 推理 API 进行转录,随后经过 AI 增强步骤,将原始语音转化为格式化的输出文本。
六种增强模式:
- 原始转录:接近 Whisper 原始输出,处理最少
- 清洁校正:删除填充词、修正语法、补全标点
- 专业邮件:将语音格式化为带主题行和称呼的完整邮件
- 会议记录:将内容整理为含决策和行动项的结构化要点
- 2–3 句摘要:将较长语音压缩为简洁摘要
- 开发任务:生成含背景说明和验收标准的结构化任务描述
准确率: Whisper large-v3 是目前最精准的模型之一。叠加修正语法、去除口语瑕疵的增强层后,输出质量稳定高于纯转录工具。
延迟: 典型段落低于 2 秒。通过 Groq 优化推理进行的云端处理速度足够快,延迟感更像工具在「思考」,而非卡顿等待。
语言支持: 50 种以上语言,自动检测。无需手动配置语言——Telvr 会直接从你的语音中识别。
定价: EUR 3/月最低消费(可抵扣用量),加 EUR 0.003/分钟实际使用量。14 天免费试用,附赠 EUR 3 体验额度。
最适合: 需要系统级语音输入、且希望直接得到整洁格式化文本而无需手动编辑的专业用户。
Wispr Flow
Wispr Flow 是 Telvr 在 macOS 上最接近的竞品,同样采用按键说话 + AI 处理的方式生成整洁输出。
优势: 界面精致,AI 输出质量高,「Flow 模式」能更自然地处理较长停顿和未完成的表达,让听写体验更流畅。
定价: $14/月,固定费率。对于每天使用超过 30 分钟的重度用户,比 Telvr 按量计费更划算;对中等用量用户则反之。
局限: 不支持自定义提示词模式;语言覆盖范围不如基于 Whisper 的工具广。
最适合: 每天大量听写、偏好固定月费的 Mac 用户。
Whisper(自托管)
OpenAI 的 Whisper 模型作为开源项目公开发布,配合合适的工具可在搭载 Apple Silicon 的 Mac 上本地运行。
工作原理: 使用 sox 或 whisper-mic 等工具录制音频,再通过本地 Whisper 模型进行转录,无需云端 API。
准确率: 与 Telvr 的转录质量相同——同样使用 Whisper large-v3 模型。两者的区别完全在于处理管道和增强层。
延迟: 在 Apple Silicon(M2/M3/M4)上,Whisper large-v3 本地推理约需 3–8 秒;较小的模型(medium、small)可在 1–3 秒内完成,准确率有所降低。
集成: 开箱即用没有系统级集成。需要自行搭建处理管道将文字输入到当前应用。虽有一些社区项目(Whispering、MacWhisper 等),但均需一定配置工作。
增强: 完全没有。输出为纯原始转录,后期处理需要额外工具。
隐私性: 完全本地处理,音频不会离开你的设备。
最适合: 希望完全掌控数据的开发者、注重隐私的用户,以及需要搭建自定义工作流的人。
Dragon for Mac(已停产)
Dragon NaturallySpeaking for Mac 于 2023 年被 Nuance 停产,目前没有可用于 macOS 的版本。如果你在寻找 Dragon 级别的准确率和词汇管理能力,Mac 上的选择是 Telvr、Wispr Flow 或自托管 Whisper。
此处特别说明,是因为许多搜索结果仍在引用 Dragon for Mac——它已不再是 macOS 用户的可行选项。
对比表
| 功能 | Apple Dictation | Telvr | Wispr Flow | Whisper(本地) | |---|---|---|---|---| | 系统级插入 | 有 | 有 | 有 | 需自定义配置 | | AI 增强 | 无 | 有(6 种模式) | 有 | 无 | | 延迟 | 1–3 秒 | 低于 2 秒 | 低于 2 秒 | 3–8 秒 | | 语言支持 | 约 60 种 | 50+(自动检测) | 约 40 种 | 99 种 | | 隐私性 | 可本地处理 | 云端 | 云端 | 完全本地 | | 价格 | 免费 | EUR 3/月 + 用量 | $14/月 | 免费 | | 自定义提示词 | 无 | 有 | 无 | 无 |
我们的推荐
对于大多数希望将语音输入作为真正生产力工具——而非偶尔尝试——的 Mac 用户,Telvr 是最完整的解决方案。系统级插入、快速云端处理和 AI 增强模式的组合,正好解决了语音输入工具通常让人放弃的两大原因:需要切换应用才能使用,以及输出需要大量编辑。
选择 Apple Dictation,如果你只需要在标准应用中偶尔使用语音输入,且不想安装任何软件。
选择 Wispr Flow,如果你每天大量听写,更偏好固定月费。
选择本地 Whisper,如果隐私是不可妥协的底线,且你能够自行搭建处理管道。
核心洞察在于:原始准确率固然重要,但在 2026 年已不再是差异化因素。Whisper large-v3 通过多款产品均可获得,精度都很高。真正的差异化在于转录之后发生了什么——你得到的是原始口语输出,还是格式化、可直接使用的文本。