2026 年 Windows 的语音输入现状
Windows 用户历来拥有比 Mac 用户更多的听写选项——一方面是因为 Dragon NaturallySpeaking 正是在 Windows 平台上建立起自己的声誉,另一方面 Windows 开放的生态系统也吸引了更多第三方工具进入。但格局已经发生了相当大的变化。
随着 AI 驱动的替代品涌现,Dragon 的主导地位有所动摇。Windows 语音输入持续改进。基于 Whisper 和其他现代模型的新型按键说话工具也陆续入市。以下是 Windows 语音输入选项的完整图谱。
Windows 语音输入(内置,Win+H)
Microsoft 内置的语音输入工具,通过 Win+H 快捷键唤起,是零门槛的起点。它适用于大多数 Windows 文本字段,支持自动标点,完全免费。
工作原理: 按 Win+H,屏幕出现浮动麦克风小组件。说话,文字出现在当前活动字段中;说「stop listening」或再次按按钮即可停止。
准确率: 在安静环境下处理英语表现良好。自 Windows 10 最初推出以来,Microsoft 已大幅改进底层模型,日常对话语音的识别相当可靠。
自动标点: 功能可用,效果合理。大多数句子无需口头说出「句号」「逗号」,系统会自动推断。
语言支持: 相比基于 Whisper 的工具,支持语言范围较窄。截至 2026 年,Windows 语音输入支持约 25 种语言。
局限: 无 AI 增强;仅适用于 Windows 文本字段,并非所有应用均支持;无自定义模式;输出为原始转录。
最适合: 偶尔需要语音输入、不想安装任何软件的 Windows 用户。
Dragon Professional(Nuance)
Dragon Professional 依然是 Windows 听写准确率的金标准,尤其在专业词汇领域。买断价 $699 是一笔不小的投资,但它提供其他工具无可匹敌的能力。
准确率: 优秀,经过声纹训练后表现更出色。Dragon 会随时间持续学习你的声音模式和词汇习惯。在医疗、法律或技术术语上,Dragon 针对已训练词汇的准确率超越通用模型。
自定义词汇: 可以添加领域专属术语、专有名词和专业短语——这是 Dragon 最大的竞争优势。
集成深度: 深度 Windows 集成,包括通过语音控制应用。Dragon 可以导航菜单、点击按钮、控制操作系统功能,远超单纯的文字输入。
延迟: 对于已训练声纹几乎即时响应,一致低于一秒。
局限: 前期成本高,主产品无订阅选项;软件架构相对陈旧;无 AI 增强或文本格式化,完全逐字转录;Mac 版已停产。
最适合: Windows 平台上需要专业词汇高精度识别的法律、医疗或金融从业者。
Telvr(Windows 版本开发中)
Telvr 目前是 macOS 应用,Windows 支持正在积极开发中。核心体验——按键说话 + AI 增强、系统级文本插入、Whisper large-v3 准确率——均计划带到 Windows 平台。
Windows 用户可以期待什么: 与 macOS 用户今天所使用的完全相同的工作流。在任意应用中按住热键,说话,松开,约两秒内在光标位置获得格式化文字。六种增强模式覆盖邮件、会议记录、摘要、开发任务和通用清洁校正。
对 Windows 的意义: 目前没有任何 Windows 工具能在简洁的按键说话界面中同时具备 Whisper 级转录准确率、AI 文本增强和真正的系统级插入能力。Windows 语音输入缺乏增强;Dragon 缺乏现代 AI 格式化;Whisper 工具缺乏集成深度。
定价: EUR 3/月最低消费 + EUR 0.003/分钟——与 macOS 版本相同。
如果你在 Windows 上且对这种工作流感兴趣,在 Telvr 官网加入候补名单,Windows 版本发布时第一时间收到通知。
基于 Whisper 的工具(Windows)
多个社区和商业项目为 Windows 带来了 Whisper 转录能力:
Whisper 本地 CLI: 直接在 Windows 上运行 Whisper。需要 Python 环境,以及支持 CUDA 的 GPU 以获得快速推理(CPU 也可运行较小的模型)。输出原始转录,无增强功能。
MacWhisper 的 Windows 等效工具: 数款 Windows 应用将 Whisper 封装进基础界面。大多为文件式(录制音频,获取转录),而非实时键盘替代方案。
局限: 所有现有 Windows Whisper 工具均需手动集成工作;没有任何一款能提供 Telvr 在 macOS 上那样的按键说话系统级插入体验;均无增强层。
最适合: 开发者、注重隐私的用户,或愿意自行搭建管道的技术用户。
Google Voice Typing(Chrome)
Google 语音输入在 Windows Chrome 浏览器中可用,能在 Chrome 内任意 contenteditable 字段工作,准确率得益于 Google 海量的训练数据。
局限: 仅限 Chrome 内使用,不支持原生 Windows 应用;无增强;涉及 Google 数据处理的隐私顾虑。
最适合: 主要在 Chrome 中工作、需要免费网页应用语音输入的用户。
Windows 语音识别(旧版)
比 Windows 语音输入更早的版本,通过控制面板或搜索访问,提供更多语音命令,但准确率不及现代的 Win+H 实现。它在很大程度上已被 Windows 语音输入取代——除非你特别需要其应用控制命令,否则可以直接跳过。
对比表
| 功能 | Windows 语音输入 | Dragon Professional | Telvr(macOS) | Whisper(本地) | |---|---|---|---|---| | 平台 | Windows | Windows | macOS(Win 开发中) | 两者均支持 | | 系统级插入 | 大多数应用 | 有 | 有 | 需自定义配置 | | AI 增强 | 无 | 无 | 有(6 种模式) | 无 | | 延迟 | 1–3 秒 | 低于 1 秒 | 低于 2 秒 | 3–15 秒 | | 语言支持 | 约 25 种 | 约 15 种 | 50+(自动检测) | 99 种 | | 价格 | 免费 | $699 买断 | EUR 3/月 + 用量 | 免费 | | 自定义词汇 | 无 | 有 | 自定义提示词 | 无 |
对 Windows 用户的建议
当前现实: 2026 年的 Windows 用户还没有一款工具能同时兼具现代 AI 准确率、文本增强能力和无缝的系统级集成。填补这一空白正是 Telvr Windows 版本的目标。
在此之前:
偶尔使用、零费用的语音输入: Windows 语音输入(Win+H)是显而易见的起点。自动标点和改进的准确率让它能应对日常任务。
需要专业词汇的从业者: Dragon Professional 依然是 Windows 用户唯一真正可用的选择,尤其是需要自定义词汇训练和高精度领域术语识别的场景。
追求最佳转录的技术用户: 通过 Whispering 等社区封装工具使用本地 Whisper,可以获得 Whisper 的准确率,但需要自行配置,且输出为原始文本。
希望体验 Telvr 的 Windows 用户: 加入候补名单。macOS 版本已经展示了 Windows 版本将带来的体验。
Windows 市场的这一缺口相当显著——而它正是现代按键说话工具叠加 AI 增强所要填补的位置。