Windows 的语音输入选项
Windows 提供的语音识别选项比任何其他桌面平台都多,从完全免费的内置工具到企业级专业软件,应有尽有。根据需求不同,配置时间从两分钟到半天不等。
本指南涵盖三个层级:开箱即用的 Windows 内置语音输入、面向专业领域的 Dragon Professional,以及 2026 年 Windows 用户在内置工具之外可以选择的现代 AI 语音方案。
方案一:Windows 语音输入(内置)
Windows 语音输入是在 Windows 上开始使用语音的最快途径。无需安装任何软件,适用于 Windows 10 20H2 及更高版本,以及 Windows 11。
配置步骤
- 在任意有激活文本字段的应用中按下 Win + H
- 屏幕顶部出现麦克风浮窗
- 点击麦克风按钮或再次按 Win+H
- 开始说话
就这么简单。基本使用无需任何安装、账户或配置。
启用自动标点
自动标点功能(Windows 11 及近期 Windows 10 版本)可自动添加逗号和句号,无需口头说出。
- 按 Win+H 打开语音输入
- 点击浮窗中的齿轮图标
- 启用「自动标点」
语言设置
如需使用系统默认语言以外的语言听写:
- 前往「设置 > 时间和语言 > 语言和地区」
- 添加所需语言包
- 下载该语言的语音识别组件
- 听写前通过任务栏语言选择器切换输入语言
Windows 语音输入支持的语言(截至 2026 年): 英语(美式、英式、澳式、印度式)、中文(简体、繁体)、法语、德语、西班牙语、意大利语、葡萄牙语、日语、韩语、阿拉伯语及约 15 种其他语言。完整列表请查阅 Microsoft 官方文档。
语音命令
Windows 语音输入支持以下语音命令:
- 「Stop listening」—— 关闭麦克风
- 「Delete that」—— 删除最后一段听写内容
- 「Scratch that」—— 删除最后一句话
- 「Go to sleep」/「Wake up」—— 切换监听状态
局限性
Windows 语音输入输出的是原始转录文本,没有 AI 增强、邮件格式化或结构化输出。口语填充词会原样出现在文字中。启用自动标点后可处理基本标点,但复杂句式可能仍需手动整理。
适合日常听写且接受事后编辑的场景。如果需要无需编辑的专业文本,它并不是合适的工具。
方案二:Dragon Professional(Windows)
对于需要专业级准确率和领域专属词汇的 Windows 用户——主要是法律、医疗、金融和技术领域——Dragon Professional 是首选。
安装步骤
- 从 Nuance 官网购买 Dragon Professional(2026 年售价 $699)
- 下载安装包
- 运行安装向导
- 创建声音档案(初始训练约需 5–10 分钟)
声音档案训练
Dragon 的声音训练能显著提升准确率。配置过程中:
- 朗读提供的文本段落(约 2–3 分钟)
- Dragon 分析你的声纹、口音和说话风格
- 档案保存到你的用户账户
随着 Dragon 不断学习你的修改习惯,准确率会持续提升。
自定义词汇
自定义词汇功能是 Dragon 在专业用途上最大的竞争优势:
- 打开 Dragon 词汇编辑器
- 添加领域专属术语(病症名称、法律引用、产品名称、技术术语)
- 为缩略语添加书面形式和口语形式(口语:「the company」,书面:「Acme Corporation」)
对于使用高度专业化词汇的从业者,仅这一功能便足以值回票价。
Dragon 基础操作
Dragon 中的按键说话等效操作:按下并松开可自定义的按键(默认为数字键盘上的减号键)开始监听;说「stop listening」或再次按该键停止。
Dragon 还支持应用控制命令——你可以通过语音切换应用、点击按钮、导航菜单、控制 Windows 功能。这对行动不便的用户尤为实用。
方案三:Windows 的现代 AI 语音识别
2026 年 Windows 市场的缺口,在于缺少一款能在全系统按键说话界面中整合 Whisper 级转录准确率与 AI 文本增强能力的工具。具备这种组合的工具目前仅存在于 macOS(Telvr、Wispr Flow),Windows 版本尚未推出。
Windows 用户当前可用的替代方案
Whisper 桌面版(开源): 多个社区项目将 Whisper 带到了 Windows 平台,目前维护较活跃的有:
- Whispering(开源,GitHub)—— 录制音频,通过本地 Whisper 转录,粘贴至剪贴板
- FasterWhisper for Windows —— 需要 Python 环境,通过量化模型提供更快的推理速度
这些工具输出原始 Whisper 转录,不含增强功能。配置需要对命令行操作有一定熟悉度。
Voice In(Chrome 扩展): 一款浏览器扩展,可为 Chrome 内的任意文本字段添加语音输入。使用 Google Web Speech API 而非 Whisper。英语准确率不错,其他语言支持有限。仅在 Chrome 内部可用。
Windows 版 Telvr
Telvr 的 Windows 版本正在开发中。推出后将为 Windows 带来完整的 Telvr 体验:按键说话、Whisper large-v3 转录、六种 AI 增强模式和全系统文本插入。
请在 Telvr 官网加入候补名单,Windows 版本发布时第一时间收到通知。
麦克风配置(适用于所有方案)
麦克风质量的影响比选择哪款语音识别工具更大。糟糕的麦克风会限制准确率,无论底层模型多么出色。
笔记本内置麦克风
在安静环境下可以使用,但可能无法应对背景噪音、空调声或办公室环境音。
外置 USB 麦克风
显著的升级。入门级 USB 麦克风($50–100,如 Blue Yeti Nano、Rode NT-USB Mini)录制的音频比内置麦克风清晰得多。更好的输入音质能直接转化为更高的准确率。
头戴式麦克风
一致的麦克风距离和位置让耳麦特别适合听写场景。USB 或蓝牙耳麦均可;尽量避免 3.5mm 模拟接口,因为它们容易引入噪声。
Windows 麦克风设置
- 前往「设置 > 系统 > 声音」
- 在「输入」下选择偏好的麦克风
- 点击「配置麦克风」并按照校准向导操作
- 使用音量计确认输入电平在正常说话音量下适中,不发生削波
目标输入电平: 以正常对话音量说话时,音量条应达到最大值的约 75%。过低会削弱识别效果;过高则导致削波失真。
常见问题排查
语音输入无法激活(Win+H):
- 确认已有文本字段处于激活状态(先点击文本框)
- 验证麦克风权限:「设置 > 隐私和安全性 > 麦克风」
任何工具准确率较差:
- 换一个麦克风测试
- 换到更安静的环境
- 说话稍微慢一点、清晰一点
- Dragon 用户:使用数小时后运行准确率调整向导
文字出现在错误位置:
- 目标应用可能不支持在该特定字段使用语音输入
- 确保焦点在正确的窗口和文本字段上
延迟过高(说完后等待时间很长):
- Windows 语音输入在 Microsoft 服务器处理;检查网络连接
- Dragon 使用本地处理;检查 CPU 占用——其他高负载应用可能拖慢速度