Telvr 如何工作？

按下快捷键，自然说话，Telvr 实时转录。文本直接插入光标所在位置。

支持哪些语言？

通过 Whisper large-v3 支持 50 多种语言。

不需要。阶梯式预付费模式：高用量时低至 EUR 0.003/分钟，初始 EUR 0.03/分钟。EUR 3 月最低消费（从用量中扣除）。无合约，无自动续费。

支持离线使用吗？

目前基于云端。社区版本支持本地部署在规划中。

支持哪些应用？

系统范围，适用任何应用。

TLS 加密，无永久存储，与 Groq 签署数据处理协议。

← 博客2026-02-15

多语言语音输入：支持 50 种以上语言的听写

Q: 支持哪些应用？

系统范围，适用任何应用。

多语言用户的痛点

对于需要使用多种语言工作的专业人士，标准语音输入工具始终存在一个摩擦点：你必须告诉工具接下来要说哪种语言。忘了切换，你的中文会被识别成乱码的英文；切换太早，工具又会漏掉新语言的开头几个字。

当你的工作日涉及英文邮件、中文客户通话、法文 Slack 消息和母语内部文件时，这种频繁的语言切换操作会不断打断本应顺畅的工作流程。

现代基于 Whisper 的工具通过自动语言检测解决了这个问题——但各家实现质量参差不齐。本文将介绍多语言语音输入的工作原理、不同工具的实际表现，以及如何搭建高效的多语言工作流。

自动语言检测的工作原理

Whisper large-v3 是目前多款语音工具的底层模型，自动语言检测是其核心功能之一。它从设计之初就是一个多语言模型，而非以英语为主、其他语言后来拼凑上去的产品。

检测机制通过分析最初几秒的音频，将其与各支持语言的声学特征进行匹配，识别出主要语言后再应用对应的解码逻辑。这一过程发生在完整转录开始之前。

检测准确率： 对于支持的 99 种语言中的大多数，2–3 秒清晰的语音即可完成准确检测。带口音的语音、语码混用（在一段话中混用多种语言）以及极短片段（低于 2 秒）会降低检测置信度。

置信度阈值： 当模型难以区分时——例如挪威语和丹麦语这类非常相近的语言——会默认选择置信度最高的候选语言。非常相似的语言之间偶尔会出现误检。

各工具的语言支持对比

并非所有多语言语音工具都使用相同的模型，语言支持方面的差异相当显著：

| 工具 | 语言数量 | 自动检测 | 备注 | |---|---|---|---| | Telvr（Whisper large-v3） | 50+ | 有 | 非英语语言质量最佳 | | Apple Dictation | 约 60 | 无 | 需手动切换语言 | | Windows Voice Typing | 约 25 | 无 | 需手动切换语言 | | Wispr Flow | 约 40 | 部分 | 主要针对英语优化 | | Dragon Professional | 约 15 | 无 | 英语口音处理能力强 | | Google Voice Typing | 约 100 | 有 | 英语以外质量参差 |

支持 50 种语言与支持 100 种语言之间的实际差距远小于数字所显示的。Google 列表中额外的那些语言大多是低资源语言，准确率远低于主要语言。对于实际专业使用而言，Whisper large-v3 的 50+ 种语言已覆盖绝大多数全球专业工作流。

配置多语言工作流

使用自动检测（Telvr）

切换语言无需任何配置。Telvr 会自动检测每段听写的语言。

工作方式： 用最适合当前场景的语言说话即可。每次按下热键都会开启新的语言检测窗口。从写德语邮件切换到英语 Slack 消息，只需切换上下文，无需更改任何设置。

提高自动检测准确率的建议：

先用目标语言说完一个完整句子，再进入正式内容
避免对小语种做极短的听写（一两个词）——检测需要几秒钟的音频
如果检测出错，重新以正确语言说开头的第一句话，后续识别会自动纠正

使用手动语言切换（Apple Dictation、Windows Voice Typing）

macOS 和 Windows 内置工具均需手动切换语言。

macOS： 点击听写浮窗上的语言选择器，或在「系统设置 > 键盘」中设置切换输入语言的快捷键。

Windows： 点击任务栏中的语言指示器，或按 Win+Space 循环切换已安装的语言。

建议： 只将实际使用的语言添加到输入法列表。列表越短，切换越快——三种具体语言比一长串列表要高效得多。

各语言的注意事项

语码混用（多语言混合）

许多多语言使用者会自然地在对话中混用语言——句子中途切换，或在用母语说话时插入另一种语言的技术术语。Whisper 处理这类情况比其他模型更出色，因为它的训练数据来自包含自然语码混用现象的多语言网络音频。

例如： 一位德国开发者在德语句子中夹杂英语技术术语（「Wir müssen das authentication flow fixen, der token refresh ist broken」），Whisper 能正确转录，因为它知道技术术语常见于其他语言环境中。

非拉丁字母语言

Whisper large-v3 处理非拉丁字母语言（中文、日文、韩文、阿拉伯文、印地文等）时使用相同的自动检测机制，输出默认使用对应的原生文字。

日文： 听写输出汉字/平假名/片假名的混合文字，与日语母语写作习惯一致。不包含振假名标注。

阿拉伯文： 从右到左的文本输出正确；文本框的显示行为取决于目标应用是否支持 RTL。

中文： 根据检测到的方言（普通话或粤语），输出简体或繁体字。

存在明显地区变体的语言

英语（美式/英式/澳式/印式）、法语（欧洲/加拿大）、葡萄牙语（欧洲/巴西）和西班牙语（卡斯蒂利亚/拉丁美洲）都有显著的发音差异。Whisper large-v3 无需指定地区即可合理处理这些变体——它会从口音中自然识别方言版本。

多语言使用的实际场景

多语言专业人士

一位与法国客户合作、团队说英语、内部报告用德语撰写的顾问：

给法国客户写邮件：Telvr 自动检测为法语，邮件模式生成专业法语邮件
给团队发英语 Slack 消息：Telvr 检测为英语，使用清洁校正模式
撰写德语报告：Telvr 检测为德语，使用清洁校正模式

整个工作流中无需任何手动语言切换。

国际化开发者

一位母语为西班牙语、但用英语撰写代码文档的开发者：

西班牙语 Slack 消息：Telvr 检测为西班牙语
英语代码注释：当内容是技术英语时，Telvr 检测为英语
会议记录（可能混合语言）：清洁校正模式处理任何语言

语言学习者

用正在学习的语言进行语音输入，能够获得有价值的反馈。用目标语言听写，然后查看转录，观察发音如何映射为书面文字。转录中的错误往往指向发音问题。

语言质量层级

第一梯队——优秀： 英语（各变体）、德语、法语、西班牙语、葡萄牙语、荷兰语、意大利语、日语、中文（普通话）、韩语、阿拉伯语

第二梯队——良好： 俄语、波兰语、土耳其语、瑞典语、挪威语、丹麦语、芬兰语、捷克语、罗马尼亚语、匈牙利语、乌克兰语、希腊语、希伯来语

第三梯队——可用，可能需要校对： 大多数其他欧洲语言、印地语、孟加拉语、泰语、印度尼西亚语、越南语

第一和第二梯队的质量足以满足专业使用需求，无需逐句编辑。第三梯队语言能产出可用内容，但技术或正式内容可能需要更多审核。

选择多语言工具

自动检测、零配置的多语言工作流： Telvr 是最强选择。Whisper large-v3 模型语言检测可靠，会话之间无需任何语言配置。

主要使用英语、偶尔需要其他语言： 大多数工具都能胜任，只要支持你的第二语言即可。

非拉丁字母语言： 在依赖语音输入前，请先确认目标应用正确支持该文字系统。转录准确率有保障，但显示效果取决于应用本身。

第一梯队以下的语言： 在围绕该语言建立工作流之前，务必先进行测试。做一次 2 分钟的听写测试，检查转录结果，判断准确率是否满足你的使用需求。