Telvr 如何工作？

按下快捷键，自然说话，Telvr 实时转录。文本直接插入光标所在位置。

支持哪些语言？

通过 Whisper large-v3 支持 50 多种语言。

不需要。阶梯式预付费模式：高用量时低至 EUR 0.003/分钟，初始 EUR 0.03/分钟。EUR 3 月最低消费（从用量中扣除）。无合约，无自动续费。

目前基于云端。社区版本支持本地部署在规划中。

系统范围，适用任何应用。

TLS 加密，无永久存储，与 Groq 签署数据处理协议。

系统范围，适用任何应用。

语音输入已远超简单听写的范畴。现代语音识别工具能够处理多种语言、自动去除填充词并智能格式化输出。但究竟哪种方案真正适合融入桌面生产力工作流？

我们对比了三种方案：Telvr（按键说话 + AI 增强）、OpenAI Whisper（开源转录）和系统原生听写（macOS 听写 / Windows 语音输入）。

在安静环境下处理英语，三种方案的基础准确率都相当不错。差异在真实场景下才充分显现：

Telvr 通过 Groq 推理 API 使用 Whisper large-v3，转录准确率与独立 Whisper 几乎相当，但延迟大幅降低。AI 增强层会自动修正语法并去除填充词。
Whisper（自托管） 提供出色的原始转录，但需要后期处理才能得到整洁的输出。本地运行对 GPU 资源要求较高。
系统原生听写 处理短句表现良好，但在技术术语、混合语言输入和较长段落上力不从心。

当语音输入在实时工作流中替代键盘时，速度至关重要：

这是三种方案差异最大的维度：

选择 Telvr，如果你希望语音输入在桌面上随时可用，且不想承担复杂的配置工作。AI 增强模式能将原始语音转化为格式规范的专业文本——这是 Whisper 和系统原生听写开箱即用都无法提供的能力。

选择 Whisper（自托管），如果你需要对数据拥有完全控制权、有足够的硬件资源，并且熟悉自行构建处理管道。

选择系统原生听写，用于准确率和格式要求不高的快速、偶发性语音输入。

三者之间最大的差距在于集成深度。Telvr 是唯一将转录、AI 处理和系统级文本插入整合为单一热键操作的方案。在桌面生产力场景下，这种一体化整合消除了让其他方案显得像临时凑合而非真正工具的摩擦感。