Telvr 如何工作？

按下快捷键，自然说话，Telvr 实时转录。文本直接插入光标所在位置。

支持哪些语言？

通过 Whisper large-v3 支持 50 多种语言。

不需要。阶梯式预付费模式：高用量时低至 EUR 0.003/分钟，初始 EUR 0.03/分钟。EUR 3 月最低消费（从用量中扣除）。无合约，无自动续费。

支持离线使用吗？

目前基于云端。社区版本支持本地部署在规划中。

支持哪些应用？

系统范围，适用任何应用。

TLS 加密，无永久存储，与 Groq 签署数据处理协议。

← 博客2026-02-19

按键说话 vs 持续监听：哪种模式更胜一筹？

Q: 支持哪些应用？

系统范围，适用任何应用。

语音输入的两种流派

每款语音输入工具都面临一个根本性的设计抉择：麦克风什么时候工作？

主流的两种模式是按键说话（仅在按住按键时激活麦克风）和持续监听（麦克风持续开启，通常通过唤醒词或开始/停止命令触发）。两种模式在隐私性、准确率、工作流整合和资源占用方面各有不同的取舍。

这不仅仅是用户体验偏好的问题——它反映了语音输入如何融入工作环境的根本性差异。

按键说话：主动、可控

在按键说话模式下，你按住热键激活麦克风，说出要输入的内容，说完后松开按键。麦克风在其余所有时间均处于非激活状态。

隐私性： 这是语音输入领域最强的隐私保障。应用仅在热键被物理按住时才能捕获音频。没有后台监听，不会意外录入私密对话，也不存在「某段无意间的音频是否被处理」的疑虑。在同事、客户或敏感信息常在耳边的工作环境中，这一点尤为重要。

准确率： 按键说话通常能获得更高的准确率，因为音频片段干净且边界明确。模型接收到的正好是一段完整的话语——从按下热键到松开热键——无需从环境噪音中检测语音边界，也不存在背景对话是否为目标输入的模糊性。

工作流： 按键说话的操作是明确且有意识的。你准备好想说的内容，按下热键，说话，松开。这与「我现在要写东西」和「我写完了」的心理模型自然契合。它与键盘鼠标的使用方式协调一致，因为不要求双手完全解放。

电量与资源： 不在听写状态时麦克风闲置。CPU 和网络活动仅在听写期间发生。

局限性： 每次听写都需要一个有意识的触发动作。对于需要持续免提听写的场景（如医生边检查患者边口述），按键说话并非最自然的模式。

持续监听：连续、免提

持续监听（或称连续听写）通过语音活动检测，自动识别你何时开始说话并处理对应的音频。持续运行的 Apple 听写、Android 上的 Google 语音输入，以及面向行动不便用户的免提辅助工具，通常采用这种模式。

隐私性： 持续监听需要麦克风持续开启。工具必须不断处理音频以检测你何时开始说话。即使有良好的本地处理，也存在固有的风险：你麦克风附近的任何对话都可能被捕获，即便并非有意为输入。对于大多数企业环境和共享办公空间，这是真实存在的隐患。

准确率： 表现不稳定。模型必须区分有意的听写内容和环境噪音——与同事的闲聊、后台播放的视频，或附近其他人的说话声。误触发和漏掉开头会给输出引入噪声。

工作流： 更适合免提场景。医疗专业人员在检查患者时口述记录、双手需要同时操作的工人，以及因运动障碍无法按住按键的用户，都能从持续听写中获益。

电量与资源： 麦克风持续开启加上持续的语音活动检测，消耗的电量和处理能力明显多于按键说话。

局限性： 不适合共享或开放式办公环境。误触发会产生干扰。在语音输入和键盘输入之间频繁切换的场景下，与工具「持续对话」的感觉可能显得不自然。

唤醒词模式

第三种方式使用唤醒词（「Hey [产品名]」）开始监听，以停止命令或沉默超时结束会话。Siri、Alexa 和 Google Assistant 均采用这种模式。在桌面听写领域，这种方式很少被采用，因为在高频使用场景下，唤醒词本身就成了一种摩擦。

对输出质量的影响

除了原始转录准确率，激活模式还影响 AI 增强的输出质量：

按键说话的优势： AI 接收到的正好是一段边界清晰的完整话语。增强模型处理的是一句完整、有意识的陈述。没有无意语音的干扰，模型也无需处理边界检测——用户松开热键即定义了语音片段的终点。

持续监听的挑战： 增强模型收到的音频片段可能包含口误、环境语音和模糊的边界。这让 AI 的工作更加困难，可能导致格式化输出中出现瑕疵。

Telvr 的设计选择

Telvr 完全围绕按键说话构建，这是基于两个核心判断的主动选择：

首先，隐私性在专业环境中至关重要。一款面向桌面生产力设计的工具——敏感对话时常发生的环境——应当给予用户对麦克风何时激活的绝对控制权。按键说话无需任何配置即可实现这种控制。

其次，按键说话的明确性能带来更好的输出。按下热键才开口的用户，往往会在说话前先在脑中组织好想法，而不是大声自由联想后期待 AI 从意识流中提炼出意图。这样的输入更连贯，AI 增强的输出质量也相应更高。

哪种模式适合你

选择按键说话，如果你：

在共享办公室或开放式办公环境中工作
有隐私顾虑（附近有通话、敏感对话或机密信息）
频繁在打字和语音输入之间切换
希望对每次听写会话有明确的控制感
使用语音替代特定场景的键盘输入，而非全天持续免提使用

选择持续监听，如果你：

需要完全免提操作（医疗操作、体力劳动）
在私密、安静的环境中独立工作
需要连续口述较长内容，期间无需与电脑进行其他交互

选择唤醒词，如果你：

使用的是语音助手而非听写工具
需要在不按任何实体键的情况下激活语音

对于大多数在桌前将语音作为键盘补充的知识工作者——撰写邮件、文档、消息和笔记——按键说话是更合适的选择。明确、有边界的激活方式与桌面工作的实际节奏完美契合：间歇性的文字输入需求，而非持续不断的独白。