Telvrはどのように動作しますか？

ホットキーを押して、自然に話しかけてください。Telvrはホイスパーを使ってリアルタイムで音声を文字起こしします。完成したテキストはカーソルがある場所に自動で挿入されます。コピペもアプリ切り替えも不要です。

Whisper large-v3により50以上の言語に対応。自動言語検出機能付き。

サブスクリプション料金は？

いいえ。段階制プリペイドモデルです。高利用時は1分あたりEUR 0.003から、開始時はEUR 0.03/分。月額最低EUR 3（利用分に充当）。契約なし、自動更新なし。

現在はクラウドベースです。コミュニティ版のオフライン対応は計画中です。

システム全体で使用可能。あらゆるアプリケーションで機能します。

TLS暗号化、音声データの永続保存なし、Groqとのデータ処理契約。

音声入力は単純なディクテーションを超えた進化を遂げています。現代の音声認識ツールは複数言語への対応、言い淀みの除去、テキストの高度なフォーマットを実現しています。しかし、実際のデスクトップの生産性ワークフローに最も適しているのはどのソリューションでしょうか？

ここでは3つのアプローチを比較します。Telvr（プッシュ・トゥ・トーク＋AIエンリッチメント）、OpenAI Whisper（オープンソース音声認識）、OS標準の音声入力（macOS Dictation / Windows 音声入力）。

静かな環境での英語では、3つのソリューションすべてが基本的に高い精度を発揮します。実際の使用環境での違いは以下の通りです。

TelvrはGroqの推論API経由でWhisper large-v3を使用し、スタンドアローンのWhisperとほぼ同等の精度を、大幅に低いレイテンシで実現しています。AIエンリッチメントレイヤーが文法の修正と言い淀みの除去を自動で行います。
Whisper（セルフホスト）は優れた生のトランスクリプションを提供しますが、クリーンな出力には後処理が必要です。ローカルで動かすには相応のGPUリソースが必要です。
OS標準の音声入力は短いフレーズには有効ですが、専門用語、多言語混合の入力、長い文章では精度が落ちます。

音声入力がリアルタイムのワークフローでタイピングを代替する場合、速度は重要です。

アプローチが最も大きく異なるのはこの点です。

Telvr：システム全体のホットキーがカーソル位置に直接テキストを挿入します。ウィンドウを切り替えずにあらゆるアプリケーションで動作します。6つのAIエンリッチメントモードが生の発話をメール、ミーティングノート、クリーンなテキストへと変換します。
Whisper：カスタムパイプラインの構築が必要です。音声を録音し、書き起こしを実行し、結果を手動で貼り付ける必要があります。複数のオープンソースラッパーが存在しますが、システム全体への統合に匹敵するものはありません。
OS標準の音声入力：OSに内蔵されているものの、対応しているテキストフィールドに限定されます。エンリッチメント、フォーマット、複数モードの出力はありません。

Telvrを選ぶべき場合： 複雑なセットアップなしにデスクトップ全体で動作する音声入力が必要な方。AIエンリッチメントモードが生の発話をフォーマット済みのプロフェッショナルなテキストに変換します——これはWhisperもOS標準機能もそのままでは提供していません。

Whisper（セルフホスト）を選ぶべき場合： データの完全なコントロールが必要で、相応のハードウェアがあり、カスタムパイプラインの構築に慣れている方。

OS標準の音声入力を選ぶべき場合： 精度やフォーマットを問わない、軽い用途のカジュアルな音声入力が必要な方。

最大の差別化要素は連携性の深さです。Telvrはトランスクリプション、AI処理、システム全体のテキスト挿入を一つのホットキーに統合した唯一のソリューションです。デスクトップ生産性の観点では、この統合がほかのソリューションを「解決策」ではなく「回避策」のように感じさせる摩擦を取り除きます。