Telvrはどのように動作しますか？

ホットキーを押して、自然に話しかけてください。Telvrはホイスパーを使ってリアルタイムで音声を文字起こしします。完成したテキストはカーソルがある場所に自動で挿入されます。コピペもアプリ切り替えも不要です。

Whisper large-v3により50以上の言語に対応。自動言語検出機能付き。

サブスクリプション料金は？

いいえ。段階制プリペイドモデルです。高利用時は1分あたりEUR 0.003から、開始時はEUR 0.03/分。月額最低EUR 3（利用分に充当）。契約なし、自動更新なし。

オフライン対応ですか？

現在はクラウドベースです。コミュニティ版のオフライン対応は計画中です。

どのアプリで使えますか？

システム全体で使用可能。あらゆるアプリケーションで機能します。

データセキュリティは？

TLS暗号化、音声データの永続保存なし、Groqとのデータ処理契約。

← ブログ2026-02-23

Whisper vs Deepgram：2026年に優れた音声エンジンはどちらか

音声認識における2つの哲学

OpenAI WhisperとDeepgramは、音声認識システムの構築における2つの全く異なるアプローチを体現しています。Whisperは膨大なインターネット上の音声コーパスでトレーニングされた汎用の多言語モデルとして設計されました。DeepgramはAPIファーストの商用製品として開発され、速度と開発者向けの統合に最適化されています。どちらも優れています。どちらが普遍的に優れているわけでもありません。

特定のユースケースにどちらが適しているかを判断するには、アーキテクチャ、ベンチマーク、料金モデル、そして異なるワークロードへの実際の影響を検討する必要があります。

アーキテクチャ

Whisper

WhisperはOpenAIがWebから収集した68万時間の多言語音声でトレーニングしたエンコーダー・デコーダー型のトランスフォーマーモデルです。音声をログメルスペクトログラムとして処理し、畳み込みエンコーダーに通してから、言語モデルのデコーダーでテキストに変換します。

モデルは複数のサイズで提供されています。tiny、base、small、medium、large-v2、そしてlarge-v3です。Telvrで使用しているlarge-v3モデルは最も精度が高い一方、最もリソースを必要とします。ローカルで実行するには相応のGPUか、かなりのCPU処理時間が必要です。

重要な特性：Whisperは多様でノイズの多いインターネット上の音声でトレーニングされています。これによりアクセント、背景雑音、口語的な発話に対して優れた堅牢性を持ちます。トレードオフとして、最速のモデルではなく、一部のユースケースが必要とするストリーミング・リアルタイムアーキテクチャも備えていません。

Deepgram

Deepgramはリアルタイムのストリーミングトランスクリプション向けに最適化した独自のエンドツーエンドの深層学習アーキテクチャを構築しました。Nova-3モデルはトークンを一つずつ低レイテンシで出力するアーキテクチャとして設計されており、主に英語（時間をかけて多言語サポートも追加されています）でトレーニングされています。

Deepgramのモデルはオープンソースではありません。DeepgramのAPIか、エンタープライズ向けのセルフホスト型Deepgramでしか利用できません。トレーニングデータはWhisperのインターネット規模のコーパスより管理されていますが、それゆえ多様性には限りがあります。

精度のベンチマーク

精度の比較は文脈に大きく依存します。どちらのモデルも良好な性能を発揮しており、違いは特定の条件で現れます。

標準ベンチマークでの単語誤り率（WER）：

Whisper large-v3とDeepgram Nova-3はクリーンな音声での標準英語ベンチマークでは競争力があり、どちらもWER 5%未満を達成しています。
Whisper large-v3は強いアクセントのある発話と多言語混合の入力でNova-3を上回ります。
Nova-3は発話の完了前に部分的な結果が必要なストリーミングのユースケースでWhisperを上回ります。

Whisperが優れた実際の条件：

多言語混合の発話（コードスイッチング）
強いアクセントのある非ネイティブ英語
専門的なトレーニングなしでの技術用語
街路やカフェなど様々な環境音が混在する背景雑音

Deepgramが優れた実際の条件：

既知の話者プロファイルを持つコールセンターの音声
最初のトークンのレイテンシが重要なリアルタイムストリーミング
クリーンまたは半クリーンな環境でのアメリカ英語
話者ダイアライゼーション（誰が何を言ったかの識別）

速度とレイテンシ

Whisper（Groq API経由、Telvrで使用）： トランスクリプションのステップのみで1秒未満。Groqの推論ハードウェアはトランスフォーマーモデル専用に構築されており、ローカルGPU推論よりはるかに高速にWhisper large-v3を動作させます。

Whisper（ローカル、Apple M3）： 30秒の音声クリップで3〜6秒。小さいモデル（mediumやsmall）はより速く動作しますが、精度は若干低下します。

Deepgram Nova-3（ストリーミング）： ストリーミングモードで最初の単語が表示されるまで300〜500ms。完全な音声ファイルのバッチトランスクリプションでは、総レイテンシはAPI経由のWhisperと同程度です。

ストリーミング機能はリアルタイムアプリケーションにおけるDeepgramの際立った優位性です。プッシュ・トゥ・トークのワークフロー（録音して、止めて、結果を得る）においては、Groq経由のWhisperとDeepgramのレイテンシの差は実際にはほとんどありません。

言語サポート

Whisper large-v3： 99言語をサポートしています。リソースの少ない言語でも精度が完全に失敗するのではなく、段階的に低下します。自動言語検出が内蔵されています。

Deepgram Nova-3： 強力な英語サポートを持ち、時間をかけて追加言語を追加してきました。2026年時点では約35言語で、品質にはばらつきがあります。英語の精度は優秀ですが、多くの他言語はWhisperのレベルを下回っています。

多言語ワークフローにはWhisperが明確に優れた選択です。スピードとストリーミングが重要な英語中心のアプリケーションにはDeepgramが競争力を持ちます。

料金

Whisper（OpenAI API）： $0.006/分。ストリーミングオプションなし。

Whisper（Groq API経由）： 開発者向けのワークロードで変動するティア制。高速な推論と競争力のある価格設定。

Deepgram Nova-3： 従量課金制で$0.0043/分から。ボリューム割引あり。ストリーミングも同じレート。

Telvrの使用料： 0.003ユーロ/分〜。これはトランスクリプションとAIエンリッチメント処理の合計コストを反映しており、アプリケーションレイヤーのない生のDeepgramやWhisper APIより高くなっています。

開発者向けの機能

Whisper（OpenAI API）：

シンプルなREST エンドポイント、標準的な音声ファイルアップロード
ストリーミングなし
音声ファイルサイズ制限（無料: 25MB、有料: 100MB）
リアルタイムキャプションではなく、プッシュ・トゥ・トークのワークフローに適したレスポンス時間

Deepgram：

リアルタイムストリーミング用WebSocket API
バッチファイル用REST API
追加機能：話者ダイアライゼーション、キーワードブースト、カスタム語彙
リアルタイムユースケース向けのより充実した開発者ドキュメント

セルフホストのWhisper：

完全なオープンソース、Docker対応
APIのコストなし
GPUインフラが必要
カスタムパイプラインのための最大の柔軟性

ユースケース別のどちらを使うべきか

プッシュ・トゥ・トークのデスクトップアプリ： 高速な推論APIを経由したWhisper large-v3。精度と言語サポートで優位に立っており、フルパイプラインでのレイテンシはDeepgramと同等です。

リアルタイムキャプション・ライブトランスクリプション： DeepgramのストリーミングAPI。読みやすいライブキャプションには500ms未満の最初のトークンのレイテンシが必要です。

コールセンター・電話音声： カスタム語彙と話者ダイアライゼーション機能を持つDeepgram。

多言語アプリケーション： Whisper。99言語のカバレッジと自動検出に匹敵する代替手段はありません。

プライバシーに敏感なローカルデプロイ： セルフホストのWhisper。Deepgramのセルフホストオプションはエンタープライズ専用です。

コスト重視の大量英語トランスクリプション： Deepgram Nova-3の$0.0043/分はOpenAIの$0.006/分より安価です。

Telvrが使っている理由

TelvrはGroqの推論API経由でWhisper large-v3を使用しています。この選択は意図的なものでした。large-v3がすべての言語で最高の精度を提供し、Groqのハードウェアがトランスクリプションのステップのレイテンシを1秒未満に抑え、自動言語検出によりユーザーが言語を切り替える際に何も設定する必要がないからです。

続くエンリッチメントレイヤー——出力をクリーンにするAI後処理、メールのフォーマット、ノートの構造化——はWhisperにもDeepgramにも含まれていません。生のトランスクリプションをフォーマット済みの使えるテキストに変換する別途のLLMステップです。

まとめ

WhisperとDeepgramは直接の競合というより、異なる用途のための異なるツールです。Whisper large-v3は多言語・ノイズ・実際の環境での音声における精度のリーダーです。Deepgram Nova-3は英語中心のリアルタイムアプリケーションにおける速度とストリーミングのリーダーです。

リアルタイムのストリーミングより品質が重要なデスクトップ生産性ツールには、高速な推論API経由のWhisper large-v3が優れた基盤となります。ユーザーが話した言葉をリアルタイムで表示させる必要があるアプリケーションには、Deepgramのストリーミングアーキテクチャがそのユースケースに特化して設計されています。