音声認識における2つの哲学
OpenAI WhisperとDeepgramは、音声認識システムの構築における2つの全く異なるアプローチを体現しています。Whisperは膨大なインターネット上の音声コーパスでトレーニングされた汎用の多言語モデルとして設計されました。DeepgramはAPIファーストの商用製品として開発され、速度と開発者向けの統合に最適化されています。どちらも優れています。どちらが普遍的に優れているわけでもありません。
特定のユースケースにどちらが適しているかを判断するには、アーキテクチャ、ベンチマーク、料金モデル、そして異なるワークロードへの実際の影響を検討する必要があります。
アーキテクチャ
Whisper
WhisperはOpenAIがWebから収集した68万時間の多言語音声でトレーニングしたエンコーダー・デコーダー型のトランスフォーマーモデルです。音声をログメルスペクトログラムとして処理し、畳み込みエンコーダーに通してから、言語モデルのデコーダーでテキストに変換します。
モデルは複数のサイズで提供されています。tiny、base、small、medium、large-v2、そしてlarge-v3です。Telvrで使用しているlarge-v3モデルは最も精度が高い一方、最もリソースを必要とします。ローカルで実行するには相応のGPUか、かなりのCPU処理時間が必要です。
重要な特性:Whisperは多様でノイズの多いインターネット上の音声でトレーニングされています。これによりアクセント、背景雑音、口語的な発話に対して優れた堅牢性を持ちます。トレードオフとして、最速のモデルではなく、一部のユースケースが必要とするストリーミング・リアルタイムアーキテクチャも備えていません。
Deepgram
Deepgramはリアルタイムのストリーミングトランスクリプション向けに最適化した独自のエンドツーエンドの深層学習アーキテクチャを構築しました。Nova-3モデルはトークンを一つずつ低レイテンシで出力するアーキテクチャとして設計されており、主に英語(時間をかけて多言語サポートも追加されています)でトレーニングされています。
Deepgramのモデルはオープンソースではありません。DeepgramのAPIか、エンタープライズ向けのセルフホスト型Deepgramでしか利用できません。トレーニングデータはWhisperのインターネット規模のコーパスより管理されていますが、それゆえ多様性には限りがあります。
精度のベンチマーク
精度の比較は文脈に大きく依存します。どちらのモデルも良好な性能を発揮しており、違いは特定の条件で現れます。
標準ベンチマークでの単語誤り率(WER):
- Whisper large-v3とDeepgram Nova-3はクリーンな音声での標準英語ベンチマークでは競争力があり、どちらもWER 5%未満を達成しています。
- Whisper large-v3は強いアクセントのある発話と多言語混合の入力でNova-3を上回ります。
- Nova-3は発話の完了前に部分的な結果が必要なストリーミングのユースケースでWhisperを上回ります。
Whisperが優れた実際の条件:
- 多言語混合の発話(コードスイッチング)
- 強いアクセントのある非ネイティブ英語
- 専門的なトレーニングなしでの技術用語
- 街路やカフェなど様々な環境音が混在する背景雑音
Deepgramが優れた実際の条件:
- 既知の話者プロファイルを持つコールセンターの音声
- 最初のトークンのレイテンシが重要なリアルタイムストリーミング
- クリーンまたは半クリーンな環境でのアメリカ英語
- 話者ダイアライゼーション(誰が何を言ったかの識別)
速度とレイテンシ
Whisper(Groq API経由、Telvrで使用): トランスクリプションのステップのみで1秒未満。Groqの推論ハードウェアはトランスフォーマーモデル専用に構築されており、ローカルGPU推論よりはるかに高速にWhisper large-v3を動作させます。
Whisper(ローカル、Apple M3): 30秒の音声クリップで3〜6秒。小さいモデル(mediumやsmall)はより速く動作しますが、精度は若干低下します。
Deepgram Nova-3(ストリーミング): ストリーミングモードで最初の単語が表示されるまで300〜500ms。完全な音声ファイルのバッチトランスクリプションでは、総レイテンシはAPI経由のWhisperと同程度です。
ストリーミング機能はリアルタイムアプリケーションにおけるDeepgramの際立った優位性です。プッシュ・トゥ・トークのワークフロー(録音して、止めて、結果を得る)においては、Groq経由のWhisperとDeepgramのレイテンシの差は実際にはほとんどありません。
言語サポート
Whisper large-v3: 99言語をサポートしています。リソースの少ない言語でも精度が完全に失敗するのではなく、段階的に低下します。自動言語検出が内蔵されています。
Deepgram Nova-3: 強力な英語サポートを持ち、時間をかけて追加言語を追加してきました。2026年時点では約35言語で、品質にはばらつきがあります。英語の精度は優秀ですが、多くの他言語はWhisperのレベルを下回っています。
多言語ワークフローにはWhisperが明確に優れた選択です。スピードとストリーミングが重要な英語中心のアプリケーションにはDeepgramが競争力を持ちます。
料金
Whisper(OpenAI API): $0.006/分。ストリーミングオプションなし。
Whisper(Groq API経由): 開発者向けのワークロードで変動するティア制。高速な推論と競争力のある価格設定。
Deepgram Nova-3: 従量課金制で$0.0043/分から。ボリューム割引あり。ストリーミングも同じレート。
Telvrの使用料: 0.003ユーロ/分〜。これはトランスクリプションとAIエンリッチメント処理の合計コストを反映しており、アプリケーションレイヤーのない生のDeepgramやWhisper APIより高くなっています。
開発者向けの機能
Whisper(OpenAI API):
- シンプルなREST エンドポイント、標準的な音声ファイルアップロード
- ストリーミングなし
- 音声ファイルサイズ制限(無料: 25MB、有料: 100MB)
- リアルタイムキャプションではなく、プッシュ・トゥ・トークのワークフローに適したレスポンス時間
Deepgram:
- リアルタイムストリーミング用WebSocket API
- バッチファイル用REST API
- 追加機能:話者ダイアライゼーション、キーワードブースト、カスタム語彙
- リアルタイムユースケース向けのより充実した開発者ドキュメント
セルフホストのWhisper:
- 完全なオープンソース、Docker対応
- APIのコストなし
- GPUインフラが必要
- カスタムパイプラインのための最大の柔軟性
ユースケース別のどちらを使うべきか
プッシュ・トゥ・トークのデスクトップアプリ: 高速な推論APIを経由したWhisper large-v3。精度と言語サポートで優位に立っており、フルパイプラインでのレイテンシはDeepgramと同等です。
リアルタイムキャプション・ライブトランスクリプション: DeepgramのストリーミングAPI。読みやすいライブキャプションには500ms未満の最初のトークンのレイテンシが必要です。
コールセンター・電話音声: カスタム語彙と話者ダイアライゼーション機能を持つDeepgram。
多言語アプリケーション: Whisper。99言語のカバレッジと自動検出に匹敵する代替手段はありません。
プライバシーに敏感なローカルデプロイ: セルフホストのWhisper。Deepgramのセルフホストオプションはエンタープライズ専用です。
コスト重視の大量英語トランスクリプション: Deepgram Nova-3の$0.0043/分はOpenAIの$0.006/分より安価です。
Telvrが使っている理由
TelvrはGroqの推論API経由でWhisper large-v3を使用しています。この選択は意図的なものでした。large-v3がすべての言語で最高の精度を提供し、Groqのハードウェアがトランスクリプションのステップのレイテンシを1秒未満に抑え、自動言語検出によりユーザーが言語を切り替える際に何も設定する必要がないからです。
続くエンリッチメントレイヤー——出力をクリーンにするAI後処理、メールのフォーマット、ノートの構造化——はWhisperにもDeepgramにも含まれていません。生のトランスクリプションをフォーマット済みの使えるテキストに変換する別途のLLMステップです。
まとめ
WhisperとDeepgramは直接の競合というより、異なる用途のための異なるツールです。Whisper large-v3は多言語・ノイズ・実際の環境での音声における精度のリーダーです。Deepgram Nova-3は英語中心のリアルタイムアプリケーションにおける速度とストリーミングのリーダーです。
リアルタイムのストリーミングより品質が重要なデスクトップ生産性ツールには、高速な推論API経由のWhisper large-v3が優れた基盤となります。ユーザーが話した言葉をリアルタイムで表示させる必要があるアプリケーションには、Deepgramのストリーミングアーキテクチャがそのユースケースに特化して設計されています。