ブログ

Whisper vs Deepgram:2026年に優れた音声エンジンはどちらか

音声認識における2つの哲学

OpenAI WhisperとDeepgramは、音声認識システムの構築における2つの全く異なるアプローチを体現しています。Whisperは膨大なインターネット上の音声コーパスでトレーニングされた汎用の多言語モデルとして設計されました。DeepgramはAPIファーストの商用製品として開発され、速度と開発者向けの統合に最適化されています。どちらも優れています。どちらが普遍的に優れているわけでもありません。

特定のユースケースにどちらが適しているかを判断するには、アーキテクチャ、ベンチマーク、料金モデル、そして異なるワークロードへの実際の影響を検討する必要があります。

アーキテクチャ

Whisper

WhisperはOpenAIがWebから収集した68万時間の多言語音声でトレーニングしたエンコーダー・デコーダー型のトランスフォーマーモデルです。音声をログメルスペクトログラムとして処理し、畳み込みエンコーダーに通してから、言語モデルのデコーダーでテキストに変換します。

モデルは複数のサイズで提供されています。tiny、base、small、medium、large-v2、そしてlarge-v3です。Telvrで使用しているlarge-v3モデルは最も精度が高い一方、最もリソースを必要とします。ローカルで実行するには相応のGPUか、かなりのCPU処理時間が必要です。

重要な特性:Whisperは多様でノイズの多いインターネット上の音声でトレーニングされています。これによりアクセント、背景雑音、口語的な発話に対して優れた堅牢性を持ちます。トレードオフとして、最速のモデルではなく、一部のユースケースが必要とするストリーミング・リアルタイムアーキテクチャも備えていません。

Deepgram

Deepgramはリアルタイムのストリーミングトランスクリプション向けに最適化した独自のエンドツーエンドの深層学習アーキテクチャを構築しました。Nova-3モデルはトークンを一つずつ低レイテンシで出力するアーキテクチャとして設計されており、主に英語(時間をかけて多言語サポートも追加されています)でトレーニングされています。

Deepgramのモデルはオープンソースではありません。DeepgramのAPIか、エンタープライズ向けのセルフホスト型Deepgramでしか利用できません。トレーニングデータはWhisperのインターネット規模のコーパスより管理されていますが、それゆえ多様性には限りがあります。

精度のベンチマーク

精度の比較は文脈に大きく依存します。どちらのモデルも良好な性能を発揮しており、違いは特定の条件で現れます。

標準ベンチマークでの単語誤り率(WER):

  • Whisper large-v3とDeepgram Nova-3はクリーンな音声での標準英語ベンチマークでは競争力があり、どちらもWER 5%未満を達成しています。
  • Whisper large-v3は強いアクセントのある発話と多言語混合の入力でNova-3を上回ります。
  • Nova-3は発話の完了前に部分的な結果が必要なストリーミングのユースケースでWhisperを上回ります。

Whisperが優れた実際の条件:

  • 多言語混合の発話(コードスイッチング)
  • 強いアクセントのある非ネイティブ英語
  • 専門的なトレーニングなしでの技術用語
  • 街路やカフェなど様々な環境音が混在する背景雑音

Deepgramが優れた実際の条件:

  • 既知の話者プロファイルを持つコールセンターの音声
  • 最初のトークンのレイテンシが重要なリアルタイムストリーミング
  • クリーンまたは半クリーンな環境でのアメリカ英語
  • 話者ダイアライゼーション(誰が何を言ったかの識別)

速度とレイテンシ

Whisper(Groq API経由、Telvrで使用): トランスクリプションのステップのみで1秒未満。Groqの推論ハードウェアはトランスフォーマーモデル専用に構築されており、ローカルGPU推論よりはるかに高速にWhisper large-v3を動作させます。

Whisper(ローカル、Apple M3): 30秒の音声クリップで3〜6秒。小さいモデル(mediumやsmall)はより速く動作しますが、精度は若干低下します。

Deepgram Nova-3(ストリーミング): ストリーミングモードで最初の単語が表示されるまで300〜500ms。完全な音声ファイルのバッチトランスクリプションでは、総レイテンシはAPI経由のWhisperと同程度です。

ストリーミング機能はリアルタイムアプリケーションにおけるDeepgramの際立った優位性です。プッシュ・トゥ・トークのワークフロー(録音して、止めて、結果を得る)においては、Groq経由のWhisperとDeepgramのレイテンシの差は実際にはほとんどありません。

言語サポート

Whisper large-v3: 99言語をサポートしています。リソースの少ない言語でも精度が完全に失敗するのではなく、段階的に低下します。自動言語検出が内蔵されています。

Deepgram Nova-3: 強力な英語サポートを持ち、時間をかけて追加言語を追加してきました。2026年時点では約35言語で、品質にはばらつきがあります。英語の精度は優秀ですが、多くの他言語はWhisperのレベルを下回っています。

多言語ワークフローにはWhisperが明確に優れた選択です。スピードとストリーミングが重要な英語中心のアプリケーションにはDeepgramが競争力を持ちます。

料金

Whisper(OpenAI API): $0.006/分。ストリーミングオプションなし。

Whisper(Groq API経由): 開発者向けのワークロードで変動するティア制。高速な推論と競争力のある価格設定。

Deepgram Nova-3: 従量課金制で$0.0043/分から。ボリューム割引あり。ストリーミングも同じレート。

Telvrの使用料: 0.003ユーロ/分〜。これはトランスクリプションとAIエンリッチメント処理の合計コストを反映しており、アプリケーションレイヤーのない生のDeepgramやWhisper APIより高くなっています。

開発者向けの機能

Whisper(OpenAI API):

  • シンプルなREST エンドポイント、標準的な音声ファイルアップロード
  • ストリーミングなし
  • 音声ファイルサイズ制限(無料: 25MB、有料: 100MB)
  • リアルタイムキャプションではなく、プッシュ・トゥ・トークのワークフローに適したレスポンス時間

Deepgram:

  • リアルタイムストリーミング用WebSocket API
  • バッチファイル用REST API
  • 追加機能:話者ダイアライゼーション、キーワードブースト、カスタム語彙
  • リアルタイムユースケース向けのより充実した開発者ドキュメント

セルフホストのWhisper:

  • 完全なオープンソース、Docker対応
  • APIのコストなし
  • GPUインフラが必要
  • カスタムパイプラインのための最大の柔軟性

ユースケース別のどちらを使うべきか

プッシュ・トゥ・トークのデスクトップアプリ: 高速な推論APIを経由したWhisper large-v3。精度と言語サポートで優位に立っており、フルパイプラインでのレイテンシはDeepgramと同等です。

リアルタイムキャプション・ライブトランスクリプション: DeepgramのストリーミングAPI。読みやすいライブキャプションには500ms未満の最初のトークンのレイテンシが必要です。

コールセンター・電話音声: カスタム語彙と話者ダイアライゼーション機能を持つDeepgram。

多言語アプリケーション: Whisper。99言語のカバレッジと自動検出に匹敵する代替手段はありません。

プライバシーに敏感なローカルデプロイ: セルフホストのWhisper。Deepgramのセルフホストオプションはエンタープライズ専用です。

コスト重視の大量英語トランスクリプション: Deepgram Nova-3の$0.0043/分はOpenAIの$0.006/分より安価です。

Telvrが使っている理由

TelvrはGroqの推論API経由でWhisper large-v3を使用しています。この選択は意図的なものでした。large-v3がすべての言語で最高の精度を提供し、Groqのハードウェアがトランスクリプションのステップのレイテンシを1秒未満に抑え、自動言語検出によりユーザーが言語を切り替える際に何も設定する必要がないからです。

続くエンリッチメントレイヤー——出力をクリーンにするAI後処理、メールのフォーマット、ノートの構造化——はWhisperにもDeepgramにも含まれていません。生のトランスクリプションをフォーマット済みの使えるテキストに変換する別途のLLMステップです。

まとめ

WhisperとDeepgramは直接の競合というより、異なる用途のための異なるツールです。Whisper large-v3は多言語・ノイズ・実際の環境での音声における精度のリーダーです。Deepgram Nova-3は英語中心のリアルタイムアプリケーションにおける速度とストリーミングのリーダーです。

リアルタイムのストリーミングより品質が重要なデスクトップ生産性ツールには、高速な推論API経由のWhisper large-v3が優れた基盤となります。ユーザーが話した言葉をリアルタイムで表示させる必要があるアプリケーションには、Deepgramのストリーミングアーキテクチャがそのユースケースに特化して設計されています。