ブログ

Mac向け音声認識:全オプション比較(2026年版)

2026年のmacOSにおける音声入力

macOSは常に優れた音声入力の土台を持ってきました。AppleはOS X Mountain Lionでサーバーサイドのディクテーションを導入し、Macのハードウェアとソフトウェアの密な統合によって、サードパーティツールもシステムに深く入り込むことができます。2026年、Macユーザーはかつてないほど多くの音声入力オプションを持っています——5年前なら非現実的に見えたツールも含めて。

課題は、どのオプションが自分のワークフローに合っているかを見極めることです。この比較ではMacの関連するすべてのオプションを取り上げ、それぞれの強みと弱点を率直に評価します。

Apple Dictation(標準搭載)

まず評価すべきはApple Dictationです。コストがかからず、インストール不要だからです。システム設定のキーボード設定で有効にし、ショートカット(デフォルトはFnキーを2回押すか、Dictationキー)を割り当てれば使えます。

仕組み: 短いフレーズはAppleの音声モデルを使ってデバイス上で処理されます。長いディクテーションセッションは任意でAppleのサーバーを使用できます。出力はアクティブなテキストフィールドにリアルタイムで表示されます。

精度: 静かな環境での一般的な英語では安定しています。日常的な語彙はうまく処理できますが、専門用語、Appleの辞書にない固有名詞、コードに近い語彙は苦手です。

フォーマット: 明示的なコマンドによる基本的な句読点のみです。AIエンリッチメントはありません。「えー」や「その」と言えばそのままテキストに現れます。

プライバシー: 短いフレーズのオンデバイス処理は真にプライベートです。サーバー処理ではAppleに音声データが送信されます。

最適なユーザー: カジュアルなディクテーション、何もインストールしたくないユーザー、フォーマットが重要でない素早い音声入力。

Telvr

TelvrはmacOS向けの専用プッシュ・トゥ・トークディクテーションアプリです。メニューバーアプリとしてインストールされ、AIエンリッチメントを備えたシステム全体の音声入力を提供します。

仕組み: Mac上のどこでも——どのアプリでも、どのテキストフィールドでも、ターミナルでさえ——設定可能なホットキーを押し続けます。コンテンツを話してキーを離すと、約2秒以内に処理されたテキストがカーソル位置に表示されます。

処理パイプラインはGroqの推論API経由でWhisper large-v3を使用し、続くAIエンリッチメントのステップが生の発話をフォーマット済みの出力に変換します。

6つのエンリッチメントモード:

  • 生のトランスクリプション:発話をそのまま出力、最小限の処理
  • クリーン&コレクト:言い淀みを除去し、文法を修正して句読点を追加
  • プロフェッショナルメール:件名と挨拶を含む完全なメールとしてフォーマット
  • ミーティングノート:決定事項とアクションアイテムを含む箇条書きに構造化
  • 2〜3文サマリー:長い発話をコンパクトなサマリーに凝縮
  • 開発タスク:背景と受け入れ条件を含む開発タスクとして構造化

精度: Whisper large-v3は利用可能な最も精度の高いモデルの一つです。文法を修正して言い淀みを除去するエンリッチメントレイヤーと組み合わさることで、出力品質は生のトランスクリプションツールを一貫して上回ります。

レイテンシ: 一般的な文章で2秒未満。Groq経由の最適化された推論がWhisper large-v3をローカルGPU推論より大幅に速く動作させます。

言語サポート: 自動検出で50言語以上。Telvrは言語を設定する必要がなく、発話から自動的に識別します。

料金: 月額3ユーロ(利用分に充当)+実際のディクテーションに対して0.003ユーロ/分〜。14日間の無料トライアルには3ユーロのスタータークレジットが付きます。

最適なユーザー: システム全体の音声入力を求め、手動編集なしにクリーンでフォーマット済みの出力を得たいプロフェッショナル。

Wispr Flow

Wispr FlowはmacOSにおけるTelvrの最も近い競合です。同じプッシュ・トゥ・トークのアプローチにAI処理を加えています。

強み: 洗練されたインターフェース、高品質なAI出力、そして長いディクテーションセッションでの自然な間合いをよりスムーズに処理する「フロー」モード。

料金: 月額$14の固定料金。ヘビーユーザー(1日30分以上)にはTelvrの使用量ベースモデルより有利で、中程度のユーザーには割高になります。

制限: カスタムプロンプトモードなし。言語サポートはWhisperベースのツールより狭い。

最適なユーザー: 毎日頻繁にディクテーションを行い、一定の月額費用を好むMacユーザー。

Whisper(セルフホスト)

OpenAIのWhisperモデルはオープンソースとして利用可能です。適切なツールを使えば、Apple SiliconのMacでローカルに実行できます。

仕組み: 音声を録音し(soxやラッパーのwhisper-micなどを使用)、ローカルのWhisperモデルで処理して書き起こしを得ます。クラウドAPIは必要ありません。

精度: Telvrのトランスクリプション品質と同等——同じWhisper large-v3モデルです。違いはパイプラインとエンリッチメントレイヤーの有無にあります。

レイテンシ: Apple Silicon(M2/M3/M4チップ)では、Whisper large-v3がローカルで3〜8秒かかります。小さいモデル(mediumやsmall)は1〜3秒で動作しますが、精度は若干低下します。

連携性: 標準では統合機能はありません。テキストをアクティブなアプリケーションに渡すカスタムパイプラインを構築する必要があります。コミュニティのプロジェクト(Whispering、MacWhisperなど)がありますが、セットアップが必要です。

エンリッチメント: ゼロ。生のトランスクリプションのみ。後処理には別途ツールが必要です。

プライバシー: 完全にローカル。音声データはマシンの外に出ません。

最適なユーザー: 完全なコントロールを求める開発者、プライバシー重視のユーザー、カスタムワークフローを構築したい方。

Dragon for Mac(サービス終了)

Dragon NaturallySpeaking for MacはNuanceによって2023年に終了しました。macOS向けの現行バージョンは存在しません。MacでDragonレベルの精度と語彙管理を求める場合の選択肢は、Telvr、Wispr Flow、またはセルフホストのWhisperです。

多くの検索結果でまだDragon for Macが言及されているため、ここに明記します。macOSユーザーにとってはもはや実用的な選択肢ではありません。

比較表

| 機能 | Apple Dictation | Telvr | Wispr Flow | Whisper(ローカル) | |---|---|---|---|---| | システム全体で使用 | あり | あり | あり | カスタム設定で可能 | | AIエンリッチメント | なし | あり(6モード) | あり | なし | | レイテンシ | 1〜3秒 | 2秒未満 | 2秒未満 | 3〜8秒 | | 言語サポート | 約60 | 50以上(自動検出) | 約40 | 99 | | プライバシー | オンデバイスオプションあり | クラウド | クラウド | 完全ローカル | | 価格 | 無料 | 月額3ユーロ+使用量 | 月額$14 | 無料 | | カスタムプロンプト | なし | あり | なし | なし |

推奨

時折のディクテーションではなく、音声入力を本格的な生産性ツールとして使いたいMacユーザーの多くには、Telvrが最も完成度の高いソリューションです。システム全体への挿入、高速なクラウド処理、AIエンリッチメントモードの組み合わせが、音声入力が通常失敗する2つの理由に対処しています。アプリを切り替えなければならないこと、そして出力に多くの編集が必要なことです。

Apple Dictationを選ぶべき場合: 標準的なアプリでの時折の音声入力のみ必要で、何もインストールしたくない方。

Wispr Flowを選ぶべき場合: 毎日頻繁にディクテーションを行い、固定月額を好む方。

ローカルWhisperを選ぶべき場合: プライバシーが最優先事項で、カスタムパイプラインの構築に慣れている方。

重要な洞察は、2026年においてトランスクリプションの精度そのものは差別化要因ではないということです。複数の製品を通じて利用できるWhisper large-v3は非常に精度が高い。差別化要因は、トランスクリプション後のテキストに何が起きるかです——生の発話テキストが得られるのか、それともフォーマット済みの使えるテキストが得られるのか。