ブログ

Windowsで音声認識を設定する完全ガイド(2026年版)

Windowsの音声入力オプション

Windowsは他のどのデスクトッププラットフォームよりも多くの音声認識オプションを提供しています。完全無料の標準搭載ツールからエンタープライズ向けのプロフェッショナルソフトウェアまで、選択肢は豊富です。最適なオプションの設定には、必要なものによって2分から数時間かかります。

このガイドでは3つのレベルを取り上げます。すぐに使える標準搭載のWindows 音声入力、専門的な用途向けのDragon Professional、そして標準ツール以上のものを求めるWindowsユーザー向けの現代的なAI搭載オプションです。

オプション1:Windows 音声入力(標準搭載)

Windows 音声入力はWindowsで音声入力を始める最も手軽な方法です。インストール不要で、Windows 10バージョン20H2以降およびWindows 11で利用できます。

セットアップ

  1. テキストフィールドがアクティブなアプリケーションから Win + H を押す
  2. 画面上部にマイクウィジェットが表示される
  3. マイクボタンをクリックするか、再度Win+Hを押す
  4. 話し始める

以上です。基本的な使用に際してインストール、アカウント作成、設定は一切不要です。

自動句読点の有効化

自動句読点(Windows 11および最近のWindows 10ビルド)は、明示的に言わなくてもコンマやピリオドを自動的に追加します。

  1. Win+Hで音声入力を開く
  2. ウィジェットのギアアイコンをクリックする
  3. 「自動句読点」を有効にする

言語の設定

システムのデフォルト言語以外でディクテーションしたい場合:

  1. 設定 → 時刻と言語 → 言語と地域へ進む
  2. 希望の言語パックを追加する
  3. その言語の音声認識パッケージをダウンロードする
  4. ディクテーション前にタスクバーの言語セレクターで入力言語を切り替える

2026年時点のWindows 音声入力対応言語: 英語(US・UK・AU・IN)、中国語(簡体字・繁体字)、フランス語、ドイツ語、スペイン語、イタリア語、ポルトガル語、日本語、韓国語、アラビア語、その他約15言語。完全なリストはMicrosoftの公式ドキュメントを参照してください。

音声コマンド

Windows 音声入力はいくつかの音声コマンドをサポートしています。

  • 「聞き取り停止」——マイクを無効にします
  • 「削除して」——最後に口述したテキストを削除します
  • 「取り消して」——最後の発話を削除します
  • 「スリープ」/「起動」——リッスン状態を切り替えます

制限

Windows 音声入力は生のトランスクリプションを出力します。AIエンリッチメント、メールフォーマット、構造化された出力はありません。言い淀みはそのままテキストに現れます。句読点は有効化時に自動で処理されますが、複雑な文構造は手動での修正が必要な場合があります。

出力を編集することを前提とした日常的なディクテーションには十分です。編集なしでプロフェッショナル品質のテキストが必要な場合には向きません。

オプション2:Dragon Professional(Windows)

Dragon Professionalは、専門用語を必要とするWindowsユーザー——主に法律、医療、金融、技術分野——のためのプロフェッショナルグレードの選択肢です。

インストール

  1. NuanceのウェブサイトからDragon Professionalを購入する(2026年時点で$699)
  2. インストーラーをダウンロードする
  3. セットアップウィザードを実行する
  4. 音声プロファイルを作成する(初期トレーニングに5〜10分かかります)

音声プロファイルのトレーニング

Dragonの音声トレーニングにより精度が大幅に向上します。セットアップ中:

  1. 提供されたテキストを読み上げる(2〜3分間の読み上げ)
  2. Dragonがあなたの音声パターン、アクセント、話し方を分析する
  3. プロファイルがユーザーアカウントに保存される

修正を加えるにつれて、時間とともに精度はさらに向上します。

カスタム語彙

カスタム語彙機能はプロフェッショナルユーザーにとってのDragonの最大の強みです。

  1. Dragonの語彙エディターを開く
  2. 専門用語を追加する(医療用語、法律の引用、製品名、技術用語など)
  3. 略語の書き言葉形式と話し言葉形式を追加する(話す形式:「会社」、書く形式:「株式会社アクメ」)

高度に専門化した語彙を持つプロフェッショナルには、この機能だけで購入する価値があります。

Dragon の基本操作

Dragonのプッシュ・トゥ・トーク相当の操作:カスタマイズ可能なキー(デフォルトはテンキーのマイナスキー)を押して離すとリッスンが開始されます。「聞き取り停止」と言うか、もう一度キーを押すと停止します。

Dragonはアプリケーションのコントロールコマンドもサポートしており、音声でアプリを切り替えたり、ボタンをクリックしたり、メニューを操作したり、Windowsの機能をコントロールできます。運動障害のあるユーザーに便利な機能です。

オプション3:Windows向けの現代的なAI音声認識

2026年のWindowsにおけるギャップは、Whisperレベルのトランスクリプション精度とAIテキストエンリッチメント、システム全体のプッシュ・トゥ・トークインターフェースを組み合わせたツールが存在しないことです。macOS向けにはそうした組み合わせのツール(Telvr、Wispr Flow)がありますが、Windowsにはまだありません。

Windowsユーザーが現在使えるもの

Whisper Desktop(オープンソース): いくつかのコミュニティツールがWhisperをWindowsに導入しています。最もメンテナンスされているものは:

  • Whispering(オープンソース、GitHub)——音声を録音し、ローカルのWhisperで書き起こしてクリップボードに貼り付けます
  • FasterWhisper on Windows——Pythonのセットアップが必要ですが、量子化モデルによってより高速な処理が可能です

これらはエンリッチメントなしで生のWhisperトランスクリプションを出力します。セットアップにはコマンドラインツールの扱いに慣れていることが必要です。

Voice In(Chrome拡張機能): Chrome内の任意のテキストフィールドに音声入力を追加するブラウザ拡張機能です。GoogleのWeb Speech APIを使用しており、Whisperではありません。英語の精度は良好ですが、他の言語では制限があります。Chrome内のみで動作します。

Windows向けのTelvr

TelvrのWindowsバージョンは開発中です。リリース時にはmacOSユーザーが現在使っているフル機能をWindowsに提供します。プッシュ・トゥ・トーク、Whisper large-v3のトランスクリプション、6つのAIエンリッチメントモード、システム全体のテキスト挿入——これらすべてです。

Telvrのウェブサイトでウェイトリストにサインアップすれば、Windowsバージョンのリリース時に通知を受け取れます。

マイクの設定(すべての方法に共通)

マイクの品質は、どの音声認識ツールを使うかよりも重要です。マイクが悪ければ、どんなモデルを使っても精度は制限されます。

ノートPCの内蔵マイク

静かな環境では機能します。背景雑音、空調の音、オフィスの環境音には苦労する場合があります。

外付けUSBマイク

大きなアップグレードになります。エントリーレベルのUSBマイク($50〜100、Blue Yeti Nano、Rode NT-USB Miniなど)はノートPC内蔵マイクよりはるかにクリーンな音声を収録できます。入力音質の改善は直接認識精度の向上につながります。

ヘッドセットマイク

マイクの位置と距離が一定に保たれるため、ヘッドセットはディクテーションに特に適しています。USBまたはBluetoothのヘッドセットはどちらでも機能します。アナログの3.5mmは可能であれば避けてください——ノイズが混入しやすい傾向があります。

Windowsでのマイク設定

  1. 設定 → システム → サウンドへ進む
  2. 入力から希望のマイクを選択する
  3. 「マイクの構成」をクリックしてキャリブレーションウィザードに従う
  4. 音量メーターで入力レベルが適切か確認する

目標の入力レベル: 普通の会話音量で話したとき、音量バーが最大値の約75%に達するのが理想です。低すぎると認識が弱くなり、高すぎるとクリッピングが発生します。

一般的な問題のトラブルシューティング

音声入力が起動しない(Win+H):

  • テキストフィールドがアクティブか確認する(まずテキストボックスをクリックする)
  • マイクの権限を確認する:設定 → プライバシーとセキュリティ → マイク

どのツールでも精度が低い:

  • 別のマイクでテストする
  • より静かな場所に移動する
  • やや遅めにはっきり話す
  • Dragon使用時:数時間の使用後に精度調整ウィザードを実行する

テキストが間違った場所に表示される:

  • 対象アプリケーションがその特定のフィールドで音声入力をサポートしていない可能性があります
  • 正しいウィンドウとテキストフィールドにフォーカスがあることを確認する

レイテンシが高い(話してからテキストが表示されるまで長い待ち時間):

  • Windows 音声入力はMicrosoftのサーバーで処理されます。インターネット接続を確認する
  • Dragon:ローカル処理のため、CPU使用率を確認する——他の重い処理を行うアプリが原因で遅くなる場合があります