ブログ

Windows向け音声認識:全オプション比較(2026年版)

2026年のWindowsにおける音声入力

WindowsユーザーはMacユーザーよりも長い間、多くのディクテーションの選択肢を持ってきました。一部はDragon NaturallySpeakingがWindowsで評判を築いたためであり、一部はWindowsのオープンなエコシステムがより多くのサードパーティツールを引き寄せたためです。しかし、その状況は大きく変わっています。

Dragonの優位性はAI搭載の代替ツールの登場によって侵食されてきました。Windows 音声入力は改善されました。そしてWhisperや他の現代的なモデルをベースにした新しいプッシュ・トゥ・トークツールが市場に参入してきました。ここでは選択肢の全体像を整理します。

Windows 音声入力(標準搭載、Win+H)

MicrosoftのWin+Hショートカットでアクセスできる内蔵の音声入力は、摩擦ゼロの出発点です。ほとんどのWindowsのテキストフィールドで機能し、自動句読点をサポート、コストはかかりません。

仕組み: Win+Hを押すと浮動のマイクウィジェットが表示されます。話すとテキストがアクティブなフィールドに入力されます。「聞き取り停止」と言うか、もう一度ボタンを押すと停止します。

精度: 静かな環境での英語は良好です。MicrosoftはWindows 10の最初のリリース以来、基盤となるモデルを大幅に改善しており、会話的な発話を安定して処理できます。

自動句読点: 利用でき、合理的に機能します。ほとんどの文ではわざわざ「句点」や「読点」と言う必要がありません——システムが推論します。

言語サポート: Whisperベースのツールと比べると対応言語は限られています。2026年時点で、Windows 音声入力は約25言語をサポートしています。

制限: AIエンリッチメントなし。Windowsのすべてのアプリではなく、Windowsのテキストフィールドでのみ機能します。カスタムモードなし。出力は生のトランスクリプションです。

最適なユーザー: 何もインストールせずに時折の音声入力が必要なWindowsユーザー。

Dragon Professional(Nuance)

Dragon Professionalは専門的な語彙を持つWindowsユーザー向けのゴールドスタンダードとして残っています。買い切り$699は大きな投資ですが、他のどのツールにも匹敵しない機能が付いています。

精度: 特に音声トレーニング後は優れています。Dragonは時間をかけてあなたの音声パターンと語彙を学習します。医療・法律・技術用語については、トレーニングされた語彙でのDragonの精度は汎用モデルを大幅に上回ります。

カスタム語彙: 専門用語、固有名詞、特殊なフレーズを追加できます。これがDragonの最大の競争優位性です。

連携性: アプリケーションのコントロールを含む深いWindowsとの統合。Dragonは音声コマンドでアプリを切り替えたり、ボタンをクリックしたり、メニューをナビゲートしたり、Windowsの機能を操作できます——テキスト入力をはるかに超えた機能です。

レイテンシ: トレーニング済みの音声ではほぼ瞬時で、一貫して1秒以下の応答時間です。

制限: 高い初期費用でサブスクリプションオプションなし。ソフトウェアのアーキテクチャが古い。AIエンリッチメントやテキストフォーマット機能なし——発話をそのまま書き起こします。Mac版は終了。

最適なユーザー: Windowsで医療・法律・金融などの専門用語について最高の精度が必要なプロフェッショナル。

Telvr(Windows版開発中)

Telvrは現在macOSアプリケーションで、Windowsサポートを積極的に開発しています。コアとなる体験——プッシュ・トゥ・トークとAIエンリッチメント、システム全体のテキスト挿入、Whisper large-v3の精度——がWindowsに提供される予定です。

Windowsユーザーが期待できること: macOSユーザーが現在使っているものと同じワークフロー。どのアプリケーションでもホットキーを押したまま話して離すと、約2秒以内にカーソル位置にフォーマット済みのテキストが挿入されます。メール、ミーティングノート、サマリー、開発タスク、汎用クリーンアップをカバーする6つのエンリッチメントモード。

Windowsにとっての意義: 現在、Whisperレベルのトランスクリプション精度とAIテキストエンリッチメント、そして真のシステム全体への挿入をシンプルなプッシュ・トゥ・トークインターフェースで組み合わせたWindowsツールは存在しません。Windows 音声入力にはエンリッチメントがなく、Dragonには現代的なAIフォーマットがなく、Whisperツールには統合性がありません。

料金: macOS版と同じく月額3ユーロ(利用分に充当)+0.003ユーロ/分〜。

Windowsをお使いで、このワークフローに関心がある方は、TelvrのウェブサイトでウェイトリストへのサインアップがWindowsバージョンのリリース時に通知を受け取る最善の方法です。

Whisperベースのツール(Windows)

複数のコミュニティおよび商用ツールがWhisperによるトランスクリプションをWindowsに提供しています。

Whisper TranscriberおよびローカルCLI: WindowsでWhisperを直接実行します。Pythonのセットアップと高速推論のためのCUDA対応GPU(CPUでも動作しますが小さいモデルで)が必要です。生のトランスクリプションのみで、エンリッチメントはありません。

MacWhisper相当のツール: いくつかのWindowsアプリがWhisperを基本的なインターフェースでラップしています。多くはファイルベース(音声を録音してトランスクリプトを得る)であり、リアルタイムのキーボード代替ではありません。

制限: 現在のWindowsのすべてのWhisperツールは手動での統合作業が必要です。TelvrがmacOSで提供するプッシュ・トゥ・トークのシステム全体への挿入を提供するものは一つもありません。エンリッチメントレイヤーもありません。

最適なユーザー: コマンドラインツールに慣れた開発者、プライバシー重視のユーザー、独自のパイプラインを構築したい方。

Google 音声入力(Chrome)

Google 音声入力はWindows上のChromeブラウザで利用できます。Chrome内の任意のcontenteditableフィールドで動作し、Googleの大規模なトレーニングデータから恩恵を受けた精度を持ちます。

制限: Chromeのみ。ネイティブのWindowsアプリケーションでは動作しません。エンリッチメントなし。プライバシーの懸念もあります。

最適なユーザー: 主にChromeで作業し、Webアプリケーションで無料の音声入力が必要なユーザー。

旧来のWindows音声認識

Win+Hより古いWindows音声認識(コントロールパネルまたは検索からアクセス)は、現代的なWin+H実装より多くのコマンドを持ちながら精度は低くなります。現在では大部分がWindows 音声入力に取って代わられており、アプリケーションコントロールコマンドが特に必要でない限りスキップして問題ありません。

比較表

| 機能 | Windows 音声入力 | Dragon Professional | Telvr(macOS) | Whisper(ローカル) | |---|---|---|---|---| | プラットフォーム | Windows | Windows | macOS(Windows近日) | 両方 | | システム全体で使用 | ほとんどのアプリ | あり | あり | カスタム設定で可能 | | AIエンリッチメント | なし | なし | あり(6モード) | なし | | レイテンシ | 1〜3秒 | 1秒未満 | 2秒未満 | 3〜15秒 | | 言語サポート | 約25 | 約15 | 50以上(自動検出) | 99 | | 価格 | 無料 | $699(買い切り) | 月額3ユーロ+使用量 | 無料 | | カスタム語彙 | なし | あり | カスタムプロンプト | なし |

Windowsユーザーへの推奨

現状: 2026年のWindowsユーザーには、現代的なAIの精度・エンリッチメント・シームレスなシステム全体への統合をすべて兼ね備えた単一のツールが存在しません。そのギャップを埋めるのがTelvrのWindowsバージョンがリリースされたときの使命です。

それまでの間:

無料でのカジュアルな音声入力: Windows 音声入力(Win+H)が明確な出発点です。自動句読点と改善された精度により、日常的なタスクには十分機能します。

専門的な特殊語彙が必要な場合: Dragon Professionalは、カスタム語彙のトレーニングと専門用語の高精度が必要なWindowsユーザーにとって依然として唯一の本格的な選択肢です。

最高のトランスクリプションを求める技術ユーザー: Whisperingのようなコミュニティラッパーを使ったローカルのWhisperでWhisperレベルの精度が得られますが、セットアップが必要で出力は生のテキストです。

TelvrのようなExperienceを求めるWindowsユーザー: ウェイトリストにサインアップしてください。macOS版がWindowsリリースで何が提供されるかを示しています。

Windowsにおけるこのギャップは大きく、それはまさにAIエンリッチメントを備えた現代的なプッシュ・トゥ・トークツールが埋めようとしているギャップです。