ブログ

Macのあらゆるアプリで音声入力を使う方法

アプリの互換性という問題

Macの多くの音声入力ツールは、開発者がサポートを追加した場所でしか機能しません。Apple Dictationは Appleのアプリとほとんどのテキストフィールドでは動作しますが、サードパーティアプリでは挙動が安定しません。Webベースの音声ツールはChromeのテキストフィールドでしか機能しません。専用のディクテーションアプリは多くの場合、専用インターフェースで入力してから貼り付けるという手順を必要とします。

音声入力を本当の習慣として定着させるには、どこでも機能する必要があります。ターミナルで、IDEで、Slackのデスクトップアプリで、Notionで、年に2回しか使わないフォームのテキストフィールドで。使う前に「ここで音声は使えるかな」と考えなければならないなら、その摩擦が習慣を壊します。

システム全体へのテキスト挿入は、アプリケーションレイヤーを完全に迂回することでこの問題を解決します。

システム全体への挿入の仕組み

標準的な音声入力ツールは、アクセシビリティAPIまたはアプリ固有の統合を通じてアプリケーションと通信します。そのため「対応アプリ」でしか機能しないのです——アプリ側が音声ツールの使う特定のインターフェースを実装またはサポートする必要があります。

システム全体への挿入は異なる仕組みで動作します。発話を書き起こして処理した後、ツールはオペレーティングシステムレベルでキーボード入力をプログラム的にシミュレートします——キーボードリマッパーやマクロツールといったアクセシビリティソフトウェアと同じ仕組みです。結果として、テキストが一文字ずつ入力されたかのようにカーソル位置に表示されます。

アプリケーションのAPIではなくOSの入力レベルで動作するため、テキスト入力を受け付けるほぼあらゆるアプリケーションで機能します。

  • テキストエディタとIDE
  • ターミナルとコマンドライン
  • ブラウザのテキストフィールド(Webアプリを含む)
  • ネイティブのmacOSアプリ
  • Electronアプリ(VS Code、Notion、Slack、Discord)
  • テキスト入力を受け付けるPDFのフォームフィールド
  • パスワードフィールド(適切な注意を払った上で)

TelvrでMacのシステム全体音声入力を設定する

ステップ1:Telvrをインストールする

ウェブサイトからTelvrをダウンロードしてインストールします。初回起動時に、macOSがアクセシビリティ権限を要求します——これがシステム全体へのテキスト挿入を有効にする権限です。システム設定の「プライバシーとセキュリティ」→「アクセシビリティ」でこの権限を付与してください。

この権限がない場合、テキストは明示的にサポートしているアプリにのみ挿入できます。権限を付与することで、テキスト挿入がどこでも機能するようになります。

ステップ2:ホットキーを設定する

TelvrのデフォルトはOption + Spaceです。この組み合わせは使いやすく(各キーに親指を置く形)、アプリケーションのショートカットとほとんど競合しません。

別のキー組み合わせを好む場合:

  1. メニューバーからTelvrを開く
  2. 設定に移動する
  3. ホットキーフィールドをクリックして、希望のキー組み合わせを押す

おすすめの代替例:

  • 右Option + Space(左OptionをIME切り替えなどに使う場合)
  • Control + Shift + Space
  • キーボードにプログラム可能なキーがある場合は専用ファンクションキー
  • マウスに余分なボタンがある場合はサイドボタン

避けるべき組み合わせ:

  • Command + Space(Spotlight)
  • Option + Tab(一部のアプリでウィンドウスイッチャー)
  • IDEで頻繁に使う組み合わせ

ステップ3:エンリッチメントモードを選択する

ディクテーションの前に、コンテキストに合ったモードを選択してください。モードセレクターはTelvrのメニューバーアイコンにあります。

異なるアプリをまたいでシステム全体で使う場合、クリーンモードがどこでも機能するデフォルトです。特定のコンテキストでは他のモードに切り替えてください。

ステップ4:カーソルを配置する

テキストを表示させたいテキストフィールド、ドキュメント、ターミナルプロンプト、または任意の編集可能な領域をクリックします。カーソルが配置されている必要があります。Telvrはカーソル位置にテキストを挿入するため、アクティブなカーソルがなければ何も表示されません。

ステップ5:ディクテーションする

ホットキーを押したまま自然に話し、離します。1〜2秒以内にフォーマット済みのテキストがカーソル位置に表示されます。

アプリ別のヒント

ターミナル

ターミナルでの音声入力は、長いコマンド、gitのコミットメッセージ、拡張テキスト入力を受け付けるあらゆるターミナルプロンプトに便利です。

注意: テキストはターミナルプロンプトに一文字ずつ表示されます。標準的なコマンドは正常に機能します。パスワードは直接口述することを避けてください——パスワードマネージャーを使用してください。

特に便利な場面: git commit -m "..." でコミットメッセージを話す、nanoやvimでシェルスクリプトを書く(インサートモード)、複数行のheredocコンテンツの作成。

VS Code

エディタ本体、統合ターミナル、検索と置換のフィールド、gitコミットメッセージフィールド、ソース管理パネルのコメントフィールドなど、すべてのテキストフィールドでディクテーションが使えます。

推奨モード: コードコメントにはクリーンモード、PRの説明やコミットメッセージには開発タスクモード。

ブラウザ(Safari、Chrome、Firefox)

inputtextarea、またはcontenteditable要素があればディクテーションできます。これはWebベースのメールクライアント、Google Docs、ブラウザ版Notion、GitHubのIssueフォーム、事実上あらゆるWebアプリケーションをカバーします。

Slackデスクトップアプリ

SlackのようなElectronベースのアプリはシステム全体への挿入をサポートします。メッセージ入力フィールドに直接ディクテーションできます。メッセージにはクリーンモードが適していて、Slackのスレッドにポストミーティングサマリーを書くときにはミーティングノートモードが便利です。

Notion

デスクトップアプリとブラウザ版の両方で機能します。クリーンモードまたはミーティングノートモードでNotionのページに直接ディクテーションすると、よくフォーマットされたコンテンツが生成されます。

メールとカレンダー

ネイティブのmacOSアプリは完全にサポートされています。メールの作成ウィンドウ、カレンダーイベントの説明、メモフィールド——すべてでディクテーションが使えます。

トラブルシューティング

テキストが表示されない場合:

  • システム設定でアクセシビリティ権限が付与されているか確認する
  • カーソルが編集可能なフィールド(読み取り専用ではない領域)に置かれているか確認する
  • 特定のパスワードマネージャーなど一部の保護されたテキストフィールドは意図的にプログラムによる入力をブロックします

テキストが間違った場所に表示される場合:

  • ホットキーを押してからテキストが表示されるまでの間に挿入ポイントが移動しています。ディクテーション中はターゲットウィンドウのフォーカスを維持してください。

余分な文字やおかしな出力が出る場合:

  • オートコンプリートが有効なアプリで高速な文字入力を誤解釈している場合があります。そのアプリのオートコンプリートを無効にするか、設定で調整してください。

一部のアプリで動作し他では動作しない場合:

  • サンドボックス化されたセキュリティ強化されたアプリの中には、プログラムによる入力を意図的に制限するものがあります。これはTelvrの制限ではなく、そのアプリのセキュリティポリシーです。

システム全体のディクテーションが違いを生む理由

システム全体のディクテーションとアプリ固有の音声ツールの実際の違いは、思考モデルにあります。

アプリ固有のツールでは、音声入力は特定のアプリの機能です。どのアプリが対応しているかを覚えておき、それに応じて行動を切り替えます。

システム全体のディクテーションでは、音声入力はどこでも使える操作になります。ホットキーは常にそこにあります。習慣は意識的な判断ではなく反射的なものになります——他のキーボードショートカットと同じように、自然にホットキーに手が伸びるようになります。

この一貫性こそが、音声入力を一時的な実験ではなく、持続可能な生産性ツールにするものです。