PipeVoice のインストール・使い方ガイド｜Windowsでプライベート音声タイピング

「音声入力を使いたいけど、マイクの音声がクラウドに送られるのは困る」。そう感じているエンジニアや個人事業主は多いはずです。

Windowsで使える音声タイピングツールの多くは、文字起こしをクラウドサービスに依存しています。有名な有料ツール「Wispr Flow」は年間144ドルかかります。

PipeVoiceは、そうした課題を解決するために開発された無料・オープンソースの音声タイピングツールです。文字起こしにはローカルのWhisperを使用します。テキスト整形には手元のOllamaを使えます。すべてを自分のマシン内で完結させられます。

アカウント登録もテレメトリーも不要です。外部への通信そのものが存在しない設計になっています。

PipeVoiceのインストール手順と初期設定方法
ローカルWhisper・Ollamaと連携してプライベートに使う方法
ホットキーで素早く音声入力するための基本的な使い方

PipeVoiceとは｜クラウド不要のプライベート音声入力ツール
必要な環境・スペック要件
PipeVoiceのインストール手順
1. 事前に用意するもの
2. ステップバイステップ手順
Whisper＆Ollama連携セットアップ
初期設定と基本的な使い方
活用例・応用機能と便利な使い方
よくあるエラーと対処方法
まとめ｜プライベート音声タイピングの実現

PipeVoiceとは｜クラウド不要のプライベート音声入力ツール

PipeVoiceは、Windowsで動作する無料・オープンソースの音声タイピングツールです。開発者自身が「クラウドにマイク音声を送りたくない」という課題を解決するために作りました。

既存の音声入力ツールの多くは、文字起こし処理をクラウドサーバーに依存しています。音声データが外部に送信される構造は、プライバシーを重視するユーザーにとって大きな懸念です。

有料ツール「Wispr Flow」との比較

Windowsで最も近い機能を持つ有料ツールがWispr Flowです。年間144ドル（約2万2千円）の費用がかかります。

この価格がPipeVoice開発の直接的なきっかけになりました。開発者自身のコメントに、次のように記されています。

Wispr Flowは最も近い有料製品だった
年間144ドルのコストにストレスを感じた
「それなら自分で作る」と判断して開発を開始した

PipeVoiceの3つの設計原則

PipeVoiceは、プライバシーを最優先に設計されています。外部通信そのものを持たない構造が特徴です。

ローカルWhisperで文字起こしを処理する
ローカルOllamaでテキスト整形（クリーンアップ）を行う
アカウント登録・テレメトリー・オプトアウト設定が一切不要

両方をローカルに向ければ、マシンの外に何も出ません。「オプトアウトすべき送信先がそもそも存在しない」という設計思想です。

基本的な使い方はシンプル

操作フローは非常にシンプルです。覚えることはほぼありません。

ホットキーを押し続ける（デフォルト設定で即起動）
話す
ホットキーを離す
カーソル位置に実キーストロークとしてテキストが入力される

テキストはクリップボード経由ではなく、キーストロークとして直接送出されます。そのため、カーソルがある場所ならどのアプリでも動作します。

このツールが必要とされる理由

音声入力の需要は確実に広がっています。一方で「クラウドへの依存」と「コスト」が普及の壁になっています。

PipeVoiceはその両方を解決します。完全無料・ローカル完結・オープンソースという3点が、多くのエンジニアや個人事業主に支持される理由です。

必要な環境・スペック要件

PipeVoiceをローカルで動かすには、事前に環境を確認する必要があります。特にWhisperとOllamaはGPUの有無で動作速度が大きく変わります。セットアップ前に以下の要件を照合してください。

OS・基本環境の要件

OS：Windows 10 または Windows 11（64ビット）
Python：3.10以上（Whisper実行に必要）
マイク：内蔵・外付け問わず認識できること
Ollama：テキスト整形機能を使う場合のみ必要

PipeVoice自体は軽量なPythonアプリです。ただし内部で呼び出すWhisperとOllamaが、マシンスペックの大半を消費します。

メモリ・ストレージの目安

RAM：最低8GB。16GB以上を推奨
Whisper（smallモデル）：約500MBのVRAMまたはRAMを消費
Whisper（largeモデル）：約10GB。高精度が必要な場合に選択
Ollamaモデル（例：llama3）：4〜8GB程度のRAMを追加で消費
ストレージ：モデルファイル込みで最低15GB以上の空き推奨

日本語の精度を重視する場合はwhisper-large-v3を選ぶのが定番です。ただしRAMへの負荷が高くなります。

GPU要件と推奨構成

WhisperはCUDAに対応したNVIDIA GPUがあると処理速度が劇的に向上します。CPUのみでも動作しますが、応答に数秒〜十数秒かかる場合があります。

推奨GPU：NVIDIA RTX 3060以上（VRAM 8GB以上）
最低GPU：VRAM 4GB以上のNVIDIA GPU（smallモデル限定）
CUDA：バージョン11.8または12.x をインストール済みであること
AMD・Intel GPU：現時点ではCUDAが使えないため、CPU処理にフォールバック

環境が不足している場合の代替案

GPUがない・スペックが足りない場合でも、工夫次第で動作させることができます。

Whisperモデルをtinyまたはbaseに下げる：RAMは1GB未満で動作。精度は落ちるが応答は速い
Ollamaは無効化する：テキスト整形をスキップすればRAM消費を大幅に削減できる
whisper.cppを利用する：CPUに最適化されたC++実装で、低スペック環境での動作に適している
WSL2上で実行する：LinuxネイティブなOllamaをWSL2経由で起動し、WindowsのPipeVoiceからlocalhost接続する構成も可能

まずwhisper-smallモデル＋Ollama無効の最小構成から試すのがおすすめです。動作確認後にモデルをアップグレードしていく順番が安全です。

PipeVoiceのインストール手順

PipeVoiceはGitHubで公開されているオープンソースツールです。以下の手順に沿って進めれば、初めての方でも迷わずセットアップできます。

事前に用意するもの

Windows 10 / 11（64bit）
Python 3.10以上（python.orgからインストール）
Git for Windows（git-scm.comからインストール）
CUDA対応GPUまたはCPU（CPUのみでも動作可）

ステップバイステップ手順

GitHubからリポジトリをクローンする
ソースコードをローカルに取得します。コマンドプロンプトまたはPowerShellを開き、以下を実行してください。
git clone https://github.com/YOUR_USERNAME/pipevoice.git
※スクリーンショット箇所①：クローン完了後のフォルダ構成を確認する
プロジェクトフォルダに移動する
作業ディレクトリをクローンしたフォルダに切り替えます。
cd pipevoice
仮想環境を作成・有効化する
依存パッケージを他のプロジェクトと分離するため、仮想環境を使います。
python -m venv venv
venv\Scripts\activate
プロンプトの先頭に(venv)と表示されれば成功です。
※スクリーンショット箇所②：(venv)が表示された状態のターミナル
依存パッケージをインストールする
必要なライブラリをまとめてインストールします。
pip install -r requirements.txt
インストールには数分かかる場合があります。完了まで待ちましょう。
Whisperモデルを配置する
音声認識エンジンのモデルファイルを所定のフォルダに配置します。まずはwhisper-smallでの動作確認を推奨します。
mkdir models
ダウンロードしたモデルファイルをmodels\フォルダ内に置いてください。
※スクリーンショット箇所③：modelsフォルダ内のファイル一覧
設定ファイルを編集する
config.yamlをテキストエディタで開きます。最小構成で試す場合は以下の値を設定してください。
- model: small（Whisperモデルのサイズ）
- ollama_enabled: false（初回はOllamaを無効化）
- hotkey: ctrl+shift+space（録音開始のホットキー）
※スクリーンショット箇所④：config.yamlの編集画面
アプリを起動して動作確認する
設定が完了したら以下のコマンドで起動します。
python main.py
タスクトレイにアイコンが表示されれば起動成功です。ホットキーを押しながら話し、テキストが入力欄に流れ込めばセットアップ完了です。

うまく起動しない場合は、Pythonのバージョンと仮想環境の有効化を最初に確認してください。この2点がつまずきやすいポイントです。

Whisper＆Ollama連携セットアップ

PipeVoiceをローカルで動かすには、WhisperとOllamaを個別にセットアップしたうえで連携させる必要があります。

順番に進めれば迷うポイントは少ないので、手順どおりに実行してください。

Step 1：Whisperのインストール

まずPython環境を用意します。Python 3.10以上が必要です。

インストール済みであれば、以下のコマンドを実行してください。

pip install openai-whisper

モデルサイズは用途に合わせて選択します。推奨の組み合わせは以下のとおりです。

tiny / base：動作が軽い。日本語精度はやや低め
small：速度と精度のバランスが良い。まずここから試す
medium：精度重視。VRAM 5GB以上を推奨
large-v3：最高精度。VRAM 10GB以上が必要

インストール後、動作確認は次のコマンドで行います。

whisper --model small --language ja test.wav

テキストが出力されれば、Whisperのセットアップは完了です。

Step 2：Ollamaのインストール

Ollamaは公式サイト（https://ollama.com）からインストーラーを取得します。

Windowsの場合はexeファイルを実行するだけで完了します。

インストール後、使用するモデルをローカルに取得します。

テキスト整形用途であればllama3またはmistralが扱いやすいです。

ollama pull llama3

サーバーを起動するには以下を実行します。

ollama serve

デフォルトではポート11434でAPIが待ち受けます。

Step 3：PipeVoiceとの連携設定

PipeVoiceの設定画面を開き、以下の2項目を入力します。

Whisperエンドポイント：http://localhost:9000（ローカル起動時のデフォルト）
OllamaエンドポイントURL：http://localhost:11434
使用モデル名：llama3（pullしたモデル名を入力）

設定を保存したら、ホットキーを押しながら短く発話してテストします。

カーソル位置にテキストが入力されれば、連携は正常に機能しています。

注意点まとめ

WhisperとOllamaは同時に起動している必要がある
GPUがない環境ではCPU推論となり、処理に数秒かかる場合がある
外部へのデータ送信はゼロ。すべての処理がローカルで完結する

ここまで設定できれば、音声入力からテキスト整形まで完全ローカルで動く環境の完成です。

初期設定と基本的な使い方

PipeVoiceはインストール直後から数分で使い始められる設計になっています。まず以下の手順で基本設定を済ませましょう。

ホットキーを設定する
設定画面（トレイアイコン右クリック → Settings）を開きます。Hotkey欄で任意のキーを割り当ててください。デフォルトはAlt+Vです。他アプリと競合しないキーを選ぶと誤作動を防げます。
マイク入力デバイスを確認する
同じ設定画面のInput Deviceドロップダウンから、使用するマイクを選択します。Windowsの「サウンド設定」でも録音レベルを確認しておくと安心です。入力レベルが低すぎると認識精度が落ちます。
Whisperのモデルサイズを選ぶ
Whisper Modelの項目で精度と速度のバランスを選びます。推奨値は以下のとおりです。
- tiny：最速。CPUのみの環境に向いている
- base：速度と精度のバランスが良い
- small：精度重視。GPU推奨
初回起動時にモデルファイルが自動ダウンロードされます。
テキスト出力先を確認する
PipeVoiceはカーソル位置に直接キーストロークとして文字を送出します。出力先の特別な設定は不要です。メモ帳やブラウザのテキストボックスなど、フォーカスがあればどこでも動作します。
Ollama連携（任意）を設定する
テキスト整形を使う場合はCleanup URL欄にhttp://localhost:11434を入力します。Ollamaが起動していない場合はこの欄を空白にしてください。Whisper単体でも十分に使えます。
動作テストを実行する
メモ帳を開いてテキストエリアにカーソルを置きます。設定したホットキーを押しながら「テスト、マイクの確認です」と話し、キーを離してください。数秒後にテキストが入力されれば設定完了です。

うまく動作しない場合は、まずマイクのデバイス選択を見直してください。次にtinyモデルで再テストすると問題の切り分けがしやすくなります。

基本設定はこれだけです。アカウント登録もクラウド接続も不要で、すべてがローカルで完結します。

活用例・応用機能と便利な使い方

PipeVoiceはカーソルがある場所ならどこでも動作します。アプリを問わず使えるため、日常のさまざまな場面で音声入力を活用できます。

テキストエディタでの活用

VS Codeやメモ帳など、テキストエディタでの長文入力に最適です。ホットキーを押しながら話すだけで、コードコメントや仕様書の下書きを素早く作成できます。

議事録や要件定義の草稿をそのまま音声で書き起こす
コード中のコメント行を話しかけるだけで追記する
Markdownファイルの見出しや箇条書きを口述で入力する

メールクライアントでの活用

GmailやOutlookのテキストボックスにも特別な設定なしで動作します。定型文や長文の返信を音声で一気に入力できます。

件名・本文をホットキー1つで音声入力する
Ollama連携で敬語や文体を自動整形する
下書き保存前にクリーンアップ処理をかけて誤字を修正する

ブラウザでの活用

ChromeやFirefoxの検索バー・フォームにもそのまま入力できます。Webフォームへの音声入力はクラウド系ツールと同じ感覚で使えます。

Google検索のキーワードを話して入力する
SNSの投稿フォームに音声で下書きを作成する
問い合わせフォームの長文テキストを口述で素早く埋める

Ollama連携で使えるテキスト整形機能

設定画面のCleanup URLにhttp://localhost:11434を入力すると、テキスト整形が有効になります。Ollamaで動かすモデルを変えることで整形の質をコントロールできます。

句読点の自動補完：話し言葉の「えーと」「あの」などを除去する
文体統一：口語を敬体・常体に自動変換する
多言語対応：英語で話した内容をWhisperが認識し、Ollamaが日本語に変換する

整形用モデルはllama3やmistralなど、手元のGPUスペックに合わせて選択できます。Ollamaを起動していない場合はCleanup URLを空白にするだけで無効化できます。

運用のポイント

すべての処理がローカルで完結するため、機密情報を含む文書でも安心して使用できます。テレワーク中の議事録入力や社内ドキュメント作成にも導入しやすい構成です。

よくあるエラーと対処方法

PipeVoiceを使い始めると、いくつかの典型的なトラブルに遭遇しやすいです。ここではQ&A形式で原因と解決策をまとめます。

Q1. 音声認識がまったく動作しない

原因：Whisperモデルのダウンロードが未完了か、モデルパスの指定が誤っている場合がほとんどです。

対処方法：設定画面のWhisper Model欄を確認してください。初回起動時にモデルが自動ダウンロードされます。完了していない場合は再度起動し直します。

推奨モデル：baseまたはsmall（軽量で認識精度のバランスが良い）
高精度が必要な場合：mediumまたはlarge-v3を選択する
モデルの保存先：%USERPROFILE%\.cache\whisperフォルダを確認する

Q2. Whisperへの接続エラーが発生する

原因：Whisperのローカルサーバーが起動していないか、ポート番号が競合しています。

対処方法：PipeVoiceを管理者権限で再起動してください。それでも解決しない場合は以下を確認します。

ファイアウォールがローカルホスト通信をブロックしていないか確認する
デフォルトポート8080が他のアプリと競合していないか調べる
タスクマネージャーでwhisperプロセスが起動中かチェックする

Q3. Ollamaへの接続エラーが出る

原因：Ollamaが起動していないか、エンドポイントURLが間違っています。

対処方法：まずターミナルでollama serveを実行し、サービスを起動します。その後、PipeVoiceのCleanup URL欄にhttp://localhost:11434を正しく入力してください。

Ollamaを使わない場合：Cleanup URL欄を空白にするだけで無効化できる
モデル未インストールの場合：ollama pull llama3を実行してモデルを取得する
接続確認方法：ブラウザでhttp://localhost:11434にアクセスし応答を確認する

Q4. マイク入力が検出されない

原因：Windowsのマイク権限がオフになっているか、入力デバイスの選択が誤っています。

対処方法：以下の順番で確認してください。

Windowsの設定 → プライバシーとセキュリティ → マイクを開く
「アプリにマイクへのアクセスを許可する」をオンにする
PipeVoiceの設定でInput Deviceを使用中のマイクに変更する
サウンド設定で対象マイクが既定のデバイスに設定されているか確認する

Q5. ホットキーを押しても文字が入力されない

原因：他のアプリが同じホットキーを占有しているケースが多いです。

対処方法：PipeVoiceの設定画面からホットキーを別のキーに変更します。Ctrl+Shift+Spaceなど、競合しにくいキーの組み合わせを推奨します。

まとめ｜プライベート音声タイピングの実現

ここまでの手順を完了すれば、完全ローカルの音声入力環境が整います。

PipeVoiceはアカウント不要・テレメトリなしで動作します。マイク音声がクラウドに送信されることはありません。

セットアップ完了後の運用ポイント

ホットキーを押しながら話すだけで、カーソル位置に直接テキストが入力される
Whisperモデルはtiny〜largeまで選択可能。速度重視ならbase、精度重視ならmediumを推奨
Ollama連携を使う場合はllama3などのモデルを起動したまま運用する
テキスト整形が不要な場面では、Ollamaのエンドポイント欄を空白にして軽量運用に切り替える
長時間使用時はhttp://localhost:11434でOllamaの稼働状態を定期確認する

セキュリティ面でのメリット

PipeVoiceの最大の強みは、すべての処理がローカルマシン内で完結する点です。

Wispr Flowのようなクラウド型サービス（年間約$144）とは異なり、音声データが外部に出ません。

クラウドAPIキーの管理が不要
オフライン環境でも動作する
機密情報を含む文書作成にも安心して使える
利用料金がかからず、月ごとの料金プラン変更も不要

今後のアップデート情報の確認方法

PipeVoiceはオープンソースプロジェクトです。最新情報は以下で確認できます。

GitHubリポジトリのReleasesページをウォッチ登録する
Reddit r/selfhostedのスレッドで開発者のコメントを追う
GitHubのIssuesタブでバグ報告や機能要望の動向を確認する

アップデート時はWhisperモデルやOllamaのバージョン互換性を合わせて確認してください。

次のアクション

まだセットアップが済んでいない方は、PipeVoiceのインストールから始めましょう。

すでに動作確認が取れた方は、baseモデルから試して、精度が不足する場合にmediumへ切り替えるのがおすすめです。

✅ Whisperモデルのダウンロード完了を確認する
✅ ホットキーで音声入力が動作するか実際にテストする
✅ GitHubリポジトリをスターして最新情報を受け取る

この記事は「AI自動投稿×SEO検証プロジェクト」の一環です

海外のAI活用・収益化事例を毎日自動収集し、日本語で深掘り解説しています。

完全自動（収集→生成→投稿）
毎日定刻に投稿
Search Consoleデータによる週次改善

▶ 検証ログ（note）：進捗を見る

▶ 同じ仕組みを作りたい方：相談する