Whisperとは?無料で使える音声認識AIの基礎|Notta・AutoMemoとの違い
OpenAIが2022年に公開した音声認識AI「Whisper」は、業界に大きなインパクトを与えた。それまで有料SaaSの独壇場だった日本語音声の高精度な書き起こしが、無料・OSSで誰でも使えるようになったからだ。本記事ではWhisperの仕組み、無料で使う方法、商用SaaS(Notta・AutoMemo・Rimo Voice等)との違いを技術と運用の両面から解説する。
Whisperとは何か
Whisperは、OpenAIが68万時間の多言語音声データで学習させたオープンソースの音声認識モデル。MITライセンスで公開されており、商用利用も含めて誰でも自由に使える。99言語に対応し、日本語の精度はクリアな単一話者音声で90%超を達成する。
大事な特徴は「音声認識(speech-to-text)」と「翻訳(多言語→英語)」を1つのモデルで行うこと。マルチタスク学習により、ノイズや訛りに対しても他のOSSモデルより頑健な書き起こしを行う。
モデルサイズと精度の関係
| モデル | パラメータ数 | 必要VRAM | 日本語の実用度 |
|---|---|---|---|
| tiny | 39M | ~1GB | 単純発話のみ |
| base | 74M | ~1GB | 日常会話レベル |
| small | 244M | ~2GB | 議事録ライト用途 |
| medium | 769M | ~5GB | 業務利用OK |
| large-v3 | 1.55B | ~10GB | 商用SaaS同等 |
個人利用ではM1/M2 MacBookでも mediumまでなら現実的に動く。large-v3は専用GPU(RTX 4070以上)が望ましい。
無料で使う3つの方法
1. ローカル実行(最も自由度が高い)
pip install openai-whisper whisper meeting.mp3 --model medium --language Japanese
Pythonが入っていれば10分でセットアップできる。録音ファイルを完全にローカルで処理するためデータ漏洩リスクなし。CPUのみだとmediumでも実時間の3〜10倍かかるので、GPU搭載マシンが現実的。
2. Whisper API(OpenAI公式・有料)
正確には無料ではないが、自前GPUを持たない人向け。OpenAIが提供するクラウドAPIで、Whisper large-v3相当を$0.006/分(約1円/分)で呼び出せる。1時間の音声で60円程度。月数本程度なら自前GPU維持コストより安い。
3. Whisper.cpp / Faster-Whisper(軽量化)
C++移植版・量子化版で、CPUのみでも mediumがリアルタイム動作する。Mac M2でlarge-v3が4倍速で動くなど、最新ハードでの利便性は劇的に改善している。
商用SaaS(Notta・AutoMemo・Rimo Voice)との違い
WhisperそのものはOSSで無料だが、業務利用では下記の機能差で商用SaaSが選ばれる。
- 話者分離(diarization): 「Aさん→Bさん→Aさん」と発話者を識別する機能。Whisper単体では未対応で、Pyannoteなど別ツール統合が必要。商用SaaSは標準装備。
- カスタム辞書: 専門用語・社内用語の登録。Whisperは音声プロンプトで対応可能だが、商用SaaSの方がUIで管理しやすい。
- 共同編集・共有: チームで議事録を修正・共有する機能。SaaSの真価はここ。
- リアルタイム書き起こし: 会議中に文字を出すライブ字幕。Whisperはバッチ処理が前提。
- 動画・録画ツール連携: Zoom・Teams・Google Meetとの自動連携。SaaSのみが対応。
個人メモ・プライバシー重視ならローカルWhisper。会議録・チーム運用なら商用SaaSという住み分け。
Whisperの限界
- BGMありの音声で精度が大きく落ちる(カクテルパーティー効果に弱い)
- 1ファイル30秒のチャンク単位処理。長時間音声では文脈ロスト・繰り返し幻覚(hallucination)が出やすい
- 同音異義語の漢字変換ミス(「機械学習」が「機械が苦しゅう」など)
- 句読点の付け方が不安定(後処理で整形が必要)
これらの問題に対応するため、商用SaaSではWhisper + 独自後処理 + 自社モデルの組み合わせで実用品質を担保している。
どう選べばいい?
個人利用・プライバシー優先・技術好きならWhisperローカル実行。チーム運用・共同編集・リアルタイム会議録ならNotta・AutoMemo・Rimo Voiceなどの商用SaaS。両者は競合ではなく補完関係。
具体的なSaaS選定は AI文字起こし8選の比較ツール で、料金・話者分離・カスタム辞書・連携機能から絞り込めるので参考にしてほしい。
この記事を書いた人
AIツール活用ライター