Whisperとは?無料で使える音声認識AIの基礎|Notta・AutoMemoとの違い

OpenAIが2022年に公開した音声認識AI「Whisper」は、業界に大きなインパクトを与えた。それまで有料SaaSの独壇場だった日本語音声の高精度な書き起こしが、無料・OSSで誰でも使えるようになったからだ。本記事ではWhisperの仕組み、無料で使う方法、商用SaaS(Notta・AutoMemo・Rimo Voice等)との違いを技術と運用の両面から解説する。

Whisperとは何か

Whisperは、OpenAIが68万時間の多言語音声データで学習させたオープンソースの音声認識モデル。MITライセンスで公開されており、商用利用も含めて誰でも自由に使える。99言語に対応し、日本語の精度はクリアな単一話者音声で90%超を達成する。

大事な特徴は「音声認識(speech-to-text)」と「翻訳(多言語→英語)」を1つのモデルで行うこと。マルチタスク学習により、ノイズや訛りに対しても他のOSSモデルより頑健な書き起こしを行う。

モデルサイズと精度の関係

モデルパラメータ数必要VRAM日本語の実用度
tiny39M~1GB単純発話のみ
base74M~1GB日常会話レベル
small244M~2GB議事録ライト用途
medium769M~5GB業務利用OK
large-v31.55B~10GB商用SaaS同等

個人利用ではM1/M2 MacBookでも mediumまでなら現実的に動く。large-v3は専用GPU(RTX 4070以上)が望ましい。

無料で使う3つの方法

1. ローカル実行(最も自由度が高い)

pip install openai-whisper
whisper meeting.mp3 --model medium --language Japanese

Pythonが入っていれば10分でセットアップできる。録音ファイルを完全にローカルで処理するためデータ漏洩リスクなし。CPUのみだとmediumでも実時間の3〜10倍かかるので、GPU搭載マシンが現実的。

2. Whisper API(OpenAI公式・有料)

正確には無料ではないが、自前GPUを持たない人向け。OpenAIが提供するクラウドAPIで、Whisper large-v3相当を$0.006/分(約1円/分)で呼び出せる。1時間の音声で60円程度。月数本程度なら自前GPU維持コストより安い。

3. Whisper.cpp / Faster-Whisper(軽量化)

C++移植版・量子化版で、CPUのみでも mediumがリアルタイム動作する。Mac M2でlarge-v3が4倍速で動くなど、最新ハードでの利便性は劇的に改善している。

商用SaaS(Notta・AutoMemo・Rimo Voice)との違い

WhisperそのものはOSSで無料だが、業務利用では下記の機能差で商用SaaSが選ばれる。

  • 話者分離(diarization): 「Aさん→Bさん→Aさん」と発話者を識別する機能。Whisper単体では未対応で、Pyannoteなど別ツール統合が必要。商用SaaSは標準装備。
  • カスタム辞書: 専門用語・社内用語の登録。Whisperは音声プロンプトで対応可能だが、商用SaaSの方がUIで管理しやすい。
  • 共同編集・共有: チームで議事録を修正・共有する機能。SaaSの真価はここ。
  • リアルタイム書き起こし: 会議中に文字を出すライブ字幕。Whisperはバッチ処理が前提。
  • 動画・録画ツール連携: Zoom・Teams・Google Meetとの自動連携。SaaSのみが対応。

個人メモ・プライバシー重視ならローカルWhisper。会議録・チーム運用なら商用SaaSという住み分け。

Whisperの限界

  • BGMありの音声で精度が大きく落ちる(カクテルパーティー効果に弱い)
  • 1ファイル30秒のチャンク単位処理。長時間音声では文脈ロスト・繰り返し幻覚(hallucination)が出やすい
  • 同音異義語の漢字変換ミス(「機械学習」が「機械が苦しゅう」など)
  • 句読点の付け方が不安定(後処理で整形が必要)

これらの問題に対応するため、商用SaaSではWhisper + 独自後処理 + 自社モデルの組み合わせで実用品質を担保している。

どう選べばいい?

個人利用・プライバシー優先・技術好きならWhisperローカル実行。チーム運用・共同編集・リアルタイム会議録ならNotta・AutoMemo・Rimo Voiceなどの商用SaaS。両者は競合ではなく補完関係。

具体的なSaaS選定は AI文字起こし8選の比較ツール で、料金・話者分離・カスタム辞書・連携機能から絞り込めるので参考にしてほしい。

読了1分
基礎知識

この記事を書いた人

ソロビズ @solobiz

AIツール活用ライター

関連ツール

競合サイトの変更をAIが自動検知

まもなく公開。事前登録受付中。

詳細を見る →

比較ツール

AI文字起こしツール比較

Notta・Otter・Whisperなど主要ツールを精度・価格・対応言語で比較

無料で比較する →