社内研修・セミナーの記録をAI文字起こしで効率化

「録画を共有しておきます」——この言葉で締まった研修、後から実際に見た人が何人いたか。体感では、送られた動画を最後まで視聴する受講者は2〜3割程度だと思う。再生して10分で止まる。それが現実だ。

テキスト化すると変わる。検索できる。必要な箇所だけ読める。ChatGPTに投げて要約も作れる。1時間の研修録音が5ページのマニュアルになる——これがAI文字起こしの実用的な使い方だ。

この記事のポイント

AI文字起こし（Notta等）を使った研修録音のテキスト化 → 要約・Q&A抽出 → マニュアル化という実務ワークフローをステップごとに解説する。外注との費用比較、専門用語対策、セキュリティの注意点も含む。

録画で終わらせると何を失うか

研修の録画・録音データは、ほぼどの組織でもサーバーやクラウドに眠っている。問題は「保存している」だけで活用されていないこと。理由は単純で、動画は検索できないからだ。

「あの研修でコンプライアンスの話、なんて言ってたっけ」——この疑問に答えるために2時間の録画を頭から見直すのは現実的じゃない。テキストなら「コンプライアンス」で全文検索して、該当箇所に一瞬で飛べる。これだけで研修記録の使い勝手がまるで変わる。

もう一つ、研修の品質管理にも使える。講師が伝えようとしたポイントと、受講者が実際に理解したこと（Q&Aセクションから読み取れる）のズレを、テキスト化して初めて客観的に見られる。録画を何となく保存していた段階では、このフィードバックループが回らない。テキストがあれば「前回の研修ではここが質問として多く出た」という定量的な振り返りができる。

外部セミナーについても同様だ。有料セミナーに参加した社員がメモを取り、帰社後に共有資料を作る——これを人力でやっている組織は多いが、録音さえあればAIが議事録を作ってくれる。社員の作業時間は大幅に減らせる。

AI文字起こしの実際の精度——期待値を正直に書く

クリアな音声・標準語の話者なら、文字起こし精度は90〜95%程度。外注の人間によるタイピングとほぼ同等の水準だ（人間でも誤字や聞き違いは出る）。

ただし、以下のケースでは精度が落ちる。

業界固有の専門用語（医療、法務、IT、製造業の製品名など）
外国人講師や強い方言のある話者
複数人が同時に話す場面（グループワークの録音）
会場の環境音やマイク品質が悪い音声

専門用語の誤認識は実務で一番困るポイントなんですよね。「NDA」が「んだ」になったり、製品名が別の単語に変換されたり。これについては後述するカスタム辞書で対策できる——最初だけ手間をかけておけば、2回目以降の修正量が激減する。

処理速度は、1時間の音声データで5〜15分が目安（サービスや音声品質による）。手作業の文字起こしが1時間の音声に4〜6時間かかることを考えると、作業コストが10分の1以下になる計算だ。

録音 → テキスト → マニュアル化：4ステップのワークフロー

ステップ1：録音品質を担保する（ここが全て決まる）

AI文字起こしの精度は、入力音声の品質にほぼ比例する。後工程でいくらがんばっても、音質の悪い録音から高精度のテキストは生まれない。研修開始前の準備が最重要だ。

マイクの選定：内蔵マイクは避ける。USB接続のコンデンサーマイク（MAONO PM422等、3,000〜6,000円程度）かICレコーダーを講師の近くに置く
会場配置：マイクは講師から50cm以内が理想。1mを超えると環境音に負け始める
事前テスト：本番前に30秒だけ録音して再生確認する。この30秒を惜しんで失敗するケースが多い
ファイル形式：WAVかMP3（128kbps以上）。動画ファイル（MP4等）もそのままアップロードできるサービスが多い

Zoom・Teams・Google Meetで開催するオンライン研修の場合は、各ツールの内蔵録音機能を使う。ただし、Zoom録音はPC側とスピーカー側の音声が別ファイルに分かれることがあるので注意が必要だ。Zoomの録音・文字起こし設定は別記事で詳しく解説しているので参考にしてほしい。

ステップ2：AI文字起こしサービスにアップロード

録音ファイルをAI文字起こしサービスにアップロードする。1時間の研修なら待ち時間は5〜10分。その間に別の仕事ができる。

出力されたテキストには、話者ラベル（「話者1」「話者2」など）が付く場合と付かない場合がある。複数の講師が交代で話す研修では、話者分離（ダイアライゼーション）機能が必須になる。これは「誰がいつ何を言ったか」を自動で識別する機能で、NottaやAmiVoiceが実用レベルで対応している。複数話者の分離精度については別記事で比較しているので、複数講師の研修を扱う場合は確認してほしい。

長時間録音（2時間以上）を扱う場合は、サービスの上限ファイルサイズや最長収録時間に注意する。無料プランはほぼ全サービスで制限がある——Nottaの無料プランは1ファイルあたり3分が上限なので、研修録音での利用には有料プランが前提になる。

ステップ3：専門用語とカスタム辞書の設定

文字起こしが完了したら、まず専門用語の誤認識を確認する。自社の製品名、部門名、業界用語が正しく表記されているかチェックする箇所だ。

主要サービスはカスタム辞書（単語登録）機能を持っている。例えば「XR-5000シリーズ」という製品名を登録しておけば、次回以降は自動で正しく変換される。この辞書は使い込むほど精度が上がる一方、最初の設定が手間になる。目安として20〜30語のリストを初期登録するだけで、体感精度がかなり変わる。

カスタム辞書に最初に登録すべき単語リスト

自社製品名・ブランド名 / 部門名・役職名の正式表記 / 頭字語（OJT、SOP、KPIなど文脈が重要なもの）/ 業界特有の専門用語 / よく使う人名（講師名や登場人物）

ステップ4：ChatGPTで要約・Q&A抽出・マニュアル化

テキストが手に入ったら、ここからが本番だ。ChatGPT（またはClaude）にテキストを投げて、以下のアウトプットを生成する。

3〜5点の要約：「この研修の重要ポイントを箇条書き5つで」
Q&Aの抽出：「質疑応答セクションから、質問と回答のペアを全て抜き出して」
マニュアル化：「手順の説明部分を、新入社員が読む業務マニュアルの形式に書き直して」
理解度チェッククイズ：「この内容から確認テスト問題を10問作って」

自分が実際に試して驚いたのは、Q&A抽出の精度だ。「現場でよくある質問」が自然と浮かび上がる。これをFAQドキュメントとして整備すれば、同じ質問が繰り返し出るのを防げる。ChatGPTと文字起こしを組み合わせた要約自動化の詳細なプロンプトは別記事にまとめているので、参考にしてほしい。

ここは正直まだ自分も試行錯誤中で、「どのくらいの文字数のテキストまでChatGPTに一度に投げていいか」という上限が使うモデルやプランによって変わる。GPT-4oのコンテキスト上限（128kトークン）は1時間の講演テキスト（約15,000〜20,000字）には十分だが、半日研修の全録音を一括で渡す場合は分割が必要になることもある。

外注文字起こし vs AI：費用の現実

外注の文字起こしサービスは、1時間あたり8,000〜15,000円が相場だ（精度の高い専門業者だと20,000円超もある）。月に5回研修があれば、文字起こし費用だけで月4〜7万円になる。

方法	1時間あたりのコスト	納期	専門用語対応
外注（人力）	8,000〜20,000円	1〜3営業日	高（人が判断）
AI文字起こし（月額制）	数百円〜（月額1,500〜3,000円で使い放題）	5〜15分	中（カスタム辞書で補完）
内製（手打ち）	人件費換算で5,000〜10,000円	4〜6時間	高（担当者が知っていれば）

月に4回・各1時間の研修があるとして計算すると、外注なら月3〜6万円。Nottaのビジネスプラン（月額約2,000円）なら、コストが96〜98%削減される。精度の差分を人間が後修正するとしても、圧倒的にAI処理の方が安い。

逆に外注が有利なケースは限られる。社内に修正する人員がいない、機密度が高くてクラウドにアップロードできない、方言や特殊な発話スタイルの講師が多い——くらいの場合だ。

セキュリティ：研修データをクラウドに上げていいのか

機密情報を含む社内研修の録音をクラウドサービスに上げることへの懸念は当然だ。自分もまだ全サービスの利用規約を細部まで読み込めているわけじゃないけど、主要サービスの現状を整理しておく。

Notta：データは暗号化保存、AIモデルの学習には使用しないと明記している（2026年6月時点の公式情報）
AmiVoice（アドバンスト・メディア）：国産サービスで、データセンターが国内にある。金融・医療向けのプランもあり
OpenAI Whisper（ローカル実行）：データがインターネットに出ないので最もセキュアだが、セットアップにある程度の技術知識が必要

個人情報や営業秘密を含む研修の場合は、利用規約の「データ利用」条項を必ず確認すること。特に「サービス改善のためのデータ利用」の可否は見落としがちな箇所だ。社内でクラウドサービスの利用基準が設けられている場合は、情報システム部門の承認フローを先に確認しておくことを勧める。

研修用途でNottaを選ぶ理由

ここまで読んでツールを選ぶ段階になったら、Nottaを試してほしい。無料プランで、まず自社音声データの実際の精度を確認できる。

研修用途でNottaを選ぶ具体的な理由は3つある。

長時間ファイルに対応：1時間・2時間超の研修録音もそのままアップロードできる（有料プランが前提）
話者分離が実用レベル：複数講師の研修でも「誰がいつ何を言ったか」がある程度追える
エクスポートの柔軟性：Word、テキスト、SRT形式で書き出し可能。マニュアル化の作業がしやすい

まずは社内研修の録音1本だけを無料プランで試してみる——それが一番早い。「使えるかどうか」を机上で考えるより、自社の音声データで確かめた方が判断は正確だ。無料プランは3分制限があるので、録音の最初の3分を切り出してアップロードしてみると雰囲気がつかめると思う。

Notta（無料プランあり）

日本語対応のAI文字起こしサービス。研修・セミナー録音の文字起こし、話者分離、要約機能を搭載。まず無料プランで自社音声の精度を確認できる。Nottaを試してみる →