「文字起こしの副業、AIを使えば楽になるって聞いたけど、本当に稼げるの?」
そう思って調べ始めた方も多いのではないでしょうか。
私も会社員として働きながら、副業の選択肢を探していた時期がありました。文字起こし案件は「確実に需要がある」という点で魅力的に見えたものの、1時間の音声を聴きながら打ち込む作業を想像すると、正直なところ腰が引けていたのが本音です。
ただ、AIの音声認識技術が急速に進化した今、この分野の構造は変わりつつあります。単純な「聴いて打つ」作業から、「AIに任せて、人間は付加価値をつける」形へ。この記事では、文字起こし副業をAIでどう効率化し、さらに要約スキルを組み合わせて単価を上げるかを、実務的な視点で書いていきます。
文字起こし副業の現状と、AIが変えた構造
従来の文字起こしは「時間の切り売り」だった
文字起こし、いわゆるテープ起こしの副業は昔からあります。会議録、インタビュー、セミナー音声など、音声データをテキスト化する仕事です。
クラウドソーシングサイトで案件を見ると、60分の音声で3,000円〜5,000円程度が相場。ただし、実際に作業すると60分音声の文字起こしには3〜4時間かかることも珍しくありません。聴き直し、誤変換の修正、話者の区別、ケバ取り(「えーと」「あの」などの不要な言葉の削除)。これらを丁寧にやると、時給換算で1,000円を切ることもあります。
正確性が求められる仕事なので、コツコツ作業が得意な人には向いています。ただ、「時間をかければかけるほど収入が増える」という構造は、本業を持つ会社員にとっては厳しい面があります。
AIが文字起こしの「下ごしらえ」を担うようになった
ここ数年で状況が変わりました。OpenAIのWhisperをはじめとする音声認識AIの精度が、実用レベルに達したからです。
Whisperは日本語でも高い認識精度を持ち、無料で使えるオープンソースツールです。1時間の音声ファイルを投げると、数分〜十数分でテキスト化してくれます。専門用語や固有名詞での誤変換はあるものの、ベースとなる文字起こしとしては十分使えるレベルです。
つまり、「音声を聴きながらゼロから打ち込む」作業が、「AIが出力したテキストを修正・整形する」作業に変わりました。これだけで作業時間は半分以下になる場合もあります。
AI文字起こしの具体的な作業フロー
ステップ1:音声データの取得と前処理
クライアントから受け取る音声データは、形式も品質も様々です。MP3、WAV、M4Aなど形式の違いは変換ツールで対応できますが、問題は音質。雑音が多い、声が小さい、複数人が同時に話しているといった音声は、AIでも認識精度が落ちます。
ここで使えるのがAudacityなどの無料音声編集ソフト。ノイズ除去や音量調整をしてからAIに渡すと、認識精度が上がります。地味な作業ですが、後の修正時間を考えると手を抜けない部分です。
ステップ2:Whisperでの文字起こし
Whisperの使い方は複数あります。
- ローカル環境にインストールして使う(無料だが技術的なハードルあり)
- Whisper対応のWebサービスを使う(有料のものが多いが簡単)
- Google Colabなどのクラウド環境で動かす(無料枠あり、中程度の知識が必要)
技術に自信がない場合は、notta、CLOVA Note、Vrewなど、日本語対応のAI文字起こしサービスを使う方法もあります。月額費用はかかりますが、案件を継続的に受けるなら十分元が取れます。
Whisperの出力にはタイムスタンプを付ける設定もあるので、「○分○秒:発言内容」という形式が求められる案件にも対応できます。
ステップ3:素起こしから整文へ
AIが出力したテキストは、いわゆる「素起こし」状態です。ここから納品形式に合わせて整える作業が必要になります。
文字起こしの納品形式は主に3種類あります。
- 素起こし:話された言葉をそのまま文字化(「えーと」「あのー」も含む)
- ケバ取り:意味のない言葉を削除し、読みやすくしたもの
- 整文:文法的に正しく、読みやすい文章に整えたもの
クライアントがどの形式を求めているかは、受注前に確認が必須です。整文まで求められる案件は単価が高い傾向がありますが、その分スキルも必要になります。
ステップ4:誤変換チェックと品質管理
AIは万能ではありません。特に以下のような部分で誤変換が発生しやすいです。
- 固有名詞(人名、社名、商品名)
- 専門用語(業界特有の言葉)
- 同音異義語(「意向」と「以降」など)
- 話者が曖昧に発音した部分
ここは人間の耳と判断力が必要な部分です。ただ、ゼロから聴いて打つよりも、「怪しい部分だけ聴き直して修正する」方が圧倒的に早い。AIが80%を処理して、人間が20%を仕上げるという分担ができます。
「要約」という付加価値で単価を上げる
文字起こしだけでは価格競争に巻き込まれる
AIで文字起こしが効率化されたということは、参入障壁が下がったということでもあります。「AIで文字起こしして、少し修正して納品」という作業は、誰でもできるようになりつつあります。
そうなると価格競争に陥りやすい。低単価でも受ける人が増えれば、全体の相場が下がります。これはどの業界でも起きることです。
だからこそ、文字起こしに「+α」をつける発想が重要になります。
議事録・会議録では「要約」のニーズが高い
企業の会議録や打ち合わせ音声の文字起こしでは、「全文の文字起こし+要約」というセット納品を求められることがあります。
考えてみれば当然で、クライアント側も全文を読み直す時間はありません。「何が決まったのか」「次のアクションは何か」がわかる要約があれば、それだけで価値が上がります。
この要約作業も、AIで下書きを作れます。ChatGPTやClaudeに全文テキストを渡して「この会議の要点を箇条書きでまとめてください」と指示すれば、それなりの要約が出てきます。
ただし、ここでも人間の判断が必要です。AIは文脈を読み違えることがあります。「重要ではない発言を重要と判断する」「本当に大事な決定事項を落とす」といったミスは起きます。最終チェックと調整は人間の仕事です。
単価アップの具体的なイメージ
あくまで私の観測範囲での話ですが、クラウドソーシングでの相場感はこんな感じです。
- 素起こしのみ:60分音声で3,000〜5,000円
- ケバ取り・整文:60分音声で5,000〜8,000円
- 整文+要約セット:60分音声で8,000〜12,000円
これは案件によって大きく変わりますし、直接取引であればもっと高い単価も可能です。重要なのは、「文字起こし+要約」というセットで提案できる人材が、まだそこまで多くないという点です。
この副業に向いている人、向いていない人
向いている人の特徴
文字起こし+要約の副業は、以下のような人に向いていると思います。
- コツコツとした作業が苦にならない
- 細かいミスに気づける注意力がある
- 「正確さ」を求められる仕事が好き
- クリエイティブな発想より、正確な処理を好む
- 事務職経験があり、文書作成に慣れている
特に事務職経験がある方は、「読みやすい文書とは何か」を体感的に理解していることが多いので、整文や要約の品質が上がりやすいです。
向いていない人の特徴
一方で、以下のような人には正直おすすめしにくいです。
- 「AIに全部任せたい」と思っている
- 細かいチェック作業が嫌い
- 納期に追われる仕事にストレスを感じる
- 「聴く」作業が苦手
AIで効率化できるとはいえ、最終的な品質を担保するのは人間です。「楽して稼ぎたい」という動機だけでは続かないでしょう。
始める前に知っておきたい詰まりどころ
音質が悪い案件は地獄
これは経験者なら誰もが言うことですが、音質が悪い音声の文字起こしは本当に大変です。AIの認識精度も落ちますし、人間が聴いても聞き取れない部分が出てきます。
案件を受ける前に、可能であればサンプル音声を確認させてもらうのが理想です。それが難しければ、「音質によっては追加料金が発生する」という条件を提示しておくのも一つの方法です。
専門分野の知識がないと時間がかかる
医療、法律、IT、金融など、専門用語が多い分野の文字起こしは、その分野の基礎知識がないと誤変換の修正に時間がかかります。
最初は自分が少しでも知識のある分野から始めて、徐々に守備範囲を広げるのが現実的です。
納期の短い案件は精神的にキツい
「明日までに60分の文字起こしをお願いします」という案件もあります。単価が高くても、本業を持つ会社員には厳しい。無理をして受けて品質が落ちれば、次の依頼には繋がりません。
自分のキャパシティを正確に把握して、無理のない範囲で受注することが長続きの秘訣です。
実際に始めるための第一歩
ここまで読んで「やってみようかな」と思った方に向けて、最初の一歩を書いておきます。
まずは無料ツールで練習
いきなり案件を受ける前に、自分でサンプル音声を用意して練習してみてください。YouTubeの対談動画の音声を抽出して文字起こししてみるだけでも、作業の流れが掴めます。
- Whisper(Google Colabで無料利用可能)
- notta(無料枠あり)
- CLOVA Note(LINE提供、無料枠あり)
これらを使って、「AIの出力→修正→整文」の流れを体験してみてください。
小さな案件から受注
練習で感覚が掴めたら、クラウドワークスやランサーズで小さな案件を探してみてください。最初は10分〜30分程度の短い音声案件がおすすめです。
最初の数件は実績作りと割り切って、多少単価が低くても丁寧に仕上げる。評価がつけば、次からは条件の良い案件にも応募しやすくなります。
要約スキルは別途磨く
要約は文字起こしとは別のスキルです。「何が重要で、何が重要でないか」を判断する力は、一朝一夕では身につきません。
普段からビジネス文書を読む習慣をつけたり、会議の議事録を書く機会があれば積極的に引き受けたりして、経験を積むことをおすすめします。
まとめ:副業課長としての判断
文字起こし副業は、AIによって「時間の切り売り」から「スキルの切り売り」へと変わりつつあります。
AIが80%を処理して、人間が20%の付加価値をつける。この構造を理解したうえで、「要約」というスキルを身につければ、単価を上げることは十分可能です。
ただし、向き不向きがあります。コツコツ作業が苦手な人、「AIに全部任せたい」と思っている人には正直おすすめしません。
私なら、まずは無料ツールで30分くらい試してみます。それで「これなら続けられそうだ」と感じたら、小さな案件から始める。逆に「思ったより面倒だな」と感じたら、別の副業を探す。
最初から大きく稼ごうとせず、小さく試して判断する。それがAI副業に向き合う基本姿勢だと思っています。
