【超高品質】OpenAI Whisperを使って動画の字幕を自動作成【完全無料】

この記事の内容

Adobe Premiere ProなどのクラウドAI機能を使った字幕生成は精度が高い一方で、月額費用が発生するため気軽に使いにくいという課題があります。また、他の字幕ソリューションも精度に難があるものが多く、結局手作業の割合が多くなってしまいがちです。

そこで今回紹介するのが、OpenAIが開発した音声認識エンジン「Whisper」です。Whisperはオープンソースで公開されており、無料で使用できます。その認識精度は有料サービスをも上回ると言われており、日本語の音声も高い精度で文字起こしができます。

Whisperを使った字幕生成プログラムはPythonで動作します。あらかじめPythonをインストールしておいてください。Pythonがインストールされていない場合は、先にセットアップを済ませてから次のステップに進んでください。

今回使用するプログラムは「VideoToSRT」という名前でGitHubに公開されています。リポジトリはパブリックになっていますので、誰でも無料で利用できます。

Gitを使う場合：

Gitに慣れていない場合：

GitHubのリポジトリページを開き、「Download ZIP」からZIPファイルをダウンロードします。ダウンロードしたZIPファイルを右クリックし、プロパティを開いてセキュリティのブロックを解除しておきましょう。その後、右クリックメニューから「すべて展開」を選んでファイルを展開します。

展開したフォルダをエクスプローラーで開き、アドレスバーに cmd と入力してEnterキーを押します。そのフォルダをカレントディレクトリとしてコマンドプロンプトが起動します。

次のコマンドを実行して、必要なライブラリをインストールします。

この中にWhisper本体も含まれています。初回は必要なパッケージのダウンロードが発生するため、少し時間がかかります。

準備ができたら、以下のコマンドを実行して字幕ファイルを生成します。

動画ファイルのパスは、エクスプローラー上でSHIFTキーを押しながら右クリックして「パスのコピー」で取得できます（Windows 10の場合も同様の手順で可能です）。

実行例：

初回実行時は、Whisperのモデルファイルをダウンロードするところから始まるため、通常より時間がかかります。2回目以降もモデルのサイズが大きいぶん、処理には動画の再生時間の約2倍程度の時間がかかります。GPUを使用していても、それなりに時間がかかる点は覚悟しておきましょう。

おすすめは夜寝る前にコマンドを実行しておき、翌朝確認するスタイルです。処理中はコマンドプロンプトに特に進捗表示がないため、終了するとコマンド入力待ちの状態に戻ってきます。

公開されているプログラムには、読点（、）や句点（。）を出力しないよう独自にカスタマイズされた箇所があります。Pythonに慣れている方はソースコードを直接編集して、好みの出力形式に調整することもできます。

処理が完了すると、指定したファイル名でSRT形式の字幕ファイルが生成されます。テキストエディタで開くと、以下のような形式になっています。

中身を確認して、同じような誤認識パターンが繰り返されている場合は、一括置換で修正しておくと効率的です。

生成した字幕ファイルは、無料の動画編集ソフト「DaVinci Resolve」を使って動画に組み込むことができます。

DaVinci Resolveで編集プロジェクトを開き、タイムライン上にSRTファイルをドラッグ＆ドロップします。「サブタイトル」トラックが自動で作成され、字幕が配置されます。

デフォルトでは字幕が白文字で見えにくい場合があります。インスペクタを開き、トラック全体のスタイルを変更するには「トラック」の設定画面から以下を調整します。

動画を書き出す際は、「デリバー」タブから書き出しを行います。「サブタイトルセッティングス」の項目で、以下のいずれかを選択できます。

YouTube以外での配信や、字幕を映像として固定したい場合は「バーントゥビデオ」を使うことが多いでしょう。

実際に日本語の技術解説動画で試したところ、ほぼ手直し不要のレベルで文字起こしができました。有料の字幕ソリューションを使っていた頃と比べても、認識精度が大幅に向上しており、Whisperの品質の高さを実感できます。

今回紹介した方法をまとめると、次のとおりです。

有料サービスを使わずとも、プロ品質の字幕を自動生成できる時代になりました。動画に字幕を付けたいと考えている方には、ぜひ試していただきたいワークフローです。