Whisper(AI)を使って動画の音声を無料で文字起こしする方法

:
動画の音声を無料で文字起こしする方法としてGoogle Dogsの音声入力機能やYouTubeの活用などいくつかありますが、ここではOpenAIが提供しているWhisper(AI)での手順を紹介します。
Whisper(AI)は音声認識モデルで人間の会話音声から文字起こしをしてくれます。Whisper(AI)のAPIを使うと有料(と言っても1分0.006ドルと安価らしい)ですが、今回はGitHUB版を使用して無料で文字起こします。
※この手順で使用する環境一覧
(個々の環境詳細については添付のWikipediaを参照してください。)
・Windows11パソコン
・Python(インタープリタ型のプログラミング言語)
・PIP(Pythonで書かれたパッケージソフトウェアをインストール・管理するためのパッケージ管理システム)
・FFmpeg(動画と音声を記録・変換・再生するためのフリーソフトウェア)
・Whisper(AI:音声認識システム)
※Pythonのインストール
まずPythonをパソコンにインストールして、PythonライブラリとPIPを使用できるようにします。
・Pythonをダウンロード
Pythonの公式サイトからダウンロードしてパソコンにインストールしましょう。
Pythonの公式サイト:https://www.python.org/

上記のPython公式サイトを開き、トップ画面上部のメニュー欄にて「Downloads」をクリックします。

執筆時点(2024/12/15)では最新バージョンがPython 3.13.1となっていますが、使用するPyTorchは現在 Python3.8~3.11 への対応となっているため、この範囲のPythonバージョンを選択します。

上記のPython画面を下にスクロールして「Looking for a specific release?」の欄まで移動します。今回はPythonバージョン3.11.9を使用します。リスト内の対象バージョンを見つけて「Download」をクリックします。

Python 3.11.9のサイトが開きますので、その画面を更に下にスクロールします。

最下部までスクロールすると「Files」の欄が出てきます。ここではリスト内の「Windows installer (64-bit)」をクリックしてダウンロードします。(お勧め-Recommended-されてますね。)

対象ファイルのダウンロードが始まり、パソコンのダウンロードフォルダに「python-3.11.9-amd64.exe」がダウンロードされます。(使用しているパソコンのCPUはインテル製ですがこのファイルで正しく作動します。)

python-3.11.9-amd64.exeを実行します。Setupが起動します。最初に必ず下部の「Add python.exe to PATH」にチェックを入れましょう。その後に上部の「Install Now 」をクリックしてPythonをパソコンにインストールします。

インストールが完了したら下記のような「Setup was successful」の画面が表示され無事Python 3.11.9のインストールは完了です。下部の「Close」ボタンをクリックして終了します。

・PythonとPIPの動作確認
Pythonと同時にPIPもインストールされます。双方が無事インストールできたか確認してみましょう。Windowsのコマンドプロンプトを開き、以下のコマンドを入力しそれぞれバージョンが表示されればOKです。
python --version pip --version
※FFmpegのインストール
次にFFmpegをパソコンにインストールしてFFmpegが使用できるようにします。
・FFmpegのダウンロード
FFmpegの公式サイトからダウンロードしてパソコンにインストールしましょう。
FFmpegの公式サイト:https://www.ffmpeg.org/
上記公式サイトを開きトップ画面左側メニューの「Download」をクリックします。

FFmpegのDawnload画面にて下部3つのロゴの中央にある「Windows」を選択しWindows EXE Files欄にて「Windows builds from gyan.dev」をクリックします。

gyan.devの「CODEX FFMPEG」サイトが開きます。下にスクロールしてrelease builds欄にある「ffmpeg-release-essentials.zip」をクリックします。

「ffmpeg-7.1-essentials_build.zip」がパソコンのダウンロードフォルダにダウンロードされます。

ダウンロードされたzipファイルを解凍します。ここでは解凍したフォルダを丸ごとWindowsパソコンのCディスクに移動することとします。フォルダ名も解凍時の「ffmpeg-7.1-essentials_builds」→シンプルに「ffmpeg」に変更しておきます。

ちなみに「ffmpeg」フォルダの配下は以下の感じとなっています。(ご参考)

・パソコンの環境変数の設定
次にWindows11パソコンの環境変数を設定します。Windowsの設定>システム>バージョン情報>システムの詳細設定をクリックして「システムのプロパティ」を開きます。「詳細設定」タグにある「環境変数(N)」をクリックします。

「環境変数」画面が開きますので、下段の「システム環境変数(S)」ボックス内の「Path」を選択し「編集」ボタンをクリックします。
「環境変数名の編集」画面が開きますので「新規(N)」をクリックして「C:¥ffmpeg¥bin」を追加します。(注:¥は半角)

・FFmpegの動作確認
ここまでの作業が終了したらFFmpegの動作確認をしてみましょう。コマンドプロンプトで以下のコマンドを実行します。(今回は「version」 の前の「-」は一つです。)無事バージョン情報が表示されればOKです。
ffmpeg -version
※Whisper(AI)のインストール
GitHUBからWhisper(AI)を取得しインストールしてみましょう。
・Whisper(AI)のインストール
コマンドプロンプトで以下のpipコマンドを実行しWhisper(AI)をインストールします。
pip install git+https://github.com/openai/whisper.git
・Whisper(AI)の動作確認
インストールに若干時間は掛かります。無事終了したら以下のコマン
ドを実行して動作確認をしてみましょう。Whisper(AI)のhelp一覧が表示されればOKです。
whisper --help
※文字起こしの実施
それでは実際に動画の文字起こしを実施してみましょう。ここでは動画ファイルとして「sample.mp4」を準備し、Cディスク直下に「video」フォルダを作成し保存します。

以下のコマンドを実行し文字起こしを実施してみましょう。
whisper "C:\video\sample.mp4" --language Japanese --model base
コマンドプロンプトにてコマンドが実行されるフォルダに以下のようなファイルが生成されたらOKです。動画の音声から文字起こしした内容は「sample.txt」に保存されます。

コマンドの最後部にある「–model base」部分の「base」を変更することにより文字起こしの精度をコントロールできます。(精度を上げると少し時間が掛かります。)以下のリストを参考にして下さい。

・参考1)翻訳
日本語を英語に自動的に翻訳もできますので参考にして下さい。
whisper "C:\video\sample.mp4" --task translate --model medium
・参考2)要約
文字起こしした内容(今回は「sample.txt」)とChatGPTを使って、例えば会議の議事録や要約を行うこともできます。ご参考までChatGPTへの指示コマンド例も記載します。お試し下さい。
ChatGPT、添付の「sample.txt」の内容から議事録を作成して下さい