whisperで字幕データ作成


講演の動画を見るように言われたんだが、1時間オーバー。

1.5倍速ならなんとかついていけるだろうが、それでも40~45分くらいはかかるだろう。

字幕がついていれば2倍速でなんとか。

文字起こししてあれば、気になるところを中心にざざっと読んで終わらせることもできるんだが…

そういえば、whisperの文字起こしが優秀だって言ってたなってことで、whisperで字幕データを作ってみることにした。

google colabでできると書かれていたがデータがでかいのでセッション制限時間内に終わるかわからなかったので、手元のPCでやってみた。

GPUを使うための環境構築がうまくいかずcudaを認識できてなかったので、なくなくCPUでやったら、15時間位かかってしまった。

参考: WindowsにWhisperをインストールする

ちなみにこのページのままやるとcudaを認識できなくてGPUを使えない。

pytorchのインストールの部分をpytorch get started でインストール用のコマンドをコピーして来たらcudaを認識できるようになってGPUが使えるようになった。

なったのだが、GTX1070(8GB)ではメモリが足りない(model: large)。

仕方なく、CPUでやったら15時間位かかってしまった。

google colabでも試しておくかってことでやってみたら、無料版でもGPUメモリが15GBあってうまく動いた。

最初はpython codeでwhisperを呼び出す方法を参考にやってみたのだが、処理がすぐに終わってしまって使えない。

下手すると、GPUメモリが足りないとか言い始める。

colabのセッションをリセットしたらまたGPUメモリをフルに使えるようになるのだが、それでやり直してもやっぱり途中で止まる。

そこでpython codeでやるのをやめて、最初の方法、whisper コマンドでやってみることにした。

!pip install git+https://github.com/openai/whisper.git

!whisper /content/drive/MyDrive/temp/kouen.mp3 –device cuda –language Japanese –model large-v2

これでサクサク進んでいて、実際の音データの1.5倍くらいのスピードで文字起こしが進んでいるようだ。(1時間20分のデータが49分で完了)
colabにデータをアップロードするとすごい遅いので、google driveにおいてマウントして使うのがよい。

シェアする

  • このエントリーをはてなブックマークに追加

フォローする