MP4動画から自動で文字起こしと議事録を作成するツールです。 M4 Pro(MPS)とRTX(CUDA)の両方に対応しています。
- MP4動画から音声を抽出
- Whisperで文字起こし(OpenAI Whisper / faster-whisper)
- LLMで要約して議事録を作成
※ Whisperは稀に存在しない文言を生成することがあるので、議事録用途は「最終チェック必須」
-
🧠 Design & Philosophy (Miyakawa Codes) https://miyakawa.codes/blog/local-ai-meeting-minutes-10-minutes
-
⚙️ Technical Guide (Qiita) https://qiita.com/miyakawa2449@github/items/be7a1e5c2a16ac934f13
transcribe.py
Apple SiliconでPyTorchを試したバージョン。Macで一番高いパフォーマンスを出します。MPSに対応しており、M4 Pro 48GBで90分の動画を10分台で議事録までまとめます。transcribe_fw.py
Apple Siliconで fast whisper を試した実験版。MPS未対応のためCPUで実行。transcribe_cuda.py
RTXなどNVIDIA GPUで OpenAI Whisper (PyTorch) をCUDA利用する場合。transcribe_fw_cuda.py
RTXなどNVIDIA GPUで faster-whisper (CTranslate2 CUDA) を利用する場合。
bench_transcribe.py は、Whisper / faster-whisper を1本で切り替えて計測するベンチ用スクリプトです。
--engine whisper | faster-whisper--device auto | cpu | mps | cuda- 計測項目:
extract / load / asr / summary / total - ログ:
--bench-jsonl(JSONL追記),--bench-md(Markdown表追記)
python3 bench_transcribe.py meeting.mp4 \
--engine faster-whisper \
--device auto \
--no-summary \
--bench-jsonl bench/bench.jsonl \
--bench-md bench/bench.mdpython3 bench_transcribe.py meeting.mp4 \
--engine whisper \
--device mps \
--beam-size 1 \
--best-of 1 \
--no-summary \
--bench-jsonl bench/bench.jsonl \
--bench-md bench/bench.mdpython3 bench_transcribe.py meeting.mp4 \
--engine faster-whisper \
--device auto \
--beam-size 1 \
--best-of 1 \
--no-summary \
--bench-jsonl bench/bench.jsonl \
--bench-md bench/bench.mdpython3 bench_transcribe.py meeting.mp4 \
--engine whisper \
--device cuda \
--beam-size 1 \
--best-of 1 \
--no-summary \
--bench-jsonl bench/bench.jsonl \
--bench-md bench/bench.mdpython3 bench_transcribe.py meeting.mp4 \
--engine faster-whisper \
--device cuda \
--beam-size 1 \
--best-of 1 \
--no-summary \
--bench-jsonl bench/bench.jsonl \
--bench-md bench/bench.md# 実行権限を付与
chmod +x setup.sh
# セットアップスクリプトを実行
./setup.shこれで仮想環境の作成、パッケージのインストール、設定ファイルの準備が完了します。
# 1. 仮想環境を作成
python3 -m venv whisper
# 2. 仮想環境を有効化
source whisper/bin/activate
# 3. ffmpegのインストール
brew install ffmpeg
# 4. Pythonパッケージのインストール
pip install --upgrade pip
pip install -r requirements.txt
# 5. 環境変数の設定
cp .env.example .env
# .envファイルを編集してOpenAI API Keyを設定source whisper/bin/activatepython transcribe.py meeting.mp4deactivatepython transcribe.py meeting.mp4 --model largepython transcribe.py meeting.mp4 --model smallpython transcribe.py meeting.mp4 --no-summary- faster-whisper CUDA: 2分50秒
- OpenAI Whisper CUDA: 6分30秒前後
- MPS(M4 Pro): 10分40秒前後
output/[ファイル名]_transcript.txt- 文字起こし結果output/[ファイル名]_minutes.txt- 議事録
最新のPyTorchをインストール:
pip install --upgrade torchM4 Pro 48GBでは通常発生しませんが、他のアプリを閉じてください。
- バックグラウンドアプリを閉じる: より多くのメモリをWhisperに割り当て
- 電源接続: バッテリー駆動時より高速
- 初回実行: モデルのダウンロードに時間がかかります(2回目以降は高速)