実験的な環境です。
EasyLlasa は 5~15秒の日本語音声と日本語テキストから日本語音声を生成する TSTS (TextSpeechToSpeech) です。
Anime-Llasa-3B をローカル PC で試せる環境です。
Geforce RTX 3060 12GB 以上を搭載した Windows PC が必要です(1音声 15秒程度)。
Anime-Llasa-3B-Demo でオンラインデモを試せますので、インストール前にどうぞ。
- EasyLlasaInstaller.bat を右クリックから保存します。
- リンクを開いてから右クリックから保存すると、
*.batファイルでなく*.txtファイルになり実行できなくなります。
- リンクを開いてから右クリックから保存すると、
- インストール先の 空フォルダ を
C:/EasyLlasa/やD:/EasyLlasa/などの浅いパスに用意して、EasyLlasaInstaller.batを置いて実行します。発行元を確認できませんでした。このソフトウェアを実行しますか?と表示されたら実行します。WindowsによってPCが保護されましたと表示されたら、詳細表示から実行します。Microsoft Visual C++ 2015-2022 Redistributableのインストールでこのアプリがデバイスに変更を加えることを許可しますか?と表示されたらはいとします。
StartServer.batを実行してモデルのロードを待ちます。- お好みのテキストエディタで
Dialogue.txtを開いて、1行 1音声でテキストを入力します。 Generate.batに 5~15秒程度の音声ファイルをドラッグ&ドロップします。- 生成が終わると
Output/に保存しつつプレビュー再生します。
- ランダム幅の広い生成ですので、ガチャってみてください。
BatchGenerate.batで大量の音声をバッチで一括生成したり、バッチ数-1で永続生成したりもできます。
- 音声ファイルの続きとしてテキストの音声が生成されますので、テキストに合わせて馴染みそうな音声ファイルをご利用ください。
- SageAttention を
v2.2.0-windows.post3に更新しました。
-w, --whisperオプションで Whisper モデルを指定可能にしました。- デフォルトは
litagin/anime-whisperで、openai/whisper-large-v3-turboなども指定できます。
- デフォルトは
- 音声ファイル名に
()が含まれていると正しく動作しなかった不具合を修正しました。
StartServer.batとBatchGenerate.batに@REM set HF_HOME=huggingface_cacheを追加しました。set HF_HOME=huggingface_cacheとアンコメントすることで、Windows のユーザーフォルダのストレージ消費を回避できます。- ただし、Huggingace ライブラリの思想である「複数プロセスでのモデル共有」ができなくなります。
- pip と Huggingface の共有キャッシュを削除する
PurgeSharedCache.batを追加しました。- 共有キャッシュを削除すると、次回の pip パッケージインストール時や Huggingface モデルの利用時に再ダウンロードが発生します。
- EasyLlasa を公開しました。
- かなりのバイブコーディング製です。
- のでバグったら AI 頼りですので、直せなかったらごめんなさい。
以下のプレビュー再生とデフォルトのバッチ数は StartServer.bat や BatchGenerate.bat をコピーするなどして書き換えてください。
set PLAY=--play --volume 0.7 --speed 1.0
set BATCH_COUNT=0
StartServer.bat と BatchGenerate.bat は同じ引数を指定できます。
-m, --model: 使用するモデル名(デフォルト:NandemoGHS/Anime-Llasa-3B)-w, --whisper: Whisperモデル選択(例:litagin/anime-whisper,openai/whisper-large-v3-turbo)-t, --text: テキストファイルパス(デフォルト:Dialogue.txt)-o, --output: 出力ディレクトリ(デフォルト:Output)
--server: サーバーモードで実行(名前付きパイプによるプロセス間通信)-b, --batch_count: バッチ生成回数0: プロンプトで確認(対話的入力)-1: 永続生成(Ctrl+Cで停止まで継続)その他の数値: 指定回数生成
-q, --quantization: 4bit量子化を有効化
--temperature: テキスト生成の温度パラメータ(デフォルト: 0.8)--top_p: ニューリアスサンプリングのtop-p値(デフォルト: 1.0)--repetition_penalty: 繰り返しペナルティ(デフォルト: 1.1)
-p, --play: 生成した音声をffplay.exeで自動再生-v, --volume: 再生音量レベル(0.0-2.0、デフォルト: 1.0)-s, --speed: 再生速度(0.5-2.0、デフォルト: 1.0)
--test-seed: 再現可能なテスト結果のためのランダムシード(テスト目的のみ)
このリポジトリの内容は MIT License です。
別途ライセンスファイルがあるフォルダ以下は、そのライセンスです。