【Moe TTS】約2900キャラの音声を合成するAI

コンピュータ全般

こ↓こ↑

Moe TTS - a Hugging Face Space by skytnt
Discover amazing ML apps made by the community

試してみたところ、そのままだとアクセントや間の開け方が、日本語初学者ぽい感じ?でした。
しかし全体的には雰囲気をつかんでおり、最近のAIの進化に若干恐ろしさすら感じました・ω・

オフラインで実行する

オフライン版としてMoeGoe(名前が有名ボイスチェンジャーと同じだな…)があります。

GitHub - CjangCjengh/MoeGoe: Executable file for VITS inference
Executable file for VITS inference. Contribute to CjangCjengh/MoeGoe development by creating an account on GitHub.

しかし、UIが中国語なので最初に貼ったHugging Face上のデモをローカルにまるごと落とすのが良いです。

Hugging Faceからまるごと落とす

gitがインストール済みなら

git lfs install
git clone --depth=1 https://huggingface.co/spaces/skytnt/moe-tts

で終わりです。次へ進んでください。

単にダウンロード速度だけならgitよりpythonからのほうが速いですが。

まずは環境を整えます。

  1. Pythonのインストール(3.xの一番あたらしいのでも入れれば動くはず)
  2. ターミナルとかPowerShellでpip install huggingface-hubを実行

あとは以下の通り、PowerShellなどで実行します。

python
>>> from huggingface_hub import snapshot_download
>>> snapshot_download(repo_id="skytnt/moe-tts",repo_type="space",revision="main",cache_dir="./")
何をやっているのか

pythonでインタラクティブモードに入る
→hugginface_hubからsnapshot_downloadを取り込む
→取り込んだ関数でリポジトリをまるごとダウンロード

なおそのまま実行すると、「シンボリックリンクが無いとディスクスペースを圧迫するので開発者モードをオンにして管理者権限で実行するといいよ」とかなんとかと警告されますが、動いてるのでヨシ!
次に行きましょう。

結果
Downloading: 100%|█████████████████████████████████████████████████████████████████| 1.51k/1.51k [00:00<00:00, 756kB/s]
C:\Users\UserName\AppData\Local\Programs\Python\Python310\lib\site-packages\huggingface_hub\file_download.py:123: UserWarning: `huggingface_hub` cache-system uses symlinks by default to efficiently store duplicated files but your machine does not support them in D:UsersPath_to_Cache_Folder. Caching files will still work but in a degraded version that might require more space on your disk. This warning can be disabled by setting the `HF_HUB_DISABLE_SYMLINKS_WARNING` environment variable. For more details, see https://huggingface.co/docs/huggingface_hub/how-to-cache#limitations.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
  warnings.warn(message)
Downloading: 100%|████████████████████████████████████████████████████████████████| 6.23k/6.23k [00:00<00:00, 6.22MB/s]
...(省略)...
Fetching 130 files: 100%|████████████████████████████████████████████████████████████| 130/130 [03:40<00:00,  1.70s/it]
'./spaces--skytnt--moe-tts\snapshots\992444b9d0462f25aec35dbffea7cec30ae60cdb'

・参考

依存関係を解決

ダウンロードしたフォルダのspaces--skytnt--moe-tts\snapshots\40文字の英数字\でターミナルやPowerShellを開きます。
そしてpip install -r requirements.txtを実行します。これで必須ライブラリを一括で入れてくれます。

実行

spaces--skytnt--moe-tts\snapshots\40文字の英数字\app.pyを実行します。

僕の環境だと動きませんでした()
(Pythonのマイナーバージョンを落とすとうまくいくかもしれない。Getting requirements to build wheel did not run successfully.とのことだが、依存関係のライブラリをインストールする際にビルドができてないとか?とか無い頭で考えている(ここから)。気が向いたらやってみます。まあ待ってれば最新版用にビルド済みのものがキャッシュされるみたいなんですけどね。)

感想

どうやらMoeGoeの作者CjangCjenghが音声合成モデルの半分以上を学習させた人みたいです。

この方はおそらく中国の方だと思うのですが、日本語チャットボットなんかも作っていて、異国の言葉なのにすごいなぁと思いました(小並感)

ちなみに、GradioベースのWebUI上で、Advanced OptionsからSymbol Inputをオンにするとアクセントの調節等ができるんですが、説明書がなく少し触った程度だと上手く扱えませんでした…。
ここらへん上手くいくともっと自然になるのか気になるので、時間があったら(いつもの)遊んでみようと思います。

コメント

タイトルとURLをコピーしました