背景
- 下記を呼んでQwen3-TTSに興味をもった nowokay.hatenablog.com
Qwen3-TTSの概要
- Qwen(阿里系)が公開したTTSモデル群で、音声トークナイザ+言語モデル+デコーダからなる構成です。
- 10言語以上(中・英・日・韓・独・西など)対応で、同じ話者での多言語読み上げを想定しています。
- 数百万時間規模(約500万時間超)の学習データで訓練されており、ロバストな読み上げ・長文耐性・ノイズ環境への強さを売りにしています。 - Apache 2.0ライセンスで、商用利用もしやすい形でトークナイザとモデルが公開されています。
主な機能・強み
ボイスクローン: 数秒レベルのサンプルから話者の声質・抑揚を高精度で再現することを強く打ち出しています。
ボイスデザイン: 「若い男性で、落ち着いたトーン」など自然言語プロンプトから声の性質・スタイルを指定できるデザイン機能があります。
スタイル・感情制御: 話速、トーン、感情(元気・しっとりなど)をプロンプトである程度コントロールできるよう設計されています。
ストリーミングTTS: テキストも音声も逐次処理する二重トラックLM構造で、首パケット遅延97〜101msクラスの低レイテンシを実現したと報告されています。
長文安定性: 長尺の読み上げでもチャンク境界の不自然さを抑え、プロソディが破綻しにくいことを特徴として挙げています。
試してみた
- インストール
- uv venv --python 3.10`
uv pip install torch torchvision --index-url https://download.pytorch.org/whl/cu128uv pip install -U qwen-ttsqwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \ --device mps \ --no-flash-attn \ --ip 127.0.0.1 \ --port 8000- http://127.0.0.1:8000/

- 自分の声を5秒ほど録音して、何かしゃべらせます

- なかなかおもしろい。
- wav形式でダウンロードも可能です