試してみたブログ

AI関連・iPhone/Pixelなどのガジェット・音声入力・サーマルプリンタなど興味をある事をどんどん試してみた際の記録

Qwen3-TTSをmacに入れてみる

背景

Qwen3-TTSの概要

  • Qwen(阿里系)が公開したTTSモデル群で、音声トークナイザ+言語モデルデコーダからなる構成です。
  • 10言語以上(中・英・日・韓・独・西など)対応で、同じ話者での多言語読み上げを想定しています。
  • 数百万時間規模(約500万時間超)の学習データで訓練されており、ロバストな読み上げ・長文耐性・ノイズ環境への強さを売りにしています。 ​- Apache 2.0ライセンスで、商用利用もしやすい形でトークナイザとモデルが公開されています。

主な機能・強み

  • ボイスクローン: 数秒レベルのサンプルから話者の声質・抑揚を高精度で再現することを強く打ち出しています。

  • ボイスデザイン: 「若い男性で、落ち着いたトーン」など自然言語プロンプトから声の性質・スタイルを指定できるデザイン機能があります。

  • スタイル・感情制御: 話速、トーン、感情(元気・しっとりなど)をプロンプトである程度コントロールできるよう設計されています。

  • ストリーミングTTS: テキストも音声も逐次処理する二重トラックLM構造で、首パケット遅延97〜101msクラスの低レイテンシを実現したと報告されています。

  • 長文安定性: 長尺の読み上げでもチャンク境界の不自然さを抑え、プロソディが破綻しにくいことを特徴として挙げています。 ​

    試してみた

github.com

  • インストール
  • uv venv --python 3.10`
  • uv pip install torch torchvision --index-url https://download.pytorch.org/whl/cu128
  • uv pip install -U qwen-tts
  • qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base \ --device mps \ --no-flash-attn \ --ip 127.0.0.1 \ --port 8000
  • http://127.0.0.1:8000/

  • 自分の声を5秒ほど録音して、何かしゃべらせます

  • なかなかおもしろい。
  • wav形式でダウンロードも可能です