Qwen3-TTS

Qwen3-TTS là mô hình ngôn ngữ codec 12Hz với bộ giải mã Mimi để tổng hợp giọng nói chất lượng cao từ văn bản. Đường MLX mặc định hiện dùng gói 1.7B Base bf16; các gói 8-bit vẫn có sẵn khi cần tải nhỏ hơn. int4 đã bị ngừng dùng vì chất lượng TTS.

Pipeline

Tổng hợp giọng nói tuân theo pipeline ba giai đoạn:

Talker — transformer 28 lớp chuyển văn bản đầu vào thành token codebook đầu tiên ở tần số 12.5 Hz
Code Predictor — transformer 5 lớp dự đoán 15 codebook còn lại từ các hidden state của codebook đầu tiên
Bộ giải mã codec Mimi — chuyển toàn bộ 16 token codebook thành dạng sóng âm thanh 24 kHz

Kiến trúc

Talker

Talker là mô hình tự hồi quy cốt lõi sinh ra token codec từ văn bản đầu vào.

Tham số	Giá trị
Số lớp	28
Chiều ẩn	1024
Đầu query	16
Đầu key/value	8 (GQA)
MLP	SwiGLU
Mã hóa vị trí	RoPE

Code Predictor

Một transformer nhẹ 5 lớp nhận các hidden state từ codebook đầu tiên và dự đoán song song 15 codebook còn lại. Điều này tránh việc phải chạy toàn bộ Talker 16 lần mỗi bước.

Bộ giải mã codec Mimi

Bộ giải mã Mimi chuyển các token codec đã lượng tử hóa trở lại thành âm thanh:

Giải mã RVQ (16 codebook)
Pre-convolution (512 đến 1024 kênh)
Pre-transformer (bottleneck từ 1024 xuống 512, 8 lớp, SwiGLU + LayerScale)
Upsample (2x, 2x)
Bộ giải mã SEANet (các tầng upsample 8x, 5x, 4x, 3x)
Đầu ra dạng sóng 24 kHz

Biến thể mô hình

Mô hình	Kích thước	HuggingFace
Qwen3-TTS-0.6B Base (8-bit)	1.3 GB	aufklarer/Qwen3-TTS-12Hz-0.6B-Base-MLX-8bit
Qwen3-TTS-1.7B Base (8-bit)	2.4 GB	aufklarer/Qwen3-TTS-12Hz-1.7B-Base-MLX-8bit
Qwen3-TTS-1.7B Base (bf16, default)	3.9 GB	aufklarer/Qwen3-TTS-12Hz-1.7B-Base-MLX-bf16
Qwen3-TTS-0.6B CustomVoice (bf16)	1.8 GB	aufklarer/Qwen3-TTS-12Hz-0.6B-CustomVoice-MLX-bf16
Qwen3-TTS CoreML (FP16)	2.1 GB	aufklarer/Qwen3-TTS-CoreML

Backend CoreML

Backend CoreML chạy toàn bộ pipeline Qwen3-TTS trên GPU thông qua Core ML, cho phép triển khai trên iOS và macOS mà không cần các phụ thuộc MLX. Mô hình được chia thành 6 submodel chuyên biệt được tối ưu cho ngăn xếp tính toán của Apple:

TextProjector — Chiếu các embedding token văn bản sang không gian ẩn dùng chung
CodeEmbedder — Tạo embedding cho token codebook đầu tiên và token điều khiển
MultiCodeEmbedder — Tạo embedding cho các token từ codebook 1–15
CodeDecoder — Transformer tự hồi quy 28 lớp với KV cache không trạng thái (tối đa 256 vị trí)
MultiCodeDecoder — Code predictor 5 lớp cho các codebook 1–15
SpeechDecoder — Bộ giải mã codec Mimi, chuyển 16 token codebook thành âm thanh 24 kHz

# CoreML synthesis
.build/release/speech speak "Hello, world!" --engine coreml -o hello.wav

# CoreML uses temperature 0.8 by default (required for quality output)
.build/release/speech speak "Long text here." --engine coreml --temperature 0.9 -o out.wav

Giới hạn KV cache của CoreML

CodeDecoder của CoreML dùng KV cache cố định 256 vị trí. Các đoạn dài hơn cần được tách thành từng câu riêng lẻ. Các token giải mã sẽ tự động bị giới hạn để vừa với số slot cache còn lại sau prefill.

Sử dụng CLI

Sinh giọng nói từ văn bản:

.build/release/speech speak "Hello, world!" --output hello.wav

Tùy chọn

Flag	Mô tả
`--engine`	Engine TTS: `qwen3` (MLX, mặc định), `coreml` (CoreML/GPU) hoặc `cosyvoice`
`--output`, `-o`	Đường dẫn tới file WAV đầu ra
`--language`	Ngôn ngữ (mặc định: english). Bỏ qua để dùng phương ngữ bản ngữ của người nói.
`--model`	Biến thể mô hình: `base` hoặc `customVoice`
`--speaker`	Giọng người nói (yêu cầu `--model customVoice`)
`--temperature`	Nhiệt độ lấy mẫu (mặc định: 0.3)
`--top-k`	Tham số lấy mẫu top-k
`--max-tokens`	Số token tối đa cần sinh (mặc định: 500)
`--stream`	Bật streaming — phát ra các chunk âm thanh trong quá trình sinh
`--first-chunk-frames`	Số frame trong chunk đầu tiên được streaming
`--chunk-frames`	Số frame trong mỗi chunk tiếp theo được streaming
`--batch-file`	Đường dẫn tới file văn bản với mỗi câu một dòng để tổng hợp theo lô
`--batch-size`	Số câu được xử lý song song trong chế độ batch

Ví dụ

# Basic synthesis
.build/release/speech speak "The quick brown fox." -o fox.wav

# Streaming output
.build/release/speech speak "Long passage of text..." --stream -o stream.wav

# Batch synthesis from file
.build/release/speech speak --batch-file sentences.txt --batch-size 4 -o output_dir/

Streaming

Flag --stream bật đầu ra âm thanh theo chunk trong quá trình sinh. Thay vì chờ toàn bộ câu hoàn thành, âm thanh được phát ra theo từng chunk khi token được sinh ra. Dùng --first-chunk-frames và --chunk-frames để kiểm soát kích thước của mỗi chunk.

Chế độ batch

Để tổng hợp nhiều câu, dùng --batch-file với một file văn bản chứa mỗi dòng một câu. Flag --batch-size kiểm soát số câu được xử lý song song.

Hiệu năng

Trên M2 Max, Qwen3-TTS đạt RTF (hệ số thời gian thực) khoảng 0.55, nghĩa là sinh giọng nói nhanh hơn thời gian thực. Với warmup bằng compile(), mỗi bước mất khoảng 37 ms.

Giới hạn an toàn

Giá trị tối đa mặc định là 500 token, tương ứng khoảng 40 giây âm thanh ở 12.5 Hz. Đặt giá trị cao hơn có nguy cơ vượt quá timeout watchdog của Metal GPU, có thể gây khởi động lại hệ thống trên Apple Silicon vì GPU được dùng chung với bộ tổng hợp giao diện.

Ngôn ngữ

Qwen3-TTS hỗ trợ tổng hợp giọng nói đa ngôn ngữ. Mô hình tự động phát hiện ngôn ngữ đầu vào và sinh giọng nói tương ứng.

API Swift

import Qwen3TTS
import AudioCommon

let model = try await Qwen3TTSModel.fromPretrained()
let audio = model.synthesize(text: "Hello, world!", language: "english")
try WAVWriter.write(samples: audio, sampleRate: 24000, to: URL(filePath: "hello.wav"))