Chatterbox Multilingual

Diese Soniqo-Seite dokumentiert Chatterbox Multilingual aus der lokalen speech-swift- / speech-core-Implementierung. Hugging-Face-Bundles sind nach den Integrationshinweisen verlinkt.

Zuerst interne Seite

Landing-Karten und Docs-Menüs führen zuerst hierher; Quellen- und Bundle-Links bleiben auf dieser Seite verfügbar.

Überblick

Modell	Chatterbox Multilingual
Rolle	Multilingual zero-shot voice-cloning TTS
Backend	MLX fp16 on Apple; LiteRT default-voice runtime in Speech Core
Ausgabe	24 kHz mono waveform
Sprachen	23 languages
Lizenz	MIT
Status	MLX cloning runtime; LiteRT greedy/default-voice runtime for edge deployments
Quelle	Resemble AI Chatterbox
Swift-Produkt	`ChatterboxTTS`
CLI / Laufzeit	Programmatic speech-swift runtime; LiteRT example CLI in speech-core/examples/litert

Verwendung

Das folgende Snippet entspricht der aktuellen API oder dem aktuellen Befehl aus speech-swift.

import ChatterboxTTS

let model = try await ChatterboxTTSModel.fromPretrained()
let pcm = try model.clone(
    referenceSamples: reference,
    sampleRate: 24_000,
    text: "The cloned voice now speaks a new sentence.",
    languageId: "en"
)

Modelllinks

Implementierungsnotizen

Download is split between the main Chatterbox bundle and the separate S3 tokenizer repository.
Pipeline is T3 text-to-speech tokens, S3Gen flow mel decoder, then HiFi-GAN / HiFTGenerator vocoder.
Reference clips are resampled to 24 kHz for S3Gen and 16 kHz for speaker/token conditioning.
speech-core's LiteRT path ships a default voice; fp16 T3 is recommended for Arabic quality.