Stable Audio 3

توثق هذه الصفحة من Soniqo نموذج Stable Audio 3 كما هو منفذ في speech-swift / speech-core. روابط Hugging Face موجودة أدناه بعد ملاحظات الدمج.

الصفحة الداخلية أولا

بطاقات الصفحة الرئيسية وقوائم الوثائق تشير إلى هذه الصفحة أولا؛ وتبقى روابط النموذج والحزم داخلها.

لمحة سريعة

النموذج	Stable Audio 3
الدور	Text-to-music generation
Backend	MLX, Medium DiT int8 default with int4 variant available
الإخراج	44.1 kHz stereo Float PCM
اللغات	Prompt language depends on the T5Gemma text encoder
الرخصة	Stable Audio model terms apply
الحالة	Default speech compose engine for Stable Audio 3 Medium
المصدر	Stability AI Stable Audio 3
منتج Swift	`StableAudio3MusicGen`
CLI / runtime	`speech compose --engine sa3`

الاستخدام

المقتطف أدناه يطابق API أو الأمر الحالي في speech-swift.

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

روابط النموذج

ملاحظات التنفيذ

Download is already componentized into DiT, SAME encoder/decoder, and T5Gemma directories; moving it to byte-weighted progress would match the faster Fish path.
Medium DiT uses 24 layers, 1536 hidden size, differential attention, T5Gemma conditioning, and SAME-L decode.
Small Music and Small SFX bundle IDs exist, but the current Swift port wires the Medium family first.
Length is variable: latent steps are ceil(seconds * 44100 / 4096), then output is cropped to the requested duration.