Stable Audio 3

यह Soniqo पेज स्थानीय speech-swift / speech-core implementation में Stable Audio 3 को दस्तावेज़ करता है। Hugging Face bundle links integration notes के बाद दिए गए हैं।

पहले आंतरिक पेज

Landing cards और docs menus पहले इसी पेज पर आते हैं; source model और bundle links यहीं उपलब्ध रहते हैं।

सारांश

मॉडलStable Audio 3
भूमिकाText-to-music generation
BackendMLX, Medium DiT int8 default with int4 variant available
Output44.1 kHz stereo Float PCM
भाषाएँPrompt language depends on the T5Gemma text encoder
लाइसेंसStable Audio model terms apply
स्थितिDefault speech compose engine for Stable Audio 3 Medium
SourceStability AI Stable Audio 3
Swift productStableAudio3MusicGen
CLI / runtimespeech compose --engine sa3

उपयोग

नीचे का snippet मौजूदा speech-swift API या command से मेल खाता है।

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

मॉडल लिंक

implementation notes