Stable Audio 3

หน้านี้ของ Soniqo อธิบาย Stable Audio 3 ตาม implementation ใน speech-swift / speech-core ส่วนลิงก์ Hugging Face อยู่ใต้หมายเหตุการใช้งาน

เข้าหน้าในเว็บก่อน

การ์ดหน้าแรกและเมนูเอกสารจะชี้มาที่หน้านี้ก่อน ส่วนลิงก์ไปยัง source model และ bundle ยังอยู่ในหน้านี้

ภาพรวม

โมเดลStable Audio 3
บทบาทText-to-music generation
BackendMLX, Medium DiT int8 default with int4 variant available
Output44.1 kHz stereo Float PCM
ภาษาPrompt language depends on the T5Gemma text encoder
LicenseStable Audio model terms apply
สถานะDefault speech compose engine for Stable Audio 3 Medium
SourceStability AI Stable Audio 3
Swift productStableAudio3MusicGen
CLI / runtimespeech compose --engine sa3

การใช้งาน

snippet ด้านล่างตรงกับ API หรือคำสั่งปัจจุบันใน speech-swift

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

ลิงก์โมเดล

หมายเหตุ implementation