Stable Audio 3

Cette page Soniqo documente Stable Audio 3 tel qu'il est implémenté dans speech-swift / speech-core. Les liens Hugging Face sont placés après les notes d'intégration.

Page interne d'abord

Les cartes et menus pointent d'abord ici; les liens vers le modèle source et les bundles restent disponibles sur cette page.

Aperçu

ModèleStable Audio 3
RôleText-to-music generation
BackendMLX, Medium DiT int8 default with int4 variant available
Sortie44.1 kHz stereo Float PCM
LanguesPrompt language depends on the T5Gemma text encoder
LicenceStable Audio model terms apply
ÉtatDefault speech compose engine for Stable Audio 3 Medium
SourceStability AI Stable Audio 3
Produit SwiftStableAudio3MusicGen
CLI / runtimespeech compose --engine sa3

Utilisation

L'extrait ci-dessous suit l'API ou la commande actuellement exposée par speech-swift.

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

Liens du modèle

Notes d'implémentation