Stable Audio 3

Diese Soniqo-Seite dokumentiert Stable Audio 3 aus der lokalen speech-swift- / speech-core-Implementierung. Hugging-Face-Bundles sind nach den Integrationshinweisen verlinkt.

Zuerst interne Seite

Landing-Karten und Docs-Menüs führen zuerst hierher; Quellen- und Bundle-Links bleiben auf dieser Seite verfügbar.

Überblick

ModellStable Audio 3
RolleText-to-music generation
BackendMLX, Medium DiT int8 default with int4 variant available
Ausgabe44.1 kHz stereo Float PCM
SprachenPrompt language depends on the T5Gemma text encoder
LizenzStable Audio model terms apply
StatusDefault speech compose engine for Stable Audio 3 Medium
QuelleStability AI Stable Audio 3
Swift-ProduktStableAudio3MusicGen
CLI / Laufzeitspeech compose --engine sa3

Verwendung

Das folgende Snippet entspricht der aktuellen API oder dem aktuellen Befehl aus speech-swift.

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

Modelllinks

Implementierungsnotizen