Stable Audio 3

Esta página de Soniqo documenta Stable Audio 3 tal como está implementado en speech-swift / speech-core. Los enlaces a Hugging Face aparecen debajo de las notas de integración.

Primero página interna

Las tarjetas y menús apuntan primero aquí; los enlaces al modelo fuente y a los bundles siguen disponibles en esta página.

Resumen

ModeloStable Audio 3
RolText-to-music generation
BackendMLX, Medium DiT int8 default with int4 variant available
Salida44.1 kHz stereo Float PCM
IdiomasPrompt language depends on the T5Gemma text encoder
LicenciaStable Audio model terms apply
EstadoDefault speech compose engine for Stable Audio 3 Medium
FuenteStability AI Stable Audio 3
Producto SwiftStableAudio3MusicGen
CLI / runtimespeech compose --engine sa3

Uso

El fragmento siguiente refleja la API o el comando actual expuesto por speech-swift.

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

Enlaces del modelo

Notas de implementación