Stable Audio 3

Эта страница Soniqo описывает Stable Audio 3 из локальной реализации speech-swift / speech-core. Ссылки на Hugging Face находятся ниже после заметок по интеграции.

Сначала внутренняя страница

Карточки и меню документации сначала ведут сюда; ссылки на исходную модель и бандлы остаются на этой странице.

Кратко

МодельStable Audio 3
РольText-to-music generation
BackendMLX, Medium DiT int8 default with int4 variant available
Вывод44.1 kHz stereo Float PCM
ЯзыкиPrompt language depends on the T5Gemma text encoder
ЛицензияStable Audio model terms apply
СтатусDefault speech compose engine for Stable Audio 3 Medium
ИсточникStability AI Stable Audio 3
Swift-продуктStableAudio3MusicGen
CLI / runtimespeech compose --engine sa3

Использование

Фрагмент ниже соответствует текущему API или команде из speech-swift.

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

Ссылки модели

Заметки реализации