Stable Audio 3

此 Soniqo 页面记录本地 speech-swift / speech-core 实现中的 Stable Audio 3。Hugging Face 包链接放在集成说明之后。

先进入站内页面

首页卡片和文档菜单先指向这里;源模型和权重包链接仍在本页提供。

概览

模型Stable Audio 3
用途Text-to-music generation
后端MLX, Medium DiT int8 default with int4 variant available
输出44.1 kHz stereo Float PCM
语言Prompt language depends on the T5Gemma text encoder
许可证Stable Audio model terms apply
状态Default speech compose engine for Stable Audio 3 Medium
来源Stability AI Stable Audio 3
Swift 产品StableAudio3MusicGen
CLI / 运行时speech compose --engine sa3

使用

下面的片段对应当前 speech-swift 仓库暴露的 API 或命令。

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

模型链接

实现说明