Stable Audio 3

この Soniqo ページは、ローカルの speech-swift / speech-core 実装にある Stable Audio 3 を説明します。Hugging Face バンドルへのリンクは統合メモの後にあります。

まずサイト内ページへ

ランディングカードとドキュメントメニューは先にこのページへ向け、ソースモデルとバンドルのリンクは本ページ内に残します。

概要

モデルStable Audio 3
役割Text-to-music generation
バックエンドMLX, Medium DiT int8 default with int4 variant available
出力44.1 kHz stereo Float PCM
言語Prompt language depends on the T5Gemma text encoder
ライセンスStable Audio model terms apply
状態Default speech compose engine for Stable Audio 3 Medium
ソースStability AI Stable Audio 3
Swift プロダクトStableAudio3MusicGen
CLI / ランタイムspeech compose --engine sa3

使い方

以下のスニペットは、現在の speech-swift リポジトリが公開している API またはコマンドに合わせています。

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

モデルリンク

実装メモ