Stable Audio 3

이 Soniqo 페이지는 로컬 speech-swift / speech-core 구현의 Stable Audio 3을 설명합니다. Hugging Face 번들 링크는 통합 메모 뒤에 있습니다.

내부 페이지 우선

랜딩 카드와 문서 메뉴는 먼저 이 페이지로 이동하고, 원본 모델과 번들 링크는 이 페이지 안에 둡니다.

개요

모델Stable Audio 3
역할Text-to-music generation
백엔드MLX, Medium DiT int8 default with int4 variant available
출력44.1 kHz stereo Float PCM
언어Prompt language depends on the T5Gemma text encoder
라이선스Stable Audio model terms apply
상태Default speech compose engine for Stable Audio 3 Medium
소스Stability AI Stable Audio 3
Swift 제품StableAudio3MusicGen
CLI / 런타임speech compose --engine sa3

사용

아래 스니펫은 현재 speech-swift 저장소의 API 또는 명령과 일치합니다.

# Generate 30 seconds of 44.1 kHz stereo audio.
.build/release/speech compose "lofi house loop" \
  --engine sa3 \
  --sa3-variant medium-int8 \
  --seconds 30 \
  -o music.wav

모델 링크

구현 메모