Speech Studio

로컬에서 음성 복제와 멀티스피커 대화 생성을 수행하는 오픈소스 Mac 앱. 음성 샘플을 드롭하여 복제하고 장면을 작성한 후 합성 — 모두 노트북에서. API 키 없음, 클라우드 없음, 문자당 과금 없음.

30초 블라인드 테스트: 실제 음성, Speech Studio가 MacBook에서 로컬로 복제한 동일한 음성, ElevenLabs가 클라우드에서 복제한 동일한 음성. 어느 것이 어느 것인지 알아맞힐 수 있나요?

주요 기능

요구 사항

설치

GitHub Releases에서 최신 .dmg를 다운로드하고 열어서 Speech Studio/Applications로 드래그한 다음 실행하세요:

처음 실행 시 macOS Gatekeeper가 개발자를 확인할 수 없다고 경고합니다 — 공증된 빌드가 출시될 때까지 시스템 설정 → 개인정보 보호 및 보안 → 강제로 열기로 여세요. 첫 실행 시 약 2.75 GB의 VoxCPM2 가중치도 HuggingFace에서 ~/.cache/huggingface/hub/로 다운로드되며, 이후 실행은 캐시를 재사용합니다.

CLI를 선호하시나요?

동일한 음성 복제 파이프라인은 speech CLI에도 포함되어 있습니다: brew install soniqo/tap/speech 그리고 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 스크립트화나 일괄 사전 렌더링에 유용합니다. 전체 흐름은 음성 복제 가이드를 참조하세요.

상태

Speech Studio는 활성 프리뷰 중입니다 (v0.0.2). 소스 저장소 github.com/soniqo/speech-studio는 GUI 앱을 추적하므로, 공증된 릴리스 알림을 받으려면 star/watch 하세요. Linux와 Windows 빌드는 현재 speech-core의 LiteRT VoxCPM2 엔진을 통해 컴파일됩니다. 디바이스 런타임은 배선되었지만 아직 하드웨어 검증은 안 되었습니다.

기반 기술

Speech Studio는 데모에 사용된 모든 모델을 제공하는 오픈소스 Swift 라이브러리 speech-swift 위에 얹은 얇은 GUI입니다:

로드맵

피드백

github.com/soniqo/speech-studio/issues에 issue를 열어주세요 — 모두 읽고 있습니다.