Speech Studio
로컬에서 음성 복제와 멀티스피커 대화 생성을 수행하는 오픈소스 Mac 앱. 음성 샘플을 드롭하여 복제하고 장면을 작성한 후 합성 — 모두 노트북에서. API 키 없음, 클라우드 없음, 문자당 과금 없음.
30초 블라인드 테스트: 실제 음성, Speech Studio가 MacBook에서 로컬로 복제한 동일한 음성, ElevenLabs가 클라우드에서 복제한 동일한 음성. 어느 것이 어느 것인지 알아맞힐 수 있나요?
주요 기능
- 짧은 참조 클립으로 음성 복제 — 몇 초의 음성을 드롭하면 해당 음성을 로컬에서 복제합니다.
- 멀티스피커 대화 생성 — 여러 화자가 등장하는 장면을 작성하고 한 번에 모두 합성합니다.
- Mac에서 완전히 실행 — MLX를 통한 VoxCPM2, DeepFilterNet3로 노이즈 억제, 네트워크 불필요.
- Apache 2.0 오픈소스 — 포크, 임베드, 기반 빌드 — 자유롭게 활용 가능.
요구 사항
- macOS 15+ (Sequoia 이상)
- Apple Silicon (M1, M2, M3, M4 시리즈)
- 최소 8 GB RAM (16 GB 권장)
- 음성 복제 및 노이즈 억제 모델용 디스크 약 3 GB (첫 사용 시 HuggingFace에서 다운로드)
설치
GitHub Releases에서 최신 .dmg를 다운로드하고 열어서 Speech Studio를 /Applications로 드래그한 다음 실행하세요:
처음 실행 시 macOS Gatekeeper가 개발자를 확인할 수 없다고 경고합니다 — 공증된 빌드가 출시될 때까지 시스템 설정 → 개인정보 보호 및 보안 → 강제로 열기로 여세요. 첫 실행 시 약 2.75 GB의 VoxCPM2 가중치도 HuggingFace에서 ~/.cache/huggingface/hub/로 다운로드되며, 이후 실행은 캐시를 재사용합니다.
동일한 음성 복제 파이프라인은 speech CLI에도 포함되어 있습니다: brew install soniqo/tap/speech 그리고 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 스크립트화나 일괄 사전 렌더링에 유용합니다. 전체 흐름은 음성 복제 가이드를 참조하세요.
Speech Studio는 활성 프리뷰 중입니다 (v0.0.2). 소스 저장소 github.com/soniqo/speech-studio는 GUI 앱을 추적하므로, 공증된 릴리스 알림을 받으려면 star/watch 하세요. Linux와 Windows 빌드는 현재 speech-core의 LiteRT VoxCPM2 엔진을 통해 컴파일됩니다. 디바이스 런타임은 배선되었지만 아직 하드웨어 검증은 안 되었습니다.
기반 기술
Speech Studio는 데모에 사용된 모든 모델을 제공하는 오픈소스 Swift 라이브러리 speech-swift 위에 얹은 얇은 GUI입니다:
- VoxCPM2 — 음성 복제 모델 (제로샷, 짧은 참조)
- DeepFilterNet3 — 참조 및 복제 출력의 노이즈 제거
- Qwen3-ASR — 음성을 텍스트에 정렬 (데모의 블라인드 테스트 빌드 파이프라인에서 사용)
- 강제 정렬 — 편집을 위한 단어 수준 타임스탬프
- 음성 복제 가이드 — 파이프라인 전체 개요
로드맵
- 오늘: Mac (Apple Silicon).
- 다음: Linux (CUDA + CPU), Windows.
- 그 다음: 더 깊은 편집 화면, 교체 가능한 복제 모델용 플러그인 지원.
피드백
github.com/soniqo/speech-studio/issues에 issue를 열어주세요 — 모두 읽고 있습니다.