Speech Studio

로컬에서 음성 복제와 멀티스피커 대화 생성을 수행하는 오픈소스 Mac 앱. 음성 샘플을 드롭하여 복제하고 장면을 작성한 후 합성 — 모두 노트북에서. API 키 없음, 클라우드 없음, 문자당 과금 없음.

github.com/soniqo/speech-studio Apache 2.0 설치

30초 블라인드 테스트: 실제 음성, Speech Studio가 MacBook에서 로컬로 복제한 동일한 음성, ElevenLabs가 클라우드에서 복제한 동일한 음성. 어느 것이 어느 것인지 알아맞힐 수 있나요?

주요 기능

짧은 참조 클립으로 음성 복제 — 몇 초의 음성을 드롭하면 해당 음성을 로컬에서 복제합니다.
멀티스피커 대화 생성 — 여러 화자가 등장하는 장면을 작성하고 한 번에 모두 합성합니다.
Mac에서 완전히 실행 — MLX를 통한 VoxCPM2, DeepFilterNet3로 노이즈 억제, 네트워크 불필요.
Apache 2.0 오픈소스 — 포크, 임베드, 기반 빌드 — 자유롭게 활용 가능.

요구 사항

macOS 15+ (Apple Silicon), Windows 10+ (x64), 또는 Linux (x64)
Mac에서는 Apple Silicon, Windows/Linux에서는 최신 64비트 CPU
최소 8 GB RAM (16 GB 권장)
음성 모델용 디스크 약 3–5 GB (첫 실행 시 다운로드)

설치

GitHub Releases에서 사용 중인 플랫폼용 빌드를 다운로드하세요 — macOS .dmg, Windows .msi/.exe, 또는 Linux .deb/.AppImage — 그런 다음 실행하세요:

↓ 최신 버전 다운로드 모든 릴리스

이 빌드들은 서명되지 않았습니다: macOS에서는 우클릭 → 열기 (또는 시스템 설정 → 개인정보 보호 및 보안 → 강제로 열기)로 여세요. Windows에서는 SmartScreen에서 추가 정보 → 실행을 선택하세요. 첫 실행 시 VoxCPM2 음성 모델(macOS 약 2.75 GB, Windows/Linux 약 4.6 GB)을 다운로드하여 캐시하며, 이후 실행은 캐시를 재사용합니다.

CLI를 선호하시나요?

동일한 음성 복제 파이프라인은 speech CLI에도 포함되어 있습니다: brew install soniqo/tap/speech 그리고 speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — 스크립트화나 일괄 사전 렌더링에 유용합니다. 전체 흐름은 음성 복제 가이드를 참조하세요.

상태

Speech Studio는 활성 프리뷰 중이며 (v0.0.4), macOS, Windows, and Linux용 설치 프로그램을 제공합니다 — macOS는 MLX로, Windows와 Linux는 speech-core의 LiteRT VoxCPM2 엔진으로 복제합니다. 소스 저장소 github.com/soniqo/speech-studio는 GUI 앱을 추적하므로, 릴리스 알림을 받으려면 star/watch 하세요.

Runner Agent

Speech Studio는 목소리 제작과 복제용입니다. Runner는 같은 로컬 음성 스택으로 마이크, VAD, 음성 인식, 온디바이스 언어 모델, Supertonic TTS를 실시간 음성 동반자 루프로 연결합니다.

Runner 페이지 열기 Runner DMG 다운로드

기반 기술

Speech Studio는 데모에 사용된 모든 모델을 제공하는 오픈소스 Swift 라이브러리 speech-swift 위에 얹은 얇은 GUI입니다:

VoxCPM2 — 음성 복제 모델 (제로샷, 짧은 참조)
DeepFilterNet3 — 참조 및 복제 출력의 노이즈 제거
Qwen3-ASR — 음성을 텍스트에 정렬 (데모의 블라인드 테스트 빌드 파이프라인에서 사용)
강제 정렬 — 편집을 위한 단어 수준 타임스탬프
음성 복제 가이드 — 파이프라인 전체 개요

로드맵

오늘: macOS, Windows, and Linux.
다음: 서명 및 공증된 빌드 (Gatekeeper/SmartScreen 프롬프트 없음).
그 다음: 더 깊은 편집 화면, 교체 가능한 복제 모델용 플러그인 지원.

피드백

github.com/soniqo/speech-studio/issues에 issue를 열어주세요 — 모두 읽고 있습니다.