Speech Studio
Ứng dụng Mac mã nguồn mở để nhân bản giọng nói nội bộ và tạo hội thoại nhiều người nói. Thả mẫu giọng, nhân bản, viết kịch bản, tổng hợp — tất cả trên laptop. Không cần API key, không cần đám mây, không tính phí theo ký tự.
Bài kiểm tra mù 30 giây: một giọng thật, cùng giọng đó được nhân bản nội bộ bởi Speech Studio trên MacBook, và cùng giọng được nhân bản bởi ElevenLabs trên đám mây. Bạn có phân biệt được không?
Tính năng
- Nhân bản giọng từ một đoạn tham chiếu ngắn — thả vài giây giọng nói, nhân bản giọng đó nội bộ.
- Tạo hội thoại nhiều người nói — viết một cảnh có nhiều người nói, tổng hợp tất cả trong một lần.
- Chạy hoàn toàn trên Mac của bạn — VoxCPM2 qua MLX, DeepFilterNet3 để khử nhiễu, không cần mạng.
- Mã nguồn mở theo Apache 2.0 — fork, nhúng, xây dựng trên đó.
Yêu cầu
- macOS 15+ (Sequoia trở lên)
- Apple Silicon (dòng M1, M2, M3, M4)
- Tối thiểu 8 GB RAM (khuyến nghị 16 GB)
- ~3 GB ổ đĩa cho các mô hình nhân bản và khử nhiễu (tải từ HuggingFace ở lần dùng đầu)
Cài đặt
Tải .dmg mới nhất từ GitHub Releases, mở ra, kéo Speech Studio vào /Applications và mở nó:
Lần khởi chạy đầu, Gatekeeper của macOS cảnh báo nhà phát triển chưa xác thực — mở qua System Settings → Privacy & Security → Open anyway cho đến khi có bản notarized. Lần đầu cũng tải khoảng 2,75 GB trọng số VoxCPM2 từ HuggingFace về ~/.cache/huggingface/hub/; các lần sau dùng lại cache.
Pipeline nhân bản tương tự có trong CLI speech: brew install soniqo/tap/speech, rồi speech speak --engine voxcpm2 --voxcpm2-ref-audio reference.wav -o cloned.wav "Hello, this is my cloned voice." — tiện cho script hoặc tiền dựng theo lô. Xem hướng dẫn nhân bản giọng để biết toàn bộ luồng.
Speech Studio đang trong giai đoạn preview (v0.0.2). Repo nguồn github.com/soniqo/speech-studio theo dõi ứng dụng GUI; star/watch để nhận thông báo bản phát hành notarized. Bản dựng Linux và Windows hiện biên dịch qua engine LiteRT VoxCPM2 trong speech-core; runtime trên thiết bị đã được nối nhưng chưa kiểm thử trên phần cứng.
Được xây dựng trên
Speech Studio là GUI mỏng trên speech-swift, thư viện Swift mã nguồn mở cung cấp mọi mô hình dùng trong demo:
- VoxCPM2 — mô hình nhân bản giọng (zero-shot, tham chiếu ngắn)
- DeepFilterNet3 — khử nhiễu cho mẫu tham chiếu và đầu ra nhân bản
- Qwen3-ASR — căn chỉnh giọng nói với văn bản (dùng trong pipeline xây dựng bài kiểm tra mù của demo)
- Forced Alignment — mốc thời gian theo từng từ phục vụ chỉnh sửa
- Nhân bản giọng hướng dẫn — tổng quan đầy đủ về pipeline
Lộ trình
- Hôm nay: Mac (Apple Silicon).
- Tiếp theo: Linux (CUDA + CPU), Windows.
- Sau đó: giao diện chỉnh sửa sâu hơn, hỗ trợ plugin để thay đổi mô hình nhân bản.
Phản hồi
Mở issue tại github.com/soniqo/speech-studio/issues — mỗi cái đều được đọc.